Dunia LLM sumber terbuka sangat menarik dan sentiasa berkembang. Pelajaran ini bertujuan untuk memberikan pandangan mendalam tentang model sumber terbuka. Jika anda mencari maklumat tentang bagaimana model proprietari dibandingkan dengan model sumber terbuka, pergi ke pelajaran "Meneroka dan Membandingkan LLM Berbeza". Pelajaran ini juga akan merangkumi topik penalaan halus tetapi penjelasan yang lebih terperinci boleh didapati dalam pelajaran "Penalaan Halus LLM".
- Memahami model sumber terbuka
- Memahami manfaat bekerja dengan model sumber terbuka
- Meneroka model sumber terbuka yang tersedia di Hugging Face dan Azure AI Studio
Perisian sumber terbuka telah memainkan peranan penting dalam perkembangan teknologi di pelbagai bidang. Open Source Initiative (OSI) telah menetapkan 10 kriteria untuk perisian untuk diklasifikasikan sebagai sumber terbuka. Kod sumber mesti dikongsi secara terbuka di bawah lesen yang diluluskan oleh OSI.
Walaupun pembangunan LLM mempunyai elemen yang serupa dengan pembangunan perisian, prosesnya tidak sepenuhnya sama. Ini telah membawa banyak perbincangan dalam komuniti tentang definisi sumber terbuka dalam konteks LLM. Untuk model sejajar dengan definisi tradisional sumber terbuka, maklumat berikut harus tersedia secara umum:
- Dataset yang digunakan untuk melatih model.
- Berat penuh model sebagai sebahagian daripada latihan.
- Kod penilaian.
- Kod penalaan halus.
- Berat penuh model dan metrik latihan.
Pada masa ini, hanya beberapa model yang memenuhi kriteria ini. Model OLMo yang dicipta oleh Allen Institute for Artificial Intelligence (AllenAI) adalah salah satu yang sesuai dengan kategori ini.
Untuk pelajaran ini, kita akan merujuk kepada model sebagai "model terbuka" mulai sekarang kerana mereka mungkin tidak memenuhi kriteria di atas pada masa penulisan.
Sangat Boleh Disesuaikan - Oleh kerana model terbuka dikeluarkan dengan maklumat latihan yang terperinci, penyelidik dan pembangun boleh mengubah suai dalaman model. Ini membolehkan penciptaan model yang sangat khusus yang disesuaikan untuk tugas atau bidang kajian tertentu. Beberapa contoh termasuk penjanaan kod, operasi matematik, dan biologi.
Kos - Kos per token untuk menggunakan dan menyebarkan model ini lebih rendah daripada model proprietari. Apabila membina aplikasi AI Generatif, perbandingan prestasi vs harga semasa bekerja dengan model ini untuk kes penggunaan anda harus dilakukan.
Fleksibiliti - Bekerja dengan model terbuka membolehkan anda fleksibel dalam menggunakan model yang berbeza atau menggabungkannya. Contohnya adalah HuggingChat Assistants di mana pengguna boleh memilih model yang digunakan secara langsung dalam antara muka pengguna:
LLama2, yang dibangunkan oleh Meta adalah model terbuka yang dioptimumkan untuk aplikasi berasaskan sembang. Ini disebabkan oleh kaedah penalaan halusnya, yang melibatkan sejumlah besar dialog dan maklum balas manusia. Dengan kaedah ini, model menghasilkan lebih banyak hasil yang sejajar dengan jangkaan manusia yang memberikan pengalaman pengguna yang lebih baik.
Beberapa contoh versi penalaan halus Llama termasuk Japanese Llama, yang mengkhususkan dalam bahasa Jepun dan Llama Pro, yang merupakan versi yang dipertingkatkan daripada model asas.
Mistral adalah model terbuka dengan fokus yang kuat pada prestasi tinggi dan kecekapan. Ia menggunakan pendekatan Mixture-of-Experts yang menggabungkan sekumpulan model pakar khusus ke dalam satu sistem di mana bergantung pada input, model tertentu dipilih untuk digunakan. Ini menjadikan pengiraan lebih berkesan kerana model hanya menangani input yang mereka pakar.
Beberapa contoh versi penalaan halus Mistral termasuk BioMistral, yang memberi tumpuan kepada domain perubatan dan OpenMath Mistral, yang melakukan pengiraan matematik.
Falcon adalah LLM yang dicipta oleh Technology Innovation Institute (TII). Falcon-40B dilatih pada 40 bilion parameter yang telah terbukti memberikan prestasi lebih baik daripada GPT-3 dengan bajet pengiraan yang lebih rendah. Ini disebabkan oleh penggunaan algoritma FlashAttention dan perhatian multiquery yang membolehkannya mengurangkan keperluan memori semasa masa inferens. Dengan masa inferens yang dikurangkan ini, Falcon-40B sesuai untuk aplikasi sembang.
Beberapa contoh versi penalaan halus Falcon adalah OpenAssistant, pembantu yang dibina di atas model terbuka dan GPT4ALL, yang memberikan prestasi lebih tinggi daripada model asas.
Tiada satu jawapan untuk memilih model terbuka. Tempat yang baik untuk bermula adalah dengan menggunakan ciri penapis mengikut tugas di Azure AI Studio. Ini akan membantu anda memahami jenis tugas yang telah dilatih oleh model. Hugging Face juga mengekalkan LLM Leaderboard yang menunjukkan model yang berprestasi terbaik berdasarkan metrik tertentu.
Apabila ingin membandingkan LLM merentasi jenis yang berbeza, Artificial Analysis adalah satu lagi sumber yang hebat:
Jika bekerja pada kes penggunaan tertentu, mencari versi penalaan halus yang memberi tumpuan kepada bidang yang sama boleh menjadi berkesan. Bereksperimen dengan pelbagai model terbuka untuk melihat bagaimana mereka berprestasi mengikut jangkaan anda dan pengguna anda adalah satu lagi amalan yang baik.
Bahagian terbaik tentang model terbuka adalah anda boleh mula bekerja dengan mereka dengan cepat. Lihat Katalog Model Azure AI Foundry, yang menampilkan koleksi Hugging Face khusus dengan model yang kita bincangkan di sini.
Selepas menyelesaikan pelajaran ini, lihat koleksi Pembelajaran AI Generatif kami untuk terus meningkatkan pengetahuan AI Generatif anda!
Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.



