Skip to content

Latest commit

 

History

History
95 lines (58 loc) · 8.25 KB

File metadata and controls

95 lines (58 loc) · 8.25 KB

Open Source Models

Pengenalan

Dunia LLM sumber terbuka adalah menarik dan sentiasa berkembang. Pelajaran ini bertujuan untuk memberikan pandangan mendalam mengenai model sumber terbuka. Jika anda mencari maklumat tentang bagaimana model proprietari dibandingkan dengan model sumber terbuka, pergi ke pelajaran "Meneroka dan Membandingkan Pelbagai LLM". Pelajaran ini juga akan merangkumi topik penalaan halus tetapi penjelasan yang lebih terperinci boleh didapati dalam pelajaran "Penalaan Halus LLM".

Matlamat Pembelajaran

  • Memahami Model Sumber Terbuka
  • Memahami manfaat bekerja dengan Model Sumber Terbuka
  • Meneroka model terbuka yang tersedia di Hugging Face dan Azure AI Studio

Apakah Model Sumber Terbuka?

Perisian sumber terbuka telah memainkan peranan penting dalam pertumbuhan teknologi di pelbagai bidang. Inisiatif Sumber Terbuka (OSI) telah mentakrifkan 10 kriteria untuk perisian untuk diklasifikasikan sebagai sumber terbuka. Kod sumber mesti dikongsi secara terbuka di bawah lesen yang diluluskan oleh OSI.

Walaupun pembangunan LLM mempunyai elemen yang serupa dengan pembangunan perisian, prosesnya tidak sama tepat. Ini telah membawa banyak perbincangan dalam komuniti mengenai definisi sumber terbuka dalam konteks LLM. Untuk model selaras dengan definisi tradisional sumber terbuka, maklumat berikut harus tersedia secara awam:

  • Set data yang digunakan untuk melatih model.
  • Berat model penuh sebagai sebahagian daripada latihan.
  • Kod penilaian.
  • Kod penalaan halus.
  • Berat model penuh dan metrik latihan.

Pada masa ini hanya beberapa model yang memenuhi kriteria ini. Model OLMo yang dibuat oleh Allen Institute for Artificial Intelligence (AllenAI) adalah salah satu yang sesuai dengan kategori ini.

Untuk pelajaran ini, kami akan merujuk model sebagai "model terbuka" kerana mereka mungkin tidak memenuhi kriteria di atas pada masa penulisan.

Manfaat Model Terbuka

Sangat Boleh Disesuaikan - Oleh kerana model terbuka dikeluarkan dengan maklumat latihan terperinci, penyelidik dan pembangun boleh mengubah suai bahagian dalam model. Ini membolehkan penciptaan model yang sangat khusus yang ditala halus untuk tugas atau bidang kajian tertentu. Beberapa contoh termasuk penjanaan kod, operasi matematik dan biologi.

Kos - Kos per token untuk menggunakan dan menyebarkan model ini adalah lebih rendah daripada model proprietari. Apabila membina aplikasi AI Generatif, melihat prestasi berbanding harga apabila bekerja dengan model ini untuk kes penggunaan anda harus dilakukan.

Model Cost Sumber: Artificial Analysis

Fleksibiliti - Bekerja dengan model terbuka membolehkan anda fleksibel dari segi menggunakan model yang berbeza atau menggabungkannya. Contohnya adalah Pembantu HuggingChat di mana pengguna boleh memilih model yang digunakan secara langsung dalam antara muka pengguna:

Choose Model

Meneroka Pelbagai Model Terbuka

Llama 2

LLama2, dibangunkan oleh Meta adalah model terbuka yang dioptimumkan untuk aplikasi berasaskan sembang. Ini disebabkan oleh kaedah penalaan halusnya, yang merangkumi sejumlah besar dialog dan maklum balas manusia. Dengan kaedah ini, model menghasilkan lebih banyak hasil yang selaras dengan jangkaan manusia yang memberikan pengalaman pengguna yang lebih baik.

Beberapa contoh versi Llama yang ditala halus termasuk Japanese Llama, yang mengkhusus dalam bahasa Jepun dan Llama Pro, yang merupakan versi dipertingkatkan model asas.

Mistral

Mistral adalah model terbuka dengan fokus kuat pada prestasi tinggi dan kecekapan. Ia menggunakan pendekatan Mixture-of-Experts yang menggabungkan sekumpulan model pakar khusus ke dalam satu sistem di mana bergantung pada input, model tertentu dipilih untuk digunakan. Ini menjadikan pengiraan lebih berkesan kerana model hanya menangani input yang mereka pakar dalamnya.

Beberapa contoh versi Mistral yang ditala halus termasuk BioMistral, yang fokus pada domain perubatan dan OpenMath Mistral, yang melakukan pengiraan matematik.

Falcon

Falcon adalah LLM yang dibuat oleh Technology Innovation Institute (TII). Falcon-40B dilatih pada 40 bilion parameter yang telah terbukti berprestasi lebih baik daripada GPT-3 dengan bajet pengiraan yang lebih rendah. Ini disebabkan oleh penggunaan algoritma FlashAttention dan perhatian multiquery yang membolehkannya mengurangkan keperluan memori semasa inferens. Dengan masa inferens yang dikurangkan ini, Falcon-40B sesuai untuk aplikasi sembang.

Beberapa contoh versi Falcon yang ditala halus adalah OpenAssistant, pembantu yang dibina berdasarkan model terbuka dan GPT4ALL, yang memberikan prestasi lebih tinggi daripada model asas.

Cara Memilih

Tiada jawapan tunggal untuk memilih model terbuka. Tempat yang baik untuk bermula adalah dengan menggunakan ciri tapis mengikut tugas di Azure AI Studio. Ini akan membantu anda memahami jenis tugas yang telah dilatih oleh model. Hugging Face juga mengekalkan Papan Pendahulu LLM yang menunjukkan model terbaik berdasarkan metrik tertentu.

Apabila ingin membandingkan LLM merentasi jenis yang berbeza, Artificial Analysis adalah sumber yang hebat:

Model Quality Sumber: Artificial Analysis

Jika bekerja pada kes penggunaan tertentu, mencari versi yang ditala halus yang fokus pada bidang yang sama boleh berkesan. Mencuba beberapa model terbuka untuk melihat bagaimana prestasi mereka mengikut jangkaan anda dan pengguna anda adalah amalan yang baik.

Langkah Seterusnya

Bahagian terbaik mengenai model terbuka ialah anda boleh mula bekerja dengan mereka dengan cepat. Lihat Katalog Model Azure AI Foundry, yang menampilkan koleksi khusus Hugging Face dengan model-model yang kita bincangkan di sini.

Pembelajaran tidak berhenti di sini, teruskan Perjalanan

Selepas menamatkan pelajaran ini, lihat koleksi Pembelajaran AI Generatif kami untuk terus meningkatkan pengetahuan AI Generatif anda!


Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sahih. Untuk maklumat penting, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.