โลกของ LLMs แบบโอเพ่นซอร์สนั้นน่าตื่นเต้นและเปลี่ยนแปลงอยู่เสมอ บทเรียนนี้มีเป้าหมายเพื่อให้ข้อมูลเชิงลึกเกี่ยวกับโมเดลโอเพ่นซอร์ส หากคุณกำลังมองหาข้อมูลเกี่ยวกับการเปรียบเทียบระหว่างโมเดลที่เป็นกรรมสิทธิ์กับโมเดลโอเพ่นซอร์ส สามารถไปที่บทเรียน "การสำรวจและเปรียบเทียบ LLMs ต่างๆ" บทเรียนนี้ยังครอบคลุมหัวข้อการปรับแต่งโมเดล แต่คำอธิบายที่ละเอียดกว่านี้สามารถพบได้ในบทเรียน "การปรับแต่ง LLMs"
- เข้าใจเกี่ยวกับโมเดลโอเพ่นซอร์ส
- เข้าใจถึงประโยชน์ของการทำงานกับโมเดลโอเพ่นซอร์ส
- สำรวจโมเดลโอเพ่นซอร์สที่มีอยู่ใน Hugging Face และ Azure AI Studio
ซอฟต์แวร์โอเพ่นซอร์สมีบทบาทสำคัญในการเติบโตของเทคโนโลยีในหลากหลายสาขา Open Source Initiative (OSI) ได้กำหนด 10 เกณฑ์สำหรับซอฟต์แวร์ เพื่อจัดประเภทว่าเป็นโอเพ่นซอร์ส โค้ดต้นฉบับต้องถูกแชร์อย่างเปิดเผยภายใต้ใบอนุญาตที่ได้รับการอนุมัติจาก OSI
แม้ว่าการพัฒนา LLMs จะมีองค์ประกอบที่คล้ายกับการพัฒนาซอฟต์แวร์ แต่กระบวนการนี้ไม่เหมือนกันทั้งหมด สิ่งนี้นำไปสู่การอภิปรายในชุมชนเกี่ยวกับคำจำกัดความของโอเพ่นซอร์สในบริบทของ LLMs สำหรับโมเดลที่จะสอดคล้องกับคำจำกัดความแบบดั้งเดิมของโอเพ่นซอร์ส ข้อมูลต่อไปนี้ควรเปิดเผยต่อสาธารณะ:
- ชุดข้อมูลที่ใช้ในการฝึกโมเดล
- น้ำหนักโมเดลทั้งหมดที่เป็นส่วนหนึ่งของการฝึก
- โค้ดการประเมินผล
- โค้ดการปรับแต่งโมเดล
- น้ำหนักโมเดลทั้งหมดและเมตริกการฝึก
ปัจจุบันมีเพียงไม่กี่โมเดลที่ตรงกับเกณฑ์นี้ โมเดล OLMo ที่สร้างโดย Allen Institute for Artificial Intelligence (AllenAI) เป็นหนึ่งในโมเดลที่ตรงกับหมวดหมู่นี้
สำหรับบทเรียนนี้ เราจะเรียกโมเดลเหล่านี้ว่า "โมเดลเปิด" ต่อไป เนื่องจากอาจไม่ตรงกับเกณฑ์ข้างต้นในขณะที่เขียนบทความนี้
ปรับแต่งได้สูง - เนื่องจากโมเดลเปิดถูกปล่อยออกมาพร้อมข้อมูลการฝึกที่ละเอียด นักวิจัยและนักพัฒนาสามารถปรับเปลี่ยนโครงสร้างภายในของโมเดลได้ สิ่งนี้ช่วยให้สามารถสร้างโมเดลที่มีความเชี่ยวชาญเฉพาะด้านที่ปรับแต่งสำหรับงานหรือสาขาการศึกษาที่เฉพาะเจาะจง ตัวอย่างเช่น การสร้างโค้ด การคำนวณทางคณิตศาสตร์ และชีววิทยา
ต้นทุน - ต้นทุนต่อโทเค็นสำหรับการใช้งานและการปรับใช้โมเดลเหล่านี้ต่ำกว่าโมเดลที่เป็นกรรมสิทธิ์ เมื่อสร้างแอปพลิเคชัน Generative AI ควรพิจารณาประสิทธิภาพเทียบกับราคาเมื่อทำงานกับโมเดลเหล่านี้ในกรณีการใช้งานของคุณ

แหล่งที่มา: Artificial Analysis
ความยืดหยุ่น - การทำงานกับโมเดลเปิดช่วยให้คุณมีความยืดหยุ่นในแง่ของการใช้โมเดลที่แตกต่างกันหรือการรวมกัน ตัวอย่างหนึ่งคือ HuggingChat Assistants ที่ผู้ใช้สามารถเลือกโมเดลที่ใช้งานได้โดยตรงในอินเทอร์เฟซผู้ใช้:
LLama2 พัฒนาโดย Meta เป็นโมเดลเปิดที่ถูกปรับแต่งให้เหมาะสมสำหรับแอปพลิเคชันที่ใช้การสนทนา นี่เป็นผลมาจากวิธีการปรับแต่งที่รวมถึงการสนทนาจำนวนมากและการตอบกลับจากมนุษย์ ด้วยวิธีนี้ โมเดลสามารถสร้างผลลัพธ์ที่สอดคล้องกับความคาดหวังของมนุษย์มากขึ้น ซึ่งช่วยให้ประสบการณ์ของผู้ใช้ดีขึ้น
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Llama ได้แก่ Japanese Llama ซึ่งเชี่ยวชาญในภาษาญี่ปุ่น และ Llama Pro ซึ่งเป็นเวอร์ชันที่ปรับปรุงจากโมเดลพื้นฐาน
Mistral เป็นโมเดลเปิดที่เน้นประสิทธิภาพสูงและความมีประสิทธิภาพ มันใช้วิธี Mixture-of-Experts ซึ่งรวมกลุ่มโมเดลผู้เชี่ยวชาญเฉพาะด้านเข้าด้วยกันในระบบเดียว โดยขึ้นอยู่กับข้อมูลที่ป้อน โมเดลบางตัวจะถูกเลือกใช้งาน สิ่งนี้ทำให้การคำนวณมีประสิทธิภาพมากขึ้นเนื่องจากโมเดลจะจัดการเฉพาะข้อมูลที่พวกเขาเชี่ยวชาญ
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Mistral ได้แก่ BioMistral ซึ่งเน้นในด้านการแพทย์ และ OpenMath Mistral ซึ่งทำการคำนวณทางคณิตศาสตร์
Falcon เป็น LLM ที่สร้างโดย Technology Innovation Institute (TII) Falcon-40B ถูกฝึกด้วยพารามิเตอร์ 40 พันล้านตัว ซึ่งแสดงให้เห็นว่ามีประสิทธิภาพดีกว่า GPT-3 โดยใช้ทรัพยากรคอมพิวเตอร์น้อยกว่า นี่เป็นผลมาจากการใช้อัลกอริทึม FlashAttention และ multiquery attention ที่ช่วยลดความต้องการหน่วยความจำในช่วงเวลาการประมวลผล ด้วยเวลาการประมวลผลที่ลดลง Falcon-40B เหมาะสำหรับแอปพลิเคชันการสนทนา
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Falcon ได้แก่ OpenAssistant ผู้ช่วยที่สร้างขึ้นจากโมเดลเปิด และ GPT4ALL ซึ่งให้ประสิทธิภาพสูงกว่าโมเดลพื้นฐาน
ไม่มีคำตอบเดียวสำหรับการเลือกโมเดลเปิด จุดเริ่มต้นที่ดีคือการใช้ฟีเจอร์กรองตามงานใน Azure AI Studio ซึ่งจะช่วยให้คุณเข้าใจว่าประเภทของงานที่โมเดลได้รับการฝึกมา Hugging Face ยังมี LLM Leaderboard ที่แสดงโมเดลที่มีประสิทธิภาพดีที่สุดตามเมตริกบางอย่าง
เมื่อมองหาการเปรียบเทียบ LLMs ในประเภทต่างๆ Artificial Analysis เป็นอีกหนึ่งแหล่งข้อมูลที่ดี:

แหล่งที่มา: Artificial Analysis
หากทำงานในกรณีการใช้งานเฉพาะ การค้นหาเวอร์ชันที่ปรับแต่งซึ่งเน้นในพื้นที่เดียวกันอาจมีประสิทธิภาพ การทดลองกับโมเดลเปิดหลายตัวเพื่อดูว่าพวกมันทำงานได้ดีเพียงใดตามความคาดหวังของคุณและผู้ใช้ของคุณก็เป็นวิธีปฏิบัติที่ดีอีกวิธีหนึ่ง
สิ่งที่ดีที่สุดเกี่ยวกับโมเดลเปิดคือคุณสามารถเริ่มต้นทำงานกับมันได้อย่างรวดเร็ว ลองดู Azure AI Foundry Model Catalog ซึ่งมีคอลเลกชัน Hugging Face เฉพาะที่มีโมเดลเหล่านี้ที่เราพูดถึงในที่นี้
หลังจากจบบทเรียนนี้แล้ว ลองดู Generative AI Learning collection ของเราเพื่อเพิ่มพูนความรู้เกี่ยวกับ Generative AI ของคุณ!
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้

