โลกของ LLMs แบบโอเพนซอร์สเป็นสิ่งที่น่าตื่นเต้นและพัฒนาอย่างต่อเนื่อง บทเรียนนี้มีเป้าหมายเพื่อให้ภาพรวมเชิงลึกเกี่ยวกับโมเดลโอเพนซอร์ส หากคุณกำลังมองหาข้อมูลเกี่ยวกับการเปรียบเทียบโมเดลที่เป็นกรรมสิทธิ์กับโมเดลโอเพนซอร์ส ให้ไปที่ "บทเรียนการสำรวจและเปรียบเทียบ LLMs ต่างๆ" บทเรียนนี้ยังครอบคลุมหัวข้อการปรับแต่งแบบละเอียด แต่คำอธิบายที่ละเอียดกว่าสามารถพบได้ใน "บทเรียนการปรับแต่ง LLMs"
- เข้าใจโมเดลโอเพนซอร์ส
- เข้าใจประโยชน์ของการทำงานกับโมเดลโอเพนซอร์ส
- สำรวจโมเดลโอเพนซอร์สที่มีอยู่บน Hugging Face และ Azure AI Studio
ซอฟต์แวร์โอเพนซอร์สมีบทบาทสำคัญในการเติบโตของเทคโนโลยีในหลายสาขา Open Source Initiative (OSI) ได้กำหนด 10 เกณฑ์สำหรับซอฟต์แวร์ เพื่อจัดประเภทเป็นโอเพนซอร์ส โดยซอร์สโค้ดต้องถูกเผยแพร่อย่างเปิดเผยภายใต้ใบอนุญาตที่ได้รับการอนุมัติจาก OSI
แม้ว่าการพัฒนา LLMs จะมีองค์ประกอบคล้ายกับการพัฒนาซอฟต์แวร์ แต่กระบวนการไม่เหมือนกันทั้งหมด ซึ่งได้ก่อให้เกิดการถกเถียงในชุมชนเกี่ยวกับคำนิยามของโอเพนซอร์สในบริบทของ LLMs สำหรับโมเดลที่จะสอดคล้องกับคำนิยามแบบดั้งเดิมของโอเพนซอร์ส ข้อมูลต่อไปนี้ควรเปิดเผยต่อสาธารณะ:
- ชุดข้อมูลที่ใช้ฝึกโมเดล
- น้ำหนักโมเดลเต็มรูปแบบเป็นส่วนหนึ่งของการฝึก
- โค้ดการประเมินผล
- โค้ดการปรับแต่งแบบละเอียด
- น้ำหนักโมเดลเต็มรูปแบบและเมตริกการฝึก
ปัจจุบันมีเพียงไม่กี่โมเดลที่ตรงตามเกณฑ์นี้ โมเดล OLMo ที่สร้างโดย Allen Institute for Artificial Intelligence (AllenAI) เป็นหนึ่งในโมเดลที่ตรงตามหมวดหมู่นี้
สำหรับบทเรียนนี้ เราจะเรียกโมเดลเหล่านี้ว่า "โมเดลเปิด" ต่อไป เนื่องจากอาจไม่ตรงตามเกณฑ์ข้างต้นในเวลาที่เขียน
ปรับแต่งได้สูง - เนื่องจากโมเดลเปิดถูกปล่อยออกมาพร้อมข้อมูลการฝึกอย่างละเอียด นักวิจัยและนักพัฒนาสามารถแก้ไขภายในของโมเดลได้ ซึ่งช่วยให้สร้างโมเดลเฉพาะทางที่ปรับแต่งอย่างละเอียดสำหรับงานหรือสาขาการศึกษาเฉพาะ ตัวอย่างเช่น การสร้างโค้ด การคำนวณทางคณิตศาสตร์ และชีววิทยา
ต้นทุน - ต้นทุนต่อโทเค็นสำหรับการใช้งานและปรับใช้โมเดลเหล่านี้ต่ำกว่าโมเดลที่เป็นกรรมสิทธิ์ เมื่อสร้างแอปพลิเคชัน Generative AI ควรพิจารณาประสิทธิภาพเทียบกับราคาเมื่อทำงานกับโมเดลเหล่านี้ในกรณีการใช้งานของคุณ
ความยืดหยุ่น - การทำงานกับโมเดลเปิดช่วยให้คุณมีความยืดหยุ่นในการใช้โมเดลต่างๆ หรือผสมผสานกัน ตัวอย่างเช่น HuggingChat Assistants ที่ผู้ใช้สามารถเลือกโมเดลที่ใช้ได้โดยตรงในอินเทอร์เฟซผู้ใช้:
LLama2 พัฒนาโดย Meta เป็นโมเดลเปิดที่ปรับแต่งสำหรับแอปพลิเคชันแชท เนื่องจากวิธีการปรับแต่งแบบละเอียดที่รวมบทสนทนาและข้อเสนอแนะจากมนุษย์จำนวนมาก ด้วยวิธีนี้ โมเดลจะให้ผลลัพธ์ที่สอดคล้องกับความคาดหวังของมนุษย์มากขึ้น ซึ่งช่วยให้ประสบการณ์ผู้ใช้ดียิ่งขึ้น
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Llama ได้แก่ Japanese Llama ที่เชี่ยวชาญภาษาญี่ปุ่น และ Llama Pro ซึ่งเป็นเวอร์ชันที่ปรับปรุงของโมเดลพื้นฐาน
Mistral เป็นโมเดลเปิดที่เน้นประสิทธิภาพและความคุ้มค่าสูง ใช้วิธี Mixture-of-Experts ซึ่งรวมกลุ่มโมเดลผู้เชี่ยวชาญเฉพาะทางหลายตัวเข้าด้วยกันในระบบเดียว โดยขึ้นอยู่กับอินพุต โมเดลบางตัวจะถูกเลือกใช้ วิธีนี้ทำให้การคำนวณมีประสิทธิภาพมากขึ้นเพราะโมเดลจะจัดการเฉพาะอินพุตที่ตนเชี่ยวชาญเท่านั้น
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Mistral ได้แก่ BioMistral ที่เน้นด้านการแพทย์ และ OpenMath Mistral ที่ทำงานด้านการคำนวณทางคณิตศาสตร์
Falcon เป็น LLM ที่สร้างโดย Technology Innovation Institute (TII) Falcon-40B ถูกฝึกด้วยพารามิเตอร์ 40 พันล้านตัว ซึ่งแสดงให้เห็นว่าทำงานได้ดีกว่า GPT-3 โดยใช้งบประมาณคำนวณน้อยกว่า เนื่องจากใช้ FlashAttention algorithm และ multiquery attention ที่ช่วยลดความต้องการหน่วยความจำในเวลาทำนาย ด้วยเวลาทำนายที่ลดลงนี้ Falcon-40B เหมาะสำหรับแอปพลิเคชันแชท
ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Falcon ได้แก่ OpenAssistant ผู้ช่วยที่สร้างบนโมเดลเปิด และ GPT4ALL ที่ให้ประสิทธิภาพสูงกว่าโมเดลพื้นฐาน
ไม่มีคำตอบเดียวสำหรับการเลือกโมเดลเปิด จุดเริ่มต้นที่ดีคือการใช้ฟีเจอร์กรองตามงานของ Azure AI Studio ซึ่งจะช่วยให้คุณเข้าใจประเภทของงานที่โมเดลได้รับการฝึกมา Hugging Face ยังดูแล LLM Leaderboard ที่แสดงโมเดลที่มีประสิทธิภาพดีที่สุดตามเมตริกต่างๆ
เมื่อมองหาเปรียบเทียบ LLMs ในประเภทต่างๆ Artificial Analysis เป็นแหล่งข้อมูลที่ดีอีกแห่ง:
หากทำงานในกรณีการใช้งานเฉพาะ การค้นหาเวอร์ชันที่ปรับแต่งซึ่งเน้นในสาขาเดียวกันอาจมีประสิทธิภาพ การทดลองใช้โมเดลเปิดหลายๆ ตัวเพื่อดูว่าทำงานได้ตามความคาดหวังของคุณและผู้ใช้ของคุณอย่างไรเป็นแนวทางปฏิบัติที่ดีอีกอย่างหนึ่ง
ส่วนที่ดีที่สุดของโมเดลเปิดคือคุณสามารถเริ่มทำงานกับมันได้อย่างรวดเร็ว ลองดู Azure AI Foundry Model Catalog ซึ่งมีคอลเลกชันเฉพาะของ Hugging Face ที่รวมโมเดลที่เราพูดถึงที่นี่
หลังจากจบบทเรียนนี้แล้ว ลองดู คอลเลกชันการเรียนรู้ Generative AI ของเราเพื่อพัฒนาความรู้ด้าน Generative AI ของคุณต่อไป!
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษาอัตโนมัติ Co-op Translator แม้เราจะพยายามให้ความถูกต้องสูงสุด แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาต้นทางถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลโดยผู้เชี่ยวชาญมนุษย์ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดใด ๆ ที่เกิดจากการใช้การแปลนี้



