Skip to content

Latest commit

 

History

History
93 lines (56 loc) · 15.7 KB

File metadata and controls

93 lines (56 loc) · 15.7 KB

โมเดลโอเพ่นซอร์ส

บทนำ

โลกของ LLMs แบบโอเพ่นซอร์สนั้นน่าตื่นเต้นและเปลี่ยนแปลงอยู่เสมอ บทเรียนนี้มีเป้าหมายเพื่อให้ข้อมูลเชิงลึกเกี่ยวกับโมเดลโอเพ่นซอร์ส หากคุณกำลังมองหาข้อมูลเกี่ยวกับการเปรียบเทียบระหว่างโมเดลที่เป็นกรรมสิทธิ์กับโมเดลโอเพ่นซอร์ส สามารถไปที่บทเรียน "การสำรวจและเปรียบเทียบ LLMs ต่างๆ" บทเรียนนี้ยังครอบคลุมหัวข้อการปรับแต่งโมเดล แต่คำอธิบายที่ละเอียดกว่านี้สามารถพบได้ในบทเรียน "การปรับแต่ง LLMs"

เป้าหมายการเรียนรู้

  • เข้าใจเกี่ยวกับโมเดลโอเพ่นซอร์ส
  • เข้าใจถึงประโยชน์ของการทำงานกับโมเดลโอเพ่นซอร์ส
  • สำรวจโมเดลโอเพ่นซอร์สที่มีอยู่ใน Hugging Face และ Azure AI Studio

โมเดลโอเพ่นซอร์สคืออะไร?

ซอฟต์แวร์โอเพ่นซอร์สมีบทบาทสำคัญในการเติบโตของเทคโนโลยีในหลากหลายสาขา Open Source Initiative (OSI) ได้กำหนด 10 เกณฑ์สำหรับซอฟต์แวร์ เพื่อจัดประเภทว่าเป็นโอเพ่นซอร์ส โค้ดต้นฉบับต้องถูกแชร์อย่างเปิดเผยภายใต้ใบอนุญาตที่ได้รับการอนุมัติจาก OSI

แม้ว่าการพัฒนา LLMs จะมีองค์ประกอบที่คล้ายกับการพัฒนาซอฟต์แวร์ แต่กระบวนการนี้ไม่เหมือนกันทั้งหมด สิ่งนี้นำไปสู่การอภิปรายในชุมชนเกี่ยวกับคำจำกัดความของโอเพ่นซอร์สในบริบทของ LLMs สำหรับโมเดลที่จะสอดคล้องกับคำจำกัดความแบบดั้งเดิมของโอเพ่นซอร์ส ข้อมูลต่อไปนี้ควรเปิดเผยต่อสาธารณะ:

  • ชุดข้อมูลที่ใช้ในการฝึกโมเดล
  • น้ำหนักโมเดลทั้งหมดที่เป็นส่วนหนึ่งของการฝึก
  • โค้ดการประเมินผล
  • โค้ดการปรับแต่งโมเดล
  • น้ำหนักโมเดลทั้งหมดและเมตริกการฝึก

ปัจจุบันมีเพียงไม่กี่โมเดลที่ตรงกับเกณฑ์นี้ โมเดล OLMo ที่สร้างโดย Allen Institute for Artificial Intelligence (AllenAI) เป็นหนึ่งในโมเดลที่ตรงกับหมวดหมู่นี้

สำหรับบทเรียนนี้ เราจะเรียกโมเดลเหล่านี้ว่า "โมเดลเปิด" ต่อไป เนื่องจากอาจไม่ตรงกับเกณฑ์ข้างต้นในขณะที่เขียนบทความนี้

ประโยชน์ของโมเดลเปิด

ปรับแต่งได้สูง - เนื่องจากโมเดลเปิดถูกปล่อยออกมาพร้อมข้อมูลการฝึกที่ละเอียด นักวิจัยและนักพัฒนาสามารถปรับเปลี่ยนโครงสร้างภายในของโมเดลได้ สิ่งนี้ช่วยให้สามารถสร้างโมเดลที่มีความเชี่ยวชาญเฉพาะด้านที่ปรับแต่งสำหรับงานหรือสาขาการศึกษาที่เฉพาะเจาะจง ตัวอย่างเช่น การสร้างโค้ด การคำนวณทางคณิตศาสตร์ และชีววิทยา

ต้นทุน - ต้นทุนต่อโทเค็นสำหรับการใช้งานและการปรับใช้โมเดลเหล่านี้ต่ำกว่าโมเดลที่เป็นกรรมสิทธิ์ เมื่อสร้างแอปพลิเคชัน Generative AI ควรพิจารณาประสิทธิภาพเทียบกับราคาเมื่อทำงานกับโมเดลเหล่านี้ในกรณีการใช้งานของคุณ

ต้นทุนโมเดล
แหล่งที่มา: Artificial Analysis

ความยืดหยุ่น - การทำงานกับโมเดลเปิดช่วยให้คุณมีความยืดหยุ่นในแง่ของการใช้โมเดลที่แตกต่างกันหรือการรวมกัน ตัวอย่างหนึ่งคือ HuggingChat Assistants ที่ผู้ใช้สามารถเลือกโมเดลที่ใช้งานได้โดยตรงในอินเทอร์เฟซผู้ใช้:

เลือกโมเดล

การสำรวจโมเดลเปิดต่างๆ

Llama 2

LLama2 พัฒนาโดย Meta เป็นโมเดลเปิดที่ถูกปรับแต่งให้เหมาะสมสำหรับแอปพลิเคชันที่ใช้การสนทนา นี่เป็นผลมาจากวิธีการปรับแต่งที่รวมถึงการสนทนาจำนวนมากและการตอบกลับจากมนุษย์ ด้วยวิธีนี้ โมเดลสามารถสร้างผลลัพธ์ที่สอดคล้องกับความคาดหวังของมนุษย์มากขึ้น ซึ่งช่วยให้ประสบการณ์ของผู้ใช้ดีขึ้น

ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Llama ได้แก่ Japanese Llama ซึ่งเชี่ยวชาญในภาษาญี่ปุ่น และ Llama Pro ซึ่งเป็นเวอร์ชันที่ปรับปรุงจากโมเดลพื้นฐาน

Mistral

Mistral เป็นโมเดลเปิดที่เน้นประสิทธิภาพสูงและความมีประสิทธิภาพ มันใช้วิธี Mixture-of-Experts ซึ่งรวมกลุ่มโมเดลผู้เชี่ยวชาญเฉพาะด้านเข้าด้วยกันในระบบเดียว โดยขึ้นอยู่กับข้อมูลที่ป้อน โมเดลบางตัวจะถูกเลือกใช้งาน สิ่งนี้ทำให้การคำนวณมีประสิทธิภาพมากขึ้นเนื่องจากโมเดลจะจัดการเฉพาะข้อมูลที่พวกเขาเชี่ยวชาญ

ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Mistral ได้แก่ BioMistral ซึ่งเน้นในด้านการแพทย์ และ OpenMath Mistral ซึ่งทำการคำนวณทางคณิตศาสตร์

Falcon

Falcon เป็น LLM ที่สร้างโดย Technology Innovation Institute (TII) Falcon-40B ถูกฝึกด้วยพารามิเตอร์ 40 พันล้านตัว ซึ่งแสดงให้เห็นว่ามีประสิทธิภาพดีกว่า GPT-3 โดยใช้ทรัพยากรคอมพิวเตอร์น้อยกว่า นี่เป็นผลมาจากการใช้อัลกอริทึม FlashAttention และ multiquery attention ที่ช่วยลดความต้องการหน่วยความจำในช่วงเวลาการประมวลผล ด้วยเวลาการประมวลผลที่ลดลง Falcon-40B เหมาะสำหรับแอปพลิเคชันการสนทนา

ตัวอย่างของเวอร์ชันที่ปรับแต่งของ Falcon ได้แก่ OpenAssistant ผู้ช่วยที่สร้างขึ้นจากโมเดลเปิด และ GPT4ALL ซึ่งให้ประสิทธิภาพสูงกว่าโมเดลพื้นฐาน

วิธีการเลือก

ไม่มีคำตอบเดียวสำหรับการเลือกโมเดลเปิด จุดเริ่มต้นที่ดีคือการใช้ฟีเจอร์กรองตามงานใน Azure AI Studio ซึ่งจะช่วยให้คุณเข้าใจว่าประเภทของงานที่โมเดลได้รับการฝึกมา Hugging Face ยังมี LLM Leaderboard ที่แสดงโมเดลที่มีประสิทธิภาพดีที่สุดตามเมตริกบางอย่าง

เมื่อมองหาการเปรียบเทียบ LLMs ในประเภทต่างๆ Artificial Analysis เป็นอีกหนึ่งแหล่งข้อมูลที่ดี:

คุณภาพโมเดล
แหล่งที่มา: Artificial Analysis

หากทำงานในกรณีการใช้งานเฉพาะ การค้นหาเวอร์ชันที่ปรับแต่งซึ่งเน้นในพื้นที่เดียวกันอาจมีประสิทธิภาพ การทดลองกับโมเดลเปิดหลายตัวเพื่อดูว่าพวกมันทำงานได้ดีเพียงใดตามความคาดหวังของคุณและผู้ใช้ของคุณก็เป็นวิธีปฏิบัติที่ดีอีกวิธีหนึ่ง

ขั้นตอนถัดไป

สิ่งที่ดีที่สุดเกี่ยวกับโมเดลเปิดคือคุณสามารถเริ่มต้นทำงานกับมันได้อย่างรวดเร็ว ลองดู Azure AI Foundry Model Catalog ซึ่งมีคอลเลกชัน Hugging Face เฉพาะที่มีโมเดลเหล่านี้ที่เราพูดถึงในที่นี้

การเรียนรู้ไม่ได้หยุดอยู่แค่นี้ เดินทางต่อไป

หลังจากจบบทเรียนนี้แล้ว ลองดู Generative AI Learning collection ของเราเพื่อเพิ่มพูนความรู้เกี่ยวกับ Generative AI ของคุณ!


ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้