Thế giới của các LLM mã nguồn mở rất thú vị và không ngừng phát triển. Bài học này nhằm cung cấp cái nhìn sâu sắc về các mô hình mã nguồn mở. Nếu bạn đang tìm kiếm thông tin về cách các mô hình độc quyền so sánh với mô hình mã nguồn mở, hãy truy cập bài học "Khám phá và so sánh các LLM khác nhau". Bài học này cũng sẽ đề cập đến chủ đề tinh chỉnh, nhưng một giải thích chi tiết hơn có thể được tìm thấy trong bài học "Tinh chỉnh LLMs".
- Hiểu rõ về các mô hình mã nguồn mở
- Hiểu lợi ích của việc làm việc với các mô hình mã nguồn mở
- Khám phá các mô hình mã nguồn mở có sẵn trên Hugging Face và Azure AI Studio
Phần mềm mã nguồn mở đã đóng vai trò quan trọng trong sự phát triển của công nghệ trên nhiều lĩnh vực. Sáng kiến Mã nguồn mở (OSI) đã định nghĩa 10 tiêu chí cho phần mềm để được phân loại là mã nguồn mở. Mã nguồn phải được chia sẻ công khai dưới giấy phép được OSI phê duyệt.
Mặc dù việc phát triển LLMs có các yếu tố tương tự như phát triển phần mềm, nhưng quy trình không hoàn toàn giống nhau. Điều này đã dẫn đến nhiều cuộc thảo luận trong cộng đồng về định nghĩa mã nguồn mở trong bối cảnh LLMs. Để một mô hình phù hợp với định nghĩa truyền thống của mã nguồn mở, các thông tin sau đây cần được công khai:
- Bộ dữ liệu được sử dụng để huấn luyện mô hình.
- Toàn bộ trọng số mô hình như một phần của quá trình huấn luyện.
- Mã đánh giá.
- Mã tinh chỉnh.
- Toàn bộ trọng số mô hình và các chỉ số huấn luyện.
Hiện tại chỉ có một số ít mô hình đáp ứng tiêu chí này. Mô hình OLMo được tạo bởi Viện Allen về Trí tuệ Nhân tạo (AllenAI) là một trong số đó.
Trong bài học này, chúng ta sẽ gọi các mô hình là "mô hình mở" từ đây trở đi vì chúng có thể không đáp ứng các tiêu chí trên tại thời điểm viết.
Tùy chỉnh cao - Vì các mô hình mở được phát hành với thông tin huấn luyện chi tiết, các nhà nghiên cứu và nhà phát triển có thể sửa đổi nội bộ của mô hình. Điều này cho phép tạo ra các mô hình chuyên biệt cao được tinh chỉnh cho một nhiệm vụ hoặc lĩnh vực nghiên cứu cụ thể. Một số ví dụ về điều này là tạo mã, các phép toán toán học và sinh học.
Chi phí - Chi phí trên mỗi token khi sử dụng và triển khai các mô hình này thấp hơn so với các mô hình độc quyền. Khi xây dựng các ứng dụng AI tạo sinh, việc xem xét hiệu suất so với giá cả khi làm việc với các mô hình này cho trường hợp sử dụng của bạn nên được thực hiện.
Linh hoạt - Làm việc với các mô hình mở cho phép bạn linh hoạt trong việc sử dụng các mô hình khác nhau hoặc kết hợp chúng. Một ví dụ về điều này là HuggingChat Assistants, nơi người dùng có thể chọn mô hình được sử dụng trực tiếp trong giao diện người dùng:
LLama2, được phát triển bởi Meta, là một mô hình mở được tối ưu hóa cho các ứng dụng dựa trên trò chuyện. Điều này là do phương pháp tinh chỉnh của nó, bao gồm một lượng lớn các cuộc đối thoại và phản hồi từ con người. Với phương pháp này, mô hình tạo ra nhiều kết quả phù hợp hơn với kỳ vọng của con người, mang lại trải nghiệm người dùng tốt hơn.
Một số ví dụ về các phiên bản tinh chỉnh của Llama bao gồm Japanese Llama, chuyên về tiếng Nhật và Llama Pro, là phiên bản nâng cao của mô hình cơ bản.
Mistral là một mô hình mở tập trung mạnh vào hiệu suất cao và hiệu quả. Nó sử dụng phương pháp Mixture-of-Experts, kết hợp một nhóm các mô hình chuyên gia chuyên biệt thành một hệ thống, nơi tùy thuộc vào đầu vào, các mô hình nhất định được chọn để sử dụng. Điều này làm cho việc tính toán hiệu quả hơn vì các mô hình chỉ xử lý các đầu vào mà chúng chuyên về.
Một số ví dụ về các phiên bản tinh chỉnh của Mistral bao gồm BioMistral, tập trung vào lĩnh vực y tế và OpenMath Mistral, thực hiện các phép toán toán học.
Falcon là một LLM được tạo bởi Viện Đổi mới Công nghệ (TII). Falcon-40B được huấn luyện trên 40 tỷ tham số, đã được chứng minh là hoạt động tốt hơn GPT-3 với ngân sách tính toán thấp hơn. Điều này là nhờ vào việc sử dụng thuật toán FlashAttention và multiquery attention, giúp giảm yêu cầu bộ nhớ trong thời gian suy luận. Với thời gian suy luận giảm, Falcon-40B phù hợp cho các ứng dụng trò chuyện.
Một số ví dụ về các phiên bản tinh chỉnh của Falcon là OpenAssistant, một trợ lý được xây dựng trên các mô hình mở và GPT4ALL, mang lại hiệu suất cao hơn so với mô hình cơ bản.
Không có câu trả lời duy nhất cho việc chọn một mô hình mở. Một nơi tốt để bắt đầu là sử dụng tính năng lọc theo nhiệm vụ của Azure AI Studio. Điều này sẽ giúp bạn hiểu các loại nhiệm vụ mà mô hình đã được huấn luyện. Hugging Face cũng duy trì một bảng xếp hạng LLM, hiển thị các mô hình hoạt động tốt nhất dựa trên các chỉ số nhất định.
Khi muốn so sánh LLMs giữa các loại khác nhau, Artificial Analysis là một nguồn tài nguyên tuyệt vời khác:
Nếu làm việc trên một trường hợp sử dụng cụ thể, việc tìm kiếm các phiên bản tinh chỉnh tập trung vào cùng lĩnh vực có thể hiệu quả. Thử nghiệm với nhiều mô hình mở để xem chúng hoạt động như thế nào theo kỳ vọng của bạn và người dùng cũng là một thực hành tốt.
Phần tuyệt vời nhất về các mô hình mở là bạn có thể bắt đầu làm việc với chúng khá nhanh chóng. Hãy xem Danh mục mô hình Azure AI Foundry, nơi có một bộ sưu tập Hugging Face cụ thể với các mô hình mà chúng ta đã thảo luận ở đây.
Sau khi hoàn thành bài học này, hãy xem bộ sưu tập Học tập AI tạo sinh của chúng tôi để tiếp tục nâng cao kiến thức về AI tạo sinh!
Tuyên bố miễn trừ trách nhiệm:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn thông tin chính thức. Đối với thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.



