Skip to content

Latest commit

 

History

History
91 lines (55 loc) · 8.58 KB

File metadata and controls

91 lines (55 loc) · 8.58 KB

Open Source Models

Introdução

O mundo dos LLMs open source é entusiasmante e está em constante evolução. Esta lição tem como objetivo fornecer uma visão aprofundada sobre modelos open source. Se procura informações sobre como os modelos proprietários se comparam aos modelos open source, consulte a lição "Explorando e Comparando Diferentes LLMs". Esta lição também abordará o tema do fine-tuning, mas uma explicação mais detalhada pode ser encontrada na lição "Fine-Tuning LLMs".

Objetivos de aprendizagem

  • Compreender os modelos open source
  • Entender os benefícios de trabalhar com modelos open source
  • Explorar os modelos open disponíveis no Hugging Face e no Azure AI Studio

O que são Modelos Open Source?

O software open source tem desempenhado um papel crucial no crescimento da tecnologia em várias áreas. A Open Source Initiative (OSI) definiu 10 critérios para software ser classificado como open source. O código-fonte deve ser partilhado abertamente sob uma licença aprovada pela OSI.

Embora o desenvolvimento de LLMs tenha elementos semelhantes ao desenvolvimento de software, o processo não é exatamente o mesmo. Isto tem gerado muita discussão na comunidade sobre a definição de open source no contexto dos LLMs. Para que um modelo esteja alinhado com a definição tradicional de open source, as seguintes informações devem estar publicamente disponíveis:

  • Conjuntos de dados usados para treinar o modelo.
  • Pesos completos do modelo como parte do treino.
  • O código de avaliação.
  • O código de fine-tuning.
  • Pesos completos do modelo e métricas de treino.

Atualmente, existem apenas alguns modelos que cumprem estes critérios. O modelo OLMo criado pelo Allen Institute for Artificial Intelligence (AllenAI) é um exemplo que se enquadra nesta categoria.

Para esta lição, iremos referir-nos aos modelos como "modelos open" daqui em diante, pois podem não corresponder aos critérios acima no momento da escrita.

Benefícios dos Modelos Open

Altamente Personalizáveis – Como os modelos open são lançados com informações detalhadas de treino, investigadores e desenvolvedores podem modificar o interior do modelo. Isto permite a criação de modelos altamente especializados, ajustados para uma tarefa ou área de estudo específica. Alguns exemplos são geração de código, operações matemáticas e biologia.

Custo – O custo por token para usar e implementar estes modelos é inferior ao dos modelos proprietários. Ao construir aplicações de IA Generativa, deve-se analisar a relação desempenho vs preço ao trabalhar com estes modelos no seu caso de uso.

Model Cost
Fonte: Artificial Analysis

Flexibilidade – Trabalhar com modelos open permite flexibilidade em termos de usar diferentes modelos ou combiná-los. Um exemplo disto são os HuggingChat Assistants, onde o utilizador pode selecionar o modelo a usar diretamente na interface:

Choose Model

Explorando Diferentes Modelos Open

Llama 2

LLama2, desenvolvido pela Meta, é um modelo open otimizado para aplicações baseadas em chat. Isto deve-se ao seu método de fine-tuning, que incluiu uma grande quantidade de diálogo e feedback humano. Com este método, o modelo produz resultados mais alinhados com as expectativas humanas, proporcionando uma melhor experiência ao utilizador.

Alguns exemplos de versões fine-tuned do Llama incluem o Japanese Llama, especializado em japonês, e o Llama Pro, que é uma versão melhorada do modelo base.

Mistral

Mistral é um modelo open com forte foco em alto desempenho e eficiência. Utiliza a abordagem Mixture-of-Experts, que combina um grupo de modelos especialistas num único sistema, onde, dependendo da entrada, certos modelos são selecionados para serem usados. Isto torna a computação mais eficaz, pois os modelos só tratam das entradas em que são especializados.

Alguns exemplos de versões fine-tuned do Mistral incluem o BioMistral, focado na área médica, e o OpenMath Mistral, que realiza cálculos matemáticos.

Falcon

Falcon é um LLM criado pelo Technology Innovation Institute (TII). O Falcon-40B foi treinado com 40 mil milhões de parâmetros e demonstrou desempenho superior ao GPT-3 com um orçamento computacional menor. Isto deve-se ao uso do algoritmo FlashAttention e da multiquery attention, que permitem reduzir os requisitos de memória durante a inferência. Com este tempo de inferência reduzido, o Falcon-40B é adequado para aplicações de chat.

Alguns exemplos de versões fine-tuned do Falcon são o OpenAssistant, um assistente construído com modelos open, e o GPT4ALL, que oferece desempenho superior ao modelo base.

Como Escolher

Não existe uma resposta única para escolher um modelo open. Um bom ponto de partida é usar a funcionalidade de filtro por tarefa do Azure AI Studio. Isto ajuda a perceber para que tipos de tarefas o modelo foi treinado. O Hugging Face também mantém um LLM Leaderboard que mostra os modelos com melhor desempenho com base em certas métricas.

Ao comparar LLMs entre diferentes tipos, o Artificial Analysis é outro recurso excelente:

Model Quality
Fonte: Artificial Analysis

Se estiver a trabalhar num caso de uso específico, procurar versões fine-tuned focadas na mesma área pode ser eficaz. Experimentar vários modelos open para ver como se comportam de acordo com as suas expectativas e as dos seus utilizadores é também uma boa prática.

Próximos Passos

A melhor parte dos modelos open é que pode começar a trabalhar com eles rapidamente. Explore o Catálogo de Modelos do Azure AI Studio, que apresenta uma coleção específica do Hugging Face com os modelos que discutimos aqui.

A aprendizagem não termina aqui, continue a sua jornada

Depois de completar esta lição, consulte a nossa coleção de Aprendizagem de IA Generativa para continuar a aprofundar os seus conhecimentos em IA Generativa!

Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução automática Co-op Translator. Embora nos esforcemos pela precisão, por favor tenha em conta que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações erradas decorrentes da utilização desta tradução.