Skip to content

Latest commit

 

History

History
91 lines (55 loc) · 8.71 KB

File metadata and controls

91 lines (55 loc) · 8.71 KB

Modelos de Código Aberto

Introdução

O mundo dos LLMs de código aberto é empolgante e está em constante evolução. Esta lição visa fornecer uma visão aprofundada dos modelos de código aberto. Se você está procurando informações sobre como os modelos proprietários se comparam aos modelos de código aberto, vá para a lição "Explorando e Comparando Diferentes LLMs". Esta lição também abordará o tema de ajuste fino, mas uma explicação mais detalhada pode ser encontrada na lição "Ajuste Fino de LLMs".

Objetivos de Aprendizagem

  • Compreender os Modelos de Código Aberto
  • Entender os benefícios de trabalhar com Modelos de Código Aberto
  • Explorar os modelos abertos disponíveis no Hugging Face e no Azure AI Studio

O que são Modelos de Código Aberto?

O software de código aberto desempenhou um papel crucial no crescimento da tecnologia em diversos campos. A Open Source Initiative (OSI) definiu 10 critérios para software ser classificado como código aberto. O código fonte deve ser compartilhado abertamente sob uma licença aprovada pela OSI.

Embora o desenvolvimento de LLMs tenha elementos semelhantes ao desenvolvimento de software, o processo não é exatamente o mesmo. Isso gerou muita discussão na comunidade sobre a definição de código aberto no contexto dos LLMs. Para que um modelo esteja alinhado com a definição tradicional de código aberto, as seguintes informações devem estar publicamente disponíveis:

  • Conjuntos de dados usados para treinar o modelo.
  • Pesos completos do modelo como parte do treinamento.
  • O código de avaliação.
  • O código de ajuste fino.
  • Pesos completos do modelo e métricas de treinamento.

Atualmente, existem apenas alguns modelos que correspondem a esses critérios. O modelo OLMo criado pelo Allen Institute for Artificial Intelligence (AllenAI) é um que se enquadra nessa categoria.

Para esta lição, vamos nos referir aos modelos como "modelos abertos" daqui em diante, pois eles podem não corresponder aos critérios acima no momento da escrita.

Benefícios dos Modelos Abertos

Altamente Personalizável - Como os modelos abertos são lançados com informações detalhadas de treinamento, pesquisadores e desenvolvedores podem modificar os internos do modelo. Isso permite a criação de modelos altamente especializados que são ajustados para uma tarefa ou área de estudo específica. Alguns exemplos disso são geração de código, operações matemáticas e biologia.

Custo - O custo por token para usar e implantar esses modelos é menor do que o dos modelos proprietários. Ao construir aplicativos de IA Generativa, é importante considerar o desempenho versus preço ao trabalhar com esses modelos em seu caso de uso.

Custo do Modelo Fonte: Análise Artificial

Flexibilidade - Trabalhar com modelos abertos permite que você seja flexível em termos de usar diferentes modelos ou combiná-los. Um exemplo disso é o HuggingChat Assistants, onde um usuário pode selecionar o modelo sendo usado diretamente na interface do usuário:

Escolher Modelo

Explorando Diferentes Modelos Abertos

Llama 2

LLama2, desenvolvido pela Meta, é um modelo aberto otimizado para aplicativos baseados em chat. Isso se deve ao seu método de ajuste fino, que incluiu uma grande quantidade de diálogo e feedback humano. Com esse método, o modelo produz mais resultados alinhados às expectativas humanas, proporcionando uma melhor experiência ao usuário.

Alguns exemplos de versões ajustadas do Llama incluem Japanese Llama, que se especializa em japonês, e Llama Pro, que é uma versão aprimorada do modelo base.

Mistral

Mistral é um modelo aberto com forte foco em alto desempenho e eficiência. Ele usa a abordagem Mixture-of-Experts, que combina um grupo de modelos especializados em um sistema onde, dependendo da entrada, certos modelos são selecionados para serem usados. Isso torna a computação mais eficaz, pois os modelos abordam apenas as entradas nas quais são especializados.

Alguns exemplos de versões ajustadas do Mistral incluem BioMistral, que é focado no domínio médico, e OpenMath Mistral, que realiza computação matemática.

Falcon

Falcon é um LLM criado pelo Instituto de Inovação Tecnológica (TII). O Falcon-40B foi treinado em 40 bilhões de parâmetros, o que mostrou ter um desempenho melhor que o GPT-3 com menos orçamento de computação. Isso se deve ao uso do algoritmo FlashAttention e atenção multiquery, que permite reduzir os requisitos de memória no momento da inferência. Com esse tempo de inferência reduzido, o Falcon-40B é adequado para aplicativos de chat.

Alguns exemplos de versões ajustadas do Falcon são o OpenAssistant, um assistente construído em modelos abertos, e GPT4ALL, que oferece desempenho superior ao modelo base.

Como Escolher

Não há uma resposta única para escolher um modelo aberto. Um bom ponto de partida é usar o recurso de filtro por tarefa do Azure AI Studio. Isso ajudará você a entender quais tipos de tarefas o modelo foi treinado para realizar. O Hugging Face também mantém um LLM Leaderboard que mostra os modelos com melhor desempenho com base em certas métricas.

Ao procurar comparar LLMs entre os diferentes tipos, Artificial Analysis é outro ótimo recurso:

Qualidade do Modelo Fonte: Análise Artificial

Se estiver trabalhando em um caso de uso específico, procurar versões ajustadas que sejam focadas na mesma área pode ser eficaz. Experimentar múltiplos modelos abertos para ver como eles se comportam de acordo com suas expectativas e as de seus usuários é outra boa prática.

Próximos Passos

A melhor parte dos modelos abertos é que você pode começar a trabalhar com eles rapidamente. Confira o Catálogo de Modelos do Azure AI Studio, que apresenta uma coleção específica do Hugging Face com os modelos discutidos aqui.

O aprendizado não para aqui, continue a Jornada

Após completar esta lição, confira nossa coleção de aprendizado de IA Generativa para continuar aprimorando seu conhecimento em IA Generativa!

Aviso Legal:
Este documento foi traduzido usando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.