Skip to content

Latest commit

 

History

History
138 lines (74 loc) · 15.5 KB

File metadata and controls

138 lines (74 loc) · 15.5 KB

Introdução à IA Generativa e Modelos de Linguagem de Grande Escala

Introdução à IA Generativa e Modelos de Linguagem de Grande Escala

(Clique na imagem acima para assistir ao vídeo desta lição)

A IA generativa é uma inteligência artificial capaz de gerar texto, imagens e outros tipos de conteúdo. O que a torna uma tecnologia fantástica é que ela democratiza a IA, permitindo que qualquer pessoa a utilize com apenas um comando de texto, uma frase escrita em linguagem natural. Não é necessário aprender uma linguagem como Java ou SQL para realizar algo significativo; basta usar sua própria linguagem, dizer o que deseja e o modelo de IA sugere algo. As aplicações e o impacto disso são enormes: você pode escrever ou entender relatórios, criar aplicações e muito mais, tudo em questão de segundos.

Neste currículo, exploraremos como a nossa startup utiliza a IA generativa para desbloquear novos cenários no mundo da educação e como enfrentamos os desafios inevitáveis associados às implicações sociais de sua aplicação e às limitações tecnológicas.

Introdução

Esta lição abordará:

  • Introdução ao cenário de negócios: nossa ideia de startup e missão.
  • IA generativa e como chegamos ao panorama tecnológico atual.
  • Funcionamento interno de um modelo de linguagem de grande escala.
  • Principais capacidades e casos de uso prático dos Modelos de Linguagem de Grande Escala.

Objetivos de Aprendizagem

Após concluir esta lição, você entenderá:

  • O que é IA generativa e como funcionam os Modelos de Linguagem de Grande Escala.
  • Como você pode utilizar os modelos de linguagem de grande escala para diferentes casos de uso, com foco em cenários educacionais.

Cenário: nossa startup educacional

A Inteligência Artificial Generativa (IA) representa o auge da tecnologia de IA, ultrapassando os limites do que antes era considerado impossível. Os modelos de IA generativa possuem várias capacidades e aplicações, mas, para este currículo, exploraremos como ela está revolucionando a educação por meio de uma startup fictícia. Chamaremos essa startup de nossa startup. Nossa startup atua no domínio da educação com a ambiciosa missão de:

melhorar a acessibilidade ao aprendizado, em escala global, garantindo acesso equitativo à educação e proporcionando experiências de aprendizado personalizadas para cada aluno, de acordo com suas necessidades.

A equipe da nossa startup está ciente de que não conseguiremos alcançar esse objetivo sem utilizar uma das ferramentas mais poderosas dos tempos modernos – os Modelos de Linguagem de Grande Escala (LLMs).

A IA generativa promete revolucionar a forma como aprendemos e ensinamos hoje, com estudantes tendo à disposição professores virtuais 24 horas por dia, que fornecem vastas quantidades de informações e exemplos, e professores capazes de usar ferramentas inovadoras para avaliar seus alunos e fornecer feedback.

Cinco jovens estudantes olhando para um monitor - imagem por DALLE2

Para começar, vamos definir alguns conceitos básicos e terminologias que usaremos ao longo do currículo.

Como surgiu a IA Generativa?

Apesar do extraordinário hype gerado recentemente pelo anúncio de modelos de IA generativa, essa tecnologia vem sendo desenvolvida há décadas, com os primeiros esforços de pesquisa datando dos anos 60. Estamos agora em um ponto em que a IA possui capacidades cognitivas humanas, como a conversa, demonstrada, por exemplo, pelo OpenAI ChatGPT ou pelo Bing Chat, que também utiliza um modelo GPT para conversas de busca na web.

Voltando um pouco, os primeiros protótipos de IA consistiam em chatbots baseados em texto, que dependiam de uma base de conhecimento extraída de um grupo de especialistas e representada em um computador. As respostas na base de conhecimento eram acionadas por palavras-chave que apareciam no texto de entrada. No entanto, logo ficou claro que essa abordagem, utilizando chatbots baseados em texto, não era escalável.

Uma abordagem estatística para IA: Aprendizado de Máquina

Um ponto de virada ocorreu durante os anos 90, com a aplicação de uma abordagem estatística à análise de texto. Isso levou ao desenvolvimento de novos algoritmos – conhecidos como aprendizado de máquina – capazes de aprender padrões a partir de dados sem serem explicitamente programados. Essa abordagem permite que as máquinas simulem a compreensão da linguagem humana: um modelo estatístico é treinado com pares de texto e rótulos, permitindo que o modelo classifique textos de entrada desconhecidos com um rótulo pré-definido que represente a intenção da mensagem.

Redes neurais e assistentes virtuais modernos

Nos últimos anos, a evolução tecnológica do hardware, capaz de lidar com maiores quantidades de dados e cálculos mais complexos, incentivou a pesquisa em IA, levando ao desenvolvimento de algoritmos avançados de aprendizado de máquina conhecidos como redes neurais ou algoritmos de aprendizado profundo.

As redes neurais (e, em particular, as Redes Neurais Recorrentes – RNNs) melhoraram significativamente o processamento de linguagem natural, permitindo representar o significado do texto de forma mais significativa, valorizando o contexto de uma palavra em uma frase.

Essa é a tecnologia que impulsionou os assistentes virtuais surgidos na primeira década do novo século, muito proficientes em interpretar a linguagem humana, identificar uma necessidade e realizar uma ação para satisfazê-la – como responder com um script pré-definido ou consumir um serviço de terceiros.

Hoje em dia, IA Generativa

E foi assim que chegamos à IA Generativa hoje, que pode ser vista como um subconjunto do aprendizado profundo.

IA, ML, DL e IA Generativa

Após décadas de pesquisa no campo da IA, uma nova arquitetura de modelo – chamada Transformer – superou os limites das RNNs, sendo capaz de processar sequências de texto muito mais longas como entrada. Os Transformers são baseados no mecanismo de atenção, permitindo que o modelo atribua diferentes pesos às entradas que recebe, ‘prestando mais atenção’ onde as informações mais relevantes estão concentradas, independentemente de sua ordem na sequência de texto.

A maioria dos modelos recentes de IA generativa – também conhecidos como Modelos de Linguagem de Grande Escala (LLMs), já que trabalham com entradas e saídas textuais – são, de fato, baseados nessa arquitetura. O interessante sobre esses modelos – treinados em uma enorme quantidade de dados não rotulados de diversas fontes, como livros, artigos e sites – é que eles podem ser adaptados a uma ampla variedade de tarefas e gerar textos gramaticalmente corretos com um toque de criatividade. Assim, eles não apenas melhoraram incrivelmente a capacidade de uma máquina de ‘entender’ um texto de entrada, mas também permitiram sua capacidade de gerar uma resposta original em linguagem humana.

Como funcionam os modelos de linguagem de grande escala?

No próximo capítulo, vamos explorar diferentes tipos de modelos de IA generativa, mas, por enquanto, vamos dar uma olhada em como os modelos de linguagem de grande escala funcionam, com foco nos modelos OpenAI GPT (Generative Pre-trained Transformer).

  • Tokenizador, texto para números: Os Modelos de Linguagem de Grande Escala recebem um texto como entrada e geram um texto como saída. No entanto, sendo modelos estatísticos, eles funcionam muito melhor com números do que com sequências de texto. É por isso que toda entrada no modelo é processada por um tokenizador antes de ser usada pelo modelo principal. Um token é um pedaço de texto – consistindo em um número variável de caracteres, então a principal tarefa do tokenizador é dividir a entrada em um array de tokens. Em seguida, cada token é mapeado com um índice de token, que é a codificação inteira do pedaço de texto original.

Exemplo de tokenização

  • Previsão de tokens de saída: Dado n tokens como entrada (com n máximo variando de um modelo para outro), o modelo é capaz de prever um token como saída. Esse token é então incorporado na entrada da próxima iteração, em um padrão de janela expansiva, permitindo uma melhor experiência do usuário ao obter uma (ou várias) frases como resposta. Isso explica por que, se você já brincou com o ChatGPT, pode ter notado que às vezes parece que ele para no meio de uma frase.

  • Processo de seleção, distribuição de probabilidade: O token de saída é escolhido pelo modelo de acordo com sua probabilidade de ocorrer após a sequência de texto atual. Isso ocorre porque o modelo prevê uma distribuição de probabilidade sobre todos os possíveis ‘próximos tokens’, calculada com base em seu treinamento. No entanto, nem sempre o token com a maior probabilidade é escolhido da distribuição resultante. Um grau de aleatoriedade é adicionado a essa escolha, de forma que o modelo aja de maneira não determinística - não obtemos exatamente a mesma saída para a mesma entrada. Esse grau de aleatoriedade é adicionado para simular o processo de pensamento criativo e pode ser ajustado usando um parâmetro do modelo chamado temperatura.

Como nossa startup pode utilizar Modelos de Linguagem de Grande Escala?

Agora que entendemos melhor o funcionamento interno de um modelo de linguagem de grande escala, vamos ver alguns exemplos práticos das tarefas mais comuns que eles podem realizar muito bem, com um olhar para o nosso cenário de negócios. Dissemos que a principal capacidade de um Modelo de Linguagem de Grande Escala é gerar um texto do zero, a partir de uma entrada textual, escrita em linguagem natural.

Mas que tipo de entrada e saída textual? A entrada de um modelo de linguagem de grande escala é conhecida como prompt, enquanto a saída é conhecida como completion, termo que se refere ao mecanismo do modelo de gerar o próximo token para completar a entrada atual. Vamos nos aprofundar no que é um prompt e como projetá-lo de forma a obter o máximo do nosso modelo. Mas, por enquanto, vamos apenas dizer que um prompt pode incluir:

  • Uma instrução especificando o tipo de saída que esperamos do modelo. Essa instrução às vezes pode incluir alguns exemplos ou dados adicionais.

    1. Resumo de um artigo, livro, avaliações de produtos e mais, juntamente com a extração de insights de dados não estruturados.

    Exemplo de resumo

    1. Ideação criativa e design de um artigo, ensaio, tarefa ou mais.

      Exemplo de escrita criativa

  • Uma pergunta, feita na forma de uma conversa com um agente.

    Exemplo de conversa

  • Um pedaço de texto para completar, que implicitamente é um pedido de assistência na escrita.

    Exemplo de conclusão de texto

  • Um pedaço de código junto com o pedido de explicá-lo e documentá-lo, ou um comentário pedindo para gerar um trecho de código que execute uma tarefa específica.

    Exemplo de código

Os exemplos acima são bastante simples e não têm a intenção de ser uma demonstração exaustiva das capacidades dos Modelos de Linguagem de Grande Escala. Eles servem para mostrar o potencial do uso da IA generativa, em particular, mas não exclusivamente, em contextos educacionais.

Além disso, a saída de um modelo de IA generativa não é perfeita e, às vezes, a criatividade do modelo pode jogar contra ele, resultando em uma saída que é uma combinação de palavras que o usuário humano pode interpretar como uma distorção da realidade ou até mesmo ofensiva. A IA generativa não é inteligente – pelo menos na definição mais abrangente de inteligência, que inclui raciocínio crítico e criativo ou inteligência emocional; ela não é determinística e não é confiável, pois fabricará, por vezes, referências, conteúdos e afirmações erradas, misturando-os com informações corretas e apresentando-os de forma persuasiva e confiante. Nas próximas lições, lidaremos com todas essas limitações e veremos o que podemos fazer para mitigá-las.

Tarefa

Sua tarefa é pesquisar mais sobre IA generativa e tentar identificar uma área onde você adicionaria IA generativa hoje que ainda não a utiliza. Como o impacto seria diferente de fazer isso da "maneira antiga"? Você conseguiria fazer algo que não podia antes ou seria mais rápido? Escreva um resumo de 300 palavras sobre como seria sua startup dos sonhos de IA e inclua cabeçalhos como "Problema", "Como eu usaria IA", "Impacto" e, opcionalmente, um plano de negócios.

Se você realizar esta tarefa, pode até estar pronto para se candidatar ao incubador da Microsoft, Microsoft for Startups Founders Hub, onde oferecemos créditos para Azure, OpenAI, mentoria e muito mais. Confira!

Verificação de conhecimento

O que é verdade sobre os modelos de linguagem de grande escala?

  1. Você obtém exatamente a mesma resposta todas as vezes.
  2. Ele faz tudo perfeitamente, é ótimo em somar números, produzir código funcional, etc.
  3. A resposta pode variar, apesar de usar o mesmo prompt. Ele também é ótimo para fornecer um primeiro rascunho de algo, seja texto ou código. Mas você precisa melhorar os resultados.

R: 3, um LLM não é determinístico, a resposta varia; no entanto, você pode controlar essa variação por meio de uma configuração de temperatura. Você também não deve esperar que ele faça tudo perfeitamente, ele está aqui para fazer o trabalho pesado por você, o que muitas vezes significa que você obtém uma boa primeira tentativa de algo que precisa ser aprimorado gradualmente.

Ótimo trabalho! Continue a jornada

Após concluir esta lição, confira nossa coleção de aprendizado sobre IA generativa para continuar aprimorando seu conhecimento sobre IA Generativa! Dirija-se à Lição 2, onde iremos explorar e comparar diferentes tipos de LLMs explorar e comparar diferentes tipos de LLMs!


Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos pela precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se uma tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.