Skip to content

Latest commit

 

History

History
15 lines (6 loc) · 2.45 KB

resumen.md

File metadata and controls

15 lines (6 loc) · 2.45 KB

Trabajos recientes han demostrado grandes avances en tareas de procesamiento de lenguaje natural (PLN ó NLP en inglés) y en muchas comparativas (benchmarks) y mediante el pre-entrenamiento sobre un gran corpus de texto, seguido de fine-tuning sobre una tarea específica.

Si bien la arquitectura es agnostica o independiente de la tarea, este método aún requiere fine-tuning sobre datasets de miles o decenas de miles de ejemplos. En contraste, los humanos pueden realizar una tarea nueva de lenguaje a partir de solo algunos ejemplos o instrucciones simples, -- algo que los sistemas de PNL actuales todavía tienen muchas dificultades para hacer --. Aquí mostramos que al escalar el tamaño del modelo se obtiene una gran mejora en el rendimiento en la modalidad de pocos intentos (few shots), a veces alcanzando incluso niveles de competitividad con enfoques anteriores de vanguardia. Específicamente, entrenamos GPT-3, un modelo de lenguaje autoregresivo (transformer) con 175 mil millones de parámetros, 10 veces más que cualquier modelo anterior no disperso (non-sparse), y probamos su rendimiento en la configuración few shots.

Para todas las tareas, se aplica GPT-3 sin ajuste del gradiente o fine tunning demostrando la interacción del texto con el modelo. GPT-3 alcanza un alto rendimiento en diferentes datasets de NLP, incluyendo tareas de traducción, responder preguntas, así como varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, tales como descifrar palabras, usar una palabra nueva en una oración, o realizar aritmética de 3 dígitos.

Al mismo tiempo, también identificamos algunos datasets donde el aprendizaje de few shots de GPT-3 todavía tiene dificultades, así como algunos datasets donde GPT-3 enfrenta problemas metodológicos relacionados con el entrenamiento basado en corpora de la web GPT3 envenena GPT3.

Finalmente, encontramos que GPT-3 puede generar muestras de artículos de noticias dificiles de distinguir por evaluadores humanos. Discutimos ademas los impactos sociales más amplios de este hallazgo y de GPT-3 en general.