You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
En esta sección, veremos qué pueden hacer los Transformadores y usaremos nuestra primera herramienta de la librería 🤗 Transformers: la función `pipeline()`.
10
+
En esta sección, veremos qué pueden hacer los Transformers y usaremos nuestra primera herramienta de la librería 🤗 Transformers: la función `pipeline()`.
11
11
12
12
> [!TIP]
13
13
> 👀 Ves el botón <em>Open in Colab</em> en la parte superior derecha? Haz clic en él para abrir un cuaderno de Google Colab con todos los ejemplos de código de esta sección. Este botón aparecerá en cualquier sección que tenga ejemplos de código.
14
14
>
15
15
> Si quieres ejecutar los ejemplos localmente, te recomendamos revisar la <ahref="/course/chapter0">configuración</a>.
16
16
17
-
## ¡Los Transformadores están en todas partes!
17
+
## ¡Los Transformers están en todas partes!
18
18
19
-
Los Transformadores se usan para resolver todo tipo de tareas de PLN, como las mencionadas en la sección anterior. Aquí te mostramos algunas de las compañías y organizaciones que usan Hugging Face y Transformadores, que también contribuyen de vuelta a la comunidad al compartir sus modelos:
19
+
Los Transformers se usan para resolver todo tipo de tareas de PLN, como las mencionadas en la sección anterior. Aquí te mostramos algunas de las compañías y organizaciones que usan Hugging Face y Transformers, que también contribuyen de vuelta a la comunidad al compartir sus modelos:
20
20
21
21
<imgsrc="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/companies.PNG"alt="Companies using Hugging Face"width="100%">
22
22
23
23
La [librería 🤗 Transformers](https://github.com/huggingface/transformers) provee la funcionalidad de crear y usar estos modelos compartidos. El [Hub de Modelos](https://huggingface.co/models) contiene miles de modelos preentrenados que cualquiera puede descargar y usar. ¡Tú también puedes subir tus propios modelos al Hub!
24
24
25
25
> [!TIP]
26
-
> ⚠️ El Hub de Hugging Face no se limita a Transformadores. ¡Cualquiera puede compartir los tipos de modelos o conjuntos de datos que quiera! ¡<ahref="https://huggingface.co/join">Crea una cuenta de huggingface.co</a> para beneficiarte de todas las funciones disponibles!
26
+
> ⚠️ El Hub de Hugging Face no se limita a Transformers. ¡Cualquiera puede compartir los tipos de modelos o conjuntos de datos que quiera! ¡<ahref="https://huggingface.co/join">Crea una cuenta de huggingface.co</a> para beneficiarte de todas las funciones disponibles!
27
27
28
-
Antes de ver cómo funcionan internamente los Transformadores, veamos un par de ejemplos sobre cómo pueden ser usados para resolver tareas de PLN.
28
+
Antes de ver cómo funcionan internamente los Transformers, veamos un par de ejemplos sobre cómo pueden ser usados para resolver tareas de PLN.
29
29
30
30
## Trabajando con pipelines
31
31
@@ -306,4 +306,4 @@ Al igual que los pipelines de generación de textos y resumen, puedes especifica
306
306
> [!TIP]
307
307
> ✏️ **¡Pruébalo!** Busca modelos de traducción en otros idiomas e intenta traducir la oración anterior en varios de ellos.
308
308
309
-
Los pipelines vistos hasta el momento son principalmente para fines demostrativos. Fueron programados para tareas específicas y no pueden desarrollar variaciones de ellas. En el siguiente capítulo, aprenderás qué está detrás de una función `pipeline()` y cómo personalizar su comportamiento.
309
+
Los pipelines vistos hasta el momento son principalmente para fines demostrativos. Fueron programados para tareas específicas y no pueden desarrollar variaciones de ellas. En el siguiente capítulo, aprenderás qué está detrás de una función `pipeline()` y cómo personalizar su comportamiento.
Copy file name to clipboardExpand all lines: chapters/es/chapter1/4.mdx
+17-17Lines changed: 17 additions & 17 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -1,45 +1,45 @@
1
-
# ¿Cómo funcionan los Transformadores?
1
+
# ¿Cómo funcionan los Transformers?
2
2
3
3
<CourseFloatingBanner
4
4
chapter={1}
5
5
classNames="absolute z-10 right-0 top-0"
6
6
/>
7
7
8
-
En esta sección, daremos una mirada de alto nivel a la arquitectura de los Transformadores.
8
+
En esta sección, daremos una mirada de alto nivel a la arquitectura Transformer.
9
9
10
-
## Un poco de historia sobre los Transformadores
10
+
## Un poco de historia sobre los Transformers
11
11
12
-
Estos son algunos hitos en la (corta) historia de los Transformadores:
12
+
Estos son algunos hitos en la (corta) historia de los Transformers:
13
13
14
14
<divclass="flex justify-center">
15
15
<imgclass="block dark:hidden"src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg"alt="A brief chronology of Transformers models.">
16
16
<imgclass="hidden dark:block"src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono-dark.svg"alt="A brief chronology of Transformers models.">
17
17
</div>
18
18
19
-
La [arquitectura de los Transformadores](https://arxiv.org/abs/1706.03762) fue presentada por primera vez en junio de 2017. El trabajo original se enfocaba en tareas de traducción. A esto le siguió la introducción de numerosos modelos influyentes, que incluyen:
19
+
La [arquitectura Transformers](https://arxiv.org/abs/1706.03762) fue presentada por primera vez en junio de 2017. El trabajo original se enfocaba en tareas de traducción. A esto le siguió la introducción de numerosos modelos influyentes, que incluyen:
20
20
21
-
-**Junio de 2018**: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), el primer modelo de Transformadores preentrenados, que fue usado para ajustar varias tareas de PLN y obtuvo resultados de vanguardia
21
+
-**Junio de 2018**: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), el primer modelo de Transformers preentrenados, que fue usado para ajustar varias tareas de PLN y obtuvo resultados de vanguardia
22
22
23
23
-**Octubre de 2018**: [BERT](https://arxiv.org/abs/1810.04805), otro gran modelo preentrenado, diseñado para producir mejores resúmenes de oraciones (¡más sobre esto en el siguiente capítulo!)
24
24
25
25
-**Febrero de 2019**: [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), una versión mejorada (y más grande) de GPT, que no se liberó inmediatamente al público por consideraciones éticas
26
26
27
27
-**Octubre de 2019**: [DistilBERT](https://arxiv.org/abs/1910.01108), una versión destilada de BERT que es 60% más rápida, 40% más ligera en memoria y que retiene el 97% del desempeño de BERT
28
28
29
-
-**Octubre de 2019**: [BART](https://arxiv.org/abs/1910.13461) y [T5](https://arxiv.org/abs/1910.10683), dos grandes modelos preentrenados usando la misma arquitectura del modelo original de Transformador (los primeros en hacerlo)
29
+
-**Octubre de 2019**: [BART](https://arxiv.org/abs/1910.13461) y [T5](https://arxiv.org/abs/1910.10683), dos grandes modelos preentrenados usando la misma arquitectura del modelo original Transformer (los primeros en hacerlo)
30
30
31
31
-**Mayo de 2020**, [GPT-3](https://arxiv.org/abs/2005.14165), una versión aún más grande de GPT-2 con buen desempeño en una gran variedad de tareas sin la necesidad de ajustes (llamado _zero-shot learning_)
32
32
33
-
Esta lista está lejos de ser exhaustiva y solo pretende resaltar algunos de los diferentes modelos de Transformadores. De manera general, estos pueden agruparse en tres categorías:
33
+
Esta lista está lejos de ser exhaustiva y solo pretende resaltar algunos de los diferentes modelos Transformers. De manera general, estos pueden agruparse en tres categorías:
34
34
- Parecidos a GPT (también llamados modelos _auto-regressive_)
35
35
- Parecidos a BERT (también llamados modelos _auto-encoding_)
36
36
- Parecidos a BART/T5 (también llamados modelos _sequence-to-sequence_)
37
37
38
38
Vamos a entrar en estas familias de modelos a profundidad más adelante.
39
39
40
-
## Los Transformadores son modelos de lenguaje
40
+
## Los Transformers son modelos de lenguaje
41
41
42
-
Todos los modelos de Transformadores mencionados con anterioridad (GPT, BERT, BART, T5, etc.) han sido entrenados como *modelos de lenguaje*. Esto significa que han sido entrenados con grandes cantidades de texto crudo de una manera auto-supervisada. El aprendizaje auto-supervisado es un tipo de entrenamiento en el que el objetivo se computa automáticamente de las entradas del modelo. ¡Esto significa que no necesitan humanos que etiqueten los datos!
42
+
Todos los modelos Transformers mencionados con anterioridad (GPT, BERT, BART, T5, etc.) han sido entrenados como *modelos de lenguaje*. Esto significa que han sido entrenados con grandes cantidades de texto crudo de una manera auto-supervisada. El aprendizaje auto-supervisado es un tipo de entrenamiento en el que el objetivo se computa automáticamente de las entradas del modelo. ¡Esto significa que no necesitan humanos que etiqueten los datos!
43
43
44
44
Este tipo de modelos desarrolla un entendimiento estadístico del lenguaje sobre el que fue entrenado, pero no es muy útil para tareas prácticas específicas. Por lo anterior, el modelo general preentrenado pasa por un proceso llamado *transferencia de aprendizaje* (o *transfer learning* en Inglés). Durante este proceso, el modelo se ajusta de una forma supervisada -- esto es, usando etiquetas hechas por humanos -- para una tarea dada.
45
45
@@ -57,7 +57,7 @@ Otro ejemplo es el *modelado de lenguaje oculto*, en el que el modelo predice un
57
57
<imgclass="hidden dark:block"src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling-dark.svg"alt="Example of masked language modeling in which a masked word from a sentence is predicted.">
58
58
</div>
59
59
60
-
## Los Transformadores son modelos grandes
60
+
## Los Transformers son modelos grandes
61
61
62
62
Excepto algunos casos atípicos (como DistilBERT), la estrategia general para mejorar el desempeño es incrementar el tamaño de los modelos, así como la cantidad de datos con los que están preentrenados.
63
63
@@ -112,7 +112,7 @@ Este proceso también conseguirá mejores resultados que entrenar desde cero (a
112
112
113
113
## Arquitectura general
114
114
115
-
En esta sección, revisaremos la arquitectura general del Transformador. No te preocupes si no entiendes algunos de los conceptos; hay secciones detalladas más adelante para cada uno de los componentes.
115
+
En esta sección, revisaremos la arquitectura general de un modelo Transformer. No te preocupes si no entiendes algunos de los conceptos; hay secciones detalladas más adelante para cada uno de los componentes.
116
116
117
117
<Youtubeid="H39Z_720T5s" />
118
118
@@ -138,21 +138,21 @@ Vamos a abordar estas arquitecturas de manera independiente en secciones posteri
138
138
139
139
## Capas de atención
140
140
141
-
Una característica clave de los Transformadores es que están construidos con capas especiales llamadas *capas de atención*. De hecho, el título del trabajo que introdujo la arquitectura de los Transformadores fue ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762). Vamos a explorar los detalles de las capas de atención más adelante en el curso; por ahora, todo lo que tienes que saber es que esta capa va a indicarle al modelo que tiene que prestar especial atención a ciertas partes de la oración que le pasaste (y más o menos ignorar las demás), cuando trabaje con la representación de cada palabra.
141
+
Una característica clave de los Transformers es que están construidos con capas especiales llamadas *capas de atención*. De hecho, el título del trabajo que introdujo la arquitectura Transformer fue ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762). Vamos a explorar los detalles de las capas de atención más adelante en el curso; por ahora, todo lo que tienes que saber es que esta capa va a indicarle al modelo que tiene que prestar especial atención a ciertas partes de la oración que le pasaste (y más o menos ignorar las demás), cuando trabaje con la representación de cada palabra.
142
142
143
143
Para poner esto en contexto, piensa en la tarea de traducir texto de Inglés a Francés. Dada la entrada "You like this course", un modelo de traducción necesitará tener en cuenta la palabra adyacente "You" para obtener la traducción correcta de la palabra "like", porque en Francés el verbo "like" se conjuga de manera distinta dependiendo del sujeto. Sin embargo, el resto de la oración no es útil para la traducción de esa palabra. En la misma línea, al traducir "this", el modelo también deberá prestar atención a la palabra "course", porque "this" se traduce de manera distinta dependiendo de si el nombre asociado es masculino o femenino. De nuevo, las otras palabras en la oración no van a importar para la traducción de "this". Con oraciones (y reglas gramaticales) más complejas, el modelo deberá prestar especial atención a palabras que pueden aparecer más lejos en la oración para traducir correctamente cada palabra.
144
144
145
145
El mismo concepto aplica para cualquier tarea asociada con lenguaje natural: una palabra por si misma tiene un significado, pero ese significado está afectado profundamente por el contexto, que puede ser cualquier palabra (o palabras) antes o después de la palabra que está siendo estudiada.
146
146
147
-
Ahora que tienes una idea de qué son las capas de atención, echemos un vistazo más de cerca a la arquitectura del Transformador.
147
+
Ahora que tienes una idea de qué son las capas de atención, echemos un vistazo más de cerca a la arquitectura Transformer.
148
148
149
149
## La arquitectura original
150
150
151
-
La arquitectura del Transformador fue diseñada originalmente para traducción. Durante el entrenamiento, el codificador recibe entradas (oraciones) en un idioma dado, mientras que el decodificador recibe las mismas oraciones en el idioma objetivo. En el codificador, las capas de atención pueden usar todas las palabras en una oración (dado que, como vimos, la traducción de una palabra dada puede ser dependiente de lo que está antes y después en la oración). Por su parte, el decodificador trabaja de manera secuencial y sólo le puede prestar atención a las palabras en la oración que ya ha traducido (es decir, sólo las palabras antes de que la palabra se ha generado). Por ejemplo, cuando hemos predicho las primeras tres palabras del objetivo de traducción se las damos al decodificador, que luego usa todas las entradas del codificador para intentar predecir la cuarta palabra.
151
+
La arquitectura Transformer fue diseñada originalmente para traducción. Durante el entrenamiento, el codificador recibe entradas (oraciones) en un idioma dado, mientras que el decodificador recibe las mismas oraciones en el idioma objetivo. En el codificador, las capas de atención pueden usar todas las palabras en una oración (dado que, como vimos, la traducción de una palabra dada puede ser dependiente de lo que está antes y después en la oración). Por su parte, el decodificador trabaja de manera secuencial y sólo le puede prestar atención a las palabras en la oración que ya ha traducido (es decir, sólo las palabras antes de que la palabra se ha generado). Por ejemplo, cuando hemos predicho las primeras tres palabras del objetivo de traducción se las damos al decodificador, que luego usa todas las entradas del codificador para intentar predecir la cuarta palabra.
152
152
153
153
Para acelerar el entrenamiento (cuando el modelo tiene acceso a las oraciones objetivo), al decodificador se le alimenta el objetivo completo, pero no puede usar palabras futuras (si tuviera acceso a la palabra en la posición 2 cuando trata de predecir la palabra en la posición 2, ¡el problema no sería muy difícil!). Por ejemplo, al intentar predecir la cuarta palabra, la capa de atención sólo tendría acceso a las palabras en las posiciones 1 a 3.
154
154
155
-
La arquitectura original del Transformador se veía así, con el codificador a la izquierda y el decodificador a la derecha:
155
+
La arquitectura original Transformer se veía así, con el codificador a la izquierda y el decodificador a la derecha:
156
156
157
157
<divclass="flex justify-center">
158
158
<imgclass="block dark:hidden"src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg"alt="Architecture of a Transformers models">
@@ -165,7 +165,7 @@ La *máscara de atención* también se puede usar en el codificador/decodificado
165
165
166
166
## Arquitecturas vs. puntos de control
167
167
168
-
A medida que estudiemos a profundidad los Transformadores, verás menciones a *arquitecturas*, *puntos de control* (*checkpoints*) y *modelos*. Estos términos tienen significados ligeramente diferentes:
168
+
A medida que estudiemos a profundidad los Transformers, verás menciones a *arquitecturas*, *puntos de control* (*checkpoints*) y *modelos*. Estos términos tienen significados ligeramente diferentes:
169
169
170
170
***Arquitecturas**: Este es el esqueleto del modelo -- la definición de cada capa y cada operación que sucede al interior del modelo.
171
171
***Puntos de control**: Estos son los pesos que serán cargados en una arquitectura dada.
Copy file name to clipboardExpand all lines: chapters/es/chapter1/5.mdx
+1-1Lines changed: 1 addition & 1 deletion
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -7,7 +7,7 @@
7
7
8
8
<Youtubeid="MUqNwgPjJvQ" />
9
9
10
-
Los modelos de codificadores usan únicamente el codificador del Transformador. En cada etapa, las capas de atención pueden acceder a todas las palabras de la oración inicial. Estos modelos se caracterizan generalmente por tener atención "bidireccional" y se suelen llamar modelos *auto-encoding*.
10
+
Los modelos de codificadores usan únicamente el codificador del Transformer. En cada etapa, las capas de atención pueden acceder a todas las palabras de la oración inicial. Estos modelos se caracterizan generalmente por tener atención "bidireccional" y se suelen llamar modelos *auto-encoding*.
11
11
12
12
El preentrenamiento de estos modelos generalmente gira en torno a corromper de alguna manera una oración dada (por ejemplo, ocultando aleatoriamente palabras en ella) y pidiéndole al modelo que encuentre o reconstruya la oración inicial.
Copy file name to clipboardExpand all lines: chapters/es/chapter1/6.mdx
+1-1Lines changed: 1 addition & 1 deletion
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -7,7 +7,7 @@
7
7
8
8
<Youtubeid="d_ixlCubqQw" />
9
9
10
-
Los modelos de decodificadores usan únicamente el decodificador del Transformador. En cada etapa, para una palabra dada las capas de atención pueden acceder solamente a las palabras que se ubican antes en la oración. Estos modelos se suelen llamar modelos *auto-regressive*.
10
+
Los modelos de decodificadores usan únicamente el decodificador del Transformer. En cada etapa, para una palabra dada las capas de atención pueden acceder solamente a las palabras que se ubican antes en la oración. Estos modelos se suelen llamar modelos *auto-regressive*.
11
11
12
12
El preentrenamiento de los modelos de decodificadores generalmente gira en torno a la predicción de la siguiente palabra en la oración.
0 commit comments