Skip to content

Commit 4fddab7

Browse files
authored
Merge pull request #1163 from Sheikyon/main
docs(es): replace "Transformadores / Transformador" with "Transformers / Transformer" across multiple chapters
2 parents 1f2476b + 08df2af commit 4fddab7

File tree

15 files changed

+39
-39
lines changed

15 files changed

+39
-39
lines changed

chapters/es/_toctree.yml

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -3,16 +3,16 @@
33
- local: chapter0/1
44
title: Introducción
55

6-
- title: 1. Modelos de Transformadores
6+
- title: 1. Modelos Transformers
77
sections:
88
- local: chapter1/1
99
title: Introducción
1010
- local: chapter1/2
1111
title: Procesamiento de Lenguaje Natural
1212
- local: chapter1/3
13-
title: Transformadores, ¿qué pueden hacer?
13+
title: Transformers, ¿qué pueden hacer?
1414
- local: chapter1/4
15-
title: ¿Cómo funcionan los Transformadores?
15+
title: ¿Cómo funcionan los Transformers?
1616
- local: chapter1/5
1717
title: Modelos de codificadores
1818
- local: chapter1/6

chapters/es/chapter1/1.mdx

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -53,4 +53,4 @@ Acerca de los autores:
5353
¿Estás listo para comenzar? En este capítulo vas a aprender:
5454
* Cómo usar la función `pipeline()` para resolver tareas de PLN como la generación y clasificación de texto
5555
* Sobre la arquitectura de los Transformadores
56-
* Cómo distinguir entre las arquitecturas de codificador, decodificador y codificador-decofidicador, además de sus casos de uso
56+
* Cómo distinguir entre las arquitecturas de codificador, decodificador y codificador-decofidicador, además de sus casos de uso

chapters/es/chapter1/2.mdx

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -5,7 +5,7 @@
55
classNames="absolute z-10 right-0 top-0"
66
/>
77

8-
Antes de ver los Transformadores, hagamos una revisión rápida de qué es el procesamiento de lenguaje natural y por qué nos interesa.
8+
Antes de ver los Transformers, hagamos una revisión rápida de qué es el procesamiento de lenguaje natural y por qué nos interesa.
99

1010
## ¿Qué es PLN?
1111

chapters/es/chapter1/3.mdx

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
# Transformadores, ¿qué pueden hacer?
1+
# Transformers, ¿qué pueden hacer?
22

33
<CourseFloatingBanner chapter={1}
44
classNames="absolute z-10 right-0 top-0"
@@ -7,25 +7,25 @@
77
{label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/es/chapter1/section3.ipynb"},
88
]} />
99

10-
En esta sección, veremos qué pueden hacer los Transformadores y usaremos nuestra primera herramienta de la librería 🤗 Transformers: la función `pipeline()`.
10+
En esta sección, veremos qué pueden hacer los Transformers y usaremos nuestra primera herramienta de la librería 🤗 Transformers: la función `pipeline()`.
1111

1212
> [!TIP]
1313
> 👀 Ves el botón <em>Open in Colab</em> en la parte superior derecha? Haz clic en él para abrir un cuaderno de Google Colab con todos los ejemplos de código de esta sección. Este botón aparecerá en cualquier sección que tenga ejemplos de código.
1414
>
1515
> Si quieres ejecutar los ejemplos localmente, te recomendamos revisar la <a href="/course/chapter0">configuración</a>.
1616
17-
## ¡Los Transformadores están en todas partes!
17+
## ¡Los Transformers están en todas partes!
1818

19-
Los Transformadores se usan para resolver todo tipo de tareas de PLN, como las mencionadas en la sección anterior. Aquí te mostramos algunas de las compañías y organizaciones que usan Hugging Face y Transformadores, que también contribuyen de vuelta a la comunidad al compartir sus modelos:
19+
Los Transformers se usan para resolver todo tipo de tareas de PLN, como las mencionadas en la sección anterior. Aquí te mostramos algunas de las compañías y organizaciones que usan Hugging Face y Transformers, que también contribuyen de vuelta a la comunidad al compartir sus modelos:
2020

2121
<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/companies.PNG" alt="Companies using Hugging Face" width="100%">
2222

2323
La [librería 🤗 Transformers](https://github.com/huggingface/transformers) provee la funcionalidad de crear y usar estos modelos compartidos. El [Hub de Modelos](https://huggingface.co/models) contiene miles de modelos preentrenados que cualquiera puede descargar y usar. ¡Tú también puedes subir tus propios modelos al Hub!
2424

2525
> [!TIP]
26-
> ⚠️ El Hub de Hugging Face no se limita a Transformadores. ¡Cualquiera puede compartir los tipos de modelos o conjuntos de datos que quiera! ¡<a href="https://huggingface.co/join">Crea una cuenta de huggingface.co</a> para beneficiarte de todas las funciones disponibles!
26+
> ⚠️ El Hub de Hugging Face no se limita a Transformers. ¡Cualquiera puede compartir los tipos de modelos o conjuntos de datos que quiera! ¡<a href="https://huggingface.co/join">Crea una cuenta de huggingface.co</a> para beneficiarte de todas las funciones disponibles!
2727
28-
Antes de ver cómo funcionan internamente los Transformadores, veamos un par de ejemplos sobre cómo pueden ser usados para resolver tareas de PLN.
28+
Antes de ver cómo funcionan internamente los Transformers, veamos un par de ejemplos sobre cómo pueden ser usados para resolver tareas de PLN.
2929

3030
## Trabajando con pipelines
3131

@@ -306,4 +306,4 @@ Al igual que los pipelines de generación de textos y resumen, puedes especifica
306306
> [!TIP]
307307
> ✏️ **¡Pruébalo!** Busca modelos de traducción en otros idiomas e intenta traducir la oración anterior en varios de ellos.
308308
309-
Los pipelines vistos hasta el momento son principalmente para fines demostrativos. Fueron programados para tareas específicas y no pueden desarrollar variaciones de ellas. En el siguiente capítulo, aprenderás qué está detrás de una función `pipeline()` y cómo personalizar su comportamiento.
309+
Los pipelines vistos hasta el momento son principalmente para fines demostrativos. Fueron programados para tareas específicas y no pueden desarrollar variaciones de ellas. En el siguiente capítulo, aprenderás qué está detrás de una función `pipeline()` y cómo personalizar su comportamiento.

chapters/es/chapter1/4.mdx

Lines changed: 17 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -1,45 +1,45 @@
1-
# ¿Cómo funcionan los Transformadores?
1+
# ¿Cómo funcionan los Transformers?
22

33
<CourseFloatingBanner
44
chapter={1}
55
classNames="absolute z-10 right-0 top-0"
66
/>
77

8-
En esta sección, daremos una mirada de alto nivel a la arquitectura de los Transformadores.
8+
En esta sección, daremos una mirada de alto nivel a la arquitectura Transformer.
99

10-
## Un poco de historia sobre los Transformadores
10+
## Un poco de historia sobre los Transformers
1111

12-
Estos son algunos hitos en la (corta) historia de los Transformadores:
12+
Estos son algunos hitos en la (corta) historia de los Transformers:
1313

1414
<div class="flex justify-center">
1515
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg" alt="A brief chronology of Transformers models.">
1616
<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono-dark.svg" alt="A brief chronology of Transformers models.">
1717
</div>
1818

19-
La [arquitectura de los Transformadores](https://arxiv.org/abs/1706.03762) fue presentada por primera vez en junio de 2017. El trabajo original se enfocaba en tareas de traducción. A esto le siguió la introducción de numerosos modelos influyentes, que incluyen:
19+
La [arquitectura Transformers](https://arxiv.org/abs/1706.03762) fue presentada por primera vez en junio de 2017. El trabajo original se enfocaba en tareas de traducción. A esto le siguió la introducción de numerosos modelos influyentes, que incluyen:
2020

21-
- **Junio de 2018**: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), el primer modelo de Transformadores preentrenados, que fue usado para ajustar varias tareas de PLN y obtuvo resultados de vanguardia
21+
- **Junio de 2018**: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), el primer modelo de Transformers preentrenados, que fue usado para ajustar varias tareas de PLN y obtuvo resultados de vanguardia
2222

2323
- **Octubre de 2018**: [BERT](https://arxiv.org/abs/1810.04805), otro gran modelo preentrenado, diseñado para producir mejores resúmenes de oraciones (¡más sobre esto en el siguiente capítulo!)
2424

2525
- **Febrero de 2019**: [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), una versión mejorada (y más grande) de GPT, que no se liberó inmediatamente al público por consideraciones éticas
2626

2727
- **Octubre de 2019**: [DistilBERT](https://arxiv.org/abs/1910.01108), una versión destilada de BERT que es 60% más rápida, 40% más ligera en memoria y que retiene el 97% del desempeño de BERT
2828

29-
- **Octubre de 2019**: [BART](https://arxiv.org/abs/1910.13461) y [T5](https://arxiv.org/abs/1910.10683), dos grandes modelos preentrenados usando la misma arquitectura del modelo original de Transformador (los primeros en hacerlo)
29+
- **Octubre de 2019**: [BART](https://arxiv.org/abs/1910.13461) y [T5](https://arxiv.org/abs/1910.10683), dos grandes modelos preentrenados usando la misma arquitectura del modelo original Transformer (los primeros en hacerlo)
3030

3131
- **Mayo de 2020**, [GPT-3](https://arxiv.org/abs/2005.14165), una versión aún más grande de GPT-2 con buen desempeño en una gran variedad de tareas sin la necesidad de ajustes (llamado _zero-shot learning_)
3232

33-
Esta lista está lejos de ser exhaustiva y solo pretende resaltar algunos de los diferentes modelos de Transformadores. De manera general, estos pueden agruparse en tres categorías:
33+
Esta lista está lejos de ser exhaustiva y solo pretende resaltar algunos de los diferentes modelos Transformers. De manera general, estos pueden agruparse en tres categorías:
3434
- Parecidos a GPT (también llamados modelos _auto-regressive_)
3535
- Parecidos a BERT (también llamados modelos _auto-encoding_)
3636
- Parecidos a BART/T5 (también llamados modelos _sequence-to-sequence_)
3737

3838
Vamos a entrar en estas familias de modelos a profundidad más adelante.
3939

40-
## Los Transformadores son modelos de lenguaje
40+
## Los Transformers son modelos de lenguaje
4141

42-
Todos los modelos de Transformadores mencionados con anterioridad (GPT, BERT, BART, T5, etc.) han sido entrenados como *modelos de lenguaje*. Esto significa que han sido entrenados con grandes cantidades de texto crudo de una manera auto-supervisada. El aprendizaje auto-supervisado es un tipo de entrenamiento en el que el objetivo se computa automáticamente de las entradas del modelo. ¡Esto significa que no necesitan humanos que etiqueten los datos!
42+
Todos los modelos Transformers mencionados con anterioridad (GPT, BERT, BART, T5, etc.) han sido entrenados como *modelos de lenguaje*. Esto significa que han sido entrenados con grandes cantidades de texto crudo de una manera auto-supervisada. El aprendizaje auto-supervisado es un tipo de entrenamiento en el que el objetivo se computa automáticamente de las entradas del modelo. ¡Esto significa que no necesitan humanos que etiqueten los datos!
4343

4444
Este tipo de modelos desarrolla un entendimiento estadístico del lenguaje sobre el que fue entrenado, pero no es muy útil para tareas prácticas específicas. Por lo anterior, el modelo general preentrenado pasa por un proceso llamado *transferencia de aprendizaje* (o *transfer learning* en Inglés). Durante este proceso, el modelo se ajusta de una forma supervisada -- esto es, usando etiquetas hechas por humanos -- para una tarea dada.
4545

@@ -57,7 +57,7 @@ Otro ejemplo es el *modelado de lenguaje oculto*, en el que el modelo predice un
5757
<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling-dark.svg" alt="Example of masked language modeling in which a masked word from a sentence is predicted.">
5858
</div>
5959

60-
## Los Transformadores son modelos grandes
60+
## Los Transformers son modelos grandes
6161

6262
Excepto algunos casos atípicos (como DistilBERT), la estrategia general para mejorar el desempeño es incrementar el tamaño de los modelos, así como la cantidad de datos con los que están preentrenados.
6363

@@ -112,7 +112,7 @@ Este proceso también conseguirá mejores resultados que entrenar desde cero (a
112112

113113
## Arquitectura general
114114

115-
En esta sección, revisaremos la arquitectura general del Transformador. No te preocupes si no entiendes algunos de los conceptos; hay secciones detalladas más adelante para cada uno de los componentes.
115+
En esta sección, revisaremos la arquitectura general de un modelo Transformer. No te preocupes si no entiendes algunos de los conceptos; hay secciones detalladas más adelante para cada uno de los componentes.
116116

117117
<Youtube id="H39Z_720T5s" />
118118

@@ -138,21 +138,21 @@ Vamos a abordar estas arquitecturas de manera independiente en secciones posteri
138138

139139
## Capas de atención
140140

141-
Una característica clave de los Transformadores es que están construidos con capas especiales llamadas *capas de atención*. De hecho, el título del trabajo que introdujo la arquitectura de los Transformadores fue ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762). Vamos a explorar los detalles de las capas de atención más adelante en el curso; por ahora, todo lo que tienes que saber es que esta capa va a indicarle al modelo que tiene que prestar especial atención a ciertas partes de la oración que le pasaste (y más o menos ignorar las demás), cuando trabaje con la representación de cada palabra.
141+
Una característica clave de los Transformers es que están construidos con capas especiales llamadas *capas de atención*. De hecho, el título del trabajo que introdujo la arquitectura Transformer fue ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762). Vamos a explorar los detalles de las capas de atención más adelante en el curso; por ahora, todo lo que tienes que saber es que esta capa va a indicarle al modelo que tiene que prestar especial atención a ciertas partes de la oración que le pasaste (y más o menos ignorar las demás), cuando trabaje con la representación de cada palabra.
142142

143143
Para poner esto en contexto, piensa en la tarea de traducir texto de Inglés a Francés. Dada la entrada "You like this course", un modelo de traducción necesitará tener en cuenta la palabra adyacente "You" para obtener la traducción correcta de la palabra "like", porque en Francés el verbo "like" se conjuga de manera distinta dependiendo del sujeto. Sin embargo, el resto de la oración no es útil para la traducción de esa palabra. En la misma línea, al traducir "this", el modelo también deberá prestar atención a la palabra "course", porque "this" se traduce de manera distinta dependiendo de si el nombre asociado es masculino o femenino. De nuevo, las otras palabras en la oración no van a importar para la traducción de "this". Con oraciones (y reglas gramaticales) más complejas, el modelo deberá prestar especial atención a palabras que pueden aparecer más lejos en la oración para traducir correctamente cada palabra.
144144

145145
El mismo concepto aplica para cualquier tarea asociada con lenguaje natural: una palabra por si misma tiene un significado, pero ese significado está afectado profundamente por el contexto, que puede ser cualquier palabra (o palabras) antes o después de la palabra que está siendo estudiada.
146146

147-
Ahora que tienes una idea de qué son las capas de atención, echemos un vistazo más de cerca a la arquitectura del Transformador.
147+
Ahora que tienes una idea de qué son las capas de atención, echemos un vistazo más de cerca a la arquitectura Transformer.
148148

149149
## La arquitectura original
150150

151-
La arquitectura del Transformador fue diseñada originalmente para traducción. Durante el entrenamiento, el codificador recibe entradas (oraciones) en un idioma dado, mientras que el decodificador recibe las mismas oraciones en el idioma objetivo. En el codificador, las capas de atención pueden usar todas las palabras en una oración (dado que, como vimos, la traducción de una palabra dada puede ser dependiente de lo que está antes y después en la oración). Por su parte, el decodificador trabaja de manera secuencial y sólo le puede prestar atención a las palabras en la oración que ya ha traducido (es decir, sólo las palabras antes de que la palabra se ha generado). Por ejemplo, cuando hemos predicho las primeras tres palabras del objetivo de traducción se las damos al decodificador, que luego usa todas las entradas del codificador para intentar predecir la cuarta palabra.
151+
La arquitectura Transformer fue diseñada originalmente para traducción. Durante el entrenamiento, el codificador recibe entradas (oraciones) en un idioma dado, mientras que el decodificador recibe las mismas oraciones en el idioma objetivo. En el codificador, las capas de atención pueden usar todas las palabras en una oración (dado que, como vimos, la traducción de una palabra dada puede ser dependiente de lo que está antes y después en la oración). Por su parte, el decodificador trabaja de manera secuencial y sólo le puede prestar atención a las palabras en la oración que ya ha traducido (es decir, sólo las palabras antes de que la palabra se ha generado). Por ejemplo, cuando hemos predicho las primeras tres palabras del objetivo de traducción se las damos al decodificador, que luego usa todas las entradas del codificador para intentar predecir la cuarta palabra.
152152

153153
Para acelerar el entrenamiento (cuando el modelo tiene acceso a las oraciones objetivo), al decodificador se le alimenta el objetivo completo, pero no puede usar palabras futuras (si tuviera acceso a la palabra en la posición 2 cuando trata de predecir la palabra en la posición 2, ¡el problema no sería muy difícil!). Por ejemplo, al intentar predecir la cuarta palabra, la capa de atención sólo tendría acceso a las palabras en las posiciones 1 a 3.
154154

155-
La arquitectura original del Transformador se veía así, con el codificador a la izquierda y el decodificador a la derecha:
155+
La arquitectura original Transformer se veía así, con el codificador a la izquierda y el decodificador a la derecha:
156156

157157
<div class="flex justify-center">
158158
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg" alt="Architecture of a Transformers models">
@@ -165,7 +165,7 @@ La *máscara de atención* también se puede usar en el codificador/decodificado
165165

166166
## Arquitecturas vs. puntos de control
167167

168-
A medida que estudiemos a profundidad los Transformadores, verás menciones a *arquitecturas*, *puntos de control* (*checkpoints*) y *modelos*. Estos términos tienen significados ligeramente diferentes:
168+
A medida que estudiemos a profundidad los Transformers, verás menciones a *arquitecturas*, *puntos de control* (*checkpoints*) y *modelos*. Estos términos tienen significados ligeramente diferentes:
169169

170170
* **Arquitecturas**: Este es el esqueleto del modelo -- la definición de cada capa y cada operación que sucede al interior del modelo.
171171
* **Puntos de control**: Estos son los pesos que serán cargados en una arquitectura dada.

chapters/es/chapter1/5.mdx

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@
77

88
<Youtube id="MUqNwgPjJvQ" />
99

10-
Los modelos de codificadores usan únicamente el codificador del Transformador. En cada etapa, las capas de atención pueden acceder a todas las palabras de la oración inicial. Estos modelos se caracterizan generalmente por tener atención "bidireccional" y se suelen llamar modelos *auto-encoding*.
10+
Los modelos de codificadores usan únicamente el codificador del Transformer. En cada etapa, las capas de atención pueden acceder a todas las palabras de la oración inicial. Estos modelos se caracterizan generalmente por tener atención "bidireccional" y se suelen llamar modelos *auto-encoding*.
1111

1212
El preentrenamiento de estos modelos generalmente gira en torno a corromper de alguna manera una oración dada (por ejemplo, ocultando aleatoriamente palabras en ella) y pidiéndole al modelo que encuentre o reconstruya la oración inicial.
1313

chapters/es/chapter1/6.mdx

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@
77

88
<Youtube id="d_ixlCubqQw" />
99

10-
Los modelos de decodificadores usan únicamente el decodificador del Transformador. En cada etapa, para una palabra dada las capas de atención pueden acceder solamente a las palabras que se ubican antes en la oración. Estos modelos se suelen llamar modelos *auto-regressive*.
10+
Los modelos de decodificadores usan únicamente el decodificador del Transformer. En cada etapa, para una palabra dada las capas de atención pueden acceder solamente a las palabras que se ubican antes en la oración. Estos modelos se suelen llamar modelos *auto-regressive*.
1111

1212
El preentrenamiento de los modelos de decodificadores generalmente gira en torno a la predicción de la siguiente palabra en la oración.
1313

0 commit comments

Comments
 (0)