milvus-io
diff --git a/‎localization/blog/ar/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 2 additions & 2 deletions b/‎localization/blog/ar/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎localization/blog/de/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 2 additions & 2 deletions b/‎localization/blog/de/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎localization/blog/es/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 6 additions & 6 deletions b/‎localization/blog/es/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎localization/blog/fr/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 4 additions & 4 deletions b/‎localization/blog/fr/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md‎
Lines changed: 4 additions & 4 deletions
@@ -2,8 +2,8 @@
 id: >-
   embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md
 title: >-
-  التضمين أولاً، والتقطيع ثانياً: استرجاع RAG الأكثر ذكاءً باستخدام التقطيع
-  الدلالي الأقصى
+  التضمين أولاً، ثم التقطيع: استرجاع RAG الأكثر ذكاءً مع التقطيع الدلالي الأقصى
+  الأدنى
 author: Rachel Liu
 date: 2025-12-24T00:00:00.000Z
 cover: assets.zilliz.com/maxmin_cover_8be0b87409.png
 
@@ -2,7 +2,7 @@
 id: >-
   embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md
 title: >-
-  Erst Einbettung, dann Chunking: Smarteres RAG Retrieval mit Max-Min Semantic
+  Erst einbetten, dann chunking: Smarter RAG Retrieval mit Max-Min Semantic
   Chunking
 author: Rachel Liu
 date: 2025-12-24T00:00:00.000Z
@@ -139,7 +139,7 @@ origin: >-
    <span class="img-wrapper"> <img translate="no" src="https://assets.zilliz.com/v2413_a98e1b1f99.png" alt="Example showing context fragmentation in Milvus 2.4.13 Release Notes with version identifier and feature list in separate chunks" class="doc-image" id="example-showing-context-fragmentation-in-milvus-2.4.13-release-notes-with-version-identifier-and-feature-list-in-separate-chunks" />
    </span> <span class="img-wrapper"> <span>Beispiel für die Kontextfragmentierung in Milvus 2.4.13 Release Notes mit Versionskennung und Feature-Liste in separaten Chunks</span> </span></li>
 </ul>
-<p>Diese Fragmentierung wirkt sich auch auf die LLM-Erstellungsphase aus. Wenn sich die Versionsreferenz in einem Chunk und die Merkmalsbeschreibungen in einem anderen Chunk befinden, erhält das Modell einen unvollständigen Kontext und kann nicht sauber auf die Beziehung zwischen den beiden schließen.</p>
+<p>Diese Fragmentierung wirkt sich auch auf die LLM-Generierungsphase aus. Wenn sich die Versionsreferenz in einem Chunk und die Merkmalsbeschreibungen in einem anderen Chunk befinden, erhält das Modell einen unvollständigen Kontext und kann nicht sauber auf die Beziehung zwischen den beiden schließen.</p>
 <p>Um diese Fälle zu entschärfen, verwenden Systeme oft Techniken wie gleitende Fenster, überlappende Chunk-Grenzen oder Multi-Pass-Scans. Mit diesen Ansätzen wird ein Teil des fehlenden Kontexts wiederhergestellt, die Fragmentierung verringert und der Abruf von zusammenhängenden Informationen erleichtert.</p>
 <h2 id="Conclusion" class="common-anchor-header">Schlussfolgerung<button data-href="#Conclusion" class="anchor-icon" translate="no">
       <svg translate="no"
 
@@ -2,8 +2,8 @@
 id: >-
   embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md
 title: >-
-  Embedding First, Chunking Second: Smarter RAG Retrieval with Max-Min Semantic
-  Chunking (Primero la incrustación, luego la fragmentación)
+  Embedding First, Then Chunking: Recuperación RAG más inteligente con
+  fragmentación semántica máxima y mínima
 author: Rachel Liu
 date: 2025-12-24T00:00:00.000Z
 cover: assets.zilliz.com/maxmin_cover_8be0b87409.png
@@ -22,7 +22,7 @@ origin: >-
   https://milvus.io/blog/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md
 ---
 <p><a href="https://zilliz.com/learn/Retrieval-Augmented-Generation">La Generación de Recuperación Aumentada (RAG)</a> se ha convertido en el enfoque por defecto para proporcionar contexto y memoria a las aplicaciones de IA: los agentes de IA, los asistentes de atención al cliente, las bases de conocimiento y los sistemas de búsqueda confían en ella.</p>
-<p>En casi todas las canalizaciones RAG, el proceso estándar es el mismo: tomar los documentos, dividirlos en trozos e incrustar esos trozos para la recuperación de similitudes en una base de datos vectorial como <a href="https://milvus.io/">Milvus</a>. Dado que <strong>la fragmentación</strong> se realiza por adelantado, la calidad de los trozos afecta directamente a la calidad de la recuperación de la información y a la precisión de las respuestas finales.</p>
+<p>En casi todas las canalizaciones RAG, el proceso estándar es el mismo: tomar los documentos, dividirlos en trozos y, a continuación, incrustar esos trozos para la recuperación de similitudes en una base de datos vectorial como <a href="https://milvus.io/">Milvus</a>. Dado que <strong>la fragmentación</strong> se realiza por adelantado, la calidad de los trozos afecta directamente a la calidad de la recuperación de la información y a la precisión de las respuestas finales.</p>
 <p>El problema es que las estrategias tradicionales de fragmentación suelen dividir el texto sin ninguna comprensión semántica. La fragmentación de longitud fija se basa en el recuento de tokens y la fragmentación recursiva utiliza una estructura superficial, pero ambas ignoran el significado real del texto. Como resultado, a menudo se separan las ideas relacionadas, se agrupan las líneas no relacionadas y se fragmenta el contexto importante.</p>
 <p><a href="https://link.springer.com/article/10.1007/s10791-025-09638-7"><strong>La fragmentación semántica Max-Min</strong></a> aborda el problema de forma diferente. En lugar de trocear primero, incrusta el texto por adelantado y utiliza la similitud semántica para decidir dónde deben formarse los límites. Al incrustar antes de cortar, el proceso puede seguir los cambios naturales de significado en lugar de depender de límites de longitud arbitrarios.</p>
 <p>En nuestro blog anterior, hablamos de métodos como el <a href="https://milvus.io/blog/smarter-retrieval-for-rag-late-chunking-with-jina-embeddings-v2-and-milvus.md"><strong>Late Chunking</strong></a> de Jina AI, que ayudó a popularizar la idea de "incrustar primero" y demostró que puede funcionar en la práctica. <strong>El Max-Min Semantic Chunking</strong> se basa en el mismo concepto con una regla sencilla que identifica cuándo el significado cambia lo suficiente como para justificar un nuevo trozo. En este artículo, explicaremos cómo funciona Max-Min y examinaremos sus ventajas y limitaciones para cargas de trabajo RAG reales.</p>
@@ -41,7 +41,7 @@ origin: >-
           d="M4 9h1v1H4c-1.5 0-3-1.69-3-3.5S2.55 3 4 3h4c1.45 0 3 1.69 3 3.5 0 1.41-.91 2.72-2 3.25V8.59c.58-.45 1-1.27 1-2.09C10 5.22 8.98 4 8 4H4c-.98 0-2 1.22-2 2.5S3 9 4 9zm9-3h-1v1h1c1 0 2 1.22 2 2.5S13.98 12 13 12H9c-.98 0-2-1.22-2-2.5 0-.83.42-1.64 1-2.09V6.25c-1.09.53-2 1.84-2 3.25C6 11.31 7.55 13 9 13h4c1.45 0 3-1.69 3-3.5S14.5 6 13 6z"
         ></path>
       </svg>
-    </button></h2><p>La mayoría de los pipelines RAG, independientemente del framework, siguen la misma línea de ensamblaje de cuatro etapas. Probablemente usted mismo haya escrito alguna versión de esto:</p>
+    </button></h2><p>La mayoría de los pipelines RAG, independientemente del framework, siguen la misma línea de ensamblaje de cuatro etapas. Es probable que usted mismo haya escrito alguna versión de esto:</p>
 <h3 id="1-Data-Cleaning-and-Chunking" class="common-anchor-header">1. 1. Limpieza y fragmentación de los datos</h3><p>El proceso comienza con la limpieza de los documentos en bruto: eliminación de encabezados, pies de página, texto de navegación y todo lo que no sea contenido real. Una vez eliminado el ruido, el texto se divide en trozos más pequeños. La mayoría de los equipos utilizan trozos de tamaño fijo (300-800 tokens) para que el modelo de incrustación sea manejable. El inconveniente es que las divisiones se basan en la longitud, no en el significado, por lo que los límites pueden ser arbitrarios.</p>
 <h3 id="2-Embedding-and-Storage" class="common-anchor-header">2. Incrustación y almacenamiento</h3><p>Cada trozo se incrusta utilizando un modelo de incrustación como el de OpenAI <a href="https://zilliz.com/ai-models/text-embedding-3-small"><code translate="no">text-embedding-3-small</code></a> o el codificador de BAAI. Los vectores resultantes se almacenan en una base de datos vectorial como <a href="https://milvus.io/">Milvus</a> o <a href="https://zilliz.com/cloud">Zilliz Cloud</a>. La base de datos gestiona la indexación y la búsqueda de similitudes para que puedas comparar rápidamente las nuevas consultas con todos los chunks almacenados.</p>
 <h3 id="3-Querying" class="common-anchor-header">3. Consulta de</h3><p>Cuando un usuario formula una pregunta -por ejemplo, <em>"¿Cómo reduce la RAG las alucinaciones?"</em> - el sistema incorpora la consulta y la envía a la base de datos. La base de datos devuelve los K trozos cuyos vectores se acercan más a la pregunta. Estos son los fragmentos de texto en los que se basará el modelo para responder a la pregunta.</p>
@@ -120,7 +120,7 @@ origin: >-
         ></path>
       </svg>
     </button></h2><p>El Max-Min Semantic Chunking mejora la forma en que los sistemas RAG dividen el texto al utilizar el significado en lugar de la longitud, pero no es una bala de plata. A continuación, le ofrecemos una visión práctica de sus puntos fuertes y sus puntos débiles.</p>
-<h3 id="What-It-Does-Well" class="common-anchor-header">Lo que hace bien</h3><p>El Max-Min Semantic Chunking mejora el chunking tradicional en tres aspectos importantes:</p>
+<h3 id="What-It-Does-Well" class="common-anchor-header">Qué hace bien</h3><p>El Max-Min Semantic Chunking mejora el chunking tradicional en tres aspectos importantes:</p>
 <h4 id="1-Dynamic-meaning-driven-chunk-boundaries" class="common-anchor-header"><strong>1. Límites de trozos dinámicos y basados en el significado</strong></h4><p>A diferencia de los enfoques basados en estructuras o tamaños fijos, este método se basa en la similitud semántica para guiar el chunking. Compara la similitud mínima dentro del trozo actual (su grado de cohesión) con la similitud máxima entre la nueva frase y ese trozo (su grado de ajuste). Si esta última es mayor, la frase se une al trozo; en caso contrario, se inicia un nuevo trozo.</p>
 <h4 id="2-Simple-practical-parameter-tuning" class="common-anchor-header"><strong>2. Ajuste de parámetros sencillo y práctico</strong></h4><p>El algoritmo sólo depende de tres hiperparámetros básicos:</p>
 <ul>
@@ -158,6 +158,6 @@ origin: >-
       </svg>
     </button></h2><p>El Max-Min Semantic Chunking no es una solución mágica para todos los problemas de RAG, pero nos ofrece una forma más sensata de pensar en los límites de los trozos. En lugar de dejar que los límites de los tokens decidan dónde se trocean las ideas, utiliza incrustaciones para detectar dónde cambia realmente el significado. Para muchos documentos del mundo real -API, especificaciones, registros, notas de la versión, guías de solución de problemas- esto por sí solo puede aumentar notablemente la calidad de la recuperación.</p>
 <p>Lo que más me gusta de este enfoque es que se adapta de forma natural a los procesos de RAG existentes. Si ya incrusta frases o párrafos, el coste adicional consiste básicamente en unas cuantas comprobaciones de similitud del coseno. No se necesitan modelos adicionales, agrupaciones complejas ni preprocesamientos pesados. Y cuando funciona, los trozos que produce parecen más "humanos", más parecidos a cómo agrupamos mentalmente la información al leer.</p>
-<p>Pero el método sigue teniendo puntos ciegos. Sólo ve el significado localmente y no puede volver a conectar la información que está intencionadamente separada. Siguen siendo necesarias las ventanas superpuestas, los escaneados de varias pasadas y otros trucos para preservar el contexto, sobre todo en documentos en los que las referencias y las explicaciones viven lejos unas de otras.</p>
+<p>Pero el método sigue teniendo puntos ciegos. Sólo ve el significado localmente y no puede volver a conectar la información que está intencionadamente separada. Siguen siendo necesarias las ventanas superpuestas, las exploraciones de varias pasadas y otros trucos para preservar el contexto, sobre todo en documentos en los que las referencias y las explicaciones viven lejos unas de otras.</p>
 <p>Aun así, el Max-Min Semantic Chunking nos lleva en la dirección correcta: lejos de la fragmentación arbitraria del texto y hacia procesos de recuperación que respeten realmente la semántica. Si está explorando formas de hacer que RAG sea más fiable, merece la pena experimentar con él.</p>
 <p>¿Tienes preguntas o quieres profundizar en la mejora del rendimiento de RAG? Únete a nuestro <a href="https://discord.com/invite/8uyFbECzPX">Discord</a> y conecta con ingenieros que construyen y ajustan sistemas de recuperación reales cada día.</p>
@@ -2,7 +2,7 @@
 id: >-
   embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semantic-chunking.md
 title: >-
-  L'intégration d'abord, le découpage ensuite : une récupération plus
+  L'intégration d'abord, le regroupement ensuite : Récupération plus
   intelligente des RAG avec le découpage sémantique Max-Min
 author: Rachel Liu
 date: 2025-12-24T00:00:00.000Z
@@ -24,7 +24,7 @@ origin: >-
 ---
 <p>La<a href="https://zilliz.com/learn/Retrieval-Augmented-Generation">génération augmentée par récupération (RAG)</a> est devenue l'approche par défaut pour fournir un contexte et une mémoire aux applications d'IA - les agents d'IA, les assistants d'assistance à la clientèle, les bases de connaissances et les systèmes de recherche s'appuient tous sur elle.</p>
 <p>Dans presque toutes les filières RAG, le processus standard est le même : prendre les documents, les diviser en morceaux, puis intégrer ces morceaux pour la recherche de similarités dans une base de données vectorielle comme <a href="https://milvus.io/">Milvus</a>. Comme le <strong>découpage</strong> se fait en amont, la qualité de ces morceaux a une incidence directe sur la qualité de la recherche d'informations par le système et sur la précision des réponses finales.</p>
-<p>Le problème est que les stratégies de découpage traditionnelles découpent généralement le texte sans aucune compréhension sémantique. Le découpage à longueur fixe est basé sur le nombre de jetons, et le découpage récursif utilise une structure de surface, mais tous deux ignorent encore le sens réel du texte. Par conséquent, les idées connexes sont souvent séparées, les lignes sans rapport sont regroupées et le contexte important est fragmenté.</p>
+<p>Le problème est que les stratégies de découpage traditionnelles découpent généralement le texte sans aucune compréhension sémantique. Le découpage à longueur fixe est basé sur le nombre de jetons et le découpage récursif utilise une structure de surface, mais ces deux stratégies ignorent toujours le sens réel du texte. Par conséquent, les idées connexes sont souvent séparées, les lignes sans rapport sont regroupées et le contexte important est fragmenté.</p>
 <p>Le<a href="https://link.springer.com/article/10.1007/s10791-025-09638-7"><strong>découpage sémantique Max-Min</strong></a> aborde le problème différemment. Au lieu de procéder d'abord au découpage, il incorpore le texte en amont et utilise la similarité sémantique pour décider de l'emplacement des limites. En intégrant le texte avant de le découper, le pipeline peut suivre les changements de sens naturels plutôt que de s'appuyer sur des limites de longueur arbitraires.</p>
 <p>Dans notre blog précédent, nous avons abordé des méthodes telles que le <a href="https://milvus.io/blog/smarter-retrieval-for-rag-late-chunking-with-jina-embeddings-v2-and-milvus.md"><strong>Late Chunking</strong></a> de Jina AI, qui a contribué à populariser l'idée de "l'incorporation d'abord" et a montré qu'elle pouvait fonctionner dans la pratique. Le <strong>découpage sémantique Max-Min</strong> s'appuie sur le même concept avec une règle simple qui identifie le moment où le sens change suffisamment pour justifier un nouveau découpage. Dans ce billet, nous verrons comment fonctionne Max-Min et nous examinerons ses forces et ses limites pour des charges de travail RAG réelles.</p>
 <h2 id="How-a-Typical-RAG-Pipeline-Works" class="common-anchor-header">Fonctionnement d'un pipeline RAG typique<button data-href="#How-a-Typical-RAG-Pipeline-Works" class="anchor-icon" translate="no">
@@ -77,7 +77,7 @@ origin: >-
    <span class="img-wrapper"> <img translate="no" src="https://assets.zilliz.com/embed_first_chunk_second_94f69c664c.png" alt="Diagram showing embed-first chunk-second workflow in Max-Min Semantic Chunking" class="doc-image" id="diagram-showing-embed-first-chunk-second-workflow-in-max-min-semantic-chunking" />
    </span> <span class="img-wrapper"> <span>Diagramme illustrant le flux de travail "embed-first chunk-second" dans le cadre du découpage sémantique Max-Min</span> </span></p>
 <p>D'un point de vue conceptuel, la méthode traite le découpage comme un problème de regroupement contraint dans l'espace d'intégration. Vous parcourez le document dans l'ordre, une phrase à la fois. Pour chaque phrase, l'algorithme compare son intégration avec celles du bloc actuel. Si la nouvelle phrase est sémantiquement assez proche, elle rejoint le groupe. Si elle est trop éloignée, l'algorithme commence un nouveau bloc. La contrainte principale est que les morceaux doivent suivre l'ordre original des phrases - pas de réorganisation, pas de regroupement global.</p>
-<p>Le résultat est un ensemble de morceaux de longueur variable qui reflètent l'endroit où le sens du document change réellement, et non l'endroit où un compteur de caractères arrive à zéro.</p>
+<p>Le résultat est un ensemble de morceaux de longueur variable qui reflètent l'endroit où le sens du document change réellement, et non pas l'endroit où un compteur de caractères arrive à zéro.</p>
 <h2 id="How-the-Max–Min-Semantic-Chunking-Strategy-Works" class="common-anchor-header">Fonctionnement de la stratégie de découpage sémantique Max-Min<button data-href="#How-the-Max–Min-Semantic-Chunking-Strategy-Works" class="anchor-icon" translate="no">
       <svg translate="no"
         aria-hidden="true"
@@ -129,7 +129,7 @@ origin: >-
 <li><p>la <strong>similarité minimale</strong> entre les deux premières phrases, et</p></li>
 <li><p>le <strong>seuil de similarité</strong> pour l'ajout de nouvelles phrases.</p></li>
 </ul>
-<p>Ces paramètres s'ajustent automatiquement en fonction du contexte : les morceaux plus grands nécessitent des seuils de similarité plus stricts pour maintenir la cohérence.</p>
+<p>Ces paramètres s'adaptent automatiquement au contexte : les morceaux plus grands nécessitent des seuils de similarité plus stricts pour maintenir la cohérence.</p>
 <h4 id="3-Low-processing-overhead" class="common-anchor-header"><strong>3. Faible surcharge de traitement</strong></h4><p>Étant donné que le pipeline RAG calcule déjà les enchâssements de phrases, le découpage sémantique Max-Min n'ajoute pas de calculs lourds. Tout ce dont il a besoin, c'est d'un ensemble de vérifications de la similarité des cosinus lors de l'analyse des phrases. Il est donc moins coûteux que de nombreuses techniques de regroupement sémantique qui nécessitent des modèles supplémentaires ou un regroupement en plusieurs étapes.</p>
 <h3 id="What-It-Still-Can’t-Solve" class="common-anchor-header">Ce qu'elle ne peut toujours pas résoudre</h3><p>Le découpage sémantique Max-Min améliore les limites des morceaux, mais n'élimine pas tous les défis de la segmentation des documents. Étant donné que l'algorithme traite les phrases dans l'ordre et ne procède qu'à des regroupements locaux, il peut encore passer à côté de relations à longue portée dans des documents plus longs ou plus complexes.</p>
 <p>La <strong>fragmentation du contexte</strong> est un problème courant. Lorsque des informations importantes sont réparties dans différentes parties d'un document, l'algorithme peut placer ces parties dans des morceaux distincts. Chaque morceau ne contient alors qu'une partie de la signification.</p>