De l’OCR au RAG: l’IA générative appliquée aux sources parlementaires françaises. Enjeux, méthodes et perspectives
Marie Puren
Projet d’histoire contemporaine, s’est aperçu qu’avait besoin de plusieurs outils pour pouvoir développer cette collaboration de recherche. Mobilisés de l’acquisition des sources, etc.
DECIDON projet d’histoire politique et parlementaire consacré aux débats de la Troisième république 1870-1940. Outiller l’enquête historienne avec l’IA générative.
Parliamentary debates and media space 1870-1940.
Dans les pays anglosaxons et en Europe du Nord (Finlande), beaucoup de travaux autour des débats parlementaires. Renouveau de l’histoire politique depuis les années 2000. Pendant longtemps histoire reine, avec le renforcement de la micro-histoire, passé au second plan.
Retour à l’histoire politique et parlementaire. En parallèle de ce renouveau gros projet de numérisation des archives juridiques et parlementaires mené avec la Bnf et Sénat. Aujourd’hui a accès à tous les débats parlementaires depuis la 3e République.
Corpus remarquable pour faire l’histoire.
Création de l’agenda politique au cours de la IIIe République. Question des interactions entre l’arène politique et médiatique. L’arène politique est modélisée par l’espace parlementaire. Élus qui font remonter les préoccupation publique. De l’autre côté la presse, avec enjeux de numérisation. Aujourd’hui accès à un énorme corpus de presse OCRisé. Comprendre comment le dialogue entre l’arène politique et médiatique façonné sur le temps long.
Caractéristique de la IIIe République, réellement un régime parlementaire. Fondement de notre vie démocratique actuelle. Explosion à la même époque de la presse. C’est à ce moment là que l’on peut réellement parler de la formation de l’opinion publique.
Comment se façonne l’agenda politique, quel rôle la presse.
S’appuie sur une théorique politique de l’agenda Setting : mcCommm. Le médias ne disent pas quoi penser mais hiérarchisent les sujets d’intérêt public.
Cette théorie que l’on voudrait traiter sur le temps long. Idée que la présence d’un sujet ou d’un thème influencerait le débat public.
LeRoy Ladurie et Couperie, 1970. Le mouvement des loyers... Expliquent que pas travaillé car documentation trop lourde ou difficile à travailler. Étonnement des sources peu utilisées. Travail sur le temps long. Source très importante pour l’ensemble des sujets. Le cas pour les débats parlementaires.
Grand nombre de séances par année. Plusieurs facteurs. Longueur des séance qui peut aussi beaucoup varier. Une législature en moyenne 4 ans. 10 à 12 000 pages mais peut aller jusqu’à 25 000.
Le projet est aussi né à la conjonction de sources, de questions mais aussi de technologies. La première fois où le projet a été déposé en 2022. Arrivée sur l’IA générative même année. Au fur et à mesure, en discutant avec les collègues que s’est posé la question du potentiel à utiliser IA générative. Peut intervenir à plusieurs étapes de la chaîne de traitement.
Reconnaissance d’entité nommées, encodage mais aussi IA générative.
Faire une histoire politique de l’agenda politique. Une vocation pluridisciplinaire : informaticiens, spécialistes du patrimoine, sociologue. Objectif d’ouvrir de nouvelles voies.
IA générative et histoire.
Une longue histoire de la lecture à distance. Depuis plusieurs années. Digital turn de l’histoire parlementaire. De plus en plus de bibliothèques numériques et d’archives numérisées. Au niveau mondial beaucoup de sources de l’histoire parlementaires. (Cf. Auteur sur histoire parlementaire comparée)
Salm 2021, What is Digital history ?
Ajouter des outils à la boite à outil des historiens.
Arrivée des transformers un véritable impact sur le travail langue naturelle.
L’impact IA sur notre métier. Frédéric Clavert et Caroline Muller. Livre de Muller 2025. S’interrogent sur l’impact de ces technologies sur les travaux des historiens. Acquisition des sources. Analyse ds sources : strates annotation, classification, etc. Assistant de rédaction pour les futurs de l’histoire.
Plusieurs avantages de l’IA en histoire. Avantages pour la production des données, etc. Mais certain nombre de limites plus ou moins importantes selon où se place. Pour les experts du domaine : enjeux de fiabilité, gestion des contenus longs, hallucinations, reproductibilité, traçabilité, transparence et explicatibilité. Mais aussi, ce qui peut exiger un besoin de vérification humaine : savoirs obsolètes, sensibilité au promptitudes, simulation des connaissances/d’expertises.
- Pb fenêtre de contexte x-token
- Forte sensibilité au compte, et résultats différents
- Besoin de comprendre comment le modèle à fonctionné. Dans la chaîne historienne classique, ensemble du contrôle.
Une soluution : l’agentification des LLM
- Recherche sur internet
- Interrogation d’API
- RAG Retrieval-Augmented Generation
Améliore les résultats grâce à des données qu’aura choisi nous-même. Peut permettre de dialoguer de manière conversationnelle avec votre corpus. Repose beaucoup sur des techniques d’ingénieure du prompt.
Schéma RAG.
Dans un LLM de base, entrainement à un moment donné, interrogation bas qui peut être obsolete.
Dans un RAG. Idem mais corpus de référence sélectionné et choisi. Ce corpus est segmenté chunked, chaque élément un document en soi. Pour réponse, interroge cette base de données sectorisée et le LLM interroge cette base pour fournir une référence qu’espère le plus précis possible. Choix de la base de données, choix de la vectorisation. Reranking qui peut aussi influer sur les performances. Recherche par similarité peut aussi être ajustée.
Une architecture ad hoc que peut avoir envie de mettre en place.
Rapidement une technologie utilisée en industrie mais également utilisée sur la presse ancienne. Nombreuses publications (à chercher)
Module de récupération / module de génération
Possibilité de discuter avec des sources textuelles historiques. Explorer les archives du web avec un RAG. Discuter avec A Lincoln. Sources presse numérisée du Luxembourg, exploration de corpus multilingues. https://chat.eluxemburgensia.lu
Extraction du texte : une approche hybride.
Enjeux des performance OCR.
PERO OCR moins performant peut être mais confiance dans les données extraites.
LLM très puissants mais gros risque d’hallucination qui peuvent paraître très crédibles.
Préfère partir sur une expérience classique puis partir.
Thomas, Alan, Robert Gaizauskas, et Haiping Lu. 2024. « Leveraging LLMs for Post-OCR Correction of Historical Newspapers ». In Proceedings of the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA) @ LREC-COLING-2024, édité par Rachele Sprugnoli et Marco Passarotti. ELRA and ICCL. https://aclanthology.org/2024.lt4hala-1.14/.
Utilisation Mistral et BART pour la post correction. Fonctionne plutôt bien mais finetuning.
F{\’e}ral, Jo{"e}l, Joseph Chazalon, et Marie Puren. 2025. « Producing Structured Data from Historical Sources: A Preliminary Application to French Senate Tables ». Anthology of Computers and the Humanities 3: 904‑20. https://doi.org/10.63744/oXn2aMxza3iJ.
Producing Structured Data from Historical Sources: A Preliminary Application to French Senate Tables
Sources importantes pour les entités nommées et pour pouvoir produire des données propographique et analyse thématiques, etc.
OCR ignore habituellement les information de mise en page et de structuration. Problématique pour nous car une source très structurée.
Idée de contraindre la sortie en combinant IA et OCR classique. Mistral 9B instruite par l’intermédiaire API Mistral. Poids public mais aussi rapide et pas cher. Fonctionne assez bien en zéro shot. Pas vraiment besoin de
Transcription avec PERO-OCR car fonctionne bien sur nos sources. Idée de faire un prompt définissant une sortie contrainte. Injecte le schéma. Fonctionne plutôt bien. Forte limitation des hallucinations et obtient plutôt de bons résultats.
Guider la génération pour produire des données structurées possible. Doit généraliser.
Traiter beaucoup les prompts comme qqch d’accessoire. Considère qu’un objet scientifique à part entière que doit conserver. Une métrique mise en place IMQ plus adaptée à notre objet que le rappel. Integrated Matching Quality (IMQ): A Robust Evaluation Metric
En histoire des métadonnées. Défi d’interprétation : abondance de données, mais difficultés d’exploitation. Problème central : la traçabilité des sources dans un contexte d’usage croissant des LLM. Limite des modèles : les LLM peines à gérer le contexte long des documents historiques où les informations pertinentes sont dispersées sur de nombreuses pages.
Souhaite utiliser RAG de manière pertinente pour nous. Doit pouvoir segmenter correctement les documents. Retour à la source et précision des réponses, dans notre cas très influencé par le contexte. Or les LLM ont du mal à traiter les contextes longs.
Plusieurs études comparatives pour déterminer la technique de segmentation la plus appropriée pour nous. Une question essentielle pour ce genre de travaux.
La manière dont on découpe ou structure un corpus influence de manière déterminant la capacité à retrouver des informations.
Xtokens donne de bons résultats en apparence, mais séquences tellement longues que résultats peu pertinent. Par contre découpage plus fin par prise de parole. Bien meilleur compromis. Meilleure localisation de la réponse. Ok pour le coût computationnel. Moins de texte par segment et pertinence accrue. Étape supplémentaire de reranking. Première classification des documents, puis modèles repasse pour améliorer le classement. Augmente de manière drastique la pertinence mais coût de calcul important.
Pelletr, Puren Peres 2025 HistorCA Multi-Hop pour pouvoir tester les questions. Développement d’un set pour évaluation.
Pellet, Aurélien, Marie Puren, et Julien Perez. 2026. « HistoriQA-ThirdRepublic: Multi-Hop Question Answering Corpus for Historical Research, Parliamentary Debates from the ». janvier. https://hal.science/hal-05438255.
Attribue ID à chq doc. Essaye avoir une question que conserve, et jeu évaluation. Définition d’un template. Evaluer set de questions réponses. Génération automatique des questions. Réponse validée = ground truth, et réponse du RAG. Ensuite utiliser LLM as a judge pour évaluer sur 1000 questions.
Une manière de simuler le raisonnement historien en l’intégrant dans la manière dont fonctionne. Benchamark très utile pour nous. S’est aperçu que nul lorsque doit croiser des sources. Pas vu immédiatement. En revanche d’excellentes réponses sur un document.
Faire dialoguer la machine et l’historien.
Travaux HumaNum sur le pre-targetting. Idée de réduire en ciblant.
Lucien Febvre, Combats pour l’histoire 1953 : négocier alliances nouvelles. Dans leçon inaugurale les années 30 lors entrée au Collège de France.
LeRoy Ladurie
IA sources perdues, augmentation de données, nouvelles portes pour explorer ces sources.
Négocier
Question sur hallucination
Niveau de validation, etc. Enjeux d’interface. Problème que pas d’argent de ce côté là. Voudrait terminer le projet ANR et demander argent pour intégrer interface. Pour voir comment peut donner accès à ces sources de manière.
Modélisation de sujet : sujet une liste de mots. Peut faire remonter des sujets de cette manière. Permet d’avoir des listes de mots, etc. Ne l’a fait que interdébat. Saut entre sources pas évident.
Limites IA générative. Quel statut donner. En réalité des limites qui sont également très humaines. Est-ce que un enjeu de l’ordre de l’outil, ou bien traiter cette chose comme un assistant et l’envisager avec ses limites, ses points de vue, etc ?
Pour l’instant l’utiliserait comme un assistant avec ses limites. Par contre doit en être conscient. Quand demande un travail à un stagiaire n’obtient pas les mêmes résultats. Ne pas être naïf. Sur la question de l’idéologie intégrée dans les modèles en réalité, se pose encore assez peu la question.
Segmentation des textes. Nb de token défini a priori. Savoir si travail sur la segmentation naturelle des textes. Oui par utilisation d’expressions régulières. Séance définie par un titre en majuscule. Premier repérage, puis tour de parole : saut de ligne.
L’année passée construction d’un RAG pour les membres du CRIHN, enjeu de segmentation des textes. Rabattu sur la segmentation naturelle. Besoin d’avoir le contexte hiérarchique. Projets encadrés par le professeur ayant ses projets de maîtrise et doc. Projets des profs. Des faits très différents. Mais les mêmes si analyse syntaxique. Oblige à remonter au niveau supérieur pour qualifier.
Multi-Hop
HistryQA qui ne soit pas que 3e République. En français.
Question sur l’utilisation de référentiels. IA symbolique.
Très lié aux chaînes de travail. Question du design des interfaces.