| Tags | histoire, dh, crihn |
|---|
13 et 14 mars 2025, CRIHN
Jean-Fran!ois Palomino, Michael Sinatra
Marie Puren (EPITA, Paris), L’histoire à l’ère des grands modèles de langue. Défis, enjeux et perspectives
Soutenue thèse sur Jean de la Hire, ENC. Master ENC et Sciences Po. Prof agrégée histoire à Epita depuis 2022. Responsable Méthodes.. sciences humaines. Porte parole d’Humanistica.
Conférence parfaitement biaisée car basée sur mes travaux et n’a pas vocation à montrer tout ce qui peut être fait avec les LLM et ses différentes applications.
Stéphane Lamassé et Rygiel, Nouvelles frontières de l’historien.
Cette soudaine effervescence est liée à la conscience nouvelle [...] mutation des conditions de production et de diffusion des connssaires historiques, voire de la nature de celle-ci
2014 avènement des réseaux de neurones mais aussi des GAN. Publication de Word2vec par Google. Transformation des mots pour sémantique. Bilan alors qu’historiens utilisent depuis nombreuses années informatique pour faire de l’histoire.
Premier constat, l’informatique permet de traiter des sources. Moment où de nombreuses sources sont numérisées. Exemples de collaborations avec la Bnf ou BaNQ. Inflation des sources numérisées qui permet de faire de l’histoire depuis chez soi. Se pose alors la question de pouvoir faire plus que de les consulter. Possibilités extraction et exploitation de ces documents.
Clavert qui dans un article publié en 2016, Une histoire par les données. Parle de mise en données du monde. Notion de dataification popularisée en 2013 par Viktor Mayzer-Schonberger et Kenneth Cukier, Big data, A Revolution that will transform how we live 2013.
Mise en données, en tableau. Pas attendu informatique (cf. administration). Création de doubles numériques qui vont plus loin que production de sources numériques. Comme l’explique Clavert, un processus qui va de la numérisation du document à son analyse sous forme de données. On part de la source et arrive à des données.
Projet ANR, TIME-Us. Rémunération et budget temps dans l’industrie textile. cf. Marie Puren. Digital Humanities in the Time-us project.... https://arxiv.org/abs/2410.14222
Comment passe-t-on de ces soures aux données. Un processus pas si simple à mettre en œuvre. Cf. Adeline Daumard, Données économiqeus et histoire sociale 1965. Pionnière de l’histoire quantitrative. https://www.persee.fr/doc/reco_0035-2764_1965_num_16_1_407640
certes tout ce qui relève de la description sociale n’est pas mesurabel, mais un des objectifs ...
Lorsque travaille sur ce genre de projet, confrontés à des sources de données très hétérogènes. Encodage en XML-TEI. Un des projets fondateurs des DH. Important en terme d’annotations. Part de la source, HTR et passage à un encodage sémantiquement annoté en TEI. Repérage systématique possible.
Des données nouvelles tant du point de vue de leur forme que de leur volume. Alors que peut bénéficier de l’IA. Hannu Salim, What is Digital Humanities.
2017, Google présente le Transformer, mécanisme basé sur l’attention. Permet de traiter des types de séquences nouvelels. 2020, GPT et BERT, modèles pré-entraintés. GPT2, et 3 capacités importantes pour générer du texte de manière cohérente. Suscite des préocupations éthiques, etc. BERT transforme texte en vecteurs. Roberta qui permet d’améliorer capacité de BERT pour reocnnaissance entités nommées. 2023 GPT3.
Émergence de modèles de plus en plus grands et début du multimodal. Aussi traitement des images. Nous sommes entrés dans une nouvelle ère où les modèles de langues sont devenus omniprésents. Il y a un avant et un après les Transformers.
Architecture qui a profondément transformé manière travailler sur le texte. Mécanisme d’attention. Contrairement aux réseaux de neurones qui utilisent globalement un traitement séquentiel, les transformers tiennent mieux compte du contexte, et généralement plus efficaces.
Architecture encoder/decoder qui repose sur deux étapes, encodeur qui analyse information ou une phrase et un decoder qui produit et génère une phrase. Production de texte naturel, très modulaire et possible adapter à nos besoins. Possibilité d’étendre les mécanismes d’attention.
Nombreuses applications possibles : analyse de sentiment, analyse de textes, etc.
Un avant/après ChatGPT avec depuis 2023 des modèles de plus en plus puissants entraînés sur plus de paramètres qui permettent d’envisager de nouvelles applications.
Modèles comme LLAMA, MIstral 7B et 8B, CLIP, DeepSeek, etc.
« Anything to text » actuellement possible passe.
Exemples d’applications. Conférence Emmanuelle Bermès.
Particulièrement intéressée par le fait de passer de l’image au texte. Travaille principalement sur de l’HTR. Part de collections numérisées et extraits des documents que peut explorer et recherche.
Pipeline utilisée relativement classique. s’intéresse beaucoup aux données sérielles issues des archives administratives, grands corpus réguliers. TRavaille sur des annuaires SoDUCO, ou Archives parlementaires 1870 à 1940.
Documents qui présentent une forme régulière. Facile d’extraire du texte de documents souvent rébarbvatifs.
Méthodes X-Y cut classique et pas basée sur l’IA. Permet de produire une analyse de mise en page.
Aussi utilisation de méthode « sur l’étagère » et pas forcéement redévelopper. Par exemple utilisation de PERO ocr qui a de très bonnes performances sur les textes imprimés du 19e.
Annuaires du commerce, utilisation modèle BERT pour reconnaissance d’entité-nommées dans un projet qui avait pour but de reconstituer l’évolution du Paris 20e dans l’évolution des professions.
Il est aussi actuellement possible avec les transformers de traduire une image en texte. Comment travailler sur des textes très différents. Time-US approche qui ne fonctionne pas bien car mise en page irrégulière et hétérogénéité des documents.
Actuellemnet une révolution dans le traitement des documents. Des approches où va globalement traiter les images. Repérer les mises en page puis le texte. Prédire directement la mise en page et le texte et tt extraire d’un coup. Gros potentiel pour pouvoir extraire le contenu de tableaux anciens et les transformer en csv. Lié aux évolutions de la vision par ordinateur mais aussi transformer.
- DAN Dual Attention Networks diverses architectures.
- IDefics3
- Donut
Limites de ces systèmes, les entraîne sur un type de document mais ne fonctionnent que pour ces types de documents, plus difficiles à généraliser.
Problème des LLM qu’ils inventent des choses. Un gros enjeu pour les historiens, gardiens au sens diplômatique des objets.
Let’s discuss
- pouvoir parler avec ces corpus, quelque chose permis par les LLM
Emmanuel Le Roy Ladurie et Pierre Couperie, Le mouvement des loyers
Il me semble cependaant [...] les techniques modernes, issues des ordinateurs...
RAG retrieval Augmented Generation approche qui permet de très grands corpus en les combinants avec une fonction de recherche. Ici s’intéresse à un corpus pré-défini. Ici va limiter les hallucinations en se concentrant sur un corpus bien délimité. Approche qui émerge en 2020, conçue pour améliorer les robots conversationnels. Intéressant car permet de parler à un corpus numérisé. Une approche fondée sur le prompt-engineering.
D’un point de vue purement patrimonial, recherche documentaire qui permet de faire plein de choses. Résumé de document, concis et pertinent ; Extraction d’nformations clés ; Réponses à des questions spécifiques. = Une vraie avancée pour la recherche documentaire.
Un module de récupération retriever qui permet de rerchercher les contenus pertinents et un modèle de génération qui va produire les réponses.
Recherche d’information révolutionnées car utilisation embeddings pour représenter des questions et les documents, puis calculer la similarité afin de séelctionner les passages les plus pertinents à partid ’une base de données. Calcul de similarité entre les questions et les documents. Génération de la réponse.
Qualité des réponses qui va évidemment dépendre de la base de données et de l’étendue du corpus. Possibile de circonscrire la recherche, réduction du risque.
Exemple d’application. Explorer els archivesdu web avec WARC-GPT, Fireside CHAT. Archives du Luxembourg e-luxemburgia chat
Gain de temps et efficacité. Augmentation de la confiance dans ces modèles. Précision et faisabilité. Connaît la source de la réponse. Possibilité de travailler dans des corpus multilangues.
- La presse ancienne mais pas d’historien
- les débats parlementaires
Les débats parlementaires français. Chambre des députés 68 années disponibles, 10 à 12 000 pages annuelles. Un corpus sériel, très régulier et très volumineux mais pour lequel dispose de très peu de point d’entrées. Principalement plein texte.
Dates des projets de lois. Mais pour heuristique limité. Possibilité de tester les limites de l’approche RAG.
Octobre ... lors d’une conférence présentation de ses travaux par Aurélien Pellet, Historical research challenges...
Savoir si peut extraire informations pertinentes et retour constant aux sources.
Besoin de mettre en place une stratégei de segmentation. Comment découper les documents de manière optimale. Annotation automatique des métadonnées pour améliorer la récupération des segments. Des questions générées par un LLM ont été utilisées pour évaluer la qualité des réponses du modèle.
Limites en termes de longueur contexte pour les modèle RAG. 120 000 tokens pour LAMA3. Volumes trop impotrant. Besoin rduire taile des entrée tout en conservant la cohérence contextuelle, optimiser al précision du modèle et limiter les hallucinations. Retriever, doit donc être capable récupérer les bons documents.
plusieurs stratégies possible
- segmentation naturelle, de type documentaire
- segmentation par similarité sémantique qui permet de récupérer des fragments proches
En réalité les approches qui marchent le mieux celles qui respectent le découpage documentaire. Il y a une cohérence interne dans nos écrits.
Annotationd es segments avec des métadonnées qui permet d’améliorer la structuration des réponses. Qui parle et qand, détection du thème, génération de résumés. Et réduction des hallucinations. Approches avec modèles BERT, détection des thèmes dans les sections. Résumés automatiques et stockage des résumés. Fonctionne très bien d’ajouter des métadonnées.
Deuxième pahse en cours, validation des questions par une experte du domaine.
- Validation des questions, identifier les réponses qui manquent. L’historien spécialiste du domaine qui va pouvoir valider les réponses. Souvent le plus grand biais des approches envsiagées.
Silvestre de Sacy, FAci, etc. Pre-targeted RAG. Avec de corpus très ciblés. Classification de sujets à partir de métadonnées d’articles.
Mezanno.xyz Exploitation des graphs de connaissance également très prometteuse. Données des informations supplémentaires sur le corpus. Représentation structurée de l’information. Ajout de métadonnées bien permet d’avoir des informations pertinentes.
Nbses architectures de RAG. Graph-RAG qui prédéfinit un graph de connaissance avec IA. Méthodes de détection de communautés qui permet de cibler des parties du corpus sémantiquement pertinentes.
Article de microsoft
Géovistory
L’historien doit rester aux centre de la conversation
Lucien Febvre, Combats pour l’histoire, Paris : Colin, 1953.
Entre disciplines proches ou lointaines, négocier perpétuellement des alliances nouvelles; sur un même sujet concentrer en faisceau la lumière de plusieurs sciences hétérogènes : tâche primordiale, et de toutes celles qui s'imposent à une histoire impatiente des frontières et des cloisonnements, la plus pressante sans doute et la plus féconde.
Explicabilité Reward reviviable ?? Approche où utilise LLM pour voir si fonctionne en pas.
Modèle de récupération embedding. Ce qui est moins explicable, la génération de réponse. Pour moi des débats qui ne sont plus à jour, car passe moins par des techniques explicables. Même si comprend critique par les gens qui font de l’analyse du discours. Mais RAG créée confiance car similarité cosinus.
Pb passage par le langage et RAG
Importance des métadonnées pas suffisamment mise en avant précédemment. Mais manière de reprendre le contrôle et de faire entrer des connaissances propres à l’historien sur le corpus. Sans doute une des pistes de travail surlequelles avance.
Connaître son corpus important. Ne va pas pouvoir répondre à des questions trops vastes. Important de considérer l’aparat du modèle pour essayer d’obtenir des solutions qui nous intéressent.
Martin : Comment va revenir vers l’historien ? Ici matériel très important, une dimension citoyenne aussi. Que donne-t-on à l’utilisateur et comment l’entoure pour qu’il comprenne le traitement qui a été fait ?
Pour le grand public, important que soit sourcé. Avoir une interface qui existe, pouvoir définir des sous-corpus. Travailler années, ou élu particulier. TT est ouvert, montrer sur quoi cela se base.
Caroline : actuellement personnes avec des niveaux très hétérogènes. Possible insularité technique. Comment lorsque va produire un article très intéressant, montrer la méthodologie pour qu’un expert puisse comprendre ce qui se passe. Car pose très clairement la question de la narration de l’histoire. À vrai dire, articles historiens, etc.
À terme pouvoir aussi le plugué à Gallica et proposer des formations interne. Peut-être créer des exercices et des séquences pédagogies.
eXAI explicable AI. Peut construire corpus très différents sur plusieurs corpus. Facile de monter des RAG naïf. Approches généralisables si les données en entrées sont de qualité. Approches tt à fait généraliste.
Joanne Burgess (UQAM) : Les systèmes d’information géographique historique au service de la recherche et de la mobilisation des connaissances : l’expérience du Laboratoire d’histoire et de patrimoine de Montréal
Johanne se définit comme une historienne qui a développé une capacité à parler des enjeux qui nous intéressent comme historiens.
LHM depuis 2003, depuis 2011-2012 intéressé d’avantage à l’intégration du numérique sous l’impulsion de Léon Robichaud. Développer des outils numériques, investir dans la modélisation 3D/4D. Et depuis 2015, un tournant plus marqué vers les SIG et la réflexion et le développement de laplateforme SCHEMA, Système de cartographie de l’histoire de Montréal.
Un outil précieux à des fins de recherche et de mobilisation des connaissances. Applications utiles et précieuses pour les partenaires pour permettre valorisation des collections ou appuis aux chercheurs ou institution. Éco-musée du tiers monde.
Espaces privés ou publics.
Plusieurs exemples, industrie de rtansformation alimentaire du Centre-Sud 1890-1993. Exposition musée tiers monde. Partie intégrée exposition permanente. Choix années où documentation disponible. Représentation au sol des emprises. Borne in situ qui permet d’observer l’évolution d’un secteur.
Idem brasseries
Vendre la banlieue aux Montréalais. Dans le cadre recherche sur expansion et développement banlieu montréalaise fin 1890. Recherche appuyée sur des publicités. Important de pouvoir intégrer dimension spatiale et chronologique. Ligne de temps plus fine pour tenir compte langue, etc.
Les épiciers du Vieux-Montréal victoriens. Comprendre évolutions caractéristiques et implémentation spatiale.
Géolocalisation des albums de rues Massicotte
Investissement du laboratoire dans les technologies numériques, s’est avéré très riche. Intéressant de voir comment expertise et habileté s’est améliorée dans la présentation et capacité intégrer des images. Expériences récentes de développement application mobile (projet avec Parc Canada). Projets menés pour un chercheur ou en coproduction avec un partenaire, dans tous les cas une application sur mesure conçue pour un projet donné avec réflexion sur les besoins et les publics.
Sur diff avec projets geocarto historique projet MAP 3 bdd. Formation des corpus documentaires mliés aux questions de recherche. TT est possible mais dépend des questions. Partage des bdd. Marie Eve Artand
Soucis pérennité, entente bib UQAM pour héberger biblio. utilisation mm back-end. Question pérennité un enjeu majeur. Un modèle sur le plus pt dénominateur commun, mais pas de standardisation mm si apprend des projets.
Andreas cela ressemble bcp à ce qui est fait en Europe avec les Time-machine. Avez-vous projets public history. notres stratégie au labo comme partenariat. nous souvent en soutien aux partenaiures pour développer projet. ex Massicotte.
Dimensions de la parenté à travers le parcours de vie, le temps et l’espace. Québec, 1621-1861. Réseaux des apparentés
Population forte fécondité mais très forte mortalité infantile. Structure de parenté qui change fortement au cours du parcours de vie.
étudie 1er et 2e degrés. Systèmes complexes qui évoluent au cours du temps. En partie auto-organisés. Nb père mère limité par la biologie. Autres éléments dépendants des comportements matrimoniaux.
Contraintes spaciales qui a des conséquences sur la disponibilité. Besoin d’avoir accès à des données généalogiques très développées. Accès au registre de la population du Québec ancien RPQA. 1621 à 1861 ! totalité des personnes catholique ayant vécu au Qc et enregistré leurs actes. Qqs protestants et auto.
2,3 M individus en bdd.
Moyenne nb parenté 1er et 2e degré. 200 en moyenne. Baisse continue depuis le 20e. Groupe des apparentés dominés par les cousins et nièces et neveux. Change dans le temps.
Il est aussi intéressant de regarder les distributions. Moyenne 200 mais des écarts types 73/60 des grandes disparités 6 à 160. Grande variation de famille à famille.
Certaines familles réussissent plus que d’autres. Succès reproductif des générations des parents et des grands parents.
Exemple, distribution des liens de parentés par âge. Voit que des fluctuations à travers les parcours de vie. Question des apparentés vivants et disponibles. Certains nés déjà perdus père ou mère. En fait les nièces et neveux qui émergent pendant la vieillesse comme aparentés avec potentiel aide plus que les enfants. Pour pouvoir créer ces informations, besoin des données de décès. Donc limitations. Donne bon profil distributions au cours du temps.
Trois études de cas. Technologies de visualisation de réseau avec Gephi. Plus facile pour certaines communautés. Choix commnauté Baie StPaul, Montréal et Boucherville.
Au départ, liens proches, puis devient plus dense. Tt apparentés.
Montréal, très différent, beaucoup moins lié. Au départ fratries, puis grappes. Liens bleux, mariages. Taille moyenne des chemins. Indicateurs très différents.
Variation sur le potentiel de migration
Intinéraires. Diachronie.
Big data et profilage individus.
Modélisation
Visualisations versus indicateurs quanti : betweeness, etc.
Jean-François Palomino (UQAM) : « Le potentiel et les défis de constitution d’un répertoire géographique de toponymes anciens »
Histoire de la cartographie dans le contexte colonial Nord-Américain. L’ont fait découvrir une masse documentaire exceptionnelle conservée aujourd’hui dans les archives françaises, ou les collections publics. Fonds cartographiques, utiles en contexte colonial. Prendre connaissance de territoires convoités.
Constate en occident, certaine standardisation de ces cartes, vocabulaires graphiques, éléments de code visuels, échelles, etc. Vauban impose en Fr codification et envoie arpenteurs et cartographes en Nouvelle France.
Côtes mais aussi intérieur du continent. Populations nombreuses et du castor en quantité. Un langage pertinent pour un empire qui veut consolider ses assises. Droites, courbes, points, couleurs et aussi noms géographiques.
Beaucoup de cartes et donc beaucoup de toponymes, noms géographiques qui aident à s’approprier les lieux. guillaume Delisle. Cartographe de cabinet.
Depuis nb année commencé à compiler des noms topo. Cherchait surtout à comprendre l’origine des connaissances coloniales, qui comprend qui. Yoga mental ! Récompensé en constatant à quel point des indices révélateurs.
Ex. Guilaume Delisle, emprunt systématique autre cartographe. Publie cartes de la nvll france. Nommé premier géographe du roi, Louis XIV. Nommé membre académie royale des sciences.
Pourquoi ne pas en faire bénéficier tous els chercheurs. Plusieus répertoires internationaux. Mais s’intéressent assez peu aux toponymes historiques. Exemple ancien nom de Montréal.
Esprit d’ouverture des données. Besoin identifier noms de lieux transcrits dans les répertoires archives.
Depuis longtemps histoire toponymique a fait ses preuves. Documenter environnement physique et historique.
Utile pour localiser emplacement populations auto.
Mais pas d’analyse exhaustives en masse.
- apprécier influence auto
- Géographes européens ont-ils tendance à se copier
- Densité représentative présence coloniale ?
- disparition topo auto représentative processus aculturation territoriale
- ...
Sources diverses
- cartes
- archives intendance, judiciaires
Bien sûr biaisé mais pour cela qu’intéressant
Actuellement 1541 topo auto, connaissance qui se transmet. Intéressant aussi de pouvoir les traduire et trouver locuteurs pour en permettre l’interpétation.
Structure des données : bassin des sources dépouillées
Exemple David Ramsay, et Turing Institute. Reconnaissance par mots au lieu des chaînes de mots, ce qui est une limite. Différence liée à écriture manuscrite.
Actuellement 21000 occurences pour 7600 entrées ~.
Limites de la bdd pour les changements de noms. Contourne le pb avec liens entre les fiches.
Comme coordonnées géo, classement possible sur des cartes avec Schémas. Cordonnées et centroïde. Rivière = embouchure. Aperçu de la véritable nouvelle France telle que
Tiohtia:ke, communauté Kawanaké et Pointe-à-Caillière. 375 anniveraire, rappeler que avant cela occupation auto que voulait faire connaître en intégrant les savoirs issus de l’archéologie et l’histoire orale. Idée de coconstruction du savoir. Essayer de reconstituer un narratif plus inclusif.
Méthodes
Numérisation de collectiosn d’artéfacts, larges bases de données centralisées. Rendre cette collection et ces archives accessibles. Un défi pour les communautés pour accéder aux collections, déjà le cas pour les chercheurs. Assembler ces collections en les numérisant.
Reductible. Possibilité de reproduire ces analyses. Parfois communautés qui posent la question de savoir comment sommes arrivés à ces résultats. Faciliter cet objectif.
Formation. Mais aussi former leurs propres étudiants et nouvelle génération de chercheurs dans leurs communauté. Très peu nombreux dans les communautés.
Autonomisation. Permettre formes de réapprorpiation de leur histoire qui est entre les mains d’institutions « coloniales », à défaut de pouvoir ramener les objets eux-mêmes. Pas toujours souhaité.
Valorisation. Et la faire connaître. Un nouveau centre culturel en cours de construction.
Empowerment et capacity building.
Empouvoirement
A Digital Bundle. Données numériques. Outils numériques comme outils de résistance et de résurgence autochtone pour faire revivre des savoirs autochtones parfois oubliés ou en dormance.
Numérisation plus que produire des versions numériques des collections. Des objectifs beaucoup plus importants pour les partenaires avec qui on travaille.
Concrètement : collections numérisées avec des jeunes chercheur. Grande quantité de poteries. Matériaux de prédilection pour l’archéologue. Numérisées et disponibles sur site internet. Série de photographies par site. Photo HD.
Analyse de réseaux sociaux qui parce que dispose de données numériques en très grand nombre d’analyser des phénomènes à très grande échelle. Pas nouveau ailleurs mais nouveau pour nous de pouvoir analyser ressemblance stylistique.
Une méthodologie que nous ont demandé d’appliquer. Les partenaires qui déterminent les méthodologies que l’on emploie. Mais scientificité reconnue.
Iroquoiens du StLaurent peut être des intermédiaires entre deux grandes nations auto. Lorsque disparaissent ou dispersés fin 16e, reconfiguration du réseau qui se met en place.
Sites wendat qui forment des ensemble plus vastes et cohérents que les iroquoens ou ashinabees, structuration semble-t-il plus lâche. Mais extrapolation forte car céramiques.
Idem avec les pipes. Rôle des femmes pivot social au sein de la communauté. Situation historique bien antérieure à l’arrivée des européens.
Projet Onkwehon:we
Beaucoup plus larges, nb institutions organismes. 72 chercheurs, 42 institutions, 5 pays. 15 projets, un partenariat de recherche.
Partenariat collaboratif. Développer de nouvelles connaissances axé sur trois grands axes : territoire, identités
Des documents d’archives.
Restes humains dispersés : inventaire numérique. Catalogues désuets et termes parfois choquants. Tout un travail pour produire un inventaire numérique.
Numérisation > recherche > dissémination
Dépôt central de données numériques, hyperlien. Carte interactive et outils de visualisations multiples. Bdd articles, etc. Cartes distribution approximative des nations, que puisse cliquer pour visualiser éléments pertinents. Toponymes, artefacts, etc.
outils de dissimination pour faire connaître ces savoirs auto. Plusieurs défis, numérisation tâche colossale. Question des accès et des droits intellectuels qui va être compliqué. Parfois protocoles de recherche qui peuvent entrer en contradiction. PCAP redonner aux communautés les moyens de travailler avec les données. Y compris données sensibles, comment standardiser, etc. Inégalités des littératies numériques.
Stratégies d’accès divers. Versions numériques et ombrage aux collections physiques dont doit s’occuper. Oubli mais aussi instrumentalisation.
Structure de gouvernance qui va permettre la prise de décision et gestion des données. Doit respecter propriété intellectuelle. Mais quand il est question des connaissances qui émanent des communautés qui parfois ne sont pas faites pour être partagées et distribuées. Exemple propriété médicinales développées par sociétés pharma à partir savoir auto. Mais aussi données sensibles comme conflits antérieurs entre les nations que ne veut pas remettre sur la table. Instrumentalisation blogosphère. Deux fois où a fait des déclarations reconnaissance territoriale, enflammé.
Mowak très vocaux. Ne risque-t-on pas appropriation au profit d’une communauté. Certain que les mohaw de Kanha aiment à rappeler qu’émane d’eux. Nous rappelons souvent que communauté où chacun de place. Tous égaux ou certains plus égaux que d’autres ? Veut absolument éviter la censure. Pas d’informations qui seront enfouies si informations qui ne font pas l’affaire d’une communauté ou d’une autre.
Questions techniques...
LaCogency BaNQ faire bdd en langue français et autochtone. Idée de faire gros. Rencontre prévue le 2 avril.
Rappel sur le travail manuel. Passage au numérique. TurboXT 644Ko de mémoire. F10 pour sauvegarder texte.
Les DH ont changé de fond en comble ma manière de travailler mais aussi de reconstituer mon travail historique et de faire sens avec les archives.
IA qui a révolutionné mon travail. Va de plus en plus vite depuis les années 2000 et difficile pour un cerveau humain normalement constitué de suivre.
D’où l’idée de faire cerveau collectif. Plusieurs partenariats. Fabrique de l’histoire montréalaise qui réunit institutions, acteurs universitaires et amateurs. Nouvelle France numérique. Partenariats qui sont nés d’un désir de travailler ensemble.
IA qui révolutionne nos pratiques, pour valorisation, partage et traitement exhaustif des sources.
Donner le goût de l’archive à l’ère numérique. Partie de titre emprunté à Arlette Farge car une amoureuse de l’archive. Mais avec le temps, grâce à la numérisation fait de moins en moins de déplacement aux archives.
Le projet Donner le goût de l’archive s’est donc fondé sur l’IA qui révolutionne façon de travailler. Seconde phase s’achève, aujourd’hui regarde comment continuer à faire vivre le projet, au sein du CRIHN mais interelié avec NFNUm ou projets de Gates-Saint-Pierre.
Révolution technosociale. En 2017, avait demandé à Susane Goosse de transcrire des témoignages d’esclave. M’a répondu que déjà transcrits pour une autre collègue. Le lui a demandé. Et envoi procès au complet 300p. Très généreux de sa part. Idée forum réunissant chercheurs pour partager ces transcriptions faites péniblement qui par la suite risquaient de mourir dans les ordinateurs.
Se réunir et se mettre d’accord sur la leçon que chacun aurait fait. Déposer une transcription collective à BaNQ pour que soit disponible pour le plus grand nombre. Réponse immédiate, aussi généreuse qu’enthousisaste. Et s’est immédiatement fondé un cerveau collectif fondé sur l’expertise sociale et intellectuelle des chercheurs et des amateurs.
Fait naître l’Atelier permanent d’analyse documentaire APAD et partenariats intereliés témoignant d’une révolution qui s’opère aujourd’hui dans les archives.
Objectif commun prendre possession exhaustivement d’inombrables archives. Initiatives foisonnes au point que difficile d’en rendre compte clairement car toutes reliées. Tt ces initiatives ont fait boule de neige. Nfnum, fabrique histoire montréalaise, etc.
Magie de départ de l’IA et comment se met au service de l’histoire et repousse les horizons de la recherche. Au départ partager les ressources archivistiques du premier baillage de Montréal. Numérisation et croisement de BDD uniques au monde. PRDH, Archives judiciaires.
Production de modèles de transcription HTR très performants. Mais outils devenu un outil technosocial qui me permet d’initier les étudiants au maniement de manuscrits et à leur maîtrise. Transcription automatique des écritures mais aussi le traitement massif des sources et la recherche plein-texte.
Changement radical dans l’ampleur des sources mobilisées.
200 000 pages écrites en vieux français numérisés, transcrites et partagées.
Partenariat avec institutions culturelles et développement de littératie numérique. De même que gestion des données de recherche.
Mots-clés pour l’avenir
- collaboration collaboratif
- traitement pour le plus grand nombre
- usage citoyens
- littératies numériques et gestion des données de recherche
Leviers pour faire face aux différences culturelles entre acteurs institutionnels universitaires ou amateurs : l’exemple. Les gens en demandent.
Le care aussi, démystifier les enjeux. Un peu comme la médiatrice dans ce domaine. Insister sur le côté humain.
Collaboration avec BaNQ, production IR et réintégration des données.
Une enquête que mène depuis 2017 avec Frédéric Clavert. Composée en plusieurs sous-projets, cas général.
Ce projet a débuté avec Le goût de l’archive à l’ère numérique 2017-2021. Partis de l’observation que la description de l’expérience que donnait Arlette Farge était complètement déclassée par le numérique et qu’il était important de reconsidérer le rapport affectifs des historiens aux sources numérisées, ou leurs pratiques sur les archives.
Premier ouvrage collboratif réunissant des retours d’expériences variées. Parchemins, radios, flux de données. S’est rendu compte que tout le monde n’avait pas le même goût de l’archive que parfois différents et enfermant de poser la question comme cela.
On a donc glissé vers dénomination plus large, celle des cultures historiennes numériques pour comprendre ce que tout le monde faisait sur son ordinateur. Observations des petites pratiques devant les archives, relevé des posts sur internet. Échange avec les archivistes. Mais aussi exploitation des parties méthodologiques des thèses de doctorat.
Permis d’inventorier et de documenter diverses manières de pratiquer l’histoire à l’ère numérique. De pratiques simples et communes à des pratiques très instrumentées.
Chemin faisant s’est rendu compte que série de gestes quotidiens jamais observés comme gestes de recherche : photographier un fond, faire une recherche dans un moteur, télécharger images. Ensemble de petits gestes dont ne considère pas suffisamment les conséquences sur les pratiques parcequ’elles sont à l’ombre des pratiques des Humanités numériques.
Échantillon de thèses 2023-2024. Petit sondage à partir de plusieurs entrepôts institutionnels. Constitution d’un échantillon exploratoire. Critère sélection : travaux en historie, pratiques archivistique, niveau doctoral. Retiré les mémoires.
Observer les pratiques numériques discrètes ou moins discrètes dans la manière dont étaient racontées dans les thèses. Un bon outil d’observation des pratiques récentes et spectre relativement large de qui fait quoi. Mais aussi des limites, dont ne peut tirer conclusion hâtive, un format spécifique, contraint qui va avoir des effets sur ce que présentent les historiens. Un rite de passage qui fait que sélectionne ce que l’on montre pour accéder à un grade.
Aussi des temps de dialogue ou de constitution de l’identité professionnelle. Or, s’est rendu compte que modèle de l‘historien encore très associé à la poussière et la fouille de documents anciens. Les rédacteurs tendance à coller le plus possible aux représentations du métier qui ne sont plus réellement associées à la réalité des pratiques.
Statistiques de consultation en salle qui ont radicalement chutté depuis quelques années. Décalage qui s’opère entre une forte stabilité du modèle de l’historien et l’évolution des pratiques. Analyse sociologique histoire des professions.
Regardé les parties où normalement déploie précisions méthodologiques.
Premier constat, les formats sont extrêmement stable. Depuis 20 ans, parties, et présentation. Plus étonnant encore présentation des sources et des documents très stable alors que sait que numérisation des effets radicaux.
Indice d’un bougé. Trois thèses différentes présentant des imprimés ou des manuscrits consultés dans le cadre de la thèse. Pas d’indication du fait que les corpus soient numérisés. Or, sondage qui montre que principalement sources numérisées. Or, y compris dans les citations, jamais fait allusion au format numérique.
Autre constat, les gestes et environnement numérique jamais envisagés. Ne les donne à voir que lorsque... identifiable comme HN. Conception qui réclame savoirs faires informatiques lourds. Tous les aspects pratiques ne sont pas mentionnés comme par exemple :
- recours à des corpus de presse numérisée en ligne (or; circule de plus en plus notamment international)
- usage de corpus numérisés. Nulle part, cite la cote, le numéro de fonds et jamais le lien de
- corpus constitués avec recherches par mot-clefs, ne le précise jamais
- toutes les phases de traitement de corpus : océrisation, procesus de traitement et correction, etc.
- mention du zoom, ou des traitements numériques appliqués
Tout cela pas forcément grave, après tout ne passe pas son temps à tt expliquer. Mais récits qui permettent enrichir récit historique, rendre plus sensible à la présentation des approches. Parler de la manière dont fait choix méthodologique discret valeur épistémologique mais aussi aider parcours possible du lecteur futur.
Expliquer pourquoi à distance, expliquer pourquoi tel ou tel choix. Sait que ce qui est en ligne...
Mieux peser le périmètre lrosque fait de même. Mieux rendre compte de l’assemblage parfois hétéroclite du corpus. Le mentionner expliquer ce que le moteur de recherche fait à un type de source. Assemblage thématique par moyen algorithmique. Aussi montrer qu’un corpus qui donne rapidement une vision ensemble. Partager les défis techniques, les problèmes de mise en donneés et améliorer en conséquence ce que peut faire ou pas avec tel ou tel type de sources ou de matériaux.
Ne pas lisser et linéariser des parcours qui n’ont pas tjrs été linéaires. Évident pour pratiques info lourdes. Mais
Pratiques de citation de la documentation numérisée : rapprocher la source de sa mise en récit et en preuve, visibiliser les corpus existants en ligne.
Vers une veille colelctive du paysage documentaire. Éviter des effets de surenquête et sousenquêtes.
Resserer les liens avec les archivistes et les documentalistes.
Prévoir aussi un point sur les moteurs de recherche. Quelles requêtes, pourquoi plus ou moins de résultats, etc. Permettrait rétroingénieurie collective des moteurs de recherche.
Ensemble de propositions ouvertes qui permettrait d’aller Vers une compréhension d’ensemble et cumulative des gestes numériques discrets et leurs effets sur les pratiques.
Corpus des guides de rédaction
Usage des LLM. Oui mais un peu ennuyé car souvent tabou. Faire admettre qu’il y a des usages discrets de l’IA un peu partout pas si simple car encore assimilé à un pb du côté de l’évaluation étudiante. Or, sait très bien que pas tous égaux côté écriture. Par conséquent difficile d’approche le cœre des pratiques. Forte polarisation ddans les discours : scandalisation et mise en avant pratique écriture histoire. De l’autre côté,
20-21 article L’Histoire au temps des algorithmes
Quid des gestes. Peut-on vraiment reconstruire des gestes à partir des sources écrites. Ne devrait-on pas faire de l’observation participative, développer un vocabulaire philologique pour voir et analyser ces gestes ?
Lisa Teichmann
Genre comme chez Butler ou autres fait référence à une construction sociale, des personnes qui s’identifient comme des femmes.
Présentation qui est le résultat d’un projet de recherche continu depuis postdoc. Thèse terminée en 2022, collecte données biblio sur la traduction à la Bibliothèque nationale allemande. Très tôt identifié disprortions de genr dans les traductions.
Seuls 3 des 20 les plus traduits des femmes. Observation pas surprenante. À partir de là que s’est intéressé au genre des auteurs dans la traduction et la canonisation.
- Deutsche Welle, liste 100 ouvrages à lire. 32 femmes sur 100. Ratio pas surprenant
- Index translation, les 50 premiers auteurs. Même disproportion 8/50 auteurs les plus traduits au monde.
- Le prix Nobel, 17% des 119 prix décernés au total parmi lesquelles 3 allemandes.
« Gender gap », sujet très discuté dans l’Université et ailleurs. Identification de plusieurs facteurs à l’origine de cet écart. Poter Snyder souligne que les femmes ne sont pas prioritaires dans la traduction.
Pour Jeny Bergenmar une question de visibilité des auteurs femmes.
Visibilté des femmes écrivains et blogs pour mettre en avant nouvelles traductions. Articles sur la canonisation de la littérature. Decanon
Peut-on observer même tendance dans les catalogues des Bib nationales = archives de la cannonisation.
DNB information genre systématiquement renseigné. Pour autant catégorisation très binaire. Mais aussi possible d’ajouter des attributs de genre personnalisés.
Phénomène de longue queue.
Écrivains les plus traduites. Une beaucoup en Hongrie. 79% moins de 5 titres traduits. Suelement 18 sur 1742 traduits dans plus de 20 langues.
Possible de rendre visible écart, rendre visible les femmes dans les collections. Réformer le canon de la traduction par la redécouverte.
Approche à la Bourdieu pour analyser espace éditorial.
Andrea Fickers, Comment penser l’entre deux ? Esquisse d’une herméneutique numérique pour le métier d’historien
Université Utrecht, puis Maastricht, directeur du C2DH ou aussi responsable du Digital History Lab.
Rédacteur en chef du journal Digital Art History Data Journal
Exprime joie d’être ici, et évoque la possibilité de développer partenariat stratégique.
Goût de l’archive. Cuisine® comme métaphore de l’histoire numérique. un métier s’apprend.
Marc Bloch, Apologie de l’histoire et le métier d’historien. Important de penser le travail de l’historien comme un métier. Un art, un savoir faire, et pas seulement une science. Réfléchir aujourd’hui sur cette dimension pratique.
La métaphore de la cuisine s’applique très bien au métier d’historien. On peut réfléchir aux ingrédients. Bien sûr il faut une cuisine, une infra, des outils. Des compétences, et des tours de mains qui réclament un apprentissage. Il y a de nombreus savoirs tacites, implicites qui s’appliquent au métier. Bien sûr il y a les produits et les résultats de cette performance en terme de qualité. Mais aussi la consommation, récits et interactions.
Data Science is like cooking [image]
La base du travail produit comme historien, c’est de travailler avec des sources, ou des données. Les ingrédients, que sont les données ? Pas un terme neutre, pas des choses données, mais le résultat de produit. Bruno Stasser et Paul Edwards, Big data is the answer
Labelling something data carries epistemic weight ... latourian language.
Dataïfication, transformation des sources en données, un vrai travail laborieux qui ne fonctionne pas à la Kodak comme pousse bouton, au contraire.
Johanna Drucker, a réfléchi sur cela depuis plus de 10 ans. Propose de parler de capta plutôt de data. Graphical...
This requires first and ... reconceive all data as capta
Bien sûr ce qui nous intéresse c’est de soulever le couvercle, comprendre ce qui se passe lorsque l’on utilise des outils numériques pour faire la recherche. Répondre appel au comabt des STS, ouvrir la boite noire.
Jessica Hurley, Aesthetics and the Infrastructural Turn in DH
Même si litterate, des choses que ne comprend pas toujours et peut être victime des infrastructures. Cadres qui vont souvent au-delà de notre propre compréhension.
Ce qui m’intéresse dans le champ de l’histoire numérique, c’est que l’on y expérimente. Un laboratoire dans lequel on essaye des choses nouvelles sans nécessairement savoir ce que seront les résultats. Important dans ce domaine de ne pas avoir peur de faire des erreurs, et de produire des choses indigestes. Fait partie de l’esrpit des DH.
Rheinberger, historien des sciences qui dit qu’important de comprendre comment co-chercheur co-construires des objest épistrémiques. Comprendre influence du digital dans notre travail d’historien.
Digital Humanities
En même temps un travail d’infrastructure et souvent ne se reflète pas dans les produits qui se focalisent sur les résultats. Souvent infrastructure condition pour produire ces résultats et n’est possible que dans une approche collobarive et multidisciplinaire. Il y a donc un partage du travail comme dans une cuisine. Demande une organisation différente pour les historiens. Entrer dans les archives, partager ses sources avec les autres. Un changement de philosophie dans la pratiquee et le métier.
Comment devenir chef ? Tout le monde a cette ambition, quand fait carrière académique tout du moins. Tt le monde veut devenir chef. Mais pour cela besoin d’un update sur la manière dont comme historien veut produire le savoir. Comprendre comment on produit du savoir.
Idée de l’herméneutique. Adapter herméneutique classique pour l’adapter à la condition numérique de la production des connaissances. Nous avons beosin de nouvelles compétences.
Tara McPherson. Us Operating system
Cuisiner c’est du bricolage (Thinkering). Penser et jouer avec la technologie et les objets tout en développant une pensée critique.
Erki Kutamo ? mais proche du bricolage de Levis Strauss. Mettant l’accent sur la dimension technique de la production du savoir. Une élaboration qui se fait à plusieurs niveaux. Pendant nettoyage, analyse, recontextualisation, production d‘argument et storytelling. Tout au long de ces différentes phases de production, les infrastructures et les techniques coconstruisent les objets épistémiques. Important donc de penser ces relations.
Exemple visualisation Digital History Practaice et digital herméneutique. Combinant différentes étapes management des données et différentes compétences nécessaires pour appliquer herméneutique numérique à notre production de savoir.
Il s’agit en quelque sorte d’avoir des compétences de sous-chef dans différents domaines. Critiques algorithmique, documentation critqieu des données, analyse : critique des outils, Visualisation : critique de l’interface, Raconter : critique de la simulation.
Critique algorithmiqueAge de l’abundance, Roy Rosenzweig dès les années 90 parle de l’âge de l’abondance. Big data demande une nouvelle herméneutique de recherche et une compréhenseon de base des mécanismes de recherche d’information (algo de recherche et schémas de métadonnées).
Besoin de nouvelle heuristique pour la recherche d’information. Une compétence à apprendre et souvent du mal à s’adapter aux nouveautés. Développer une compétence stratégique pour trouver ce dont nous avons besoins. Numérisation qui modifie la zone de conrtôle des archives et des bibliothèques calssiqeus : modifie les relations de pouvoir entre les utilisateurs et les propriétaires des actifs informationnels et déplace les compétences des institutions...
Nouvelle heuristique de recherche à l’âge de l’IA et les LLM. De chercher, à browser vers prompter. Nouvelle étape où nécessaire d’adapter notre heursitique de recherche. Doit vraiment apprendre la logique de ces grands modèles de langue pour pouvoir utiliser cela de man!re intelligente.
LLM n’interprètent pas mais calculent. Comment traduire une question historique en pratique de prompt engineering. Pas de conversation mais approche structurée basée sur des princiepes simples concrète, claire et contextuelle. Difficile de s’adapter à ces nouveaux processus de recherche et apprendre à poser des questions qui font sens. Important car la quetsion historique qui permet d’obtenir des résultats.
Nécessité d’une nouvelle éthique de l’algorithme. Contre la défiguration de sources d’histoire orale. Todd Presner L’éthique de l’algorithme : close and distant listening to the Shoah... Foundation Visual History archive in History Unlimited, Probing the Ethic of Holocauste... 2015. Imagination du passé de plus en plus influencée par la production d’images algorithmiques. Shift de l’imaginaire historique par rapport au film et la télévision, les jeux vidéos.
Critique des données
On l’a vu hier, le changement du passage de ce ques les historiens ont appelé source (métaphore aussi compliquée) à document, puis à données modifie le statut ontologique des sources historiques. La numérisation en tant que processus de codage et de recodage modifie l’indexicalité (relation entre la représentation et la réalité historique). Dès lors l’idée d’original qui était fondamentale à l’époque de la critiqu edes sources ne fait plus sens. De même que authenticité. Dans ce contexte devrait peutêtre plutôt parler d’intégrité des données.
Les données brutes sont un oxymores; les concepts d’original et d’authenticité sont obsolètes. La critique des sources doit être élagrie pour inclure les questions d’intégrité des données de l’historicité et de la matérialité. Critique externe qu’il faut appliquer aux données.
Critique des outils
Coconstruisent nos objets épistémiques mais sont biaisés, ont leur propre vérité de terrain. Important de comprendre les outils que l’on utilise. Cuisiner avec un four à gaz, au feu, ou avec plaques induction très différent. Souvent utilise ces outils de manière très naïve et ne comprend pas que formater les données pour en faire du sens une manipulation importante de l’information qui n’est souvent pas critiquée après. Un biais incroyable et doit être conscient du processus.
Critique de l’interface
Une question très importante. Ici le travail de Drucker très important. Visualisation and interpretation publié récemment un ouvrage clef pour notre discipline. Depuis 10aine année réfléchit sur cela et articulation entre le backend et le frontend. Souvent éblouis pas analyses de réseau, apparence de certitude qui doit pouvoir être déconstruite. Une compétence clef pour la discipline, souvent se fait de manière invisible. Fait le succès de ce genre de visualisation mais important de regarder derrière.
Critique de la simulation
Au centre on essaye vraiment de pouvoir développer de nouvelles formes de narration en ligne. Embrasse les possibilités du storytelling à 100% mais il faut bien comprendre les codes et les conventions des représentations numériques du passé (modèles statistiques, LLM).
Bien avoir conscience des formes narratives qui pemrettent certaines narration mais sont aussi biaisées. Important donc de pouvoir réfléchir sur l‘intégrité représentationnelle des sites web en tant que source historiques : nature dynamique relationnell des sites web archivés. Médium numérique renaissant (Niels Brügger). Des questions essentielles en terme de critique de sources.
Modèles de langues et IA renforce problématique de la double décontextualisation. Perte du contexte historique et la perte du contexte des données. Pour moi un vrai défi si veut étudier dans le futur des sources numériques.
Conclusion
Compétences clés qui cadrent une herméneutique numérique. Une herméneutique de la pratique. On travaille tous dans un état d’hybridité. On utilise les infrastructures numériques, les outils mais on a encore aussi des pratiques proches des historiens du 19e siècle. Pratique les archives, lit des livres en bibliothèques. Une pratique hybride. D’où intérêt de l’idée de l’entre deux importante. Là où Gadamer dans Vérité et méthode dans cet entre deux qu’il localise l’herméneutique. Entre cette expérience d’étrangeté et de familiarité que se localise l’herméneutique. Pense que se réalise parfaitement dans cette hyrbidité.
Ramsay déjà formulé. dans Reading Machines « Truing to locate a hermeneutics at the boundary between mechanism and theory »
En même temps faut le subjectif, et combinaison qui permet production de savoir.
Entre le cru et le cuit que se localise cette nouvelle herméneutique. Cf. Michael Frich, From a Shared Authority to the Digital Kitcher... dans Letting go, p. 130
Thegap between the raw... location smack in the middle
Comment traduire la théorie en pratique ? Un autre défi. Facile de se faire des idées sur la dimension épistémologique et méthodologique. Mais comment pratiquer cet entre-deux ? Ce qui m’a préoccupé pendant la création du C2DH. Comment développer une structure une infrastructure qui permette de combiner cette réflexion théorique et dimension pratique et infrastructure et outils.
Peter Gallison Harvard qui a étudié. Introduit le concept de Trading zone. Comment les ingénieurs ont pu travailler ensemble avec les physiciens théoriques. Comment possible de développer une sorte de langage commun et compréhension qui va au-delà de l’apprentissage et du jargon de notre discipline pour en faire une compétence interactive et complémentaire. Idée d’une compréhension partielle. Collaboration productives là où les gens ont un intérêt commun et une compréhension partielle. Impossible acquérir toutes compétences en profondeur.
Il est impossible d’avoir une compréhension de fonds dans toutes les disciplines citées. Mais doit avoir une compréhesnion partielle, une ouverture vers les autres disciplines ou les autres compétences vers un fond commun. Ici que créer une infrastructure avec le laboratoire où ces rencontres ne se fassent pas de manière ponctuelle occasionnelle, mais structurelle.
Il faut donc développer une solution de co-design pour trading zone et expérimentation.
C2DH comme trading zone.
Max Kemman, Trading Zones of digital History. Thèse sur les différentes pratiques dans le domaine de l’histoire nuémrique. Ethnographie du centre lui-même pour comprendre et améliorer la création de cette trading zone. Voir ce qui fonctionne.
Une des bases, la formation continue de tous les membres. Chaque semestre un programme de skills trading. Va dans les deux directions. Designer et coders qui prennent cour d’introduction à l’histoire contemporaine, ou sur la question historique. Avoir mouvement des deux côtés.
Cela la philosophie des doctoral unit training. Financé par ... Digital history and hermeneutics, 13 étudiants de 12 disciplines différentes pour appliquer ce concept de trading zone. Livre Digital History and hermeneutics dans lesquels tous les doctorants réfléchissent sur leurs pratiques et si concept herméneutique a été utile pour eux.
Aujourd’hui Data science of digital history. 18 étudiants. Concentration enrte histoire et data-science. Cadre théorique de l’herméneutique numérique qui sert tout de même d’orientation pour les étduiants pour établir un discours et un échange sur la base d’un langeg commun pour partager. Important pour l’interdisciplinaire.
Comment traduire HN en outils/interfaces ?
Ici le projet Impresso, un bon exemple de comment essaie de traduire ce que l’on a appris dans le développement d’outils et d’interface de recherche. Collaboration avec EPFL et Zurich. Grands journaux du passés, inclue aujourd’hui des sources sonores et radio. Développer un outil de recherche qui pemrette aux histroiens de trouver des réponses à leurs questions historique. Un outil qui reflète la manière de penser d’un historien plutôt que d’un développeur. Très tôt un codesign pour visualiser les interférences du digital et du numérique dans la représentation des sources. Pour cela que développé une interface qui montre toujours les facsimile mais aussi les readible texte. Important de représenter les sources originales car ne lit pas seulement un journal mais aussi le regarde. Important de comprendre où un texte est placé dans un journal et une compréhension intuitive dans une base de données.
Important aussi de visualiser les incertitudes et les écarts. Quand cherche souvent des écarts. Important de pouvoir visualiser les incertitudes et les écarts et d’être prudent, ou de pouvoir prendre au sérieux les résultats de recherche car contextualisés (échelle, présence absences).
Pour moi grand changement c’est le scalable reading. Ce qui fait la différence aujourd’hui, la capacité à naviguer entre les deux. Pouvoir zoommer sur le détail et en même temps pouvoir mobiliser le macroscope. Mais un art de lecture qu’il faut encore apprendre et impression que tt une génération pour pouvoir être à l’aiser avec cette forme de lecture comme celle de lire un livre. Une véritable pratique épistémologique. Impression que pas encore vraiment tt à fait à l’aise. Ne sait pas encore utiliser cela de manière critique.
Autre exemple, la revue Journal of digital history où a essayé de développer une structure multiéchelle de narrration historique. Text base, puis herméneutique où doivent expliquer comment créé la base de données comment fonctionne, et enfin les données mêmes et le code où les chercheurs peuvent interagir avec le code et les données pour tester la valider des arguments présentés. Un exemple de la traduction de cette réflexion théorique dans une application et un outil. Pouvoir rendre l’implicite explicite. Souvent dans les thèses trouve très peu de traces du numérique dans les thèses publiées. Important de le rendre visible pour comprendre comment les résultats scientifiques ont été produits. Cette dimension documentaire et réflexive est donc clef. Réclame aussi réflexion sur le statut des auteurs, informaticiens et designers. Tous ceux qui ont participé à cette production collaborative devant être listée comme auteur.
Nouveau goûts de l’archive ? Oui définitivement. En termes de résultats de recherche, de narration, de questionnement historique mais aussi de storytelling. Persuadé que l’on entre dans une nouvelle ère de recherche historique et que cela permet des rencontres nouvelles avec nos données ou nos sources.
James Dobson. Critical digital humanities
de/form/action steven Ramsey
in deforming text, in taking it out...
Déformation clef où voit grand potentiel.
Livres de cuisines et critique gastronomique professionnelle.
Pas une recette mais plusieurs. Une vraie culture de collaboration. Pour moi l’ère de l’historien singulier seul, et génie qui fait son travail dans les archives puis prend 2 ans pour écrire va continuer mais histoire numérique différente comme approche et demande une collaboration et partage de sources qui s’inscrit également dans l’idéologie de la science ouverte. Pour moi vraiment une question de vertue épistémologique où le partage encore une vertue scientifique du numérique qui change vraiment le métier d’historien.
Une cuisine de fusion et pas nationale.
Sous-chefs et des commis. Prévoir de nouvelles manières de partager l’auctoriat. Mais aussi qqchose en fonds. Pas que des datascientist. Mais aussi beaucoup de travail qui a reposé sur des petites mains. Bdd qui a largement reposé sur des contributeurs souvent précaires. Cf. Françoise Waquet. Collaborators bills of rights mais quelles suites.
Souvent habitués à penser comme auteur alors que des enjeux de carrières, et intérêts particuliers à organiser dans la cuisine. Sait que dans les cuisines des grands restaurants sous-chefs pas bien traités.
Ne peut pas changer le monde mais peut changer localement. Peut sans doute devenir ambassadeur pour le champ. Ambition de la revue mais reste initiative assez locale. Le plus grand centre d’histoire numérique du monde 125 personnes. Privilégié en termes de ressources, vient avec une responsabilité. Injustice infrastructurelle, etc. Tt ce que fait dans une vision de partage.
Poursuivre métaphore culinaire aec la notion de traçabilité
Dans l’environnement proposé question de la structuration et du référencement de l’argument historique.
Traçabilité de l’argumentation historqiue. Plusieurs propositions par le passé microcitations
HErméneutique et collectif
Infrastructure
Linéarité vs cercle herméneutique.
Au cœur du projet que mène Sean Takats chez nous. Développer sorte de desktop application qui permette de documenter toutes les étapes de la recherche sur son ordinateur et développer une sorte de protocole automatique qui permette de documenter ces éléments et de l’ajouter à la publication. Idée de traçabilité. De nouveau très théorique. Car qui va étudier à fond les 120 étapes d’une analyse de réseau ou itérations pour topic modeling. Bien pour l’indée scientifique
Écrire, we failled it all.
Basic citation. Dépasser Zotero, etc.
L’analyse de réseau en histoire : ou outil pour étudier la production et le commerce du livre à Paris au XVIIe siècle
Camille Payeur, doctorante UQAM
Production de littérature de voyage. Peu d’études sur cette littérature du XVIIe siècle. Histoire du livre sensible analyse des objets.
Différents agents de production.
Courant de la biblographie matérielle. Pages de titres, pages liminaires, etc. permettent de reconstituer le réseau de production. Marques de provenances. Examen pièces liminaires.
En plus d’être un outil utile pour étudier foyers de collaboration, repenser nature relations. Abandonner vision hiérarchisée des relations entre les individus au profit d’une relation plus égalitaire. Agents du livre, renverser ordre des choses, révêler dynamiques relationnelles.
Limites à projeté. Même lorsque réseau complet. Pas un résultat en soi. Un outil pour observer des dynamiques qui passeraien autrement. Outil de travail. Bonfiie analyse quantitative.
Lois de puissance, mise en avant de structures centrales autour desquelles se développent des périphéries avec des gens qui développent une intermédiarité. Pas de réseaux homogènes. Met en évidence la hiérachie.
Pas parlé d’analyse de réseau mais plutôt visualisation. Permet de représenter dans le réseau de production les cartographes au même titre que libraires. En ce sens là plus égalitaire, mais ne suppose pas que remplace hiérarchie au niveau des rôles. Remet aussi en cause les notions d’auctorialités sur la fabrication des récits de voyage, d’autant plus que souvent jamais été.
Clouzet et famille Cramoisie ? Bibliothèque universelle de voyages.
Yves Gingras, L’analyse de réseau au service de l’histoire des idées et des sciences aux 17e et 20e siècle
Professeur en histoire, sociologue des sciences. Chroniques à Radio Canada.
Utiliser des exemples, mais mon objet la question des méthodes. Se considère comme Mr Jourdain qui fait de la prose dans le savoir. La question méthodologique comme historien ou sociologue. Selon l’objet a besoin d’un fonds d’archives localisé. Ou bien comme sociologue des sciences, on a besoin d’une approche structurale. Avec la numérisation, on dispose de bases de données, en a plusieurs.
Dans JStor des questions que ne pouvait pas traiter avant cela. D’abord que signifie un conflit d’intérêt et comment évolue au 19e siècle. Partout, il y a des raisons. Conflits d’intérêt avec l’industrie, avant le gouvernement. Avec JStor pu faire un article pour produire une classification des usages et faire quelque chose auquel au paravant n’aurait jamais pensé.
Dans la revue Science évoque conflit d’intérêt. Alors signifiait que trois conférences en même temps qui m’intéressent. Personne n’aurait pensé que voulait dire cela, choix dans le temps. Question augmente avec recrutement des chercheurs par le gouvernement. Puis dans les années 80, travail avec l’industrie.
Des historiens et des sociologues, donc besoin de sources, sans quoi ne répond pas aux questions. Fan des correspodnacnes, recherche plein texte, analyse de citation et de co-citation. Exemple Mersenne, Oldenbourg, Darwin...
Analyses multi-échelles : individu, institutions, pays. Possible de travailler à différentes échelles. Fait plutôt de l’analyse de réseau plutôt que visualisation. Écrit plusieurs textes sur cela. Montré en 2009 que pour analyser des structures, stratification ascendante et montré que algo... détection communautés claires.
art avec Russel Duhon
etc.
Google Ngrams, gens excités.
Collaborations avec collège
Types de problème qui réclame des bdd et nécessiter de produire des données.
Distribution géo des correspondants de Mersemne.
Premiers logiciels d’analyse de réseau Borgheti, Ucinet.
Analyse de réseau avec taches encre. Test de Rorcha. Besoin d’une conception théorique. Tt le monde est relié avec tt le monde. Mais réseau lois de puissance. Important d’analyser dans le temps l’évolution du champ et des échanges intellectuels du 17e par la correspondance. Essayer d’appliquer aux correspondances ce qui a été développé pour les publications. Correspondances de citations.
Lorsqu’arrive Gallilé, Peiresc, voit évolution de la structure des relations. Celle-ci dynamique. Le but est de répondre à des questions théoriques sur lesquelles pas de réponse micro. Mais confirme ce que pouvait supposer, grecs partent mais Archimède reste central. Le porte parole de la science moderne.
Roberval, Desargues, etc. Au centre de la science globale, nb de figure gens aujourd’hui inconnus.
Nbs auteurs que ne connaît pas. Pb souvent que l’histoire philosophique se produit de manière anachronique.
Mais intéressant de considérer l’évolution de la centralité. Question de savoir qui est central à un moment donné. Transformation du champ intellectuel qui s’observe à partir d’un indice très simple et opérationnel puisqu’il se calcul qui est le coéficient de centralité.
Fait la même chose avec plusieurs auteurs. Des acteurs qui reçoivent des lettres de tous et les retournent. une évolution du Darwin avant... et après. Observe l’évolution temporelle de la structure des échanges. Peut mettre jusqu’à 4 variables différentes : intensité du lien, couleur pour famille, grosseur, et forme de l’objet.
Ce qui est intéressant c’est la centralité.
Ce qui est encore plus intéressant, c’est un réseau structurel, conceptuel. Quand borgatti créée première analyse, s’occupe d’une structure sociale. Ici liens les réseaux conceptuels. Créée un lien entre deux personnes. Exemple typique Descartes et Gassendi, pourquoi car le plus grand critique de Descartes. Ici pour la première fois, mongtre la structure mondiale du champ scientifique en physique. Théorie électron, et lumière complètement visible car réseau de citation.
Premier logiciel de détection de communauté développé par l’équipe de Louvain. Peut voir l’évolution de la transformation de la physique structurelle tous les 10 ans. Structure complètement changée. Atome, puis mécanique quantique.
Si analyse la temporalité de la centralité. Top t'en. Tous chercheurs top ten pendant 15 ans. Tous sans exception ont eu le Nobel. Si assez central pendant 5 ans, pas suffisant pour avoir un impact. Tt du moins pour la période 1900, 1950.
Puis appliqué Louvain. Reconnaissance automatique par logiciel de structures.
Autrement dit, permet de répondre à des questions qui autrement seraient des anecdotes. Erreur méthodologie de poser une question globale et recherche par archive locale. Devenu possibile de poser des questions apporter des réponses qu’avant pouvait seulement spéculer.
- A new approach for detecting scientific specialities
- Mapping the structure of the intellectual field using citation
- Uses of analogies in 17th et 18th
Je suis sur la périphérie du cercle. Exemple collègue McGill. Grâce aux réseau, peut formaliser cela. Un concept bien défini n’est plus une métaphore, il a une fonction. Autre chose concept intermédiarité. Des acteurs pas centraux.
Borgatthi et Whyte, issus de la physique. Idem vient de la physique. Idée de quantifier les affaires est une seconde nature. Pour cela que dès que vu Ucinet, pensé que possible de faire cela. Idem quand vu, logiciel de Louvain. Alors les données possible de faire un texte.
Idée de quantifier ou mesurer souvent pas un hasard, mais vient de gens périphériques par leur méthode historienne. Généralement déflationniste.
Est-ce que l’approche a permis faire de nouvelles découvertes ? Particularités qui n’entrent pas dans cette image. Là que du nouveau à découvrir. Études plus qualitatives.
Ce que choisit de transmettre
Schema pas éditable. QGIS pas suffisammen versatile.
Bourse PHUN, 10h. Application Shinny avec Reflet. Cours programation R pour construire la plateforme répondant à ses besoins.
Réseaux égocentrés. Fait apparaitre tous les liens entre les personnes les années et les échanges.
Repérage de lieux primaires et secondaires. Pouvoir au survol afficher les informations concernant les lieux.
Mettre en scène les données. Possibilité de visualiser le réseau complet, afficher ou le masquer.
Comme travaille avec Shinny, possible de présenter les données autrement, sous forme de schéma chronologiques, par dates, styles.
Application qui répond aux besoins et répond attentes. Outils qui participent aux besoins de la recherche. Au départ généalogie de la danse à la demande communautés. Outils visualisation et pas d’analyse.
Martin Grandjean, Histoire en réseau(x) : « Traduire » la théorie des graphes dans le langage des archives
Adopter un pt de vue entre le niveau métaréflexif des keynotes de ces derniers jours et le point de vue plus appliqué de ces analyses. Comprendre les principales lignes de force et les enjeux autour de nos pratiques. Venant de quelqu’un qui est l’archétype du loup solitaire qu’évoquait Andreas. Artisan décrit par Marc Bloch et qui bricole. Pour moi fait vraiment partie de notre métier. Comment nous artisans de l’histoire numérique utilisons ces outils (parle beaucoup de boite à outils) comment change nos pratiques de l’histoire. Par ailleurs dit que travaille seul, mais aussi plateforme Impresso, où l’historien qui s’assurer que ne développe pas quelque chose de complètement éloigné de nos besoins.
Travaille sur les réseaux de collaboration intellectuelle internationale. S’intéresse à la traduction. Trouver une langue commune dans des endroits comme DH où traduction intervient à plusieurs moments. Plusieurs exemples : Marie évoquait celui de la mise en donnée, premier moments où ensuite les choses vont devenir opérationnalisable. Schéma très réducteur etraction contenus qui vont se transcromer en récit, et processus qui se complexifie par la modélisation et la mise en données. Change tout dans nos travaux.
Mais aussi moment de la traduction. Tirer des résultats pour en tirer des éléments pour nos propres sujets. Retour à l’histoire qui va pouvoir être partagé avec des gens qui ne sont pas nécessairement embarqués dans l’analyse.
Pour comprendre ce moment de traduction, doit bien évidemment tenir compte de ce premier moment et possibilité de perte de données. Regarder ce que font les historiens quand extraits des données.
Principaux schmés et façon de faire de l’analyse de réseau en histoire
- ciurcualtion : accord commerciaux, jouranus de bord, livres de compte, douane
- parenté : généalogies familiales, registres paroissiaux, égo-docuemnts, administrations
- occurences : archives, registres notariaux, ouvrages scientifiques, articles de presse
- correspondances : lettres, télégrammes, émails
- affiliations : conseils d’administration, sociéétés savantes, particiaptions à des événements
- coocurence : Œuvres littéraires, correspodnace, documents offciels
- scoiogramme : égo-documents, documents officiels, administratifs
- événements : événements, macro-historiques, journaux personnles, citations/généalogie intellectuelle
Des schémas d’analyse qui varient selon les différents champs ou les types de sources.
Cf. www.historicalnetworkresearch.org Bibliographie et revue. Une communauté accueillante pour présenter ses recherches en analyse de réseau historique. Particularité qui valent la peinte d’être discutées entre historiens.
Quand arrive à l’analyse de ces résultst, on va plutôt travailler sur chose qui est comme un résultat dans l’analyse. Une étape sur le chemin de l’interprétation historique. Comment en faire qqchose qui entre dans l’analyse historique.
Se place sur notre petit monticule et observe la mer de nuages... Souvent la première relation que l’on a avec un réseau, c’est la visualisation. On a bel et bien besoin en tant qu’animal visuel de regarder ces schémas là ! en fait heuristique qui commence avec ces représentations. Plein d’exemple où calcule des métriques, etc. Mais fondamentalement aspect visuel qui est important. Fait partie de notre façon de faire de la recherche en histoire de l’art, ou en histoire où la carte et le visuel ont beaucoup d’importance.
Cette représentation graphique aura bien évidemment un rôle plus ou moins différent selon là où se situe. Parfois médiation avec le lecteur. Échelonnement du simple au complexe, plus ou moins petinent pour la démonstration ou la recherche.
Grandjean, Data Visualization for History, Digital Public History Handbook, 291-300.
Exemple de démonstration où présente les choses pour comprendre de quoi il s’agit. Exemple présentation dépouillement international pour produire en réalité un diagramme de Venn. Mais l’outil conceptuel éatnt important pour nous dans ce papier, le fait évoluer pour présenter une analyse de réseau. Ici un objet de monstration. Viusalisation sert à montrer qqch
Holzcheier, Bahr, Grandjean...
Visualisation de recherche qui sert à représenter choses qui autrement ne pourrait être représenté. Exemple si travaille sur des milliers archives. ParisGeneva, ici seulement témoignage du processus fait par le chercheur.
Aussi visualisation interactive. Au fond parent pauvre de la visualisation car le parent pauvre de la visualisation en histoire car exige des compétences techniques. Interface pour engager les utilisateurs avec les données.
Catégorie de la pire illustration. Pur objet de design utilisé dans nos universités pour dire que travaille sur un design compliqué ! Mester dans mon université, utilisation de mon réseau. Pas impliqué, etc. font penser à qqch de complexe structuré, etc. UQAM idem. Trouver des solutions, échanger avec le monde. Puissant pour illustrer que fait de la science, etc. Pour cela qu’est si critique avec les réseaux.
Quand veut être scientifique, ne va pas faire visualisation mais aller calculer les choses car plus sûr et absolu.
Freeman, Centrality in Social Networks Conceptual Clarifical explique pourtant que mesures de centralisés au fond basées sur une intuition. Si se focalise car mathématiciens ont testés plein de formules. Permet de revenir sur la tentation d’objectivité. Se base sur des choix anciens.
Permet de comprendre quel raisonnement derrière ces formules.
Aujourd’hui se retrouve face à une boite à outils de mesure de centralité. Consensus, intersubjectivité dans un champ pour dire que ce calcul en général correspond à telle ou telle chose. Et que si mesure car correspond qqchose.
Question quelles sont les mesures et comment allons nous les traduire dans nos propres champs. Si mesure intermédiarié (betweeness centrality) selon le lieu ou se trouve va avoir un sens différent.
circulation : canal/pont
Exogamie dans la parenté
Référence partagée occurrences
correspondance : passeur/généraliste
Ces mesures qui nous arrivent de l’extérieur, un prestige de scientificité, voir comment se les approrpie pour faire qqchose d’opérant pour moi.
Avec Mathieu Jacomy avait il y a qqs années 2019 regardé les pratiques de réseau dans les conférences DH, et voir comment les traduit. Tableaux pour lister les papiers. Quelle traduction dans le domaine shs ?
Intéressant de se questionner sur les différents usages ou métaphore dans la salle hier : brocoli et salade. Au fond bien compris, schméa de traduction d’un langage vers un autre. métaphore visuelle. Test de rorscharch. En même temps métaphore visuelle. Métriques de graphe : dire superconnecteur. Utiliser co-citation comme indice aspect central individu. Solitaire par le degré. Analyse visuelle, etc.
Ts a des façons bricolées un peu artisanales pour traduire information pour les publics.
Rapide étude de cas. aussi dû être confronté à mes problèmes de visualisation pour trouver une traduction opérante.
Corpus comité international de coopération industrielle. Années 20 et 30, coordioner arts et sciences à l’international. Tt ces archives témoignage de circulation des informations entre ces personnes.
Visualisation encore une fois, visuellement difficilement lisible. Bien sûr exploré en sélectionnant des réseaux personnels. Profils différents. Positions différentes. Par une approche visuelle comment traduit cette information, overlap de ces réseaux.
Visuellement filtrer, etc. Va se confronter avec une question historienne. Pas de data-driven absolu en réalité. Des questions à poser à ces données, ne va pas juste laisser émerger qqchose. Question pour moi de savoir si personne plus influente que d’autres. Notamment savoir si la Fr avait réussi ou pas à prendre le lead sur cette dynamique de coopération culturelle. Question discutée depuis des décennies par les historiens.
Maintenant possible de traduire question en langage données. Approche visuelle montre répartition nette de ces communautés. Utiliser centralité et intermédialité pour voir si un de ces groupes apparaît particulièrement.
Quand compare centralité de degrés. Se rend compte que deux catégories de personnes avec très forte centralité en raison du degré. Autres très très mal. Comment traduit cela et traduit dans le langage de mes sources. Permet de détecter un type de comporatntement dans mes sources. Mais correcpond à un type de fonction. Spécialistes et généralistes.
100 pages dans la thèse pour le montrer. Visuel très limité. Mais au fond jamais en train de faire le FB du passé. Pas analyse structures sociales mais parler de nos archives. Tt nos traductions basées sur ces sources là.
nvll critique des sources que permet
discussion
un peu plus que métaphore. travaille avec computer scientist avec une langue diff.
parfois utilisation directe du terme de la théorie des graphes dans bcp cas pas de sens. traduction adaptation de ces termes.
dans tous les réseaux des power law. Ne veut pas trop s’aventurer sur le terrain des sciences sociales. Dépend beaucoup de la façon dont mobilise réseaux. Généalogie pas de loi de puissance à moins d’avoir un gros pb particulier. un peu la conclusion, tjrs en train de cartographier collection sur lzaquelle travaille donc miroir. autre pb réduction complexité.
au final historien demeure spécialiste des sources. pt essai ou conclue sur leroi l'anurie. avant tt un historien.
visualisation ou griffone des choses meme si lui donne forme belle
Hier fin apm, équipe qui a réussi à mettre en œuvre la plateforme que va montrer;
Limites de Transcribus et pourquoi souhaité aller vers une plateforme
Accueil très généreux par Transkribus en 2018. Commencé à produire des données structurées.
NFN. Transkriptoirum 2013.
2016, Transkribus performait mal 20%
2018, arrivait HTR+ 10%
Modèle ouverte PyLaia modèle ouvert moins cher.
Nouveau modèle depuis 2023 basé sur transformers.
Une coopérative dont on est membre. Participe aux prises de décision pour le développement. Amélioration rapide des performance et solution soutenable.
Arrive niveau erreur limité. Modèles très performants.
Calcul de performance en % de caractères érronés CER.
Modèles PyLaia, modèles publics 7,80%
New France 4% erreur corpus
Modèles de notaires NF 5,2%
Joseph Dionne : 4,19% mais au fond 20%
- Modèles transformer utilisation limitée : Text Titan 2,95% 15 langues 6M mots
- Faucon français, 6,61%
Très lourd à entraîner et énergivore, donc pas possible finetuner un modèle.
Plateforme très efficace car plateforme de segmentation. Transcription automatisée écriture manuscrite. Édition et correction du texte.
Limitations pour la publication des données, accès aux données, conservation et automatisation du balisage. Outils de recherche spécialisés ou balisage selon nos propres besoins. Ou outils IA à partir de nos données.
Financement FCI pour développer plateforme Transcrire la Nouvelle France. Extrait données, les intègre dans dépôt numérique. Logiciel LEAFWriter et visualisateur OpenSeaDragon. Lie les données.
Convertit avec XSLT vers LEAF qui valide. Liaison données ouvertes avec LINCS. Indexation des entités nommées et interface de navigation multiforme.
Carré de sable Python. Faire en sorte que tout ce qui est produit. sur les métadonnées soit réintégré dans le dépôt.
Qu’est-ce que cela fait maintenant que dispose d’une plateforme comme celle-là. Plus de question de recherche. Une plateforme collective. Complètement transformé le projet. Aujourd’hui objectifs beaucoup plus large et vastes. En exploitant l’infrastructure qui rassemble les gens, souhaite développer des outils analyses puissants. Un modèle de GDR viable adapté aux besoins et enjeux des chercheurs et des partenaires publics. Développer culture de recherche collaborative. Mutualiser le dépôt pour travailler, implique négociation sur le jeu de données.
- données vivantes
- science particiaptive
- littératie numérique
- traçabilité des données
- souplesse des institutions de conservation du patrimoine
Importance de ne pas considérer la données comme parfaite. Quid discussion avec la communauté pour visibiliser ces questions là. Une fois le travail fait, risque oubli qu’en bout de chaîne résultat pas parfait. Comment maintenir visibilité constante par certains outils.
Documenter la vie des données. Traçabilité. Modèle à inventer et développer. Rendu notre question de recherche pour s’assurer que le citoyen, chercheur autant que l’archiviste qui puisse être considéré comme un générateur de données. Important de pouvoir rendre compte des choix et de le justifier. Fournir le taux d’erreur, premier jet, corrections futures. Geste quasi philologique sur les corpus. Prolonge la question de la critique externe. Intéressant de formuler des propositions car transposable pour de nombreux corpus numérisés.
En littérature se retrouve avec des miliers de romans numérisés cherchables. Maintenant données historiques même traitement. Est-ce que passage à la lecture distante pour l’histoire ?
Contradiction entre le fait de dire que veut que les choses reste dans le domaine, implique de fournir nombreux outils. CRKN et nombreux autres qui vont fournir intermédiaires. Modèle expresso. Nombreux projets ou efforts pour créer la bdd et pas pensé usage après.
Un enjeu de pérennité.
Utilisation de méthodes issues des HN
Appliquer des méthodes computationnelles au corpus de la Nvll France notamment modèles BERT comme Dalembert conçu pour l’analyse du français moderne 17e et 18e s. Projet plus vaste concernant impact introduction des bovins en nvll France. Prolongation approche Nouvelle-Espagne.
Cœur du programme analyse de restes de bovins archéologiques. Mais déjà confronté aux archives pour Nouvelle-Espagne. Automatiser recherche en archéologie. Travail avec Grégoire Winterstein.
https://professeurs.uqam.ca/professeur/winterstein.gregoire/
Importance de ces animaux pour la colonisation. Rôle vital pour la culture et alimentation. Mais aussi opérations de défrichage qui permettent l’enracinement société coloniale dans la province. Cartier et Roberval qui introduisent au 16e siècle des animaux domestiques. Troupeaux pas de descendance particulière. Faible durée de vie de cet établissement initial. 17e siècle premier établissement durable ferme de ??? en aval Québec, puis secteur de Québec et Ville-Marie ici. Ralentit fortement fin 17e s quand considère que cheptel auto-suffisant et pas besoin d’apports réguliers pour se perpétuer.
Lacunes historiques sur origine et gestion et rôle bovins. Rôle des méthodes computationnelles pour approfondir analyse. Double intérêt questions historiques + évaluation outils informatiques. Analyses computationnelles réalisées en // analyses archéologiques et archéozoologiques. Projet RABBA N. Delsol.
Tester usage outils linguistiques sur ces textes anciens.
Corpus documentaire en deux sous-ensemble : documents édités sources numérisées par NFN. Diversité des documents récits de voyages, etc. et variations linguistiques et limitations OCR.
Première méthode employée la textométrie. Étude statistique du vocabulaire et de la fréquence de mots, coocurrences. Permet évaluer distribution et coocurence des mots-clefs et transformer le texte en éléments mesurables.
Permet de rapidement repérer les thèmes et le degré d’importance des mots.
Exemple score de co-occurence. Par exemple assocaition vache + Immortelle. Nous a interpellé.
Permet avoir une première carte.
Deuxième méthode, word embeddings. Plutôt compter fréquence chaque mot, va créer un modèle qui représente les mots sous forme de vecteurs. Idée que si proche dans espace vectoriels passages similaires.
Entraînement local word2vec sur le corpus. Trouver les mots proches de vache, génisse, etc.
Ici retrouve mot immorelle dans les taux de similarité.
Troisième famille d’analyse implémentée Topic Modeling (BERTopic).
Une autre famille de méthode qui vise à organiser un gros volume de documents selon différents thèmes ou regrouper des passage proches
BERTopic, aglorithme qui s‘appuie sur des embeddings + clustering. Chaque groupe devient groupe thème.
Met en évidence différents clusters émergeant de ces thématiques à partir de ces calculs. Hivernage, défrichement et labours. Européens et autochtones.
Clustering de représentations LLM.
Explorer usage LLM basé sur des algo BERT variante entraînée sur du français moderne. À la différence de word2vec qui attribue un vecteur pour chaque mot, ici assigne un vecteur à chq occurence du mots selon son contexte. Applique ensuite un algorithme de regroupement qui réunit toutes les occurences selon leurs emplois et usages. Permet de donner vision sémantiqeu selon usages.
Résultats marquants
Vache immortelle, obligation légale de remplacer l’animal décédé. Sans doute lié à des clauses juridiques dans les actes matrimoniaux.
Hivernage et reproduction comme enjeux majeurs
Rôles économique dans la jeune colonie
Cible en cas de conflits et attaques sur le bétail dans certains contextes.
Aujourd’hui revenir vers documents individuels. Documentation contextuelle. Faire que ces pipelines d’analyse puissent être standardisées.
Comment fait pour hétérogénéité.
Phun