Skip to content

Latest commit

 

History

History
506 lines (257 loc) · 46.2 KB

File metadata and controls

506 lines (257 loc) · 46.2 KB
since 2025-12-11
tags ia, communs

Communs de données et intelligence artificielle : regards croisés France-Québec

11 décembre 2025, Bibliothèque nationale de France

L’objectif de cette journée d’étude est de partager des expertises franco-québécoises sur la valorisation des données culturelles pour le développement de systèmes d’intelligence artificielle. En réunissant des institutions issues du secteur des GLAM (bibliothèques, archives, musées et institutions culturelles patrimoniales) et des acteurs du savoir libre (notamment le mouvement Wikimédia), elle vise à créer des synergies entre institutions publiques et acteurs des communs numériques afin de répondre à des défis partagés liés à l’accessibilité, à la gouvernance et à l’équité des données.

https://www.bnf.fr/fr/agenda/communs-de-donnees-et-intelligence-artificielle-regards-croises-france-quebec

Place que souhaite donner aux données patrimoniales et communs numériques face à la déferlante IA.

INRS, CRIHN, Wikimedia Canada, DICEN IDF, Wikimedia France, TMNLab, délégation langue française.

Remerciement aux organisateurs : Nathalie Casemajor, Jean-Philippe Moreux. Paul Keller, Open Futur fondation. Modérateurs et panélistes/

Partage d’une même conviction : partager participer idéal ouverture et partage de sources. Arrivée IA bouleverse nos pratiques nous oblige à repenser la manière dont nous structurons, diffusons et partageons nos données.

Depuis 3 décennies, données axe majeur de sa stratégie numérique. Grace au dépôt légal, la Bnf préserve un patrimoine documentaire qui reflète la richesse culturelle du pays. 20e siècle et microinformatique transformation majeure : numérisation du catalogue, numérisation massive, pérennisation, etc.

11M de documents en lignes issus des collectiosn 520 partenaires. 500Milliards de mots. Données massives interopérables, préservées par infrastrutcure SPAR conçue en interne.

À partir des années 2010, ouverture de ses données par API, OAI-PMH. DataLab

2021 feuille de route IA pour adapter usage IA au service de ses missions, renforcer la découvrabilité et contribuer écosystème IA.

Essor IA

Pratique de moissonnage intensif, sans notification, sans partage de valeur. Conséquences pour les bib déjà visible. 20% visites robots, dégradent le service pour les humains. Ralentissement moteur de recherche.

Pas de respect de nos conditions générales d’utilisation qui

Valeur issue réutilisation données publiques captées par qqs acteurs. Utilisateurs enfermés dans des robots conversationnels propriétaire au détriment des sources.

Modèles opaques tt en fragilisant les institutions qui les produisent. Pour autant jamais cédé à la tentation de la fermeture. Toujours répondu par une réponse plus ouverte car pas seulement un choix technique mais un choix politique.

Jeunes utilisation des chatbots, si pas présent alors diversité culturelle perdue. Doit donc maintenir une ouverture. Mais pas sans diversité. Souhaitent que pratiques unilatérales fassent place à des pratiques concertées.

Convention de réutilisation des IA générative et projet de loi annoncée par le ministre.

Dans cette logique que création du service dataIA destiné à des usages commerciaux. Usages de recherche restent libres. Mais usages commerciaux doivent faire l’objet d’une déclaration et convention.

Argili??? projet France 2030 aux côtés Artefacts, etc. Mise à disposition large corpus domaines publics pour améliorer OCR collections patrimoniales. Modèle publié en 2026.

Souhaite créer un cercle vertueux, les modèles données contribuent à des communs numériques qui eux-même contribuent aux

Secteur domaine publique montré que possible. Diversité des missions

Penser IA équitable, transparente et réellement au sevrice de la connaissance et qui nous préserve de la falsification scientifiuqe.

À l’heure où la médiation du savoir passe de plus en plus par des médiations algorithmiques, d’autant plus important que les acteurs industriels, cehrcheurs et bib se rencontrent et collaborent.

Une IA soutenable, attentive qualité et représentativité, fondée sur transparence, responsabilité et réprocité du savoir. Ainsi que garantirons que les communs demeurent des communs.


Nathalie Casemajor

Journée issue de discussions dans le cadre journées Wikipédia à Québec. Constat que institutions font face à des défis semblables face à IA. Prédation par les robots qui saturent les services de données. Des défis de survie faute de réciprocité, des défis de repositionnements. Or, il nous semblait que les occasions de partager ces défis trop rares alors même que les défis essentiels alors qu’assiste à des attaques contre auto des état, capacité à réguler ou la communauté Wikipédia à s’auto-réguler

Réunir usagers, producteurs, en incluant Think tanks. Si synergies possibles rappeler que reposent sur des régimes d’action communs. Démocratisation des savoirs. Modes de régulartion différent. Seulement en respectant modes organisation

Communs modes de gestion collective des ressources. Mais audelà, capacité à s’organiser en dehors de l’État. Affects, etc. Habituer autrement monde numérique.

Dimension franco-québéoise. Axe de coopération stratégique mais s’assurer de partager les moyens d’exprimer toute la varitéé des langues et particularités des territoires. Diversité des langues régionales, langues autochtones.

Les peuples autochtones qui les premiers ont conceptualisé idée de souveraineté des domains. Communs autre manière de valosriser les données. Autogestion encore plus nécessaire face acteurs autoritaires.

Carrefour auquel vous invitons. Perspectives diverses autant de points de rencontre que de lignes de bifurcation.


Jean-Philippe Moreux

Présentation du programme.

Point juridique. Trois catégories usages : académiques industriels et projets contributifs. Terminer sur un focus concernant les préocupations du patrimoine. Terminer sur l’impact de la diversité des langues dans ce système IA.


Paul Keller, directeur de la stratégie à l’OpenFoundation

The Paradox of Open. Cultural heritage data AI and a stustainable information ecosystem. Publié il y a 5 ans. Mais voulu parler de la publication Beyond IA and Copyright, semaine dernière nouvelle publication.

Revisiter le paradox of Open. Document fondateur de OpenFuture créé en 2021 avec mon collègue Alex Tarkowski??

Le mouvement de l’ouverture tel qu’il a existé depuis les années 2000 n’a pas réussi à produire des structures de pouvoir. Imaginaire d’un réseau horizontal, très peer to peer. Souvent aveugle à la concentration survenant dans l’environnement numérique et de notre point de vue pas suffisamment réfléchi à cette concentration de pouvoirs.

Open à la fois un challenge et un facilitateur de la concentration de pouvoir. Démocratise l’accès au savoir pour ceux qui n’ont pas accès ou pas de moyens. Le challenge. Mais observe également les grandes coprorations celles qui profite le plus de l’ouverture des ressources car disposent de l’infrastructure pour extraire les données et en produire de la valeur.

GAFAM ou les 7 merveilleuses. Le paradox examiner et résoudre ce complexe. Generative IA. Placé le paradoxe au centre.

Toward a sustainab le information ecosystem

Pas suffisamment de réciprocité. Capacité à contribuer déclin. 2nd papier.

Yann LeCun, post « Free and open AI systems will constitute teh repository of all human knwoledge and culture. » Mission des bibliothèques mais technologies qui de plus en plus vont structurer l’accès aux ressources.

Un changement fondamental dans la manière de traiter de l’înformation. Réellement une nouvelle technologies culturelles. Une nouvelle forme de medium. Qqch comme broadcast, imprimerie ou internet.

IA est construite sur tout le savoir. Technologies disponible seulement parce que tout le savoir produit a pu être ingéré sous une forme numérisée.

Copyright pas fait de réelle différence. Plutôt le fait que gd quantité le savoir communs. Peut de ce fait considérer que tt IA publique. Public car pris par le public, construit à partir du savoir du public.

Deux risques à ça.

1 risque démocratique que l’on dépende seulement d’un petit nombre d’organisation. Risque de black box, manipulation et pas de possibilité alternative

2 risque économiqe : enclosure et commodification. Nous revende ces contenus.

Nous avons donc besoin de penser une infrastructure publique pour l’IA

Broadcasting public service Media. The internet left to the market. Besoin de créer qqchose ancré dans des formes démocratiques de gestion. Pas spécialement profit commercial.

Au contraire Internet, idée de laisser pour le marché.

The information ecosystem > Rightholders. Comprendre que construction sur information publique mais souvent pas produit par rightholders. Wikipédia, les institutions patrimoines qui créeent maintiennes contenus en circulation abandonnés par les rightholders. Besoin de penser des systèmes de redistribution publiques qui aille au delà. S’assurer que des conditions existent pour que Bnf continue de mener son travail, etc.

Copyright seul ne va pas régler le problème. besoin être plus large.

Mécanisme de redistribution au delà du copyright pas seulement où le contenu réutilsé.

aller evrs un écosystem information durable.

The role of cultural heritage data

Amené nb institutions questionner manière de rendre leurs données disponibles. Une question pour savoir comment dealer avec ça.

Publishih culturela heritage in the age of AI avec Europeana.

Assumption : veut contribuer.

Tt les publiqeus données déjà prise. Mais les institutions patrimoniales et culturelles beaucoup plus de données et de haute qualité. Mais analogues.

Identfiication 3 principes à la base de Europeana : usable, reliable et mutual.

Comment rester vrai à ces principes sous conditions IA.

  • Humans Accessing cultural heritage Data.
  • AI accessing cultural heritage data
  • Cultural heritage data used to train AI

Essauer aller vers milieu. Accès à l’information pour le compte de l’utilisateur. Comment faire avec ça pour préserver open access.

Access modes vs conditions.

Individual

Pragmatic

bulk

​ Open | controlled | Conditional | closed

Des conditions associées à cela. Différence accès pour chercheurs et entreprises.

Challenge  : a more differentiated understanding of openness.

Bot traffic at Wikimedia : Establishing... mois dernier à Londres. Infrastructure pas gratuite.

La commission européenne aussi venue à cette idée. Digital omnibus. Important sur IA Act, etc. Prend données gouvernementales vers IA act. Mais § 23 24. Équivalent open paradox. Justife différentiation. Une classe particulière d’entités. Gatekeepers qui peuvent payer plus et pas violation.

Revisiting the paradox of open again

Nous avons réellement un choix à faire ici. Soit fermer. Sustaining the digital commons as a public good vs Engineering scarcity to create a market.

ex. Cloudflare.

Nous devons maintenir des communs.


Question exception culturelle. Et obstacle pour les communs alors que pas productif. Ne risque-t-on pas de reproduire même situation.

Investissement qui doit permettre de travailler sur trois domaines. Doit pouvoir trouver un modèle économique pour fonctionner. Information qqchose que ne peut contrôler. Peut être prise. Plus à propos d’un contrat social que la soutenabilité.

Trouver des normes qui puissent être facilement être respectées. Companies continue d’avoir besoins de ressources pour rester dans le jeu. La fondation wikimedia essayé il y a qqs années de développer Wikimédia entreprise pour accès priviliégié aux ressources. Au-début quand Google commencé à produire summary box. Finalement contribution net à Wikipédia.

Décisions implémentation prend du temps. Voir comment va. Nous n’avons pas le luxe de... besoin d’agir sur cette question et besoin de le faire en restant aligné sur nos principes.

Bnf au moment où a commencé à numérisé, s’est posé la question de savoir si on produisait nos images gratuitement. Considéré que non. Coût infrastructure pour les fournir. Un service de reproduction d’images. Fournit les images gratuitement aux chercheurs mais pas pour les acteurs commerciaux. Nous permet de produire des recettes qui sont réinvestie dans l’infrastructure de numérisation.

Cela a été très acceptable. L’enjeu de savoir si pourrait produire même infrastructure de service si pas proposé cela.

IA service fonctionné. Nombreuses entreprises venues vers nous. Sujet des grands acteurs, mais aussi celui des grandes entreprises qui cherchent des corpus restreints pour des entraînement de RAG par exemple. Nous intéresse car permettrait de répondre à des usages spécifiques, comme par exemple corpus que n’avait pas prévu de numérisé. Fourniture sans exclusivité, fourniture en premier lieu à l’entreprise puis placée dans Wikipédia.

Une réflexion à avoir pour continuer à produire de la donnée. L’État nous en fournit une partie mais normal que ceux qui en font l’utilisation contribuent également à ce financement. Pas vraiment d’alternative d’expérimenter ces modèles. Verra bien s’ils fonctionnent ou pas.

Retours positifs, étude pour interroger les acteurs de l’IA et volonté de collaborer pour produire des services qui les intéressent.


Table ronde : Contexte juridique : état des lieux pour les commun snumériques

Sébastien Broca (Paris 8)

  • Julie Groffe-Charrier Paris Saclay
  • Camille Françoise : Communia et Wikimédia France
  • Brigitte Vezina : Creative Commons

Sorte inconfort. Depuis 2022 voit bien que situation qui atteint un cran supérieur semble-t-il pas soutenable. Inconfortable car incités à refermer les ressources. Outils juridiques et réglementaires qui encadrent la culture et la connaissance. Doit-on adapter ces outils pour discriminer entre les utilisateurs et les usages.

Camille Françoise. Le mouvement Wikipédia un mouvement de contribution des citoyens sur des infrastructures ouvertes. Projets Wikipédia, Commons, Data, etc. destinés à offrir un accès à l’information gratuit. Infrastructure ouverte et transparente et gratuite.

Accès à l’information. 2012 mentionné comme bien communs. IA a changé beaucoup de choses car contributeurs qui se sont trouvés confronté à un détournement de leurs contributions produites par l’IA. Par ailleurs, question d’infrastructure. Utilisation extractive par IA. Font fondre nos serveurs. Service aux utilisateurs ralenti car détourné pour des projets d’acteurs commerciaux.

Wikimedia entreprise une manière de demander un rééquilibrage économique. Coût pour les infrastructures et le public. Souhaite que vous puissiez contribuer. Revenir sur le fait que notre infrastructure a été réalisé par des humains. Besoin que soit entendu et valorisé en terme d’apports.

Pour une organisation comme Creative Commons que change ce nouveau contexte ? Un choc, une organisation qui existe depuis ... Infrastrutcure juridique mais aussi sociale pour le domaine public et les licences libres. Une manière de s’organiser en communauté. Impact dans tous les domaines où les licences sont utilisées. Artistes et créateurs, mais aussi institutions culturelles et patrimoniales qui utilisent les licences et outils du domaine public.

Phénomène sismique fort. Mettent les institutions patrimoniales dans une situation délicate et défi de taille. Partage-t-on ou pas ? Mise à disposition, leur mission sociale. Mais vient en conflit avec autres valeurs sous-jascentes. Dilemne peut donner lieu à tentation de fermeture et danger sur les communs. Risque de fermeture et expérience humaine dégradée. Un risque réel. Risque de perte de diversité et de représentativité des contenus. Le système est en crise et les licences qui sont l’échafaudage pour ces infra mis-à-mal.

Le système du droit d’auteur pas suffisant. Licences d’aucun recours car les exceptions priment. Incertitudes juridiques mais jurisprudence laisse penser que exception prévaut. Donc licence aucun effet.

Certains contributeurs veulent bien faire valoir les utilisations non-commerciaux. Possibles mais ne peut être imposé. Besoin de renégocier le terme du partage. Pour cela besoin d’une action collective.

Julie Grofe-Charrier

Termes de Choc, de prédaction, montre que qqchose de très émotionnel. Si veut voir le verre à moitié plein. Peut être l’occasion de réconcilier la logique du droit d’auteur et du communs. Exercice des licences par les communs exactement la logique du droit d’auteur.

Une logique propriétaire. Mais jamais eu de contrainte à la propriété et en réalité fait ce que l’on veut de son droit d’auteur. Besoin négociation et réponse au droit d’auteur. Ce qui n’esst pas pris en compte le respect de la volonté des propriétaires sur les contenus. Cœur de la question.

Licence n’a pas vocation à s’appliquer quand poche de respiration que consistitue le droit d’auteur. Pense que référence au TDM en Europe. Mais aux US nb jurisprudence sur le fair use. Toutefois attention pour le TDM série de décision qui disent que des usages qui ne relève pas de cette exception.

Reconnaître que l’on a été totalement dépassé. Pas prêts. Quand TDM adoptée législateur européen pas à l’esprit les portes qu‘allaient ouvrir. Un peu dans la situation du début des années 2000 avec sites youtube, dailymotion, etc. qui ont profité d’une qualification de l’Union européenne qui avait des bébés acteurs et faire office d’incubateur pour leur permettre de se développer. Réussi mais mis 20 ans à faire comprendre la notion du patrage de la valeur.

Deux questions

  • volonté
  • contrepartie

Union des forces peut servir à ça.

Intéressant de réinscrire cette question dans une histoire un peu plus longue de l’ouverture. 20ans après avènement des grands acteurs commerciaux, toujours pas trouvé un régime adéquat.

Idée de concilier ouverture informationnelle et créer système de résistance à la prédation des big tech. Quelles pistes ?

Camille : pas de solutions entièrement préparées. Mais invisibilisation des communs comme contribution souvent invisibilisée par les robots conversationnels. Au-delà de la conviction sur l’infrastructure et sa mise en place. Actuellement travailler au-delà. Ne pas être uniquement en défensif. Faire du ex-ante. Pas tout car conséquences majeures pour les communs. Mais parfois important. Pas toujours la bonne solution car peut empêcher de nouveaux acteurs de débarquer. Mais pour les communs développer un cadre infrastructurel qui permettrait d’éviter ce genre de choses. Extraction des ressources et des valeurs.

En réalité pour Wikipédia entreprise, pas eu le choix. Situation survenue d’un coup. Dû trouver une solution de rééquilibrage de coûts. Tout le monde pas Wikipédia. Selon les communs des enjeux différents : communs plus petits pas toujours cette capacité de négociation. Question qui relève du service public. Qu’est-ce que le législateur veut faire sur ces questions ?

Brigitte Vézina Donner des outils juridiques. CC Signals. Besoin de rétablir la volonté. Point de départ de l’initiative Signals mais aussi gestion bdd utilisées par IA leur redonner pouvoir dans ce rapport de force. Deux axes à l’origine de cette question : unifions nos forces.

Deux axes pour colmater les brèches. Un axe Coalition pour le patrimoine ouvert qui a développé une déclaration pour le patrimoine ouvert qui vise à célébrer ouverture tout en ayant à l’esprit les possibilités que les nouvelles technologies nous présentent.

Préambule §7 : « Nous sommes attentifs aux défis... » nécessité IA plus éthique et responsable pour réutilisation du domaine public.

Deuxième axe plus pratique qui s’appuie sur de nouveaux outils développés par CC qui pourraient s’employer en // des licences. Pas de nouveaux outils de droit d’auteur mais de gouvernance des données. Venant répondre aux failles du Droit d’auteur. Deux prémices essentielles.

  • des utilisation IA bénéfique et que l’on doit préserver. Garder à l’esprit que des usages qui vont dans le sens biens communs
  • inquiétudes et réticences au partage réelles que soient individuelles et institutionnelles. Doit y répondre car sinon moindre contribution

Outils flexibles pour répondre aux besoins. Indiquer les préférences pour entraînement de modèles de données exclusivement. Trois éléments de base pour le moment définis

  • crédit : forme d’attribution
  • contribution : financière ou autre
  • ouverture : pour préserver le caractère ouvert des données

Recherche de volontaires pour les tester.

Pas des outils juridiquement contraignants. Question en suspens. Tension avec le caractère des licences. Mais idée ouverture conditionnelle. Nouveau concept qui s’affirme. Au point de départ une demande polie, Mais se rend compte que pour que fonctionne devrait être plus contraigniant. Sous forme de contrat pour être réellement efficace.

Julie Groffe-Charrier Comment penser articulation. Labyrinthique mais aussi situation où navigue à vue. Forme de réciprocité entre les acteurs qui ne marche pas. Sentiment de double discours. Certain nb acteurs favorables à l’ouverture et l’accès tout en étant propriétaire sur leur modèle. Dérangeant.

Soit est très ouvert, mais copyleft. Pour IA ouverture bien à la source mais ensuite se referme trop vite. Me pose un vrai problème.

Exception de TDM pose un réel problème avec l’optout. Impose un renversement de la logique du droit d’auteur. Ne peut pas jusqu’à ce que donne une validation. Réellement cela, possibilité de scrapper jusqu’à ce que dise non. Puis nous dit que la machine ne peut pas désapprendre. Donc du mal avec la notion de réciprocité.

Camille pour nous Wikimédia notre contenu est gratuit mais pas notre infrastructure.

Dans un monde où une prise de parti politique, un travail démocratique de fonds

Ouverture pas une fin en soi. Ne pas perdre de vue que création des licenses au début des nvll techno. Permettre utilisation dans contexte nv. Aujourd’hui menaces viennent d’ailleurs. Manque de réciprocité, manque de partage des valeurs et forme incertitude qui vient rompre contrat social implicite.

Culture libre

Possible de gouverner des communs ensemble.

Tt en gardant spécificité propre. Risque à terme de se rejoindre. Du côté des communs volonté de poser une barrière. Pour les auteurs, de fait se faire une raison. Un chemin commun qui se dessinera. Rappeler enjeu civilisationnel qui se présente devant nous.

Dit souvent que le DA a survécu à des bouleversements immenses du droit d’auteur. Tous ces enjeux là, des défis qui se présentaient sur des modes de communication des œuvres. Là pas communication mais création. Logique de substitution. Ce qui nous unie préservation touche humaine et désaccord sur

Lawrence Lessig

Usage

Dusaillon, UQAM. Question de la traçabilité. Capacité à identifier un contenu et le tracer pour s’assurer que question paratage de la valeur soit assurée. Question depuis l’origine pour CC. Le By très rare que puisse le lire.

Bertrand Ducache Estimia. Europe développe concept de dataspace pour que des acteurs partaage.

Production d’un bien public par un acteur autre que l’État. Question de la discrimination tarifaire. Création de la valeur qui est centrale. Cas précédent dans les logiciels libres. MongoDB changement de licence. Contamination avec le copyright et licence. Logique extractive de l’IA et anonymat. Enfin, IA ne serait-elle pas une anti-utopie par rapport à ce qu’a été le commun ou le monde du logiciel libre que pas pu produire. Alors que IA produit un monde que n’a pas pu imaginer.

Question de la traçabilité des contenus très pertinente sur laquelle devrait se pencher. Utopie licences lisibles par les machines. Mais de fait très difficile. Avec les signaux question du suivi usage en aval. Intéressant pour les créateurs mais aussi réutilisation.

Enjeu sur tous les terrains de la traçabilité mais obstacle supplémentaire que sera opposé de l’autre côté le secret des affaires. Vraie limite à la traçabilité.

Clause NC ou exemple MongoDB. Par rapport aux principes fondamentaux absence de discrimination entre les usagers et les usages, en train de revenir dessus. Pose des pb.

CC se positionne dans la zone grise entre le noir et le blanc. Moyen explorer les nuances qui existent entre ces deux pôles. NC permet plus grande ouverture que fermeture totale. Compromis dans cette zone grise.


Les usages : industrie, recherche, projets contributifs

Alexandre Gefen, le monde dont parle celui de la recherche. Vieil acteur DH, création site Fabula, puis divers sites. CNRS où a accompagné les projets. Publication de synthèse chez Herman sur les transformations de la recherche à l’hzeure des DH et IA.

15 ans Stanford découverte NLP. Expérimentation dans des projets divers. IA et création. Histoire de l’IA CNRS édition en avril. De ce point de vue conduit à voir l’impact que l’IA pouvait commencer à avoir en SHS et en création. Comprendre les enjeux pratiques (montage formations CNRS). Côté art littérature expositions d’artistes travaillant avec l’IA.

Montage projet, financement en mars avec DataLab Bnf et PLEIAS. Idée de reconstituter l’univers culturel d’un écrivain (Flaubert). Et entraîner un modèle sur qu’il a lu, connaissait du monde, en s’appuyant sur ensemble de documents tirés des connaissances sur l’auteur et le modèle conçu à partir de Gallica.

Alternatives à l’usage des très grands modèles. Face à un gigantisme qui s’est jamais produit. Rapports de force avec les éditeurs, etc. Corpus privés ou semi-privés. Là le rapport de force disproportionné. Vraiment face à un nouveau problème.

Pleias fondée en 2024, créent des modèles véritablement ouverts, des données aux modèles. Lois plus strictes en Europe sur les données, les modèles et la manière dont peuvent être utilisés par la suite. Modèles compliants avec les lois européennes aevc licences sur les modèles publiés. Dataset common corpus, 2billions de tokens pour le pretrainning du modèle. Un des plus grands dataset ouvert publié en UE avec Appertus EPFL. Plusieurs millions de téléchargements sur Hugging Face. Essaye de créer des modèles les plus optimaux et les plus performants possibles avec des données ouvertes.

Essaye aussi d’innover au-delà de données brutes ouvertes pré-traitées pour pouvoir être utilisables en IA. Nouvel axe de recherche sur les données synthétiques. Travailler de manière plus efficace en se basant sur les données.

LightOn un acteur françaisde l’IA. Fondé par des chercheurs issus de la physique optique. À partir de 2020 quand les gd modèles de langage ont commencé à fonctionner (scaling laws) alors entraîné des grands modèles de langage et en faire son premier métiers. Un des premiers acteurs français à entraîner des modèles en langue française notamment. À partir de 2023 repositionnement considérant qu’un des enjeux centraux pas l’entraînement des modèles cœur devenus coûteux par rapport concureence gds acteurs am. Mais que IA générative plus de valeur ajoutée lorsque réussit à la connecter à nos propres données. POsitionnement sur le marché de la recherche d’information. LightOn Search and Reason : recherche d’information (valeur ajoutée et manière pertinente d’y réfléchir pas entraînement sur quantités gigantesque, coûteux énergétiqeument si question et réponse spéciale par ailleurs pas spécifique donc pas tjrs la plus fiable) RAG pour donner encontexte à l’IA les informations pertinentes.

Second axe de recherche. Garder les données chez soi. Amener l’IA aux données plutôt que l’inverse.

opsd.ia activité proche des deux autres. Mais aussi repérage des biais. Financements France DPI. Financement DG connect, détection de fausses informations. Permet à un analyste de détecter dans corpus sur RSN. Ou de travailler sur langues différentes. Ennabler.

Pb accès aux API avec gros acteurs.

Qualité hautement dépendante de la finalité. Ne peut dissocier l’un de l’autre.

Question du data trust. Comment collaborer sans dévoiler ensemble de la sauce.

S’inscrivent un peu tous dans des logiques similaires. Raison du colloque aujourd’hui. Comment travailler ensemble avec les acteurs qui produisent des données de forte qualité (formes hétérogènes, contenus de qualité, des domaines spécifiques que ne retrouve pas dans les contenus scrapés en ligne). Comment travaille ensemble pour que ces données soient à la fois accessible pour le plus grand monde mais aussi comment transforme la donnée car la donnée brute n’est pas utilisable ou accessible pour plein de gens donc enjeux pour travailler sur la données pour la rendre accessible et transformer la donnée pour la rendre utilisable pour des acteurs différents.

Comment met-on en place les conditions d’accès juste, et donc d’accès libre. Si accès ouvert, paraît logique avoir accès libre par la suite du produit des travaux. Juste également que ne soit pas un seul pool dans lequel va plonger mais travail de raffinement, aller chercher els contenus. Un coût gigantesque qui justifie que soit distribué sur différents acteurs.

Ce que va faire en traitant ces données, c’est ajouter de la valeur un coût en termes de calcul et de temps humain. Pour pouvoir mener à bien ce travail, besoin d’un investissement. Si doit se financeer soi-même besoin de client. Pas de réels fonds qui permettent à des acteurs réellement publics de générer ce coût là sans avoir cette contrepartie économique.

Grands modèles de langage capacité à faire des choses époustouflantes sur des contenus très dégualasse. Capacité de généralisation et d’émergeance compensant côté sale des données. Ouverture et transparence qui donne l’impression d’être très herbivore par rapport à l’ensemble des acteurs industriels. On vit dans un certain idéalisme, que protection de la législation. Que qualité des données va permettre d’avoir des choses explicables dans un cadre spécifique. Un rêve qui marche dans la recherche ou des secteurs métiers très spécifiques. Mais si veut avoir des outils grands public à plus grand spectre d’usage, on est quand même dans un autre monde.

Question de voir comment l’Europe s’est positionnée dans la chaine de valeur en général. L’éléphant dans la salle.

Pas forcément naïveté, aussi des choix.


Discussion

Modèle économique. Beaucoup parlé de données textuelles. Quid des images et de la vidéo ?

Sur les modèles économique dans les dataspace, etc. pas encore beaucoup de retours. Globalememnt l’univers est très compétitif. LightOn une entreprise de 60aine de personnes. Plusieurs directions de recherche. Quand travaille, dès lors que barrières supplémentaires pas le chemin qui sera pris. S’oriente en priorité sur les données faciles d’accès.

Pour l’image vidéo LightOn qui a sorti un des premiers modèles de logique visuelle. Pour répondre à des questions pertinentes. Utilisation de VLM. Pour la compréhension des images OCR. Ici des communs type Bnf ou autre peuvent être très utiles. Sources de données extrêment riches et différentes.

Utilité des technologies web sémantique. Savoir si un gain pour travailler à des jeux de données ? Qu’en faites-vous ?

R. Sans doute beaucoup d’avenir là dedans car beaucoup d’information, hiérarchies et relations avec autres objets. Pour le moment en a fait fit. Des technoloogies de Graph RAG. Une erreur car perd de l’information, derrière des résultats de moins bonne qualité. Tout ce qui est autour du knowledge graph, manière différente d’avoir des embedding, changer la géométrie, regarder la topologie. Manières de récupérer l’information de manière explicite plutôt qu’implicite, une des voies d’évolution.

Si en crois Yan LeCun retour d’une IA symbolique pour avancer vers IA générale. En effet, d’autres architectures. Les IA générative, plein d’architectures différentes. Une qui fonctionne très bien et dit que pour améliorer perf augmenter nb de données, etc. Alors plus recherche mais pb industrie. Or, des solutions meilleures à aller chercher.

Strutcure des données même si pas explicite. Important de créer des liens et de la structure après. Part d’u texte original puis va chercher des textes en lien pour complémenter la données. Même si la sturcture pas existante va partir des données pour l’enrichir.

Nanterre Soco?? mécanismes vertueux communs, etc. Mais des acteurs qui trichent etc. quel pourrait être selon vous le rôle de certains acteurs pour dénoncer les non-vertueux.

Si investissement commission européenne ouverture pour chaine de valeur. Si des acteurs malicieux alors prendre des mesures vis-à-vis de cela. Mais pas démunis.

DGConnect, conférence European Democracy Shield ?? softlunch democraty skills. Fastcheckers dit que besoin argent. Réponse ok mais besoin que soit le cadre. Fact checker que quand amende pour gens qui investissent milliards basés sur pub, alors remettre argent dans industrie fact checker. Mm chose si veut faire les choses.

Discours public longetmps mis en avant question moyens pour LLM. Et appels secteur privé modèle néolibéral. Enjeux éco. Alors que constate que stratégies différentes. Déclaration CERN.

L’État a tout de même sa place. Exemple que peut voir en Suisse. IA qui reste tt devant dans l’innovation, des modèles qui fonctionnent très bien entre ETH et EPFL, une recherche qui évolue très vite sans secteur privé. Suisse qui démontre que reste possible d’aller vers ce type de solution en restant compétitif.

Très complexe. Avant de consacrer des ressources importantes à ce type de projet. Pour moi la première priorité, aller vers les Quick wins bottoms up qui font émerger innovation imprévue en Europe. Première réponse, créer un terrain fertile à la mise en commun des efforts de chquns. Si des milliers acteurs en Europe qui arrivent à faire des choses comme ça et incentivise à publier les résultats de leurs travaux pour que d’autres s’appuient dessus alors possible créer les uns à partir des autres. Ex. en Chine. Logique de zéro coût facilitant la pubilcation.

Si du budget alloue-t-on les ressources à une grosse infra type CERN européen. Dès lors que des modèles open source actuellement pertinent mettrait plutôt budget dans du post raging etc. pour améliorer les modèles que l’on a déjà et garder compétences pour un jour entraîner ces modèles.

OK car a Jean Zay poru faire ça. Mettrait plutôt investissement dans la possibilité de finetuner des modèles. Peut débloquer accès privilégié à Jean Zay moyennant compensation. Coût environnemental imporatnt mais cluster bas carbone


4e table ronde :

Table rondes portées sur le cadre légal, aspects industriels et technologiques. Cet apm

Christian Gagné, institut IA et données. ??

Chef de la mission langue et numérique. Lubane Bouckaville le remplace.

Dans cet espace franco-québécois, compte des langues en contact ou vernaculaires encore mois représentées que le français. S’intéresser à plusieurs cas sur la manière dont ces langues trouvent leur place, la creusent et accès aux techno qui se développent à une vitesse extrêmement rapide aujourd’hui.

Marie Pierre Thibault

Document publié par Assemblée premières nations Québec et Labrador. Document de posture. Territoire numérique. Énonce que ne peut se faire sans les premières nations surtout quand investissement majeur. Démarche de souveraineté et d’autodétermination.

Souveraineté numérique. Partage des bénéfices et de la gestion des risques liés à l’IA. Protection des langues, etc. Transparence, participation démocratique.

Rédactrice principale. Grande équipe.

Christian Gagné, intelligence de données. Perspective projet développement d’une IA publique et nationale. Favoriser expression langue et culture française au Qc et au Canada. Inclure langues premières nations.

Avoir une IA adaptée à notre production culturelle. Réflexion évolution langue et culture québécoise. Faire valoir langue et culture mais aussi souveraineté numérique avoir des modèles opéré et conçu pour les québécois. Réduire dépendance américaine. Éveil de la société sur ces sujets. Développer des modèles d’IA spécialisés pour avoir une bonne performance et de pouvoir les comparer à des modèles commerciaux et ouverts. Les développer pour offrir des service reflètant mieux notre réalité culturelle et linguistique. Modèles de langues spécialisés dans des corpus et des dialectes.

DGLFLF mission protéger et provoir langues. Mission numérique.

Directeur du congrès permanent de la langue occitane. Langue romane parlée dans un gros tiers sud de la France. Mais également en Espagne et en Italie. Dite minorisée. En situation de dilocie ??? 7% de locuteur, mais 1M de locuteurs. 3 à 4 M mais en perte de vitesse. Politique de revitalisation linguistique.

Congrès créé en 2010. Jeune institution. À l’époque une Académie, représentation régalienne. Étude de préfiguration. Mais vu que du Wikipédia, du Zenodo, commons, etc. 14 à y travailler. Progrès notables menés dans les technologies et les ressources avec questions de souveraineté des données et gouvernance.

Poser la question de l’invisibilité numérique. Marie-Pierre a parlé d’autodétermination.

Données souvent collectées dans un cadre colonial. Données pas mesurées ou encadrées avec cadre de justesse. Souvent peu représentées.

Possibilité de faire lieux. Reconnaissance orale du français québécois pas au point.

Question de l’évaluation des modèles.

Mission langue et numérique. Mise en valeur des langues et réponse aux exigeances de visibilité. Ex. Dictionnaire des francophones (Lyon III) succès qui prouve que réelle demande. Lingua libre constitué par wikimédia France. Corpus multilingue. Observatoire de la diversité linguistique sur internet. Signes 3D Mocaplab

LanguesIA et Alteic

Besoin de mise en commun, avoir une bdd majeure franco intéressant. Souvent la quantité de données qui fait la différence car ce sont des modèles statistiques qui se basent sur la quantité et la fréquence de phénomènes linguistiques.

Pays scandinave créé une base de données pour entraîner. Langues proches car similarité grande. Même si pas que du suédois, a de la valeur.

Sans doute intéressant pour occident, avoir gd base avec catalan, etc. Pour les auto, sans doute que mise en commun de langues propres qui permettrait d’améliorer grandement la performance.

Ensuite l’alignement. Pour cela besoin d’avoir des gens correspondant au profil linguistique qui nous intéresse pour donner le dernier signal pour indiquer ce qui est préférable au niveau de la population visée.

LinguaTec Grand travail au niveau du corpus lors de la création du congrès. Souvent pas des données structurées. Important de s’intéresser au std. Gros travail sur la TEI. Un format important pour nous. Rendre ces données interopérables et automatiser production de données.

30M de mots dans le corpus. Privilégie outils libres. Apertium pour la traduction automatique. Fonctionne par règle. Avantage être libre, fonctionne bien pour les langues romanes. Devient pour nous les banques Zenodo, etc. Si le congrès disparait données demeureront.

Très bonne qualité des données qui explique bonnes performances.

Tous les services sont universels. Tous les OS, plugins, versions accessibles pour les publics mal voyant. Des APIs. Choix gestion pluricentrique de la langue. Pas occitan standard académiquement soutenu et enseigné. Travaille sur des grands ensembles et essaye de normaliser autour de cela.

Première version Apertium dont n’était pas très fiers. Mais bien reçus. Les personnes venaient vous dire avec question des choix. Et réponse vrai que du Gascon.

Besoin d’impliquer les communautés. Seulement de cette manière que pourra disposer des modèles qui soient justes. ne peut pas imposer variante à tt les communautés. Doit avoir des modèles vivant qui partent des communautés elles-mêmes. L’étiquette première nation très populaire. Beaucoup de développeurs intéressés mais pour que soit juste et serve, doit impliquer les premières nations. Consentement communautaire nécessaire.

Devrait être possible d’ajouter des informations ou en supprimer. Il faudrait un canal de rétroaction. Biais culturel, etc. Doit pouvoir se prononcer.

aing.ai outil développé par communauté auto pour l’apprentissage de l’Inuktitut. ne peut pas le faire sans le gens : humains vs IA.

Communautés de locuteurs peut être déjà actives. Important de ne pas faire à leur place.

PCAP Possession contrôle, accès propriété des données, ou CARE, consentement collective et gouvernance des données. Qu’est-ce qui distingue d’un cadre standard réglementaire ou gouvernemental.

Redéfinir les rapports de pouvoir. Cadres éthiques et occidentaux que souhaite un peu appliquer même façon alors que cadres à appliquer en consultant les membres des communautés et des premières nations. Ont le choix de déterminer comment les appliquer. Doit être fait ensemble.

S‘inscrit aussi dans un ensemble de droits collectifs. Déclaration des nations unies sur les droits des personnes autochtones. Préserver et exploiter les données de manière significatives et efficace. Pour pouvoir ensuite exploiter les donénes.

Souvent des données marquées par des biais histoirique. Donc doit pouvoir

Travaille sur une initiative en gestion de l’information.

https://sgipnql.com stratégie de gouvernance information Québec Labrador

Pour bâtir IA trois éléments nécessaires

  • Expertise (accessible)
  • la donnée, clef et source élément principal pour pouvoir créer ces modèles là. Comprend tt à fait la réalité. Volonté avoir mainmise et contrôle sur les données. Mais peut être transposé à une autre échelle. Question pouvoir. Pourrait construire modèle commun mais en même temps faire en sorte que pas trop disponible de manière ouverte. Actuellement acteurs américains qui moissonnent tout ce que peuvent en ignorant tt les licences et intersections. Façon arrive toujours plus. Dans cette perspective là, on a un patrimoine culturel francophone québécois. Si capables de construrie cette base de données là, et en même temps que autres actuers ne puissent l’utiliser une autre manière de produire de la valeur.

Erreur 2005-2008, permis à ce que tt infra infonuagique soit confiée au Cloud. Cloudact qui fait que peuvent accéder aux données même si hébergé sur des serveurs extra-nationaux.

Maintien langues minoritaires exige maintien infrastructure numérique ?

Pas de marché pour l’occiitan. Mais parfois nortalgie et personnes qui nous contactent pour contribuer. Communautés que l’on rencontre autour des outils. Exemple Apertium.

IA une vraie opportunité pour les développeurs mais aussi en matière de IA générative. Utilisation possible en productivité par exemple avec Copilote.

Financement de google pour le libre. Parfois

Contrôle commission européenne, etc.

OpenOLLM porté par Université de Prague. AUtres grands projets Altedic, LLM4You plusieurs axes de travail dont des cas d’usages industriels. Commission qui travaille pour encourager l’industrie. Des actions dans Horizon mais les financements n’ont pas la même envergure. Modèles pour le traitement dans le domaine du nucléaire, le tourisme et l’édition scientifique et juridique.

Dit souvent US innove, Europe réglemente. Mais réglementer c’est aussi innover. Par ailleurs capables imposer des modèles interntaionaux. Un aspect de réflexion sur les aspects légaux.

Programme linguatech à l’échelle pyrénéenne se passe bien car se connaît bien. Des cultures qui cohabitent et ont des échanges depuis des siècles. Fonctionne bien car se connaît bien.

Essayer analyser les besoins, pas nécessairement faire copier coller. Voit réellement différence. Estoniens et finlandais, un autre univers. Des communautés qui n’ont pas grand chose à voir culturellement. Un réel écart, ni même vision sur la situation de la langue, comment celle-ci doit se projeter dans 10aine année. Un vrai écart culturel que n‘avait pas même avec les basques alors qu’écart culturel important.

Est-ce que des initiatives pour assembler des corpus de langues autochtones autour des premières nations. Pouvez-vous nous donner des exemples d’initiatives existentes ou en démarrage ?

A travaillé sur le côté éthique IA. Langues et culture qu’a abordé rapidement. Le comité général des langues ancestrales pourrait répondre mais ne sait pas.

Autre question pour Gagné, souligné l’importance du travail d’alignement. cad avoir des personnes qui alignent ces modèles. Communauté, représenter les territoires du Québec. Avez-vous déjà des idées sur la manière d’organiser cet alignement ?

Demande d’avoir des répondants représentatifs de la diversité de la société. Pas besoin avoir milliers, mais représentativité des points de vue et des strates démographiques qui répondent gd nb questions. Une question de recrutement. Pas connaissance de bcp gens ayant fait des choses comme ça au Qc. Au niveau universitaire ressemble recrutement de représentant.

Au MCC a développé un outil dénommé compareIA qui pemret d’interroger deux IA en parallèle. Très librement puis questionnaire pour donner appréciation et préférence avec critères. Gros développement de partenariat avec modèles courants. Déjà des rapprochements avec entités québécoises pour pouvoir porter.

Alignement signal plus fin qu’évaluer la perfomrance.

Conclusion

Merci à toutes et à tous pour présence aujourd’hui et interventions. Riche de partager. Événement qui fait partie d’une série. Il y aura une suite notamment la semaien prochaine. Aussi en terme de compte rendu de la journée. Partagera le CR fourni.

Va essayer de produire un guide ou une synthèse en fin de projet.

Tivoïsation