Skip to content

Latest commit

 

History

History
358 lines (189 loc) · 22.1 KB

File metadata and controls

358 lines (189 loc) · 22.1 KB

CRIHN, IA

Computer interaction à UdeM. Diplomé de Concordia, arts dpt. App pour le jardin botanique, etc.

Montréal HCI, hui.iro.umontreal.ca un nouveau laboratoire.

Intérêts de recherches : un LLM évaluation, intersection entre notation et programming et manière dont communique avec les machines.

Pourquoi avons nous besoins d’interfaces pour évaluer le comportement LLM ?

Mars 2023, début ChatGPT. Débutait un postdoc, regardait des projets. Évaluer les capacités des LLM pour la programmation. Comment acquiert connaissance pour langage et comment alimenter outils pour développeur. Grande feuille de calcul avec prompts. En fait tout le monde faisant la même chose. Dans le domaine académique, mais aussi dans l’industrie. Personne ne sachant comment évaluer les prompts.

Si vous êtes un gouvernement, savoir comme réaliser cette analyse de manière robuste. Mais ce que le gouvernement sait faire, mettre en place un Comité. Mettre en place outils libres pour que le public puisse réaliser des audits. Créer des prompts paramétrisés, définir input data à tester, collecter les réponses, etc.

ChainForge, outil mis en ligne en mai 2023. Multiples données. Un prompt paramétrisé. Commandes de type word, test pour prompt injections. Évaluateur automatique, et nb succès.

Supporting Qualitative Inspection.

Caveats, conçu pour improvisation, rapid prototyping. Développé de manière ouverte. 2 300 GitHub stars. 60K utilisateurs. Utilisé pour adreser un pb, audit, etc.

Case studies dans la publication.

Beaucoup de personnes l’ont utilisé pour prototyper des pipelines de data processing.

« We are reduced to prompt engineering...» En mars 2023, trouvait très drôle Prompt engineering. Rapidement après, trouve que pas si drôle. Un travail particulièrement difficile.

De quoi sommes-nous réduits ? Quel état précédent. Étions-nous bien fondés précédemment ?

Prompt engineering is a skill. Plus que optimiser un prompt. Une pratique artisanale.

Parmi les choses importantes

  • N’utilise pas un prompt isolé
  • Décomposition en tâches
  • métacognition
  • exemples datasets, métriques et évéalutaion

AI support for LLMOps tools. Comment pourvoir générer donners entrées et optimiser prompts ou chaînes. Définir métriques.

Who validates the AI validator?

Criteria drifts

https://hci.iro.umontreal.ca

Discussion

Perte du formalisme quand interragi avec la machine. Fondamentalement sert le travail de l’industrie.

Impulsion pour passer le prompt engineering. Tous les mois dit que mort.

“This is an extremely exciting and important project, Ian. Thanks for the work and the presentation. I can immediately see the uses of the method and tool you are developing for humanities data-oriented projects (and the evaluation of potential uses of AI in improving database systems and processes of producing metadata out of complex qualitative data assets). One among many questions I have for you (and I’ll follow up for a coffee), is: how have you integrated the discipline-specific evaluation parameters into the LLM evaluation methods you have been developing?”

La question continue: “Do you leave this part to the ‘experts’ in those specific disciplinary areas, or have you also prepared certain templates or protocols for framing prompts that may be adapted across very diverse disciplines (say from polymer experts to poetry experts)? Clearly you’re thinking about this under the ‘defining evaluators’ and ‘criteria problem’ part you were just talking about. Can you give some examples of the process of developing more reliable criteria that are specific to focused research fields? Is this a process that can be documented for more structured replication”

Quand considérée pour RAG. Essayé d’être le plus général possible. Pour être plus spécifique, boostrapper les nœuds soi-même. Possibilité d’ajouter un nœud en une semaine. Serait heureux de pouvoir en discuter.

Ingénieur un titre protégé au Qc, ce qui rend les choses plus délicates ici.

Fabio Ciotti, Generative AI and Digital Humanities

Dans le jeu depuis longtemps et eu l’occasion de voir beaucoup de modes. Commencé par Pirandello, DB Excel, Hypertext, Text Encoding, etc.

The Digital Hmanities ecosystem au cours des dernières 30 années. N’aime plus beaucoup l’appellation, mais peut changer les dénominations.

Digital Humanities, Big Data, Text mining and Machine learning, Data science, Cultural analytics. Aujourd’hui percée de generative AI.

Aujourd’hui dans une école de science des données. Quelques spécialistes des DH. Longtemps utilisé Distant Reading, mais plus une méthode et une approche, mais pas ... parler de Cultural analytics pour désigner le champ.

Classic AI (GOFAI)

  • Intelligence consist of a series of high-level skills, fundamentally linguistic and logical, ie. symbolic
  • computation
  • langage de la pensée
  • Mind and Turing Machine Analolgy
  • The idea that intelligence is idnependant of its natural substratum (functionalism)

Ne neurol paradigm

  • artificial neural networks
  • perceptron, pitss, roseblat
  • emerging
  • learning vs programming
  • kinds of classification capacities

Adaptibilité et dynamisme dans les LLM : contextual learning and prompt sensitivity.

Perspectives sur Generative AI. LLMs des systèmes complexes qui peuvent être étudiés en adoptant des perspectives théoriques et méthodologiques différentes.

  • point de vue technosocial
  • artefacts culturels, pour comprendre comment culture fonctionne

Quel type d’agents cogniftifs sont les LLMs : comprennent-ils réellement le langage, ont-ils des croyances, intentionalité. Floridi, dit que agency sans intelligence. Mais probablement tort. Loin de pouvoir dire que peuvent décider quoi faire d’eux-mêmes.

Positions divisiées dans ce champ, degrés variées et plus ou moins optimiste.

Stochastic Parrots.

Critique du deflationisme à propos des LLMs. Problème que dit toujours « Real understanding » mais n’explique jaamis ce qu’est.

Idée d’un fantôme dans la machine que ne peut pas expliquer. En théorie pouvoir se débarasser des fantômes.

LLM comme technologies culturelles. Alison Gopnik, Trasmission versus Truth, imitation... Bibliotechnism.

Comment conceptualiser tout cela. Narratologiste. The theory of culture as a semiosphène. Peut penser Culture comme sémiotique système.

Lotmatin introduction concept sémiosphère. Si general cognitive intellect, cf. article 1979.

Eco et le modèle du lecteur, Lector in fabula. Texte une machine, demande au lecteur coopérer avec lui.

2024, Te Underwood 2024, can language models predict the newt twist in a story.

Très fuzzy, pas de manière de l’opérationnaliser ou de le formaliser.

DH et Formalisation. Le reste peut appeler un CS. Alors essayer de comprendre Lisp, semantic web, etc. Generative AI. Quelque chose de nouveau. Paradigm formaliste. Assume isomorphie entre le modèle et ce que construit.

Data driven paradigme, data, et opérationalization. Empirique, quantitatif. Passe herméneutique vers évidence-driven and causal explanation.

Interprétation vs explanation : Matheew Jockers

Chose que traite résistance formalisme et dataification. LIvre essayé réconcilier mais impossible.

Outils qui pourraient réconcilier dichotomie. Possibilité de travailler avec concepts flous.

« Large langiage models surpass huamn experts in predicting neuroscience results » Nature huma

Possibiliter tester théorie langage, etc. pas possible avant. Un grand espace pour jeunes collègue

Discussion

Si general cognitive intellect comment y accède.

Formels ou pas ? Bien sûr des modèles inductifs. Mais leur fonctionnement inductif est aussi un modèle formel. Simplement fonctionnent directement. Quand dit formalisme, Chomsky, ensemble de règles

Juan Luis Gastaldi, ETH Zürich, Sous les distributions la structure !

Adopter un point de vue épistémologique sur la question.

Ouvrir la boîte noire ! Pas d’autres épistémologie possible que de comprendre comment et pourquoi ils fonctionnent. Peut avoir autres approches qui sont politiques, poétiques, mais ici question de l’épistémologie.

Le narratif du black box, une catastrophe épistémologique mais aussi politique.

Comment et pourquoi ML modèles travaille. Les techniciens et les régimes autoritaires avancent discours black box.

Quand pas directement motivés par itérêts politiques ou économiqeus. En fait categorical moistales. ML pas des objets naturels mais des objets formels.

Déterminé par expérimenter avec eux. Pas possible de comprendre choses en expérimentant avec elles. Chomsky. Tentatives, déguiser notre ignorance et perpétuer narratif, que espace construit par savoir absent.

Stochastic Parrots vs AI Consciousness. Language models pas comme nous, pas de relations au savoir. De l’autre côté, supporte idée que relation au savoir. Ici les éléments du débat philosphique.

Débat savoir si comme nous ou pas. Pour Chomsky une question idiote. Pas celle à laquelle doit répondre. Idée que Modèles des objets empiriques. Mais pas parce que ne sont pas des modèles empiriques que ne peuvent rien dire sur nous.

Plutôt que de savoir ce que comprennnent les modèles. Plutôt que comprennons nous des modèles ? Que pouvons nous comprendre du langage à travers eux ?

LLMs nous disent quelque chose à propos de la structure computationnelle du langage [???]

Devons garder cette boite ouverte.

  • Subword Tokenization (Sennrich et al 2016).
  • Word Embeddings (Mikolov, Sutsekever Chen, 2013).
  • Self-Attention (Vaswani et al 2017)

Word Embeddings, representation unités linguistiques. Représentation vectorielle de ces mots. Garder à l’esprit qu’une liste de nb. Tts les propriétés de ces représenations.

Similarités, etc. Encodage d’arbres,e ct.

Raphaël Millière

Word2vec Models.

Word2vec as Implicit Matrix Factorization, Levy Goldberg, 2014

Procède à une factorisation implicite. Quand multiplie avec autre matrice, donne troisième matrice. Trivial, mais

Cos fonction de word2vec, fonction qui doit être minimisée. Si trouve dérivée de la fonction avec multiplication, alors doit trouver dérivée tendant vers zéro. Et expression que connait en réalité. Une mesure fameuse en linguistique et en sciences infroamtion : Pointwise Mutual Information.

Si a celle-là, alors dispose matrice originale qui a été factorisée. Condition que la factorisation doit être à basse dimension pour que puisse multiplier pour rester proche de la première. Une solution algébrique pour trouver solution plus proche possible Singular Value Decomposition SVD qui fournit une solution exacte.

Savons comment produire ces matrices à travers une procédure algébrique. Cette décomposition une propriété que les colonnes et les lignes de la matrices, organisées de telle sorte que si prend première colonne et ligne, garantit être meilleure approximation de la matrice. Solution exacte de l’optimisation.

Pourquoi ? et les gens qui donnent ces résultats, pourquoi produit de bonnes représentations, ne sait pas. Pas été exploré. 10 ans et pourquoi meilleurs résultats car exacte solution. Besoin de quelque chose plus formel.

Les propriétés qui nous intéressent ne dépensent pas de la magie de neuralnets. Car d’autres manières d’y accéder complètement indépendante des technologies de réseaux proprement dites. Propriétés qui réside plutôt dans les structures sous-jascente des données. Besoin de comprendre ce que SVD fait. Principe algébrique. Mais ce qui est important, que ce que fait. Matrice sur un côté, eigenvectors de MM*, l’autre eigenvectors de M*M. Troisième matrice...

M* seulement changer colonnes en lignes. Que fait-on, ici compare deux par deux toutes les lignes et mesure à quel point sont similaires. Linguistiquement mesure à quel point deux éléments disposent d’une distribution similaire.

eigenvectors soit sait, soit beosin. Mais donner quelques intuitions. Géométrie. Penser les choses comme des points dans l’espace. Un eigenvector d’une matrice donnera l’axe de séparation maximum entre les points.

Plus algébréiquement, prendre les trois séparés précédéement. Voit que premier sépare nombres des couches. Second voyelles des consonnes. Et le 3e caractères spéciaux.

Beaucoup de structure que SVD capture. Quand regarde cela come optimisation.

Termes et contextes. Connexion avec

Comment généraliser de là. Besoin d’avoir autre intuition de ce que sont les Eigenvectors. Quand multiplie par matrice, donne même vecteur. Eigenvectors as fixed points.

Un aspect structurel. Des points fixes. Essayer de repérer choses qui sont fixes.

« Eigensets » des ensembles qui ont des propriétés propres, inclusions, etc. Donne réseau de relation qui caractérise la structure à l’arrière de mes données.

Quelle structure ?

Les deux émergent des données à partir d’une analyse algébrique.

Ok, change les chsoes que ne comprend pas par quelque chose autre que ne comprend pas. Mais peuvent être considérés comme des types computationnels. Alors remplissent les caractéristiques formelels des types. Alors possible de typer les données.

En réalité ces opérations celles que la linguistique structurelle utilisait pour caractériser le language. Paradigmatique, sémiotique, mutation, etc.

Discussion

LLM pas objets empiriques. Phénomènes sociaux empiriques pour moi.

Kantien, pour moi empirique donné par l’expérience.

Peut traiter addition comme objet empirique mais plus l’addition.

Utilisation de GLOVE. Matrice de cooccurrence. Est-ce que plus explicable ? Est-ce que utiliser mathématiques, explique mieux ?

Glove utilise tout de même réseaux neuronaux pour déterminer...

Articulation qui est en train d’être recaractérisée, dans le fait que disposeces modèles.

Selensky ???, computationnalité

Tiberio Uricchio (University of Pisa), « Towards AI Hermeneutics: Leveraging Visual Intelligence »

Remercie ses deux labos.

Herméneutique de l’IA ce que nous devons cibler aujourd’hui.

QUestion dans le domaine computer vision : the Semantic Gap. Smeulders et al. « The semantic gap is... »

Input and output

Travail avec les étudiants pour interprétation critique du texte.

Deux groupes d’étudiants, groupe expérimental et groupe de contrôle.

Qualitative assessment sur 8 catégories. ChatBox oblige à faire plus de raisonnement.

Différences entre les modèles selon les aspects. Différences encore plus prononcées quand MLLM. Multimodal. Le gap encore plus élevé dans ce cas.

Learn generative feature 2020-now. Naviguer le latent space with known directions used in generative AI.

Othello GPT

LLM ont des représentations du monde. Peuvent jouer Othello, représentation du jeu et des pièces. Essaye de prédire prochain jeu. Possible d’entraîner un classifier linéaire.

Plupart des choses que les modèles savent sont mélangés en dimensions latentes du modèle. Savoir comment spéarer les aspects. Une méthode pour les comprendre automatiquement.

Sparse autoencoder. Des outils de ML qui permettent avoir un input, compresser en représentation et doit pouvoir le prédire en retour. Avoir large représentation de tel ou tel aspect du monde, peut être splitté. Un autre LLM pour comprendre échantillons qui trigger la même activation ont en commun. Alors peut supposer que quelque chose en commun.

Anthropics, Claud. Millions de features en production.

Possible modifier. En déplaçant dans espace, peut trouver ce qui change le comportement du grand modèle de langue.

Neuronpedia, qui offre interface pour recherche interprétation.

Au moins 3 échelles de structure.

Augmentation dans le champ patrimoine culturel, comme pièce unique. Aspects visuels depuis images naturelles difficile à transférer à des peinture.

Au lieu de penser tous les points comme éléments symboliques. Les penser comme distribution. Choses transposables, et que peut penser comme repréasations.

Essayé de le faire en utilisant des descriptions critique des œuvres. Exemple travaillé avec Stable diffusion, en essayant reprérer ts choses pertinentes pour l’artiste. Obtient images variantes pas significatives pour la signification.

Résultats performance, montre que augmente la performance, cross-modal retrieval de deux œuvres.

Conclusions avec questions

Nous commencons à mieur comprendre plusieurs aspects mais très complexes d’un point de vue mathématique.

  • comment transférer les multiples interpréattion des modèles vers les modèles
  • comment merger ou connecter des modèles avec des savoirs spécifiques du monde ?
  • comment extraire une ontologie propre de ces représentations ?
  • Est-ce que l’on peut plutôt commencer d’uen structure interpréable et entraîner un MLLM avec lui ?

Discussion

Quel objectif

Damien Masson (Université de Montréal), « Interacting with AI beyond text »

Comment interagir avec IA au-delà du texte, beyond prompt, conversation.

Commencer avec ChatGPT. Rapidement une interface avec laquelle peut interagir pour conversation. Seulement 2 ans d’âge. Étudiants utilise tout le temps. Mais deux ans avant, un autre modèle publié Da Vinci, 2020. Mais moins populaire.

Fonctionne de manière très différente pas une conversation. Devait d’abord expliquer comment répondre à la question. Questions réponses. Seule chose que peut faire le modèle : complétion du texte.

Puis répondre à la question.

Technologie sous-jascente le même modèle GPT3. Mais pas le même succès. <500 000 users/week Da Vinci, versus 200M pour ChatGPT avec le même modèle.

Le succès de ChatGPT pas meilleur modèle mais meilleures interractions. Mon domaine de recherche Human-Computer Interaction.

Idée de design cenrté sur les utilisateurs. Ce qu’a fait OpenAI avec ChatGPT. Da Vinci, Machine-centered design.

Communique avec les mains. Partie essentielle de la communication. Raison pour laquelle pense que doit pouvoir interagir avec AI au-delà du texte.

  • Remember lessons from the past
  • Leverage what people already know

Remember lessons from the past

Lors du lancement de ChatGPT. Ligne de commande. Revenait à interface de ligne de commande. Mais si pense comme cela, peut s’appuyer sur toute la recherche pour améliorer ligne de commande. Xerox invention GUI.

Ben Scheiderman venu avec recommantations

  • continuous rerpée of the pob
  • physical action...
  • Offer new perspectives

Références directe aux éléments. Pour image, pour texte. Parfois besoin de plus de paramètre. Ajouter des paramètres à un dessin. Mais aussi dans le dessin, pouvoir apprendre de l’interaction. Construction de l’outil au fur et à mesure qu’avance.

Résultats souvent très positif. Plus adapaté. Moins de prompts et plus courts. Pas toujours meilleur mais pour ce genre de tâches, meilleur. De même pour command line et GUI. Dans certains cas command line reste pertinente.

Gens besoin de deictic textures

https://dl.acm.org/doi/10.1145/3613904.3642462

Leverage what people already know

Organ, Xerox Parc, utilisation d’une métaphore. Si rexprime nouvelle interface dans quelque chose déjà connu réduit l’apprentissage. Métaphore du bureau.

Grammarly et OpenAI Canvas (oct 2024)

Ensemble de menus et de boutons. Pas de métaphore. Gens doivent apprendre. Interface pas très expressive.

Open AI Canvas récente, prix idée de projets anciens. Mais reste ensemble de boutons.

Inspiration des logiciels de dessins. Souvent plutôt amusant, interaction jouante. Bonne métaphore des digital canvas.

Voir si en appliquant ces concepts peut appliquer concept. Sélectionner le texte, redimensionner. Possible d’être très expressive, Rotation. Pour changer l’ordre des mots dans une phrase. Passage voie active. Organisation du document : marges, notes, etc.

Mais aussi filtres, et outils pour travailler le texte. Implémentation la même chose pour texte. Paraphraser, ect. Réparer la grammaire, tone picker, tone brush. Color picker une manière d’explorer ensemble de possibilités.

Vector graphic, combinaison des figures. Idem avec le texte, possibilité de confondre deux phrases. Layers, bonne manière d’éditer de manière indépendante parties du textes. Avoir une couche de commentaires. etc.

Évaluation. Résultats très positifs. Mais en utilisant une métaphore, transforme aussi les mauvais aspects. Souvent ne se souvient pas ce que fait qqchose. Pb familiarité avec l’outil.

Utilisation métaphores, une manière puissainte de réenvisager nos workflow. Une manière de capitaliser avec des aspects familliers. Métaphores pas besoin de venir du même domaine.

Offer new perspectives

Pas de IA, Sketch-n-Sketch. Avoir un éditeur graphique sur la droite. Et overview sur la gauche, représentation programmation même outil. Certaines tâches plus simples dans une représentation, autres dans une autre représentation.

Hempel et al. LIST19

Visual Writing. Savoir si peut être utiliser pour d’autres choses. Écriture de romans. Quand un auteur écrit une nouvelle manipule seulement du texte. Quid si une représnetation alternative de cette histoire. Nœuds correspondant aux caractères de cette histoire. QUid si peut rendre ces représentation éditable. Immédiatement permet au système de travailler.

L’avons implémenté. Donné histoire et représentation visuelle à droite. Carte de localisation des entités. Table des entrées. Ensemble vues synchronisées. Edition directe, mise à jour histoire. Peut création nouveau personnage. Peut modifier position des personnages.

Beaucoup de réactions négatives des écrivains. Retours pas du tout unitaires. Gens neutres, Un qui n’aime pas. Itw les plus intéressantes. Beaucoup pas vu comme outil d’écriture mais outil exploration. Beaucoup de questions hypothétiques. Implémente modification et se rend compte que ne fonctionne pas. Outil qui permet rapidement explorer versions histoire sans avoir à les écrire. Beaucoup de personnes peu satisfaites avec écriture.

Nouvelles représentation peuvent donne de nouvelles perspectives. Nouvelles perspectives qui peuvent servir comme nouvelles manières d’interagir avec AI. Veut convaincre que doit aller au-delà des interfaces conversationnelles.

https://damienmasson.com