Ou Natural Language Processing (NLP) en anglais. La gestion des données textuelles est complexes. Cette difficulté, combinée au foisonnement des données et des applications (et accessoirement des financements) fait de la communauté NLP, la plus grosse et la plus isolée des communautés du Machine Learning.
- Des conférences à part: ACL, EMNLP, ... lien vers la biblio
- Des pré-requis spécifiques
- Jouer avec les données textuelles impose la maitrise des expressions régulières: regex
- Maitriser les commandes systèmes de base pour manipuler les fichiers en profondeur, extraire les statistiques de base et vérifier les informations contenues
- Un choix parmi les nombreuses ressources disponibles, celles de l'équipe la plus connue au monde: Stanford NLP Group
-
Classification de documents
-
Analyse thématique, clustering, approches non-supervisées
- Survol de différentes techniques non-supervisées
- Ressources historiques en TAL
- Frequent Itemset
- Construction de ressources
- De k-mean à LDA
- utilisation de la librairie
gensim
- utilisation de la librairie
- Apprentissage de représentation de mots
- de Bengio et Collobert à Word2Vec et FastText
- Analyse quantitative sur la sémantique
- Fonctions d'agrégation
- RNN, CNN, Transformers
- Reflexion sur la gestion des connaissances et les modèles génératifs
- Prise en main de la librairie
- Adaptation pour les tâches vues précédemment
Le cours d'opinion-mining (ou classification de sentiments) n'est plus vraiment à jour: il est centré sur les sacs de mots alors que la tâche est maintenant quasi-exclusivement abordée en deep-learning.
Je poste cependant les transparents pour deux raisons:
- Les représentations avancées en sac de mots conservent un intéret pour certaines tâches
- les supports peuvent aussi être utiles pour ceux qui veulent approfondir les TP.
- Cette tâche illustre vraiment très bien la problématique du transfert, qui devient centrale en deep
Démontrer votre capacité à créer une chaine de traitement des données textuelles sur l'analyse d'opinion et la classification de locuteur
- Travail en monome ou binome
- Jeux de données
- Revues de films
- Chirac / Mitterrand
- Analyses obligatoires
- Comparer les performances avec différents pré-traitements
- e.g Taille de vocabulaire, unigram/bigram, Stemming, ...
- Implémenter un post-traitement sur les données Chirac/mittérrand
- Appliquer les traitements optimaux sur les données de test et sauver les résultats dans un fichier txt
- Comparer les performances avec différents pré-traitements
- Compléments optionnels
- Analyser les performances avec Word2Vec, en utilisant des stratégies d'agrégation naïves
- Ecrire un rapport succinct
- Présentant les courbes de perfornces pour les paramètres les plus influents/marquants
- Quelques conclusions sur le travail effectué
- Soumettre par mail:
- Rapport, Notebook(s), 2 fichiers de scores (locuteur/opinion)