Cours de M2 Data Sciences

Ce cours fait partie du Master 2 Mathématiques et Informatique pour la Data Science (M2 MIDS) de l'université de Paris. Le cours introduit les méthodes statistiques de Traitement Automatique de la Langue Naturelle. Les méthodes de Deep Learning ne sont abordées que dans des cours ultérieurs.

Calendrier

Le calendrier des séances est décrit ci-dessous.

Séance	Thèmes	TP / Exercises	Slides
Cours #1	Modélisation statistique du langage, vectorisation de texte
TP #1	Classification de textes, modèles BoW
TP #2	Détection de thèmes, LDA
Cours #2	Représentations sémantiques lexicales et sémantique distributionnelle : Embeddings de mots
TP #3	Embeddings de mots pour l'analyse de sentiments
Cours #3	Modélisation de séquences de mots : modèles de langue. Application à la génération de texte
Cours #4	Ouverture sur les méthodes de Deep Learning pour le NLP (RNN, Seq2Seq, Attention, Bert) Application au systèmes de Q&A

Comment l'utiliser ?

💻 En local

Si vous souhaitez exécuter le TP sur votre ordinateur, voici une procédure rapide pour installer Python et les librairies requises. Ca évitera d’avoir des problèmes de version de librairies qui interfère avec d’autres cours ou projets. Pour installer Python, je vous conseille d’utiliser Anaconda (~450 MB). Sélectionnez l’installation correspondent à votre système d’exploitation et “64-Bit Graphical Installer” puis suivez les instructions pour installer Anaconda.

Pour les librairies, je vous conseille de créer un environnement virtuel python pour l’ensemble du cours. Ouvrez un terminal et tapez la commande suivante :

conda create -n nlp-101 python=3.6
# Vous pouvez activer l’environnement avec la commande suivante
conda activate nlp-101

Si vous utilisez jupyter-lab, vous pouvez répertorier l’environement :

conda install ipykernel
ipython kernel install --user --name='nlp-101'

Nous allons installer les librairies avec le gestionnaire pip. Vérifiez que la version utilisée est bien celle associée à anaconda :

pip show pip

Puis mettez le à jour :

pip install --upgrade pip

Installez les librairies suivantes :

pip install scikit-learn==0.23.2 matplotlib==3.3.2 pandas==1.1.3 lime==0.2.0.1 unidecode==1.3.2 umap-learn==0.4.6 umap-learn[plot] nltk==3.5 spacy==2.3.2 gensim==3.8.1
pip install --no-deps pyLDAvis==3.3.1 funcy==1.16
pip install --upgrade jupyter

Vous pouvez vérifier que chaque package est bien installé avec la commande :

python -c "import sklearn; print(sklearn.__version__)"

Finalement téléchargez le modèle Spacy français :

python3 -m spacy download fr_core_news_md

☁️ Google Colab

Si vous disposez d'un compte Google, vous pouvez également éxécuter l'ensemble des TPs et exercices sur l'interface Google Colab.

🐳 Docker

Il est également possible de faire tourner un serveur jupyter dans un Docker. L'avantage est que ce dernier tournera dans un environnement virtuel en grande partie indépendant des contraintes de votre machine. Par exemple de votre installation python ou de votre système d'exploitation.

Pour cela, installez Docker Desktop (c'est gratuit pour les utilisation non professionnelles). Vous pouvez ensuite cloner le répertoire et construire l'image Docker. Pour cela ouvrez un terminal et exécuter les commandeds suivantes :

git clone [email protected]:AntoineSimoulin/m2-data-sciences.git
cd m2-data-sciences
git pull
docker build -t m2-data-sciences .
docker run -p 8888:8888 m2-data-sciences

Name		Name	Last commit message	Last commit date
Latest commit History 124 Commits
Cours 1 - Modélisation statistique du langage		Cours 1 - Modélisation statistique du langage
Cours 2 - Embeddings		Cours 2 - Embeddings
Cours 3 - Language Models		Cours 3 - Language Models
Cours 4 - Introduction NLP & Deep Learning		Cours 4 - Introduction NLP & Deep Learning
TP1 - Apprentissage supervisé pour le NLP		TP1 - Apprentissage supervisé pour le NLP
TP2 - Text Mining		TP2 - Text Mining
TP3 - Word Embeddings		TP3 - Word Embeddings
src		src
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Cours de M2 Data Sciences

Calendrier

Comment l'utiliser ?

💻 En local

☁️ Google Colab

🐳 Docker

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

AntoineSimoulin/m2-data-sciences

Folders and files

Latest commit

History

Repository files navigation

Cours de M2 Data Sciences

Calendrier

Comment l'utiliser ?

💻 En local

☁️ Google Colab

🐳 Docker

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages