Skip to content

AntoineSimoulin/m2-data-sciences

Repository files navigation

Cours de M2 Data Sciences

Ce cours fait partie du Master 2 Mathématiques et Informatique pour la Data Science (M2 MIDS) de l'université de Paris. Le cours introduit les méthodes statistiques de Traitement Automatique de la Langue Naturelle. Les méthodes de Deep Learning ne sont abordées que dans des cours ultérieurs.

Calendrier

Le calendrier des séances est décrit ci-dessous.

Séance Thèmes TP / Exercises Slides
Cours #1 Modélisation statistique du langage, vectorisation de texte Open In Colab Course1
TP #1 Classification de textes, modèles BoW Open In Colab Tp1
TP #2 Détection de thèmes, LDA Open In Colab
Cours #2 Représentations sémantiques lexicales et sémantique distributionnelle : Embeddings de mots Open In Colab
TP #3 Embeddings de mots pour l'analyse de sentiments Open In Colab
Cours #3 Modélisation de séquences de mots : modèles de langue. Application à la génération de texte Open In Colab
Cours #4 Ouverture sur les méthodes de Deep Learning pour le NLP (RNN, Seq2Seq, Attention, Bert) Application au systèmes de Q&A Open In Colab

Comment l'utiliser ?

💻 En local

Si vous souhaitez exécuter le TP sur votre ordinateur, voici une procédure rapide pour installer Python et les librairies requises. Ca évitera d’avoir des problèmes de version de librairies qui interfère avec d’autres cours ou projets. Pour installer Python, je vous conseille d’utiliser Anaconda (~450 MB). Sélectionnez l’installation correspondent à votre système d’exploitation et “64-Bit Graphical Installer” puis suivez les instructions pour installer Anaconda.

Pour les librairies, je vous conseille de créer un environnement virtuel python pour l’ensemble du cours. Ouvrez un terminal et tapez la commande suivante :

conda create -n nlp-101 python=3.6
# Vous pouvez activer l’environnement avec la commande suivante
conda activate nlp-101

Si vous utilisez jupyter-lab, vous pouvez répertorier l’environement :

conda install ipykernel
ipython kernel install --user --name='nlp-101'

Nous allons installer les librairies avec le gestionnaire pip. Vérifiez que la version utilisée est bien celle associée à anaconda :

pip show pip

Puis mettez le à jour :

pip install --upgrade pip

Installez les librairies suivantes :

pip install scikit-learn==0.23.2 matplotlib==3.3.2 pandas==1.1.3 lime==0.2.0.1 unidecode==1.3.2 umap-learn==0.4.6 umap-learn[plot] nltk==3.5 spacy==2.3.2 gensim==3.8.1
pip install --no-deps pyLDAvis==3.3.1 funcy==1.16
pip install --upgrade jupyter

Vous pouvez vérifier que chaque package est bien installé avec la commande :

python -c "import sklearn; print(sklearn.__version__)"

Finalement téléchargez le modèle Spacy français :

python3 -m spacy download fr_core_news_md

☁️ Google Colab

Si vous disposez d'un compte Google, vous pouvez également éxécuter l'ensemble des TPs et exercices sur l'interface Google Colab.

🐳 Docker

Il est également possible de faire tourner un serveur jupyter dans un Docker. L'avantage est que ce dernier tournera dans un environnement virtuel en grande partie indépendant des contraintes de votre machine. Par exemple de votre installation python ou de votre système d'exploitation.

Pour cela, installez Docker Desktop (c'est gratuit pour les utilisation non professionnelles). Vous pouvez ensuite cloner le répertoire et construire l'image Docker. Pour cela ouvrez un terminal et exécuter les commandeds suivantes :

git clone [email protected]:AntoineSimoulin/m2-data-sciences.git
cd m2-data-sciences
git pull
docker build -t m2-data-sciences .
docker run -p 8888:8888 m2-data-sciences

About

Cours de M2 Data Sciences - Traitement Automatique de la Langue Naturelle

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages