Ce cours fait partie du Master 2 Mathématiques et Informatique pour la Data Science (M2 MIDS) de l'université de Paris. Le cours introduit les méthodes statistiques de Traitement Automatique de la Langue Naturelle. Les méthodes de Deep Learning ne sont abordées que dans des cours ultérieurs.
Le calendrier des séances est décrit ci-dessous.
Si vous souhaitez exécuter le TP sur votre ordinateur, voici une procédure rapide pour installer Python et les librairies requises. Ca évitera d’avoir des problèmes de version de librairies qui interfère avec d’autres cours ou projets. Pour installer Python, je vous conseille d’utiliser Anaconda (~450 MB). Sélectionnez l’installation correspondent à votre système d’exploitation et “64-Bit Graphical Installer” puis suivez les instructions pour installer Anaconda.
Pour les librairies, je vous conseille de créer un environnement virtuel python pour l’ensemble du cours. Ouvrez un terminal et tapez la commande suivante :
conda create -n nlp-101 python=3.6
# Vous pouvez activer l’environnement avec la commande suivante
conda activate nlp-101
Si vous utilisez jupyter-lab, vous pouvez répertorier l’environement :
conda install ipykernel
ipython kernel install --user --name='nlp-101'
Nous allons installer les librairies avec le gestionnaire pip. Vérifiez que la version utilisée est bien celle associée à anaconda :
pip show pip
Puis mettez le à jour :
pip install --upgrade pip
Installez les librairies suivantes :
pip install scikit-learn==0.23.2 matplotlib==3.3.2 pandas==1.1.3 lime==0.2.0.1 unidecode==1.3.2 umap-learn==0.4.6 umap-learn[plot] nltk==3.5 spacy==2.3.2 gensim==3.8.1
pip install --no-deps pyLDAvis==3.3.1 funcy==1.16
pip install --upgrade jupyter
Vous pouvez vérifier que chaque package est bien installé avec la commande :
python -c "import sklearn; print(sklearn.__version__)"
Finalement téléchargez le modèle Spacy français :
python3 -m spacy download fr_core_news_md
Si vous disposez d'un compte Google, vous pouvez également éxécuter l'ensemble des TPs et exercices sur l'interface Google Colab.
Il est également possible de faire tourner un serveur jupyter dans un Docker. L'avantage est que ce dernier tournera dans un environnement virtuel en grande partie indépendant des contraintes de votre machine. Par exemple de votre installation python ou de votre système d'exploitation.
Pour cela, installez Docker Desktop (c'est gratuit pour les utilisation non professionnelles). Vous pouvez ensuite cloner le répertoire et construire l'image Docker. Pour cela ouvrez un terminal et exécuter les commandeds suivantes :
git clone [email protected]:AntoineSimoulin/m2-data-sciences.git
cd m2-data-sciences
git pull
docker build -t m2-data-sciences .
docker run -p 8888:8888 m2-data-sciences