Ce dépôt contient le code, les données et les résultats associés à l'annotation bioinformatique d'un fragment du génome de Lactococcus lactis. Ce projet a été réalisé dans le cadre du Master 1 Bioinformatique et Biologie des Systèmes à l'Université Paul Sabatier Toulouse III (Universités de Toulouse, FRANCE), année universitaire 2024-2025.
Lactococcus lactis est une bactérie gram-positive utilisée dans les fermentations laitières et la production de levains. Cette étude vise à réannoter une région de son génome pour identifier les régions codantes (CDS) et leurs produits protéiques à l'aide d'outils bioinformatiques.
Les étapes principales incluent :
- Identification des cadres de lecture ouverts (ORF).
- Détection des codons start/stop, des sites de fixation du ribosome (RBS), et des promoteurs sigma.
- Caractérisation fonctionnelle et localisation subcellulaire des protéines codées.
- scripts/ : Contient les scripts Python pour l'analyse et la conversion des fichiers.
convert_to_GFF.py: Script Python pour convertir les sorties des outils au format GFF.man.py: Manuel utilisation du programme Python.search_motif: Module Python pour la création d'en-tête du fichier de sortie.search_data: Module Python pour la conversion des informations au format GFF.- pseudocode/ : Scripts précédents écrits en pseudocode.
- data/ : Données utilisées pour l'analyse.
seq_L_lactis_lactis.fasta: Séquence génomique d'intérêt.
- results/ : Résultats générés par les outils d'analyse.
- GeneMark/ : Résultats de l'outil GeneMark.
- GeneMarkHMM/ : Résultats de l'outil GeneMarkHMM.
- ScanForMatches/ : Résultats de l'outil ScanForMatches.
- RBS/ : Matrice utilisée et résultats obtenus suite à la recherche de RBS.
- sigma_factor/ : Matrice utilisée et résultats obtenus suite à la recherche du facteur sigma.
- terminator_rho/ : Pattern utilisé et résultats obtenus suite à la recherche de terminateur rho-dépendant.
- ExtractSeq/ : Séquences génomiques de protéines hypothétiques extraites.
- TranSeq/ : Séquences protéiques traduites des séquences génomiques des ORF extraits.
- BLASTP/ : Alignements obtenus avec un Blast sur les séquences protéiques et analyse de la fonction par homologie de séquences.
- SignalIP/ : Résultats obtenus à la suite de l'analyse de la présence de signaux d'adressage de la protéine à la membrane avec l'outil SignalIP
- DeepTMHMM/ : Résultats obtenus avec DeepTMHMM sur la localisation subcellulaire des protéines et sur leur structure tridimensionnelle.
- test_files/ : Dossier permettant de tester le programme de conversion au format GFF.
test_convert_*.txt: Fichiers correspondants aux fichiers de sortie des outilsexpected_GenMHMM_GFF-format.txt: Fichier correspondant la sortie de l'outil GeneMarkHMM au format GFF directement, correspond au format attendu.- output_files/ : Fichiers de sortie obtenus après conversion avec le programme convert_to_GFF.py
- ORFfinder : Identification des ORF.
- GeneMark et GeneMarkHMM : Détection des régions codantes et des gènes.
- ScanForMatches : Recherche des motifs RBS, sigma, et terminateurs rho-dépendants.
- BlastP : Annotation fonctionnelle basée sur l’homologie de séquences.
- SignalIP : Prédiction des peptides signaux.
- DeepTMHMM : Analyse des protéines transmembranaires et localisation subcellulaire.
- Python/Perl : Scripts pour automatiser l'analyse et convertir les données au format standard.
- Identification de 7 protéines hypothétiques, dont 2 transmembranaires.
- Analyse fonctionnelle et localisation subcellulaire des protéines prédictives.
- Points d'amélioration : Entraînement spécifique des algorithmes pour L. lactis et exploration des terminateurs alternatifs.
-
Clonez ce dépôt :
git clone https://github.com/CamilleAstrid/Annotation_du_genome_de_Lactococcus_lactis cd Annotation_du_genome_de_Lactococcus_lactis -
Assurez-vous d'avoir Python et les dépendances nécessaires installés.
-
Exécutez les scripts pour reproduire les analyses :
Utilisation avec un fichier GeneMarkHMM.LST :
python scripts/convert_to_GFF.py GENMH <input_file> <output_file.GFF>
Utilisation avec un fichier GeneMark :
python scripts/convert_to_GFF.py GENM <input_file> <output_file.GFF>
Utilisation avec un fichier ScanForMatches contenant les informations sur les RBS :
python scripts/convert_to_GFF.py SFM <input_file> RBS <output_file.GFF>
Utilisation avec un fichier ScanForMatches contenant les informations sur les promoteurs :
python scripts/convert_to_GFF.py SFM <input_file> PROM <output_file.GFF>
Utilisation avec un fichier ScanForMatches contenant les informations sur les terminateurs :
python scripts/convert_to_GFF.py SFM <input_file> TERM <output_file.GFF>
Ce projet et donc l'ensemble des éléments de ce répertoire est sous licence MIT (sauf cas précisé).
- Mémoire de Magistère : Isolement et sélection des souches de bactéries lactiques productrices des métabolites antibactériennes, par BELARBI Fatima (2010-2011) doi:10.13140/RG.2.2.13373.82405
- Wheeler, D L et al. “Database resources of the National Center for Biotechnology Information.” Nucleic acids research vol. 28,1 (2000): 10-4. doi:10.1093/nar/28.1.10
- Borodovsky M. and McIninch J. "GeneMark: parallel gene recognition for both DNA strands." Computers & Chemistry, 1993, Vol. 17, No. 19, pp. 123-133
- Lukashin, A V, and M Borodovsky. “GeneMark.hmm: new solutions for gene finding.” Nucleic acids research vol. 26,4 (1998): 1107-15. doi:10.1093/nar/26.4.1107
- https://blog.theseed.org/servers/2010/07/scan-for-matches.html By The SEED Team on July 16, 2010. The utility was written by Ross Overbeek; David Joerg and Morgan Price wrote sections of an earlier version. It is worth noting that it was strongly influenced by the elegant tools developed and distributed by David Searls.
- Van Rossum, G., & Drake, F. L. (2009). Python 3 Reference Manual. Scotts Valley, CA: CreateSpace.
- Wall, L., & others. (1994). The Perl programming language. Prentice Hall Software Series.
Pour toute question, veuillez contacter Camille-Astrid Rodrigues.
Si des ajustements ou des ajouts sont nécessaires, n'hésitez pas à me le signaler !