Skip to content

CamilleAstrid/Annotation_du_genome_de_Lactococcus_lactis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Annotation génomique de Lactococcus lactis

Ce dépôt contient le code, les données et les résultats associés à l'annotation bioinformatique d'un fragment du génome de Lactococcus lactis. Ce projet a été réalisé dans le cadre du Master 1 Bioinformatique et Biologie des Systèmes à l'Université Paul Sabatier Toulouse III (Universités de Toulouse, FRANCE), année universitaire 2024-2025.

Description du projet

Lactococcus lactis est une bactérie gram-positive utilisée dans les fermentations laitières et la production de levains. Cette étude vise à réannoter une région de son génome pour identifier les régions codantes (CDS) et leurs produits protéiques à l'aide d'outils bioinformatiques.

Les étapes principales incluent :

  • Identification des cadres de lecture ouverts (ORF).
  • Détection des codons start/stop, des sites de fixation du ribosome (RBS), et des promoteurs sigma.
  • Caractérisation fonctionnelle et localisation subcellulaire des protéines codées.

Contenu

Dossiers et fichiers

  • scripts/ : Contient les scripts Python pour l'analyse et la conversion des fichiers.
    • convert_to_GFF.py : Script Python pour convertir les sorties des outils au format GFF.
    • man.py: Manuel utilisation du programme Python.
    • search_motif : Module Python pour la création d'en-tête du fichier de sortie.
    • search_data : Module Python pour la conversion des informations au format GFF.
    • pseudocode/ : Scripts précédents écrits en pseudocode.
  • data/ : Données utilisées pour l'analyse.
    • seq_L_lactis_lactis.fasta : Séquence génomique d'intérêt.
  • results/ : Résultats générés par les outils d'analyse.
    • GeneMark/ : Résultats de l'outil GeneMark.
    • GeneMarkHMM/ : Résultats de l'outil GeneMarkHMM.
    • ScanForMatches/ : Résultats de l'outil ScanForMatches.
      • RBS/ : Matrice utilisée et résultats obtenus suite à la recherche de RBS.
      • sigma_factor/ : Matrice utilisée et résultats obtenus suite à la recherche du facteur sigma.
      • terminator_rho/ : Pattern utilisé et résultats obtenus suite à la recherche de terminateur rho-dépendant.
    • ExtractSeq/ : Séquences génomiques de protéines hypothétiques extraites.
    • TranSeq/ : Séquences protéiques traduites des séquences génomiques des ORF extraits.
    • BLASTP/ : Alignements obtenus avec un Blast sur les séquences protéiques et analyse de la fonction par homologie de séquences.
    • SignalIP/ : Résultats obtenus à la suite de l'analyse de la présence de signaux d'adressage de la protéine à la membrane avec l'outil SignalIP
    • DeepTMHMM/ : Résultats obtenus avec DeepTMHMM sur la localisation subcellulaire des protéines et sur leur structure tridimensionnelle.
  • test_files/ : Dossier permettant de tester le programme de conversion au format GFF.
    • test_convert_*.txt : Fichiers correspondants aux fichiers de sortie des outils
    • expected_GenMHMM_GFF-format.txt : Fichier correspondant la sortie de l'outil GeneMarkHMM au format GFF directement, correspond au format attendu.
    • output_files/ : Fichiers de sortie obtenus après conversion avec le programme convert_to_GFF.py

Outils utilisés

  1. ORFfinder : Identification des ORF.
  2. GeneMark et GeneMarkHMM : Détection des régions codantes et des gènes.
  3. ScanForMatches : Recherche des motifs RBS, sigma, et terminateurs rho-dépendants.
  4. BlastP : Annotation fonctionnelle basée sur l’homologie de séquences.
  5. SignalIP : Prédiction des peptides signaux.
  6. DeepTMHMM : Analyse des protéines transmembranaires et localisation subcellulaire.
  7. Python/Perl : Scripts pour automatiser l'analyse et convertir les données au format standard.

Résultats principaux

  • Identification de 7 protéines hypothétiques, dont 2 transmembranaires.
  • Analyse fonctionnelle et localisation subcellulaire des protéines prédictives.
  • Points d'amélioration : Entraînement spécifique des algorithmes pour L. lactis et exploration des terminateurs alternatifs.

Installation et utilisation

  1. Clonez ce dépôt :

    git clone https://github.com/CamilleAstrid/Annotation_du_genome_de_Lactococcus_lactis
    cd Annotation_du_genome_de_Lactococcus_lactis
  2. Assurez-vous d'avoir Python et les dépendances nécessaires installés.

  3. Exécutez les scripts pour reproduire les analyses :

    Utilisation avec un fichier GeneMarkHMM.LST :

    python scripts/convert_to_GFF.py GENMH <input_file> <output_file.GFF>

    Utilisation avec un fichier GeneMark :

    python scripts/convert_to_GFF.py GENM <input_file> <output_file.GFF>

    Utilisation avec un fichier ScanForMatches contenant les informations sur les RBS :

    python scripts/convert_to_GFF.py SFM <input_file> RBS <output_file.GFF>

    Utilisation avec un fichier ScanForMatches contenant les informations sur les promoteurs :

    python scripts/convert_to_GFF.py SFM <input_file> PROM <output_file.GFF>

    Utilisation avec un fichier ScanForMatches contenant les informations sur les terminateurs :

    python scripts/convert_to_GFF.py SFM <input_file> TERM <output_file.GFF>

Licence

Ce projet et donc l'ensemble des éléments de ce répertoire est sous licence MIT (sauf cas précisé).

Références

  • Mémoire de Magistère : Isolement et sélection des souches de bactéries lactiques productrices des métabolites antibactériennes, par BELARBI Fatima (2010-2011) doi:10.13140/RG.2.2.13373.82405
  • Wheeler, D L et al. “Database resources of the National Center for Biotechnology Information.” Nucleic acids research vol. 28,1 (2000): 10-4. doi:10.1093/nar/28.1.10
  • Borodovsky M. and McIninch J. "GeneMark: parallel gene recognition for both DNA strands." Computers & Chemistry, 1993, Vol. 17, No. 19, pp. 123-133
  • Lukashin, A V, and M Borodovsky. “GeneMark.hmm: new solutions for gene finding.” Nucleic acids research vol. 26,4 (1998): 1107-15. doi:10.1093/nar/26.4.1107
  • https://blog.theseed.org/servers/2010/07/scan-for-matches.html By The SEED Team on July 16, 2010. The utility was written by Ross Overbeek; David Joerg and Morgan Price wrote sections of an earlier version. It is worth noting that it was strongly influenced by the elegant tools developed and distributed by David Searls.
  • Van Rossum, G., & Drake, F. L. (2009). Python 3 Reference Manual. Scotts Valley, CA: CreateSpace.
  • Wall, L., & others. (1994). The Perl programming language. Prentice Hall Software Series.

Pour toute question, veuillez contacter Camille-Astrid Rodrigues.


Si des ajustements ou des ajouts sont nécessaires, n'hésitez pas à me le signaler !

About

Projet mené dans le cadre de l'unité d'enseignement Bioinformatique pour la Génomique : annotation du génome de L.lactis à l'aide de logiciel (GeneMark, GeneMarkHMM, ScanForMatches, ORFfinder), mise en place d'un programme de conversion des fichiers de sortie au format GFF.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors