OrthoDB[1],[2],[3],[4] est un catalogue de gènes codant des protéines orthologues à travers les vertébrés, les arthropodes, les fungi, et les bactéries. L'orthologie fait référence au dernier ancêtre commun d'un ensemble d'espèces considérées, et donc OrthoDB définie explicitement les orthologues à chaque point de rayonnement le long de la phylogénie des espèces. La base de données OrthoDB fourni des descripteurs de protéines, ainsi que les attributs GO et InterPro, qui servent à fournir des annotations descriptives générales des groupes orthologues et faciliter l'interrogation de base de données de orthologie. OrthoDB fournit également des traits évolutifs d'orthologues calculés, comme les duplications et les profils de perte, les taux de divergence, et des familles, qui sont maintenant étendus pour inclure les détails d'architecture d'intron-exon, orthologues de synténie, et les arbres parent-enfant.

Méthodologie modifier

L'orthologie est définie par rapport au dernier ancêtre commun des espèces considérées, de manière à déterminer la nature hiérarchique des orthologues. Cela est abordée dans OrthoDB par l'application de la procédure de retracement d'orthologie à chaque point de rayonnement de la phylogénie, calculée empiriquement sur le super-alignement des orthologues de copie unique à l'aide d'une methode de Maximum de vraisemblance. OrthoDB emploie un algorithme de classification de meilleurs résultats de BLAST réciproques basé sur des comparaisons de séquences de protéines "tous-contre-tous" de Smith-Waterman. Un pré-traitement de gènes sélectionne le transcrit codant une protéine plus long entre le gène et les copies des gènes très similaires. La procédure améliore les meilleurs résultats de BLAST réciproques et construie progressivement les groupes et nécessite un alignement de séquence global minimum pour éviter une « marche de domaine ». Ces groupes de base sont encore élargies pour inclure tous les gènes plus étroitement liés au sein des espèces en-paralogues, et aussi les copies de gènes très similaires précédemment identifiés.

Contenu de données modifier

En 2013 la base de données contenait plus de 300 espèces eucaryotes et plus de 1000 bactéries[2] provenant de Ensembl, UniProt, NCBI, FlyBase et plusieurs autres bases de données. L'échantillonnage de génomes séquencés éclairci la généalogies de gènes et facilite la création de hypothèses de la fonction des gènes dans les génomes nouvellement séquencés.

Notes et références modifier

  1. (en) Evgenia V. Kriventseva, Fredrik Tegenfeldt, Tom J. Petty et Robert M. Waterhouse, « OrthoDB v8: update of the hierarchical catalog of orthologs and the underlying free software », Nucleic Acids Research, vol. 43,‎ , D250–D256 (ISSN 0305-1048 et 1362-4962, PMID 25428351, PMCID 4383991, DOI 10.1093/nar/gku1220, lire en ligne, consulté le )
  2. a et b (en) Waterhouse RM, Tegenfeldt F, Li J, Zdobnov EM, Kriventseva EV, « OrthoDB: a hierarchical catalog of animal, fungal and bacterial orthologs », Nucleic Acids Res., vol. 41, no Database issue,‎ , D358-65 (PMID 23180791, PMCID 3531149, DOI 10.1093/nar/gks1116, lire en ligne)
  3. (en) Waterhouse RM, Zdobnov EM, Tegenfeldt F, Li J, Kriventseva EV, « OrthoDB: the hierarchical catalog of eukaryotic orthologs in 2011 », Nucleic Acids Res., vol. 39, no Database issue,‎ , D283–8 (PMID 20972218, PMCID 3013786, DOI 10.1093/nar/gkq930, lire en ligne)
  4. (en)(en) Kriventseva EV, Rahman N, Espinosa O, Zdobnov EM, « OrthoDB: the hierarchical catalog of eukaryotic orthologs », Nucleic Acids Res., vol. 36, no Database issue,‎ , D271-5 (PMID 17947323, PMCID 2238902, DOI 10.1093/nar/gkm845, lire en ligne)

Voir aussi modifier

Articles connexes modifier

Lien externe modifier