Gene Ontology est un projet bio-informatique destiné à structurer la description des gènes et des produits géniques dans le cadre d'une ontologie commune à toutes les espèces[1]. Ce projet, qui s'inscrit dans la démarche plus large d'Open Biomedical Ontologies (OBO) regroupant d'autres projets bio-informatiques dans le domaine biomédical, poursuit trois objectifs :

  • gérer et enrichir son vocabulaire contrôlé décrivant les gènes et leurs produits,
  • gérer les annotations, c'est-à-dire les informations rattachées aux gènes et à leurs produits,
  • fournir les outils permettant d'accéder aux informations structurées dans le cadre du projet.

La base GO est conçue comme un graphe orienté acyclique, chaque terme étant en relation avec un ou plusieurs termes du même domaine, et parfois d'autres domaines. Le vocabulaire GO est construit pour n'être pas dépendant des espèces considérées, avec des termes applicables à la fois aux organismes multicellulaires et unicellulaires, aux eucaryotes et aux procaryotes.

Termes GO modifier

Dans le cadre de GO, les propriétés des produits géniques sont décrites selon trois axes :

  • les composants cellulaires auxquels ils s'appliquent, qu'il s'agisse du milieu intracellulaire ou de l'environnement extracellulaire,
  • les fonctions moléculaires réalisées, par exemple structurelles ou catalytiques pour une protéine
  • les processus biologiques, c'est-à-dire les transformations moléculaires nécessaires au fonctionnement d'entités biologiques intégrées.

Chaque terme GO est défini par l'ontologie du projet à travers :

  • un nom de terme, qui peut être un mot unique ou une suite de mots,
  • un identifiant unique alphanumérique,
  • une définition avec ses sources citées,
  • un espace de nom indiquant le domaine auquel il appartient.

Un terme peut également avoir des attributs supplémentaires facultatifs :

  • des synonymes, qui peuvent être classés comme exactement équivalents au nom de terme, plus large, plus restrictif ou en rapport avec lui,
  • des références à des concepts équivalents dans d'autres bases de données,
  • des commentaires sur la signification ou l'utilisation du terme.

Ci-dessous, un exemple de terme GO[2] :

id:         GO:0000016
name:       lactase activity
namespace:  molecular_function
def:        "Catalysis of the reaction: lactose + H2O = D-glucose + D-galactose." [EC:3.2.1.108]
synonym:    "lactase-phlorizin hydrolase activity" BROAD [EC:3.2.1.108]
synonym:    "lactose galactohydrolase activity" EXACT [EC:3.2.1.108]
xref:       EC:3.2.1.108
xref:       MetaCyc:LACTASE-RXN
xref:       Reactome:20536
is_a:       GO:0004553 ! hydrolase activity, hydrolyzing O-glycosyl compounds

Analyse d'enrichissement des termes GO modifier

Une des utilisations majeures de GO est l'analyse d'enrichissement (en anglais : enrichment analysis). Celle-ci permet de déduire d'un ensemble de gènes surexprimés les processus biologiques, fonctions moléculaires et composants cellulaires les plus affectés par cette surexpression.

Procédé général modifier

Le procédé est le suivant [3]:

  1. Identification d'un ensemble de gènes d'intérêt
  2. Analyse d'enrichissement des termes GO
  3. Interprétation des résultats
  4. Caractérisation de la fiabilité de l'analyse

Identification d'un ensemble de gènes d'intérêt modifier

Par exemple, on souhaite déterminer les causes d’une maladie en observant la transcription d’un ensemble de gènes. Parmi ces derniers, un sous-ensemble est surexprimé chez les porteurs de la maladie : ce sont les gènes d’intérêt. L’ensemble des gènes étudiés (surexprimés ou non) peut être intégré à l’analyse : cela indique la référence par rapport à laquelle les gènes d’intérêt sont qualifiés de surexprimés.

Analyse d’enrichissement des termes GO modifier

A l’aide du réseau GO, l’analyse d’enrichissement renvoie une liste de termes GO : il s’agit des termes GO les plus représentés dans l’ensemble des annotations utilisées pour décrire les gènes d’intérêt dans la base de données GO. Il est nécessaire de choisir un des termes GO parmi les 3 possibles (fonction moléculaire, procédé biologique, composant cellulaire); on choisit ainsi le type de termes GO sur lequel on souhaite réaliser l’analyse d’enrichissement.

Interprétation des résultats modifier

L’analyse d’enrichissement met en valeur les termes GO les plus représentés pour décrire les gènes d’intérêt surexprimés. Selon le type d’analyse choisi, on peut donc en déduire les fonctions moléculaires, procédés biologiques ou composants cellulaires les plus impliqués dans (ou affectés par) la surexpression des gènes d’intérêt. Dans l’exemple de la recherche des causes d’une maladie, on pourra ainsi mettre en valeur les dérèglements des processus biologiques pouvant être à l’origine de la maladie.

Caractérisation de la fiabilité de l'analyse modifier

Les analyses d’enrichissement permettent d’obtenir une P-value. Celle-ci caractérise ici le caractère significatif ou non de la surreprésentation des termes GO renvoyés par l’analyse pour les gènes d’intérêt, en comparaison avec ce qui serait obtenu pour des gènes choisis au hasard dans l’ensemble de la base de données GO.

Annotation fonctionnelle du génome modifier

La GO est particulièrement utile afin de caractériser les gènes dont l'emplacement a été inféré après l'assemblage d'un génome. Ce procédé s'appelle l'annotation fonctionnelle du génome. Il seconde l'étape d'annotation formel, où les reads provenant du transcriptome ont été mappés sur le génome afin de déterminer l'emplacement où un produit de gène (ARN) est exprimé. La séquence en nucléotides de cet emplacement va ensuite pouvoir être traduites par des programmes tels que Blast2GO en termes GO, en se basant sur des gènes déjà annotés ayant une séquence proche chez d'autres individus ou espèces. Des analyses de génomique comparative peuvent ensuite être menés, en identifiant par exemple le nombre de gènes associé à un certain terme GO dans notre nouveau génome par rapport à d'autres.

Outils d'analyse modifier

Il existe un certain nombre d'outils différents qui offrent des possibilités d'analyse de l'enrichissement. Certains d'entre eux sont basés sur le web tandis que d'autres peuvent nécessiter que l'utilisateur télécharge une application ou installe un environnement local. Les outils diffèrent par les algorithmes qu'ils utilisent, les tests statistiques qu'ils effectuent et la fréquence à laquelle les données sous-jacentes des GO sont mises à jour. Les utilisateurs doivent donc faire preuve de prudence lorsqu'ils utilisent des outils externes, en particulier si la version des données de GO n'est pas immédiatement identifiable.

Au-delà de GO modifier

GO nous permet d'annoter les gènes et leurs produits avec un ensemble limité d'attributs. Par exemple, GO ne nous permet pas de décrire les gènes en fonction des cellules ou des tissus dans lesquels ils sont exprimés, des stades de développement auxquels ils sont exprimés, ou de leur implication dans une maladie. Il n'est pas nécessaire pour GO de faire ces choses car d'autres ontologies sont développées à ces fins. Le consortium GO soutient le développement d'autres ontologies et met gratuitement à disposition ses outils d'édition et de conservation des ontologies. Une liste d'ontologies librement disponibles qui sont pertinentes pour la génomique et la protéomique et qui sont structurées de manière similaire à GO peut être trouvée sur le site web des Open Biomedical Ontologies. Une liste plus large, qui comprend les ontologies répertoriées à l'OBO ainsi que d'autres vocabulaires contrôlés qui ne répondent pas aux critères de l'OBO est disponible à la section Ontology Working Group du site du réseau Microarray Gene Expression Data (MGED).

Notes et références modifier

  1. (en) The Gene Ontology Consortium, « The Gene Ontology project in 2008 », Nucleic Acids Research, vol. 36, no (suppl. 1),‎ , D440-D444 (lire en ligne)
    DOI 10.1093/nar/gkm883 PMID 17984083
  2. (en) The GO Consortium, « gene_ontology.1_2.obo », (consulté le )
  3. (en) « GO enrichment analysis », sur Gene Ontology Resource (consulté le )