Numéro d'accession (bioinformatique)

Un numéro d'accession (le terme français est numéro d'ordre, numéro d'accession étant un anglicisme couramment utilisé) en bio-informatique est un identifiant unique donné à toute séquence d'ADN ou de protéine enregistrée dans un dépôt. Ce numéro permet un suivi des différentes versions d'une séquence enregistrée et des séquences associées. Du fait de sa relative stabilité, les numéros d'accession peuvent être utilisés comme clés étrangères pour toute référence à une séquence ou à un ensemble de séquences. Tous les dépôts contenant des informations de séquences mettent en œuvre ce concept de "numéro d'accession" mais peuvent introduire de subtiles variations.

Numéros d'accession dans des bases de données spécifiques modifier

UniProt (SwissProt) Knowledgebase modifier

La documentation fournie par UniProt stipule que le rôle d'un numéro d'accès est "de fournir un moyen stable d'identifier une entrée d'une version à l'autre." Une entrée peut être associée à plusieurs numéros d'accession. Ainsi, chez UniProt, il n'y a pas de relation spécifique entre un numéro d'accession et une séquence : le numéro d'accession se réfère à une entrée dans la base de connaissance (knowledgebase), cette entrée pouvant se référer à un ensemble de séquences. Dans la version en fichier simple d'une entrée, le champ AC correspond à un numéro d'accession, le premier étant le "numéro d'accession primaire" et les numéros suivants étant les "numéros d'accession secondaires". Le champ principal pour le suivi d'une entrée UniProt est le numéro d'accession primaire. Les différents numéros d'accession associés à une entrée de la base de connaissance proviennent de l'historique des fusions et fractionnements de cette entrée. Un nouveau numéro d'accession peut être généré de deux manières : l'enregistrement d'une nouvelle séquence (le plus souvent) ou le fractionnement d'une entrée de la base de connaissance (plus rarement)[1].

GenBank modifier

Les identifiants des séquences biologiques contenues dans la base GenBank respectent un formatage particulier. GenBank regroupe en réalité des séquences de différentes bases de données (Américaines, Européennes, Japonaises). L'attribution d'un identifiant à une nouvelle séquence respecte des règles précises, de sorte que chaque base de GenBank ne peut utiliser que certains formats.

Les identifiants des séquences sont riches en information. Ils permettent de connaitre par exemple :

  • le type de séquence,
  • la base d'origine,
  • la manière dont les données biologiques ont été obtenues,
  • etc.

Les identifiants comportent de manière générale un préfixe de plusieurs lettres majuscules suivies de plusieurs chiffres. Les préfixes indiquent la base de données ou le type de données de la séquence. Par exemple, un génome entier n'a pas le même suffixe qu'un WGS (Whole Genome Shotgun).

Le format des identifiants GenBank de quelques types de séquences est le suivant :

  • Nucleotide : 1 lettre + 5 chiffres ou 2 lettres + 6 chiffres
  • Protéine : 3 lettres + 5 chiffres
  • WGS : 4 lettres + 2 chiffres (version de l'assemblage du WGS) 6 à 8 chiffres
  • MGA : 5 lettres + 7 chiffres

Description des identifiants des séquences de GenBank sur le site du NCBI

Laboratoire européen de biologie moléculaire modifier

Les formats des numéros d'accession des séquences du Laboratoire européen de biologie moléculaire sont similaires à ceux de GenBank. Les bases de données de séquences biologiques de l'LEBM attribuent des identifiants homogènes avec les bases GenBank et DDBJ. De cette manière, les séquences de ces trois bases peuvent être indexées au sein d'un seul grand moteur de recherche : le site web du NCBI.

DDBJ modifier

Numéros d'accession communément rencontrés modifier

Notes et références modifier

  1. (en) Amos Bairoch, Rolf Apweiler, Cathy H. Wu, « User Manual », UniProt Knowledgebase (consulté le )