Phrap est un programme informatique spécialisé dans l'assemblage de séquences d'ADN. Il est généralement utilisé en concomitance avec Phred et Consed.

Phrap

Informations
Développé par Phil Green
Dernière version 0.990319 ()
Environnement UNIX, Linux, Windows, Mac OS X
Type Bioinformatique
Licence Propriétaire
Site web [1], [2]

Historique modifier

Phrap fut à l'origine développé par Phil Green pour l'assemblage de cosmides issus du séquençage à grande échelle par la méthode shotgun réalisé dans le cadre du Projet Génome Humain. Phrap a été largement utilisé dans d'autres projets d'assemblage de séquences, incluant l'assemblage de génomes bactériens et de banques d'EST.

Phrap est un programme en ligne de commande afin d'être facilement intégré dans des scripts de traitement de données automatisés des grands centres de séquençage. Pour les utilisateurs désirant utiliser Phrap via une interface graphique, des programmes commerciaux tels que MacVector (pour Mac OS X uniquement) et CodonCode Aligner (pour Mac OS X et Microsoft Windows) sont disponibles.

Méthode modifier

Une description détaillée (quoique partiellement obsolète) des algorithmes de Phrap peut être consultée dans la documentation de Phrap. Un trait récurrent des algorithmes de Phrap est l'utilisation des scores de qualité phred. Phrap utilise ces scores pour contourner un problème que d'autres programmes d'assemblage n'arrivaient pas à résoudre au commencement du Projet Génome Humain : assembler correctement des séquences répétées imparfaites fréquemment rencontrées, en particulier les séquences Alu. Phrap utilise ces scores afin de déterminer si les différences dans les régions répétées sont dues à une erreur de séquençage ou proviennent de deux copies ayant des séquences proches. Ainsi, Phrap n'a aucun problème pour différencier deux copies Alu différentes au sein d'un cosmide et ainsi assembler correctement ces cosmides (ou plus tard les BAC). La logique utilisée est relativement simple : une base identifiée avec un score phred élevé (faible probabilité d'erreur) ne doit jamais être aligné avec une autre base présentant un score élevé si cette dernière est différente. Néanmoins, dans certains cas, Phrap peut générer de tels alignements car les gaps d'alignement de cross_match ainsi que les pénalités d'alignement lors d'alignements locaux ne sont pas toujours optimaux pour ce type d'erreur. Phrap tente également de trier les séquences chimériques, les séquences de vecteurs ainsi que les régions terminales de basse qualité, le tout en une seule étape d'alignement, entraînant parfois quelques erreurs. Par ailleurs, Phrap aligne plusieurs fois une même région en interne, les alignements suivants étant moins astringent.

Le traitement des données de séquençage par cette méthode fut d'un grand secours dans les années 1990 lors la création du programme mais celui-ci a perdu petit à petit de son efficacité face à l'émergence d'autres programmes. À l'heure actuelle, Phrap semble générer plus d'erreurs que les nouveaux assembleurs tel que Euler, ne pouvant utiliser les informations de séquences couplés pour faciliter l'assemblage et n'assemblant pas aussi bien les séquences répétés. Phrap n'étant pas un logiciel libre, ceci a empêché sa diffusion et son amélioration par la communauté des bioinformaticiens contrairement à d'autres logiciels libres d'assemblage tels quel Bowtie ou SAMtools.

Génération de séquences consensus modifier

Un autre usage des scores de qualité phred par Phrap ayant contribué au succès de ce programme a été la détermination de séquences consensus utilisant la qualité des séquences. En effet, Phrap automatisait une étape qui représentait un important goulot d'étrangement lors des premières périodes du Projet Génome Humain : la détermination d'une séquence consensus correcte lorsque des bases divergentes sont rencontrées à une position donnée. Cette approche a été suggérée par Bonfield et Staden en 1995[1], et fut implémentée et optimisée chez Phrap. Techniquement, à chaque position présentant des bases divergentes, Phrap examine le score de qualité des séquences alignés pour trouver la séquence présentant la qualité la plus élevée. Durant la procédure, Phrap vérifie le consensus à l'aide d'autres séquences de la même région, après considération de l'orientation des séquences et de la technique de séquençage.

Le principe mathématique associé à cette approche est relativement simple puisque le score de qualité phred est relié de façon logarithmique à la probabilité d'erreur de séquençage. Ceci signifie que les scores de qualité des séquences alignées sont simplement ajoutés à condition que les distributions d'erreur soient suffisamment indépendantes. Pour satisfaire ce critère d'indépendance, les séquences doivent être dans des orientations différentes car le patron des pics qui génère les erreurs d'identification de base est souvent identique lorsqu'une région est séquencée plusieurs fois dans la même direction.

Si une base est couverte par un ensemble de séquences (divergentes) de haute et basse qualité, la sélection par Phrap de la séquence de plus haute qualité sera souvent correcte. Ensuite, Phrap assigne la base confirmé à la séquence consensus. Ceci facilite d'une part la création de régions consensus qui ne sont pas couvertes par de séquences de haute qualité et d'autre part la rapidité de calcul permettant une estimation relativement précise du taux d'erreur de la séquence consensus. Ces informations peuvent ensuite être utilisées pour orienter les efforts ultérieurs, comme l'approfondissement du séquençage de régions problématiques.

La combinaison de la précision, des scores de qualité attachés à chaque base ainsi que des séquences consensus basées sur la qualité des séquences a été un élément crucial dans le succès du Projet Génome Humain. Phred et Phrap, ainsi que les programmes ayant repris les idées pionnières de ces deux programmes, permirent l'assemblage de grandes portions du génome humain ainsi que d'autres génomes à un niveau de précision qui fut largement plus élevé (moins d'une erreur pour 10 000 bases) que celui des séquences corrigées par la main de l'Homme soumise à GenBank jusqu'alors[2].

Références modifier

  1. (en) Bonfield JK. & Staden R., « The application of numerical estimates of base calling accuracy to DNA sequencing projects. », Nucleic Acids Research, vol. 23, no 8,‎ , p. 1406-10 (ISSN 0305-1048, PMID 7753633)
  2. (en) Krawetz SA., « Sequence errors described in GenBank: a means to determine the accuracy of DNA sequence interpretation. », Nucleic Acids Research, vol. 17, no 10,‎ , p. 3951-7 (ISSN 0305-1048, PMID 2734106, DOI 10.1093/nar/17.10.3951, lire en ligne)

Voir aussi modifier

Articles connexes modifier

Liens externes modifier