Variant Call Format

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

La mise en forme de cet article est à améliorer (janvier 2022).

La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ».

Le Variant Call Format (abrégé par VCF) est le format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques. Le format VCF a été développé avec l'avènement des projets de génotypage et de séquençage de l'ADN à grande échelle, tels que le 1000 Genomes Project.

Les formats préexistants pour stocker les séquences génétiques, tels que le format général des caractéristiques (GFF), conservaient des données redondantes car partagées entre les génomes. Le format VCF permet de ne stocker que la différence ou l'absence de différence par rapport à un génome de référence.

La norme est actuellement la version 4.3^[1]^,^[2], et le format n'est aujourd'hui plus utilisé par le 1000 Genomes Project. Il existe également un format étendu Genomic VCF (gVCF), qui comprend des informations supplémentaires sur les « blocs » qui correspondent à la référence et à leurs qualités^[3]. Un ensemble d'outils est également disponible pour l'édition et la manipulation des fichiers^[4]^,^[5].

Exemple

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3

En-tête d'un fichier VCF

L'en-tête commence le fichier et fournit des métadonnées décrivant le corps du fichier. Les lignes d'en-tête sont indiquées comme commençant par# . Les mots-clés spéciaux dans l'en-tête sont indiqués par ## . Les mots clés recommandés incluent fileformat, fileDate et reference.

L'en-tête contient des mots-clés qui décrivent éventuellement sémantiquement et syntaxiquement les champs utilisés

Colonnes d'un fichier VCF

Le corps du VCF suit l'en-tête, et est séparé par une tabulation en 8 colonnes obligatoires et un nombre illimité de colonnes optionnelles qui peuvent être utilisées pour enregistrer d'autres informations sur le(s) échantillon(s). Lorsque des colonnes supplémentaires sont utilisées, la première colonne facultative est utilisée pour décrire le format des données dans les colonnes suivantes.

	Nom	Brève description (voir les spécifications pour plus de détails).
1	CHROM	Le nom de la séquence (généralement un chromosome) sur laquelle la variation est appelée. Cette séquence est généralement connue sous le nom de « séquence de référence », c'est-à-dire la séquence par rapport à laquelle l'échantillon donné varie.
2	POS	La position de base 1 de la variation sur la séquence donnée.
3	ID (identifiant)	L'identifiant de la variation, par exemple un identifiant dbSNP rs, ou si inconnu un "." . Les identifiants multiples doivent être séparés par des points-virgules sans espace.
4	REF	La base de référence (ou les bases dans le cas d'un indel) à la position donnée sur la séquence de référence donnée.
5	ALT	La liste des allèles alternatifs à cette position.
6	QUAL	Un score de qualité associé à l'inférence des allèles donnés.
7	FILTER	Un indicateur indiquant lequel d'un ensemble donné de filtres la variation a échoué ou PASS si tous les filtres ont été passés avec succès.
8	INFO	Une liste extensible de paires clé-valeur (champs) décrivant la variation. Voir ci-dessous pour quelques champs communs. Plusieurs champs sont séparés par des points-virgules avec des valeurs facultatives au format : `< key > = < data > [,data]` .
9	FORMAT	Une liste extensible (facultative) de champs pour décrire les échantillons. Voir ci-dessous pour quelques champs communs.
+	SAMPLES	Pour chaque échantillon (facultatif) décrit dans le fichier, des valeurs sont données pour les champs répertoriés dans FORMAT

Champs de la section INFO fréquemment utilisés

Les clés arbitraires sont autorisées, bien que les sous-champs suivants soient réservés (mais facultatifs)^[1] :

Nom	Brève description
AA	Allèle ancestral
AC	Nombre d'allèles dans les génotypes, pour chaque allèle ALT, dans le même ordre que celui indiqué
AF	Fréquence des allèles pour chaque allèle ALT dans le même ordre que celui indiqué (utilisez-la lorsqu'elle est estimée à partir de données primaires, non appelées génotypes)
AN	Nombre total d'allèles dans les génotypes appelés
BQ	Qualité de base RMS à ce poste
CIGAR	Chaîne de cigare décrivant comment aligner un allèle alternatif sur l'allèle de référence
DB	Adhésion à dbSNP
DP	Profondeur combinée à travers les échantillons, par exemple DP=154
END	Position finale du variant décrit dans cet enregistrement (à utiliser avec les allèles symboliques)
H2	Adhésion à hapmap2
H3	Adhésion à hapmap3
MQ	Qualité de cartographie RMS, par ex. QM=52
MQ0	Nombre de MAPQ == 0 lectures couvrant cet enregistrement
NS	Nombre d'échantillons avec données
SB	Biais de brin à cette position
SOMATIC	Indique que l'enregistrement est une mutation somatique, pour la génomique du cancer
VALIDATED	Validé par une expérience de suivi
1000G	Adhésion à 1000 génomes

Tous les autres champs d'informations sont définis dans l'en-tête .vcf.

Champs de la section FORMAT fréquemment utilisés

Nom	Brève description
AD	Lire la profondeur pour chaque allèle
ADF	Lire la profondeur pour chaque allèle sur le brin avant
ADR	Lire la profondeur pour chaque allèle sur le brin inverse
DP	Profondeur de lecture
EC	Comptes d'allèles alternatifs attendus
FT	Filtre indiquant si ce génotype était « appelé »
GL	Probabilités de génotype
GP	Probabilités postérieures du génotype
GQ	Qualité du génotype conditionnel
GT	Génotype
HQ	Qualité de l'haplotype
MQ	Qualité de cartographie RMS
PL	Probabilités de génotype à l'échelle de Phred arrondies à l'entier le plus proche
PQ	Qualité de phasage
PS	Ensemble de phases

Tous les autres champs de format sont définis dans l'en-tête .vcf.

Voir aussi

Le format FASTA, utilisé pour représenter les séquences du génome.
Le format FASTQ, utilisé pour représenter les lectures du séquenceur d'ADN ainsi que les scores de qualité.
Le format SAM, utilisé pour représenter les lectures du séquenceur du génome qui ont été alignées sur les séquences du génome.
Le format GVF (Genome Variation Format) est une extension basée sur le format GFF3.

La spécification VCF n'est plus maintenue par le 1000 Genomes Project. En effet, les variations structurelles telles que les duplications ne sont pas gérées par le format VCF de manière optimale^[6]. Le groupe qui dirige la gestion et l'expansion du format est l'équipe de format de fichier du flux de travail à grande échelle de l'Alliance mondiale pour la génomique et la santé (GA4GH)^[7]^,^[8].

Notes et références

↑ ^{a et b} « VCF Specification » (consulté le 20 octobre 2016)
↑ « Specifications of SAM/BAM and related high-throughput sequencing file formats » (consulté le 24 juin 2014)
↑ « GVCF - Genomic Variant Call Format », GATK, Broad Institute
↑ « VCFtools from Github.io » (consulté le 20 octobre 2016)
↑ « BCFtools »
↑ « Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes » (consulté le 20 octobre 2016)
↑ (en-US) « Bio-IT World », www.bio-itworld.com (consulté le 26 octobre 2018)
↑ (en-GB) « Home », sur www.ga4gh.org (consulté le 12 juin 2023)

Liens externes

Une explication du format sous forme d'image
« Introduction à l'analyse des SNPs », sur blog bioinformatique communautaire…, 26 mai 2016 (consulté le 1^er novembre 2023)
(en) « Reliable Standards : A Necessity For Genomic Data », sur Pubs - Bio-IT World (consulté le 1^er novembre 2023)

[vcf-spec-1] {a et b} « VCF Specification » (consulté le 20 octobre 2016)

[2] « Specifications of SAM/BAM and related high-throughput sequencing file formats » (consulté le 24 juin 2014)

[3] « GVCF - Genomic Variant Call Format », GATK, Broad Institute

[4] « VCFtools from Github.io » (consulté le 20 octobre 2016)

[5] « BCFtools »

[6] « Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes » (consulté le 20 octobre 2016)

[7] (en-US) « Bio-IT World », www.bio-itworld.com (consulté le 26 octobre 2018)

[8] (en-GB) « Home », sur www.ga4gh.org (consulté le 12 juin 2023)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]