Formato Variant Call

Formato Variant Call
Desarrollador
	Proyecto 1000 genomas
Información general
Extensión de archivo	vcf
Última versión	4.3
Formato abierto
	[editar datos en Wikidata]

El Variant Call Format (VCF, formato de llamado de variantes) es un formato de texto que se usa en Bioinformática para almacenar variantes de una o varias secuencias de genes respecto a un genoma de referencia. Este formato se ha desarrollado a la luz de los grandes proyectos de secuenciación del ADN y genotipado, como el Proyecto 1000 Genomas. Otros formatos para almacenar datos genéticos como el General feature format (GFF), almacena todos los datos genéticos pero muchos de ellos son redundantes, al compartirse a lo largo de los genomas. En cambio, en el formato VCF sólo se almacenan las variantes genéticas respecto al genoma de referencia.

La versión actual es la 4.3,^[1]^[2] aunque el Proyecto 1000 Genomas ha desarrollado sus propias especificaciones para variación estructural como duplicaciones y rearreglos genómicos, que son difíciles de acomodar en el esquema existente.^[3] También existen un grupo de herramientas para editar y manipular los ficheros VCF.^[4]

Ejemplo

##fileformat=VCFv4.0
##fileDate=20110705
##reference=1000GenomesPilot-NCBI37
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS    ID        REF  ALT     QUAL FILTER INFO                              FORMAT      Sample1        Sample2        Sample3
2      4370   rs6057    G    A       29   .      NS=2;DP=13;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.
2      7330   .         T    A       3    q10    NS=5;DP=12;AF=0.017               GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3   0/0:41:3
2      110696 rs6055    A    G,T     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4
2      130237 .         T    .       47   .      NS=2;DP=16;AA=T                   GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2
2      134567 microsat1 GTCT G,GTACT 50   PASS   NS=2;DP=9;AA=G                    GT:GQ:DP    0/1:35:4       0/2:17:2       1/1:40:3

Las cabeceras de VCF

Las cabeceras inician el archivo y proveen metadatos describiendo el contenido del archivo. Las líneas de cabecera son indicadas con una almohadilla (#) al inicio de la línea. Palabras clave en la cabecera son denotadas con ##. Algunas palabras clave recomendadas son fileformat, fileDate y reference.

La cabecera contiene palabras clave opcionales que semántica o sintácticamente describen los campos usados en el cuerpo del archivo, entre los cuales destacan INFO, FILTER y FORMAT (ver abajo).

Las columnas de un VCF

El cuerpo de un archivo VCF sigue a la cabecera y está separado por tabuladores en 8 columnas obligatorias y puede contener un número ilimitado de columnas opcionales las cuales pueden ser empleadas para registrar otra información relativa a la(s) muestra(s). Cuando columnas adicionales son empleadas, la primera columna opcional es usada para describir el formato de los datos en las columnas subsecuentes.

	Nombre	Breve descripción (revisar las especificaciones para más detalles).
1	CHROM	El nombre de la secuencia (típicamente un cromosoma) en el cual se está registrando. Esta secuencia es usualmente conocida como la "secuencia de referencia", es decir,la secuencia contra la cual la muestra dada presenta cambios.
2	POS	La posición (contando desde 1) de la variación en la secuencia dada.
3	ID	El identificador de la variación, por ejemplo, el identificador rs en dbSNP, o "." si este identificador es desconocido. Múltiples identificadores deben ser separados por punto y coma sin espacios entre ellos.
4	REF	La base de referencia (o bases en caso de una indel) en la posición dada para la secuencia de referencia.
5	ALT	La lista de alelos alternativos para esta posición.
6	QUAL	Una calificación asociada con la inferencia de los alelos dados.
7	FILTER	Una bandera indicando cual de los conjuntos de filtros han fallado para esta variación o PASS si todos los filtros fueron aprobados correctamente
8	INFO	Una lista expandible de parejas llave-valor (campos) describiendo la variación. Ver abajo para algunos campos comunes. Múltiples campos deben separarse por punto y coma con valores opcionales en el formato:`<key>=<data>[,data]`.
9	FORMAT	Una lista extensible (opcional) de campos para describir las muestras. Ver abajo para algunos campos comunes.
+	SAMPLEs	Para cada muestra (opcional) descrita en el archivo, se brindan valores para los campos listados en FORMAT.

Campos INFO comunes

Etiquetas arbitrarias son permitidas por el formato, sin embargo las siguientes etiquetas están reservadas:^[1]

Etiqueta	Breve descripción
AA	alelo ancestral
AC	cuenta de alelos en genotipos, para cada alelo ALT, en el mismo orden listado
AF	frecuencia de alelos para cada alelo ALT en el mismo orden listado (usar este cuando es estimado de una fuente primaria de datos)
AN	número total de alelos en genotipos listados
BQ	Calidad base RMS en esta posición
CIGAR	cadena cigar describiendo el alineamiento de un alelo alternativo de inserción o deleción con respecto al alelo de referencia
DB	referencia dbSNP
DP	profundidad combinada a través de las muestras, e.g. DP=154
END	posición final de la variante descrita en este registro (para usar con alelos simbólicos)
H2	referencia hapmap2
H3	referencia hapmap3
MQ	calidad de mapeo RMS, e.g. MQ=52
MQ0	Number of MAPQ == 0 reads covering this record
NS	Número de muestras con datos
SB	estadísticas de componentes por muestra para detectar el sesgo
SOMATIC	indica que el registro corresponde a una mutación somática, para genómica de cáncer
VALIDATED	validated by follow-up experiment
1000G	membership in 1000 Genomes

Cualquier otro campo INFO es definido en la cabecera del archivo vcf.

Campos comunes FORMAT

Nombre	Breve descripción
AD	Profundidad de lectura para cada alelo
ADF	Read depth for each allele on the forward strand
ADR	Read depth for each allele on the reverse strand
DP	Profundidad de lectura
EC	Conteo esperado de alelos alternativos
FT	Filtro indicando si este genotipo fue "llamado"
GL	Verosimilitud de genotipo
GP	Probabilidad posterior de genotipo
GQ	Calidad condicional de genotipo
GT	Genotipo
HQ	Calidad de Haplotipo
MQ	Calidad de mapeo RMS
PL	Phred-scaled genotype likelihoods rounded to the closest integer
PQ	Calidad de fase
PS	Conjunto de fase

Any other format fields are defined in the .vcf header.

Véase también

El formato Genome Variation Format (GFV), una extensión basada en el formato GFF3.
Una explicación del código ejemplo en http://vcftools.sourceforge.net/VCF-poster.pdf
Herramienta gráfica gratuita para inspeccionar, buscar, dividir y combinar ficheros VCF en OS X, disponible en https://web.archive.org/web/20150218075756/http://www.diploid.com/differ

Referencias

↑ ^a ^b «VCF Specification». Consultado el 17 de mayo de 2013.
↑ «Specifications of SAM/BAM and related high-throughput sequencing file formats». Consultado el 24 de junio de 2014.
↑ «Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes». Consultado el 1 de febrero de 2011.
↑ «VCFtools from SourceForge.net». Consultado el 21 de abril de 2011.

Datos: Q7915770

[vcf-spec-1] «VCF Specification». Consultado el 17 de mayo de 2013.

[2] «Specifications of SAM/BAM and related high-throughput sequencing file formats». Consultado el 24 de junio de 2014.

[3] «Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes». Consultado el 1 de febrero de 2011.

[4] «VCFtools from SourceForge.net». Consultado el 21 de abril de 2011.

[1]

[2]

[3]

[4]