欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【生信笔记】vcf文件中的星号 * 是啥意思

程序员文章站 2022-07-14 14:39:04
...

分析的时候ALT中出现了*,(如下)懵逼。

#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT
chr9	10105	rs575580161	C	*,A	180.66	VQSRTrancheSNP99.50to99.90	AC=3,2;AF=1.280e-03,8.532e-4;AN=2344;DB;DP=1886;ExcessHet=0;FS=0;InbreedingCoeff=0.331;MQ=40.98;NEGATIVE_TRAIN_SITE;PG=0,28,61,29,60,64;QD=25.81;SOR=0.223;VQSLOD=-3.718e+00;culprit=DP	GT:AD:DP:GQ:PL:PP

根据The Variant Call Format Specification文件(https://samtools.github.io/hts-specs/VCFv4.3.pdf)5.5内容可知,*表示非特定的等位基因,其他可能的等位基因(包括SNP、INDEL或其他)。AC、AF等信息也是有2份,分别对应 ALT * 和 ALT A

【生信笔记】vcf文件中的星号 * 是啥意思

这里提到* 优于<NON_REF> ,那<NON_REF>又是啥?这个在vcf4.2版本的header里就有说明。

##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">

...


#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
20  10001670    .   T   G,<NON_REF> 1773.77 .   DP=42;ExcessHet=3.0103;MLEAC=2,0;MLEAF=1.00,0.00;RAW_MQ=151200.00   GT:AD:DP:GQ:PGT:PID:PL:SB   1/1:0,42,0:42:99:0|1:10001661_T_C:1802,129,0,1802,129,1802:0,0,25,17

这俩好像是一个意思,盲猜是因为*占的内存比<NON_REF>小,所以更优。。

相关标签: 生物信息学