我有一个大型 VCF 文件,我想从中提取某些列和信息,并将其与变体位置匹配。我以为我有这个工作,但是对于某些变体而不是相应的变体位置,我被赋予了 ID?
我的代码如下所示:
# see what fields are in this vcf file
scanVcfHeader("file.vcf")
# define paramaters on how to filter the vcf file
AN.adj.param <- ScanVcfParam(info="AN_Adj")
# load ALL allele counts (AN) from vcf file
raw.AN.adj. <- readVcf("file.vcf", "hg19", param=AN.adj.param)
# extract ALL allele counts (AN) and corressponding chr location with allele tags from vcf file - in dataframe/s4 class
sclass.AN.adj <- (info(raw.AN.adj.))
结果如下所示:
AN_adj
1:13475_A/T 91
1:14321_G/A 73
rs12345 87
1:15372_A/G 60
1:16174_G/A 41
1:16174_T/C 62
1:16576_G/A 87
rs987654 56
我希望结果如下所示:
AN_adj
1:13475_A/T 91
1:14321_G/A 73
1:14873_C/T 87
1:15372_A/G 60
1:16174_G/A 41
1:16174_T/C 62
1:16576_G/A 87
1:18654_A/T 56
关于这里发生了什么以及如何解决它的任何想法?
如果有一种方法可以使用 CHROM 和 position 字段附加变体位置,我也会很高兴,但我无法从这些字段的研究数据中请求它们,因为它们是用于创建变体位置的 GRange 的基本字段。