1

我正在寻找根据床坐标和 vcf 位置之间的相交向 vcf 文件添加一个新的“GENE_ID”列。'GENE_ID' 已经作为床文件中的第 4 列出现。基本上我需要知道如何将床文件中的基因名称列(GENE_ID)保存到新的vcf文件中!

此外,我想知道如何在一次运行中从多个 vcf 和 bed 文件中获取结果。

让我们假设床文件如下:

> coord.bed
chr7    71335   73335   ENSG00000232325
chr7    75538   77538   ENSG00000242611
chr7    144930  146930  ENSG00000242474
chr7    148097  150278  ENSG00000240859
chr7    148862  150966  ENSG00000242474
chr7    151179  153179  ENSG00000240859
chr7    164472  166472  ENSG00000261795
chr7    173420  175420  ENSG00000239715

以及 vcf 文件的前三列:

#CHROM   POS          ID 
7       72339   7_31439_T_A_b37
7       75999   7_31504_G_A_b37
7       146125   7_34713_A_C_b37
7       149978   7_34918_C_T_b37
7       174401   7_35119_G_A_b37

所需的输出:

#CHROM   POS           ID               GENE_ID
7       72339   7_31439_T_A_b37     ENSG00000232325  
7       75999   7_31504_G_A_b37     ENSG00000242611   
7       146125   7_34713_A_C_b37    ENSG00000242474
7       150478   7_34918_C_T_b37    ENSG00000242474 
7       174401   7_35119_G_A_b37    ENSG00000239715

我会很感激任何建议!

4

1 回答 1

1

这是bedtools. awks 暂时呈现正确的格式并bedtools打印所需的最终结果。

% bedtools intersect\
   -a <(awk -v OFS="\t" '{print "chr"$1,$2,$2,$3}' vcf)\
   -b <(awk -v OFS="\t" '{print $1,$2,$3,$4}' bed)\
   -wb | awk -v OFS="\t" '{print substr($1,4,length($1)-3),$2,$4,$8}'
7   72339   7_31439_T_A_b37 ENSG00000232325
7   75999   7_31504_G_A_b37 ENSG00000242611
7   146125  7_34713_A_C_b37 ENSG00000242474
7   149978  7_34918_C_T_b37 ENSG00000240859
7   149978  7_34918_C_T_b37 ENSG00000242474
7   174401  7_35119_G_A_b37 ENSG00000239715

查看bedtools intersect --help多个文件:

注意:-b 后面可以跟多个数据库和/或通配符 (*) 字符。

床具 v2.28.0

数据

% cat bed
chr7 71335   73335   ENSG00000232325
chr7 75538   77538   ENSG00000242611
chr7 144930  146930  ENSG00000242474
chr7 148097  150278  ENSG00000240859
chr7 148862  150966  ENSG00000242474
chr7 151179  153179  ENSG00000240859
chr7 164472  166472  ENSG00000261795
chr7 173420  175420  ENSG00000239715

% cat vcf
7  72339   7_31439_T_A_b37
7  75999   7_31504_G_A_b37
7  146125  7_34713_A_C_b37
7  149978  7_34918_C_T_b37
7  174401  7_35119_G_A_b37
于 2022-02-01T17:46:08.793 回答