我正在寻找根据床坐标和 vcf 位置之间的相交向 vcf 文件添加一个新的“GENE_ID”列。'GENE_ID' 已经作为床文件中的第 4 列出现。基本上我需要知道如何将床文件中的基因名称列(GENE_ID)保存到新的vcf文件中!
此外,我想知道如何在一次运行中从多个 vcf 和 bed 文件中获取结果。
让我们假设床文件如下:
> coord.bed
chr7 71335 73335 ENSG00000232325
chr7 75538 77538 ENSG00000242611
chr7 144930 146930 ENSG00000242474
chr7 148097 150278 ENSG00000240859
chr7 148862 150966 ENSG00000242474
chr7 151179 153179 ENSG00000240859
chr7 164472 166472 ENSG00000261795
chr7 173420 175420 ENSG00000239715
以及 vcf 文件的前三列:
#CHROM POS ID
7 72339 7_31439_T_A_b37
7 75999 7_31504_G_A_b37
7 146125 7_34713_A_C_b37
7 149978 7_34918_C_T_b37
7 174401 7_35119_G_A_b37
所需的输出:
#CHROM POS ID GENE_ID
7 72339 7_31439_T_A_b37 ENSG00000232325
7 75999 7_31504_G_A_b37 ENSG00000242611
7 146125 7_34713_A_C_b37 ENSG00000242474
7 150478 7_34918_C_T_b37 ENSG00000242474
7 174401 7_35119_G_A_b37 ENSG00000239715
我会很感激任何建议!