我需要通过出现在 CHR 列中的一长串非连续重叠群 ID 对 SNP vcf 文件进行子集化/过滤。我的 VCF 文件目前包含 13,971 个重叠群,我想保留一组特定的 7,748 个重叠群以及与这些重叠群相关的所有内容(所有变体和基因型信息等)。
我的 contig 列表如下所示:
dDocent_Contig_1
dDocent_Contig_100
dDocent_Contig_10000 等
我正在考虑以下脚本:
vcftools --vcf TotalRawSNPs.vcf --chr dDocent_Contig_1 --chr dDocent_Contig_100 (etc...) --recode --recode-INFO-all --out FinalRawSNPs
我之前用 --chr 标志单独列出了每个 contig ID。对于这个 --chr 标志,我无法为其提供要保留的 contig ID 的文本文件,这将是理想的。如果我单独列出所有重叠群,它将在命令行中创建一个庞大的脚本。
我已经看到了按个人列表过滤的选项,但没有任何仅按 CHR/contig ID 过滤的明确选项。有没有更有效的方法来按 CHR/contig 过滤我的 vcf 文件?