问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Perl 脚本无法访问 Tabix 文件夹
我正在从 EMBL 运行 Perl 脚本(在此处找到https://github.com/EMBL-EBI-GCA/reseqtrack/blob/master/scripts/variation_data/calculate_allele_frq_from_vcf.pl)在 Ubuntu 16.10 下我已经安装了 Vcftools 和 Tabix根据要求,两者都经过测试可以相应地工作。我使用以下命令执行脚本:
这将返回以下错误
由于某种原因,该脚本似乎无权访问 Tabix。我已经为执行脚本的用户(我)授予了文件夹完整的读/写权限。有任何想法吗?
python - 在 EggLib Python 中指示种群结构
在 Python 中,我使用EggLib。我正在尝试计算在 VCF 文件中找到的每个 SNP 的 Jost 的 D 值。
数据
此处的数据采用 VCF 格式。数据集很小,有 2 个种群,每个种群 100 个人和 6 个 SNP(都在 1 号染色体上)。
每个个体被命名为Pp.Ii
,其中p
是它所属的人口指数,i
是个体指数。
代码
我的困难在于人口结构的规范。这是我的审判
该文档表明here
[结构对象] 是一个包含两个项目的元组,每个项目都是一个字典。第一个代表内群,第二个代表外群。
内组词典本身就是一本包含更多词典的词典,每个群体都有一个词典。每个集群字典都是人口字典,人口本身由字典表示。人口字典再次是个人字典。幸运的是,个人由列表表示。
个体列表包含属于该个体的所有样本的索引。对于单倍体数据,个体将是单项列表。在其他情况下,所有单独的列表都必须具有相同数量的项目(一致的倍性)。请注意,如果倍性多于一个,则不会强制将给定个体的样本分组在原始数据中。
ingroup 字典的键是标识每个集群的标签。在集群字典中,键是人口标签。最后,在人口字典中,键是单独的标签。
第二个字典代表外群。它的结构更简单:它有单独的标签作为键,对应的样本索引列表作为值。外群字典类似于任何内群人口字典。倍性需要匹配所有内群和外群个体。
但我无法理解它。提供的示例适用于 fasta 格式,我不明白将逻辑扩展到 VCF 格式。
python - 每次循环迭代创建一个新字典
我正在尝试从 VCF 文件中提取位置和 SNP。到目前为止,我已经写了以下内容。但是如何更改字典的名称,以便每个输入文件都有一个字典呢?
即:python vcf_compare.py file1.vcf file2.vcf file3.vcf
所以为 argv[1] 创建了一个名为 file1 的字典。如何使字典名称更改为例如文件二以进行循环的第二次迭代?
python - getopt 不太好用,我做错了什么?
我不确定为什么下面的代码不起作用 - 我收到错误
在我尝试使用 getopt 之前,代码运行良好。我正在尝试解析命令行输入,例如,如果我把
file1 和 file2 成为我的第一个循环的输入作为“group1”。
makefile - makefile run 对所有规则执行一次
我写了一个准备一些文件的makefile。我创建 ORIGINAL 目录,然后使用文件夹中的文件启动其他规则
我需要启动 3 次 make -f Makefile 来执行所有规则。如何改进该脚本?
什么是正确的方法?谢谢你的帮助
awk - awk 跳过行至模式并包括模式
我正在尝试使用awk
跳过包括特定模式在内的所有行/^#CHROM/
并在下面的行上开始处理。确实执行但当前awk
返回tab-delimited
file
. 谢谢 :)。
文件
awk
期望的输出
annotations - 使用 Annovar 进行细菌基因组注释
我在 python 中编写自己的管道以注释细菌基因组 MTB,我是这个领域的新手,有点迷路,我将 VCF 转换为适当的 annovar 输入格式,然后我得到了堆栈,我必须使用 dbSNP 来注释 SNP 和hrv37 作为注释的参考基因组,但并不真正知道正确的命令格式或我真正需要提供的更多内容。我阅读了手册,但它并没有真正帮助我。有使用 Annovar 注释细菌基因组经验的人吗?提前致谢
compression - 解压后的文件比 .gz 大得多 (60x)
我从 1000genomes 网站下载了 1000 个基因组 .vcf 文件,使用:
我尝试使用 gzip 解压缩这些文件,但它们解压缩到比原始文件大得多的大小。例如,第一个文件(1 号染色体)压缩后为 1.1gb,但扩展为 65.78gb。
认为这可能是 gzip 的问题,我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大。
我假设这不可能是正确的,但不知道为什么会这样。有没有人经历过类似的事情?
r - 在 R 中使用 pegas 执行 tajD 测试的问题
我正在尝试根据 SNP 数据(~4000SNPs)计算 tajD。我有 fasta 和 vcf 文件,最初尝试使用我的 fasta 文件。在帮助下,我明白了我有一个可以从文件中采样的脚本,但是我需要将 fasta 文件拆分为不同的群体。我很害怕这样做(尽管我必须给出我现在遇到的错误),所以我分阶段使用我的 vcf 文件,并希望使用它来代替。我正在使用 R 包 pegas,并收到以下错误。
文件显然尚未访问:扫描文件 b8c18_2phased.vcf 3.194102 / 3.194102 Mb Done。读取 4074 / 4074 位点。完毕。
获得单倍型
分析个人编号 186 / 186
来自 haplos 的 tajD
警告信息:在 tajima.test(b8c18haplos) 中:Tajima 测试需要至少 4 个序列
我将在此处附加指向我的分阶段和非分阶段文件的链接。 https://drive.google.com/open?id=0B6qb8IlaQGFZTmQ1YXRVbnFSRzA https://drive.google.com/open?id=0B6qb8IlaQGFZQm9HZjZSUkE3NEU
有什么想法吗?
最后,我想知道是否有办法在 tajD 命令中对种群进行子集化。我在同一个 vcf 文件中有 7 个人口,我应该分别计算每个人口的 tajD。如果没有,什么是子集 vcfs 的最佳工具。我已经对此进行了大量的谷歌搜索,但似乎没有一个是直截了当的。
带着感谢,