我从 1000genomes 网站下载了 1000 个基因组 .vcf 文件,使用:
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我尝试使用 gzip 解压缩这些文件,但它们解压缩到比原始文件大得多的大小。例如,第一个文件(1 号染色体)压缩后为 1.1gb,但扩展为 65.78gb。
认为这可能是 gzip 的问题,我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大。
我假设这不可能是正确的,但不知道为什么会这样。有没有人经历过类似的事情?