compression - 解压后的文件比 .gz 大得多 (60x)

Question

我从 1000genomes 网站下载了 1000 个基因组 .vcf 文件，使用：

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz

我尝试使用 gzip 解压缩这些文件，但它们解压缩到比原始文件大得多的大小。例如，第一个文件（1 号染色体）压缩后为 1.1gb，但扩展为 65.78gb。

认为这可能是 gzip 的问题，我尝试了其他两种方法。一种是直接在.gz文件上运行注释工具snpEff，另一种是使用zcat解压文件。然而，在这两种情况下，文件大小都同样巨大。

我假设这不可能是正确的，但不知道为什么会这样。有没有人经历过类似的事情？

score 3 · Accepted Answer

我检查了1号染色体文件，没问题。我想其余的也是。是的，高度冗余的数据可以压缩那么多。它仅以 60:1 压缩，而 gzip 能够压缩高达 1032:1。

该流被分解为单独的 gzip 压缩的 64K 未压缩数据，每个数据用于索引。（相关的“tbi”文件包含大 gzip 文件中每个片段的位置。）如果他们只是将其压缩为单个流，或者索引点相距更远一点，它会压缩大约 68:1。

1 回答 1