pandas - 使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30？

Question

使用 AWS Firehose，我将传入记录转换为镶木地板。在一个示例中，我有 150k 条相同的记录进入 firehose，并且单个 30kb parquet 被写入 s3。由于 firehose 对数据的分区方式，我们在 parquet 中读取了一个辅助进程（由 s3 put 事件触发的 lambda）并根据事件本身的日期对其进行重新分区。在这个重新分区过程之后，30kb 的文件大小跳到 900kb。

检查两个镶木地板文件-

元不变
数据没有变化
他们都使用 SNAPPY 压缩
firehose parquet 由 parquet-mr 创建，pyarrow 生成的 parquet 由 parquet-cpp 创建
pyarrow 生成的 parquet 有额外的 pandas 标头

完整的重新分区过程-

import pyarrow.parquet as pq

tmp_file = f'{TMP_DIR}/{rand_string()}'
s3_client.download_file(firehose_bucket, key, tmp_file)

pq_table = pq.read_table(tmp_file)

pq.write_to_dataset(
    pq_table,
    local_partitioned_dir,
    partition_cols=['year', 'month', 'day', 'hour'],
    use_deprecated_int96_timestamps=True
)

我想会有一些尺寸变化，但我惊讶地发现有这么大的差异。鉴于我所描述的过程，什么会导致源拼花从 30kb 变为 900kb？

score 2 · Accepted Answer

Parquet 使用不同的列编码来非常有效地存储低熵数据。例如：

它可以使用增量编码来仅存储值之间的差异。例如9192631770, 9192631773, 9192631795, 9192631797将有效地存储为9192631770, +3, +12, +2.
它可以使用字典编码来简短地引用公共值。例如，Los Angeles, Los Angeles, Los Angeles, San Francisco, San Francisco将存储为字典0 = Los Angeles, 1 = San Francisco和引用0, 0, 0, 1, 1
它可以使用游程编码来仅存储重复值的数量。例如，Los Angeles, Los Angeles, Los Angeles将有效地存储为Los Angeles×3. （实际上据我所知，纯 RLE 目前仅用于布尔类型，但想法是一样的。）
上述的组合，特别是 RLE 和字典编码。例如，Los Angeles, Los Angeles, Los Angeles, San Francisco, San Francisco将存储为字典0 = Los Angeles, 1 = San Francisco和引用0×3, 1×2

使用上面示例的 3 到 5 个值，节省的费用并不那么显着，但是您拥有的值越多，收益就越大。由于您有 150k 条相同的记录，因此收益将是巨大的，因为使用 RLE 字典编码，每个列值只需存储一次，然后标记为重复 150k 次。

但是，pyarrow 似乎没有使用这些节省空间的编码。您可以通过查看两个文件的元数据来确认这一点，使用parquet-tools meta. 这是一个示例输出：

file schema: hive_schema 
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
id:          OPTIONAL INT32 R:0 D:1
name:        OPTIONAL BINARY O:UTF8 R:0 D:1

row group 1: RC:61 TS:214 OFFSET:4 
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
id:           INT32 UNCOMPRESSED DO:0 FPO:4 SZ:107/107/1.00 VC:61 ENC:BIT_PACKED,RLE,PLAIN_DICTIONARY ST:[min: 1, max: 5, num_nulls: 0]
name:         BINARY UNCOMPRESSED DO:0 FPO:111 SZ:107/107/1.00 VC:61 ENC:BIT_PACKED,RLE,PLAIN_DICTIONARY ST:[min: Los Angeles, max: San Francisco, num_nulls: 0]

编码显示为ENC:BIT_PACKED,RLE,PLAIN_DICTIONARY。

pandas - 使用 pyarrow/parquet-cpp 重新分区 parquet-mr 生成的镶木地板会使文件大小增加 x30？

1 回答 1

Related

Reference