0

有没有办法从 Apache spark 生成架构少的 avro?我可以看到一种通过 Java/Scala 使用 apache avro 库和通过 confluent avro 生成它的方法。当我以下面的方式从 Spark 编写 Avro 时,它会创建带有架构的 Avro。我想创建没有模式以减少最终数据集的大小。

df.write.format("avro").save("person.avro")
4

1 回答 1

2

你不必担心。你不能避免这种方法。

AVRO 始终拥有数据和架构。

AVRO 与 JSON 不同,后者存储驻留在数据本身中的每条记录的架构。

使用 AVRO,模式每个文件存储一次。所以几乎不需要考虑开销。

于 2020-04-21T17:42:11.407 回答