apache-spark - 关于数据集中 kryo 和 java 编码器的问题

Question

我正在使用 Spark 2.4 并参考 https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence

豆类：

public class EmployeeBean implements Serializable {

    private Long id;
    private String name;
    private Long salary;
    private Integer age;

    // getters and setters

}

火花示例：

    SparkSession spark = SparkSession.builder().master("local[4]").appName("play-with-spark").getOrCreate();

    List<EmployeeBean> employees1 = populateEmployees(1, 1_000_000);

    Dataset<EmployeeBean> ds1 = spark.createDataset(employees1, Encoders.kryo(EmployeeBean.class));
    Dataset<EmployeeBean> ds2 = spark.createDataset(employees1, Encoders.bean(EmployeeBean.class));

    ds1.persist(StorageLevel.MEMORY_ONLY());
    long ds1Count = ds1.count();

    ds2.persist(StorageLevel.MEMORY_ONLY());
    long ds2Count = ds2.count();

我在 Spark Web UI 中寻找存储。有用的部分 -

ID  RDD Name                                           Size in Memory   
2   LocalTableScan [value#0]                           56.5 MB  
13  LocalTableScan [age#6, id#7L, name#8, salary#9L]   23.3 MB

几个问题：

Kryo 序列化 RDD 的大小不应该小于 Java 序列化 RDD 而不是大于两倍吗？
我也试过MEMORY_ONLY_SER()mode 和 RDDs 大小是一样的。作为序列化 Java 对象的 RDD 应存储为每个分区一个字节数组。持久化 RDD 的大小不应该小于反序列化的吗？
在创建数据集时添加 Kryo 和 bean 编码器到底在做什么？
我可以重命名持久化的 RDD 以获得更好的可读性吗？

score 3 · Accepted Answer

kryo 序列化 RDD 的大小不应该小于 Java 序列化 RDD 而不是大于两倍吗？

如果您曾经使用过 Java 序列化（或 RDD），那将是真的。然而，这里不是这样。应用时使用Java序列化Encoders.javaSerialization，与Encoders.kryo使用二进制序列化相同。

二进制序列化器获取整个对象，使用通用序列化工具对其进行序列化，并将生成的字节数组存储为单个DataFrame列。结果对于优化器来说是不透明的（没有真正的存储优化，因为 blob 不能很好地压缩），并且只能用于功能性（“强类型”API）。

Encoders.bean是一头截然不同的神兽Encoders.product。它利用类的结构，并反映在模式中。因为它对单个字段进行编码，所以可以使用标准 Spark 方法有效地压缩列。因此较低的存储内存要求。

与 Spark Encoders密切相关：何时使用 beans()

apache-spark - 关于数据集中 kryo 和 java 编码器的问题

1 回答 1

Related

Reference