我读
- Spark DataSet 和 RDD 有什么区别
- DataSet API 和 DataFrame 的区别
- http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes
- https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
在 Spark 1.6 中,Dataset 似乎更像是一个改进的 DataFrame(“概念上 Spark DataSet 只是一个具有额外类型安全性的 DataFrame”)。在 Spark 2.0 中,它看起来更像是改进的 RDD。前者有一个关系模型,后者更像一个列表。对于 Spark 1.6,据说 Datasets 是 DataFrames 的扩展,而在 Spark 2.0 中,DataFrames 只是包含 Type[Row]
的 Datasets,使 DataFrames 成为 Datasets 的特例,使 DataFrames 成为 Datasets 的特例。现在我有点困惑。Spark 2.0 中的数据集在概念上更像 RDD 还是 DataFrame?Spark 2.0 中 RDD 与数据集之间的概念区别是什么?