12

与 Apache Spark 相比,Apache Spark2 带来了哪些改进?

  1. 从架构的角度
  2. 从应用的角度
  3. 或者更多
4

2 回答 2

11

Apache Spark 2.0.0 API 与 1.X 基本相似,Spark 2.0.0 确实有 API 重大更改

Apache Spark 2.0.0是 2.x 行的第一个版本。主要更新是API 可用性、SQL 2003 支持、性能改进、结构化流、R UDF 支持以及操作改进

火花 2 中的新功能:

  • 我能看到的最大变化是 DataSet 和 DataFrame API 将被合并。
  • 与前辈相比,Spark 的最新和最伟大的将大大提高效率。Spark 2.0 将专注于 Parquet 和缓存的结合,以实现更好的吞吐量。
  • 结构化流媒体是另一件大事!
  • 这将是第一个专注于 ETL 的版本。后续版本将为 ETL 添加更多运算符和库

您可以浏览Spark 版本 2.0.0,其中解释了以下几点更新:

  • API 稳定性
  • 核心和 Spark SQL
  • MLlib
  • 火花R
  • 流媒体
  • 依赖、打包和操作
  • 删除、行为更改和弃用
  • 已知的问题
于 2016-10-21T05:46:00.037 回答
5

架构方面没有太大区别,简单来说还是 DAG 和 RDD,这是其中最重要的部分!

虽然 Spark 2.0 更加优化并且拥有 DataSet Api,它为开发人员提供了更强大的功能。所以我会说架构是一样的,只是 Spark 2.0 提供了很多优化并且拥有丰富的 Api 集!

这些是 Apache Spark 2.0 提供的主要内容:

  • 我能看到的最大变化是 DataSet 和 DataFrame API 将被合并。
  • 与前辈相比,Spark 的最新和最伟大的将大大提高效率。Spark 2.0 将专注于 Parquet 和缓存的结合,以实现更好的吞吐量。
  • 结构化流媒体是另一件大事!
  • 这将是第一个专注于 ETL 的版本。后续版本将为 ETL 添加更多运算符和库

有关更多信息,请点击此处:https ://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions

于 2016-10-21T05:24:36.700 回答