1

我的用例如下:我们正在使用 Spark 从 HDFS 读取和转换数据。转换后的数据应该保存在 memsql 中。

是否有使用 Spark 写入 memsql 的最佳实践?即,在使用 Dataframe 进行大规模(并行)写入时,确保写入性能和可扩展性的最佳方法是什么?

首选解决方案是什么:使用 memsql/Spark 连接器 ( https://github.com/memsql/memsql-spark-connector ) 或 DataFrame 的“写入”方法(结合 MySQL JDBC 驱动程序)。

长话短说:Spark 如何扩展对 memsql 的写入?

4

1 回答 1

1

MemSQL/Spark 连接器有一些特定于 memsql 的优化,与通过 mysql 驱动程序编写相比可以提高性能。

您还应该看看 MemSQL Streamliner ( http://docs.memsql.com/latest/spark/ ),它允许您轻松设置管道以使用 Spark 将数据加载到 memsql 并完成大量工作来管理为您提供可扩展性。

于 2016-01-15T15:24:19.343 回答