apache-spark - 使用 Spark 写入 memsql 的最佳实践

Question

我的用例如下：我们正在使用 Spark 从 HDFS 读取和转换数据。转换后的数据应该保存在 memsql 中。

是否有使用 Spark 写入 memsql 的最佳实践？即，在使用 Dataframe 进行大规模（并行）写入时，确保写入性能和可扩展性的最佳方法是什么？

首选解决方案是什么：使用 memsql/Spark 连接器 ( https://github.com/memsql/memsql-spark-connector ) 或 DataFrame 的“写入”方法（结合 MySQL JDBC 驱动程序）。

长话短说：Spark 如何扩展对 memsql 的写入？

score 1 · Accepted Answer

MemSQL/Spark 连接器有一些特定于 memsql 的优化，与通过 mysql 驱动程序编写相比可以提高性能。

您还应该看看 MemSQL Streamliner ( http://docs.memsql.com/latest/spark/ )，它允许您轻松设置管道以使用 Spark 将数据加载到 memsql 并完成大量工作来管理为您提供可扩展性。

1 回答 1