我的用例如下:我们正在使用 Spark 从 HDFS 读取和转换数据。转换后的数据应该保存在 memsql 中。
是否有使用 Spark 写入 memsql 的最佳实践?即,在使用 Dataframe 进行大规模(并行)写入时,确保写入性能和可扩展性的最佳方法是什么?
首选解决方案是什么:使用 memsql/Spark 连接器 ( https://github.com/memsql/memsql-spark-connector ) 或 DataFrame 的“写入”方法(结合 MySQL JDBC 驱动程序)。
长话短说:Spark 如何扩展对 memsql 的写入?