database - 生成 TPCH-SF300 和 SF1000 数据

翻译自：https://stackoverflow.com/questions/64302965 2020-10-11T10:26:41.323

65 次

我正在尝试在 Databricks 上生成 SF300 和 SF1000 TPCH 数据。但是，我的脚本现在已经运行了超过 24 小时，我猜我做错了什么。

我按照以下说明进行操作：https ://github.com/databricks/spark-sql-perf 。然后我使用他们存储库中的笔记本（tpcds_datagen.scala）来生成数据。当然，我修改了参数，将TPC-DS改为TPC-H。但它非常慢。

有人可以建议一种更快的方法并帮助我吗？提前致谢。

0 回答 0