我正在尝试在 Databricks 上生成 SF300 和 SF1000 TPCH 数据。但是,我的脚本现在已经运行了超过 24 小时,我猜我做错了什么。
我按照以下说明进行操作:https ://github.com/databricks/spark-sql-perf 。然后我使用他们存储库中的笔记本(tpcds_datagen.scala)来生成数据。当然,我修改了参数,将TPC-DS改为TPC-H。但它非常慢。
有人可以建议一种更快的方法并帮助我吗?提前致谢。
我正在尝试在 Databricks 上生成 SF300 和 SF1000 TPCH 数据。但是,我的脚本现在已经运行了超过 24 小时,我猜我做错了什么。
我按照以下说明进行操作:https ://github.com/databricks/spark-sql-perf 。然后我使用他们存储库中的笔记本(tpcds_datagen.scala)来生成数据。当然,我修改了参数,将TPC-DS改为TPC-H。但它非常慢。
有人可以建议一种更快的方法并帮助我吗?提前致谢。