我正在考虑使用由 Spark 连接器连接的 Databricks 和 Snowflake,它们都在 AWS 上运行。在触发决定之前,我很难理解以下内容:
- Spark 连接器的性能如何?(性能、额外成本、兼容性)
- Databricks SQL 和 Snowflake SQL 在性能和标准方面可以进行哪些比较?
- 尝试同时使用这两种方法的“陷阱”或不幸的惊喜是什么?
我正在考虑使用由 Spark 连接器连接的 Databricks 和 Snowflake,它们都在 AWS 上运行。在触发决定之前,我很难理解以下内容:
Snowflake 对 Spark 连接器的性能进行了投资,根据基准测试[0],它表现良好。
SQL 方言是相似的。“Databricks SQL 保持与 Apache Spark SQL 语义的兼容性。” [1] “Snowflake 支持 SQL:1999 中定义的大多数命令和语句。” [2]
我没有遇到过陷阱。我会避免使用不同的区域。DataBricks SQL 的性能特征自 6 月 17 日将其 Photon 引擎设为默认值以来有所不同。
与往常一样,该实用程序将取决于您的用例,例如:
select * from foo
在 DataBricks SQL 中进行宽表扫描样式查询(例如(无位置,无限制)),然后在内核(或其他东西)中进行分析,那么切换到 Snowflake 对您没有多大帮助。ETC
[1] - https://docs.databricks.com/sql/release-notes/index.html
[2] - https://docs.snowflake.com/en/sql-reference/intro-summary-sql.html