java - 数据帧从在 dataproc 集群停顿上运行的 Spark2 作业保存到 Redshift

翻译自：https://stackoverflow.com/questions/40308407 2016-10-28T15:29:41.803

152 次

我有一个数据框（Dataset）并想将此数据框保存到 Redshift。

df.write()
    .format("com.databricks.spark.redshift")
    .option("url", url)
    .option("dbtable", dbTable)
    .option("tempdir", tempDir)
    .mode("append")
    .save();

设置：

Spark（spark-core、spark-sql）：2.0.1/Scala：2.11
用于连接 Redshift (postgresql) 的 JDBC 驱动程序：9.4.1208.jre7
AWS 开发工具包（aws-java-sdk-core、aws-java-sdk-s3）：1.11.48

就在我在 Redshift 中创建工作正常的写表之前（使用 Postgres JDBC 驱动程序）。但是，在创建表之后，我的工作基本上停止了，我无法从日志中提取任何有用的信息。这可能是什么原因？

我尝试将身份验证凭据设置为 tempdir 的一部分，并在 Spark 上下文中使用 Hadoop 配置，如此处所述。两种方式都可以在本地工作，但是在提交作业以在 dataproc 上运行时会出现问题吗？

java - 数据帧从在 dataproc 集群停顿上运行的 Spark2 作业保存到 Redshift

0 回答 0

Related

Reference