0

我有一个数据框(Dataset)并想将此数据框保存到 Redshift。

df.write()
    .format("com.databricks.spark.redshift")
    .option("url", url)
    .option("dbtable", dbTable)
    .option("tempdir", tempDir)
    .mode("append")
    .save();

设置:

  • Spark(spark-core、spark-sql):2.0.1/Scala:2.11
  • 用于连接 Redshift (postgresql) 的 JDBC 驱动程序:9.4.1208.jre7
  • AWS 开发工具包(aws-java-sdk-core、aws-java-sdk-s3):1.11.48

就在我在 Redshift 中创建工作正常的写表之前(使用 Postgres JDBC 驱动程序)。但是,在创建表之后,我的工作基本上停止了,我无法从日志中提取任何有用的信息。这可能是什么原因?

我尝试将身份验证凭据设置为 tempdir 的一部分,并在 Spark 上下文中使用 Hadoop 配置,如此处所述。两种方式都可以在本地工作,但是在提交作业以在 dataproc 上运行时会出现问题吗?

4

0 回答 0