我在 Cloudera QuickStart VM 上使用 CentOS。我在另一个问题How to save DataFrame directly to Hive? .
构建.sbt
libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.5.2"
libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.2"
我想使用 DataFrame 作为 Hive 表,如下所示:
recordDF.registerTempTable("mytempTable")
hiveContext.sql("create table productstore as select * from mytempTable");
我注意到我收到了错误:
根暂存目录:/tmp/hive 应该是可写的。当前权限为:rwx------
我关注了其他问题并chmod 777
为/tmp/hive
HDFS 设置。
我突然想到 spark 使用本地文件系统 /tmp/hive。
我为本地文件系统做了一个 chmod。
现在我收到错误
org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:file:/user/hive/warehouse/productstore 不是目录或无法创建目录)
我想在 HDFS 配置单元仓库中存储一个 DataFrame。