0

例外:

失败并出现异常 java.io.IOException:java.io.IOException: 以某种方式读取 -1 字节试图跳过 6257 个字节以寻找位置 6708,大小:1290047

有谁知道如何在云 dataproc 上修复它?

4

1 回答 1

1

看起来您可能遇到了这个特定于读取 ORC 文件的已知问题。GCS 连接器版本 1.5.4 已修复,本周将在 Dataproc 中推出(预计将于 10 月 14 日星期五全面推出)。

同时,您可以使用一个小的初始化操作来自动更新 dataproc 集群上的连接器版本;创建一个名为update-gcs-1.5.4.sh

#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/

然后将该文件上传到某处的 GCS:

gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh

然后创建您的 Dataproc 集群:

gcloud dataproc clusters create \
    --initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh
于 2016-10-13T03:32:31.990 回答