5

我们有一个需要添加ORC文件的要求。我试图用谷歌搜索但没有结果。也org.apache.hadoop.hive.ql.io.orc.WriterImpl没有ORC附加 API。无论如何要附加ORC文件吗?(更具体地说,使用 JAVA)

4

1 回答 1

4

ORC 数据文件被细分为独立的条带;每个条带都在一个原子步骤中创建。详见官方文档

我不相信您可以即时直接附加到现有文件。这意味着在写入时发生作业崩溃时会留下损坏的条带(因此是损坏的文件)。

但是你可以

  • 每个 reducer创建一个新的 ORC 数据文件(其中将包含 1..N 个条带,具体取决于实际数据量与orc.stripe.size属性)
  • 然后使用Hive V0.14 及更高版本“连接”这些数据文件和现有文件
于 2015-09-04T11:59:46.157 回答