1

我需要以 ORCFile 格式创建输出。根据这个页面(http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/)它是最好的。

问题?

1) 我应该使用什么编解码器来创建 ORCFile 格式的文件?2) 以这种格式创建的文件是否可以使用 -text 选项读取(例如

hadoop fs -cat -text /tmp/a.orc

3)任何其他指针?使用这种格式是否为时过早?优点缺点?

谢谢。

4

2 回答 2

4

要在 Hive 中的 ORCFile 中创建数据,只需在表定义末尾使用短语“stored as orc”并加载数据。您还可以使用 Sqoop 使用 HCatalog 导入选项直接导入 ORC。

还有一个名为 orcfiledump 的工具可以帮助您分析存储为 ORC 的数据,为您提供列、类型和统计信息的列表。

您不能使用 -cat 直接读取 ORC,但可以轻松地将 ORC 数据导出到 CSV 文件。

于 2014-02-27T02:54:28.223 回答
0

1) 我应该使用什么编解码器来创建 ORCFile 格式的文件?

那么压缩的权衡是性能。如果数据大小不是瓶颈,最好不要使用任何压缩,因为它可以为您提供最佳性能。

它的顺序是 NONE -> SNAPPY -> ZLIB(在性能和大小方面减少)

于 2014-06-24T10:43:02.707 回答