我正在用 Python 编写 MapReduce 作业,并且想使用一些第三个库,例如chardet.
我知道我们可以使用选项-libjars=...将它们包含在 java MapReduce 中。
但是如何在 Python MapReduce Job 中包含第三方库?
谢谢!
问题已经解决了zipimport。
然后我 zipchardet到 file module.mod,并像这样使用:
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
添加-file module.modhadoop 流命令。
现在chardet可以在脚本中使用。
更多详细信息见:如何在 Hadoop 流式作业中包含 python 包?