0

我正在尝试在 Pig 中加载 .mmdb 文件,然后将其传递给 python 脚本。但是我收到错误消息:“无效的标量投影:db:需要从关系中投影一列才能用作标量”。我的代码是:

REGISTER 'py_pigscript.py' USING jython AS myudf;
log = LOAD 'test.txt' USING PigStorage(',') AS (x:int);
db = LOAD 'data.mmdb';
result = FOREACH log GENERATE myudf.function(x,db);

任何帮助,将不胜感激。谢谢!

-编辑:

该脚本的目标是从“test.txt”中的每一行中提取一个值并将它们传递给“data.mmdb”以返回其他数据。

4

1 回答 1

1

这里讨论了一个类似的问题[1]。在您的问题的上下文中,代码如下所示:

log = LOAD 'test.txt' USING PigStorage(',') AS (x:int);
db = LOAD 'data.mmdb' AS (entry:(field_1:chararray, field_2....));
result = FOREACH log GENERATE myudf.function(x, db.entry);

[1] Pig 将关系作为参数传递给 UDF

于 2015-07-22T23:17:28.887 回答