2

这是一个包含两部分的问题:

首先,我有一个 python UDF,它创建一个未知长度的字符串列表。UDF 的输入是mapdict在 python 中),键的数量基本上是未知的(这是我想要获得的)。

我不知道如何在一个模式中输出它,让我将它作为一个列表(或其他一些可迭代的数据结构)返回。这是我到目前为止所拥有的:

@outputSchema("?????") #WHAT SHOULD THE SCHEMA BE!?!?
def test_func(input):

    output = []
    for k, v in input.items():

        output.append(str(key))

    return output

现在,问题的第二部分。在 Pig 中,我想为我的所有用户对“列表”中的每个元素应用SHA哈希。一些 Pig 伪代码:

USERS = LOAD 'something' as (my_map:map[chararray])
UDF_OUT = FOREACH USERS GENERATE my_udfs.test_func(segment_map)
SHA_OUT = FOREACH UDF_OUT GENERATE SHA(UDF_OUT)

最后一行可能是错误的,因为我想将 SHA 应用于列表中的每个元素,而不是整个列表。

4

1 回答 1

3

要回答你的问题,因为你要返回一个内容是字符串的 python 列表,你会希望你的装饰器是

@outputSchema('name_of_bag:{(keys:chararray)}')

指定此结构时可能会造成混淆,因为您只需要定义包中的一个元素的外观。

话虽如此,有一种更简单的方法可以满足您的要求。有一个函数KEYSET()你可以参考我回答的这个问题)可以从 Pig Map 中提取键。因此,使用该示例中的数据集并为第一个添加更多键,因为您说您的地图内容的长度是可变的

maps
----
[a#1,b#2,c#3,d#4,e#5]
[green#sam,eggs#I,ham#am]

查询

REGISTER /path/to/jar/datafu-1.2.0.jar;
DEFINE datafu.pig.hash.SHA();

A = LOAD 'data' AS (M:[]);
B = FOREACH A GENERATE FLATTEN(KEYSET(M));
hashed = FOREACH B GENERATE $0, SHA($0);
DUMP hashed;

输出

(d,18ac3e7343f016890c510e93f935261169d9e3f565436429830faf0934f4f8e4)
(e,3f79bb7b435b05321651daefd374cdc681dc06faa65e374e38337b88ca046dea)
(b,3e23e8160039594a33894f6564e1b1348bbd7a0088d42c4acb73eeaed59c009d)
(c,2e7d2c03a9507ae265ecf5b5356885a53393a2029d241394997265a1a25aefc6)
(a,ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bb)
(ham,eccfe263668d171bd19b7d491c3ef5c43559e6d3acf697ef37596181c6fdf4c)
(eggs,46da674b5b0987431bdb496e4982fadcd400abac99e7a977b43f216a98127721)
(green,ba4788b226aa8dc2e6dc74248bb9f618cfa8c959e0c26c147be48f6839a0b088)
于 2015-06-24T01:41:25.003 回答