2

我正在尝试在 DSE 3.1 分析服务器集群上运行流式作业。我正在使用 Cassandra CF 进行输入。但它抱怨输入和输出参数,但它们被设置了(我设置它只是因为抱怨):

dse hadoop jar $HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar \
-D cassandra.input.keyspace="tmp_ks" \
-D cassandra.input.partitioner.class="MurMur3Partitioner" \
-D cassandra.input.columnfamily="tmp_cf" \
-D cassandra.consistencylevel.read="ONE" \
-D cassandra.input.widerows=true \
-D cassandra.input.thrift.address=10.0.0.1
-inputformat org.apache.cassandra.hadoop.ColumnFamilyInputFormat \
-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat \
-input /tmp_ks/tmp_cf \
-output /dev/null \
-mapper mymapper.py \
-reducer myreducer.py

得到“错误流。StreamJob:缺少必需的选项:输入、输出”。我尝试了不同的输入和输出,不同的输出格式,但得到了同样的错误。

我做错了什么?

4

3 回答 3

2

我注意到您的这部分命令没有尾部反斜杠:

...
-D cassandra.input.thrift.address=10.0.0.1
...

也许这搞砸了接下来的线路?

于 2014-09-24T11:59:17.463 回答
1

输入应该是 HDFS 上的现有路径,而输出应该是 HDFS 上不存在的路径

于 2014-01-15T08:25:42.950 回答
0

我也注意到你的命令有这个错误:

...    
-D cassandra.input.partitioner.class="MurMur3Partitioner" \
...

类应该是“Murmur3Partitioner”

于 2016-05-10T06:20:02.420 回答