java - 编写 MapReduce 时出现 Apache Phoenix 双数据类型问题

Question

我正在使用 Apache Phoenix 在 Hbase 中创建表，因为它提供了二级索引功能以及类似 sql 的数据类型。我使用 phoenix 创建了一个表，其列为 Double 和 Varchar。

CREATE TABLE INVOICE (ROWKEY VARCHAR NOT NULL PRIMARY KEY, CF1.INVOICEID VARCHAR, CF1.TOTALAMOUNT DOUBLE,CF1.STATUS VARCHAR,CF1.CREATEDATE DATE);

Phoenix 在 Hbase 中将 Double 值存储为 ByteArray，如下所示

column=CF1:TOTALAMOUNT, timestamp=1434102384451, value=\xC0m@\x00\x00\x00\x00\x01

我编写了 mapreduce 程序来直接从 Hbase SCAN api 读取值，而不使用 Phoenix，它对 Varchar 值工作正常，但存储为 Byte 数组的其他数据类型返回不同的值。参考 Phoenix 和 mapreduce 输出。所有正双精度值作为负值返回，负双精度值返回为 0.018310546875，如下所示

public void map(ImmutableBytesWritable key, Result value, Context context)
 throws IOException, InterruptedException {
Double Val = Bytes.toDouble(value.getValue(CF.TOTALAMOUNT)
context.write(key, new Text(val));
}

-

AQIMPNEW_12345689_SQ123,-100.00000000000001                               
aqipm2037|4567899,0.018310546875,                                   
aqipm2047|456789,-4.9E-324,


Phoenix Output : 
|               TOTALAMOUNT                |
| 100.0                                    |
| -234.0                                   |

| 0.0

score 2 · Accepted Answer

Phoenix 使用其不同的转换方案将数据类型存储到 HBase。当您使用 Phoenix 获取数据时，它会使用相同的转换方案对数据进行解码并将其显示给您。因此，与其尝试从 MR 代码直接连接 HBase，不如使用 Phoenix Map Reduce 集成。

参考： https ://phoenix.apache.org/phoenix_mr.html

但是，如果您仍想直接连接到 HBase，则必须使用与 Phoenix 相同的编码器和解码器。

请参阅此类“org.apache.phoenix.schema.PDataType”： http: //grepcode.com/file/repo1.maven.org/maven2/org.apache.phoenix/phoenix/2.2.3-incubating/org/apache /phoenix/schema/PDataType.java#PDataType.BaseCodec.encodeDouble%28double%2Cbyte[]%2Cint%29

java - 编写 MapReduce 时出现 Apache Phoenix 双数据类型问题

1 回答 1

Related

Reference