问题标签 [hbase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4123 浏览

visualization - 数据可视化和 HBase

问候,

我一直在浏览这个网站上的问题,但没有找到任何相关的问题。

我目前已经构建了一个 Flex/PHP/MySQL 应用程序,我从我的 Hadoop 集群中提取数据并转储到 MySQL 表中。随着我的数据集不断增长,这有几个问题。

我正在寻找一个更强大的开源解决方案,因此已经开始研究 HBase 以及如何利用 PHP 或 Java 将我的数据提取到可视化应用程序中。

你们中有人在 Hadoop 或 HBase 之上构建了任何可视化平台吗?

谢谢!

0 投票
2 回答
4812 浏览

hadoop - 2n + 1 法定人数是什么意思?

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题,我对这个术语不熟悉。“N”是否与我的 HBase 集群中的节点数有关?或者我应该在 Zookeeper 集群中使用的节点数?

0 投票
2 回答
2280 浏览

hbase - HBase 会在不同机器上存储同一行的列族吗?

同一行的列族属于同一 RegionServer。那么,这里的问题是 RegionServer 会在不同的机器上存储不同的列族吗?

0 投票
4 回答
694 浏览

postgresql - RDBMS 是否像 Hadoop:权威指南中描述的那样糟糕?

我正在阅读 Hadoop:Tom White 的权威指南。在第 13.6 章“HBase 与 RDMS”中,他说如果你有大量数据,即使是像获取 10 个最近的项目这样的简单查询也非常昂贵,他们必须使用 python 和 PL/SQL 重写它们。

他以以下查询为例:

并说:“RDBMS 查询计划器按如下方式处理此查询:

这里的问题是我们只关注前 10 个 ID,但查询计划器实际上实现了整个合并,然后在最后进行限制。.... 实际上,我们甚至编写了一个执行堆排序的自定义 PL/Python 脚本。...在几乎所有情况下,这都优于本机 SQL 实现和查询计划器的策略...

预期性能和实验结果

我无法想象数据集会导致您必须编写 pl/python 才能正确执行如此简单的查询。所以我玩了一段时间关于这个问题并提出了以下意见:

这种查询的性能受到 O(KlogN) 的限制。因为它可以翻译成这样的东西:

(注意每个查询中的'LIMIT 10'。顺便说一句,我知道我不能限制和订购联合,但为了便于阅读,我已经去掉了包装选择)

每个子查询的运行速度应该与在索引 O(logN) 中找到正确位置并返回 10 个项目一样快。如果我们重复 K 次,我们得到 O(KlogN)。

即使查询计划器非常糟糕以至于它无法优化第一个查询,我们也可以始终将其转换为带有联合的查询并获得所需的性能,而无需在 pl/python 中编写任何内容。

为了仔细检查我的计算,我在一个填充了 9,000,000 条测试记录的 postgresql 上运行了查询。结果证实了我的预期,两个查询都非常快,第一个查询为 100 毫秒,第二个查询为 300 毫秒(带有联合的查询)。

因此,如果查询在 100 毫秒内运行 9,000,000 (logn=23) 条记录,那么对于 9,000,000,000 (logn=33) 条记录,它应该在 140 毫秒内运行。

问题

  • 您在上述推理中发现任何缺陷吗?
  • 你能想象一个需要在 pl/python 中重写上述查询的数据集吗?
  • 您是否看到这种查询在 O(K log n) 中不起作用的任何情况?
0 投票
3 回答
1787 浏览

hbase - Hbase表可以按时间分区吗?

我需要根据时间范围获取数据。有没有办法根据时间范围对hbase表进行分区。例如:我想要从 9:00 到 9:05 的数据。

0 投票
1 回答
1187 浏览

database - HBase/Cassandra 上的属性图数据模型

我愿意将属性图存储到 HBase 中。属性图是图的节点和边具有属性,只要边属于不同的类型,多条边可以链接相同的节点元组。

我的查询模式将要么询问属性和邻域,要么遍历图表。一个例子是:Vertex[name=claudio]=>OutgoingEdge[knows]=>Vertex[gender=female],这将给我所有claudio喜欢的女性。

我知道图形数据库就是这样做的,但是如果数据集很大,它们通常不会在多个节点上扩展。所以我愿意在 NoSQL ColumnStore(HBase,Cassandra ...)上实现这个

我的数据模型如下。

顶点表:
key: vertexid (uuid)
Family "Properties:": <property name>=><property value>, ...
Family "OutgoingEdges:": <edge key>=><other vertexid>, ...
Family "IncomingEdges:": 与传出边缘相同...

该表允许我快速获取顶点的属性及其邻接列表。我不能将 vertexid 用作另一个端点,因为多条边(具有不同类型)可以连接相同的两个顶点。

Edges Table :
key: edge key (composite(<source vertexid>, <destination vertexid>, <edge typename>)) (即vertexid1_vertexid2_knows)
Family "Properties:": <property name>=><property value>, ...

该表允许我快速获取边缘的属性。

边类型
key:composite(<source vertexid>, "out|in", <edge typename>) (即vertexid1_out_knows)
Family "Neighbor:": <destination vertexid>=>null,...

该表允许我搜索/扫描从顶点传入或传出并且属于特定类型并且将是 API 遍历能力的核心的边缘(所以我希望它在两个方面都尽可能快网络 I/O (RPC)、磁盘 I/O (seek))。它还应该在图的大小上“缩放”,这意味着随着图的增长,这种类型的操作的成本应该取决于从顶点传出的边数,而不是顶点和边的总数。上面的示例我将考虑 vertexid1 具有属性名称的源顶点:claudio 我将扫描 vertexid1_out_knows 并接收连接的顶点列表。之后,我可以扫描这些顶点上的“属性:性别”列并查找具有“女性”值的那些。

问题:

1) 一般:您认为我的运营有更好的数据模型吗?
2)我可以把所有东西都放在一张桌子上,对于某些键,一些家庭会是空的(即“OutgoingEdges:”家庭对边缘没有意义)?我喜欢这样,因为你可以看到所有的键都是由 vertexid uuid 前缀组成的,所以它们会非常紧凑并且主要适合同一个区域服务器。
3)我想我会广泛使用过滤器进行扫描。我猜正则表达式过滤器将成为我的朋友。您是否担心应用于此数据模型的过滤器的性能?

0 投票
2 回答
27494 浏览

java - What exactly is the zookeeper quorum setting in hbase-site.xml?

What exactly is the zookeeper quorum setting in hbase-site.xml?

0 投票
1 回答
214 浏览

hbase - HBase 记录在关闭时丢失

嗨,我使用本地文件系统安装 Hbase 0.89(oct 版本),用于开发和测试目的。我使用 hbase shell 创建了几个表和行。不知何故,每当我重新启动 hbase 时,都没有可用的数据/表。对此有何建议?

0 投票
2 回答
325 浏览

mapreduce - 在哪里可以找到 hbase-0.89.20100924+28 的 HBase 级联模块?

我正在使用 map reduce 和 HBase 开发一个项目。我们正在使用 Cloudera 的 CDH3 发行版,其中捆绑了 hbase-0.89.20100924+28。我想使用级联,因为我们有一些需要多个 map reduce 作业的处理,但是我一直在寻找 HBase 适配器的不同分支以在 github 上进行级联,似乎找不到我们的 HBase 版本。有人能指出我正确的方向吗?

0 投票
2 回答
2738 浏览

hadoop - hbase 错误:“10/12/26 06:48:07 INFO ipc.HbaseRPC:1 次尝试后无法访问 /127.0.0.1:58920 的服务器,放弃。”

有人知道hbase有什么问题吗?我正在为 hadoop 使用 cloudera 分发的 vm 映像,以前它工作正常,但现在当我尝试列出所有表时,每秒都会给我这个错误:

10/12/26 06:48:07 INFO ipc.HbaseRPC:尝试 1 次后无法访问 /127.0.0.1:58920 的服务器,放弃。