“hbase”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

4123 浏览

visualization - 数据可视化和 HBase

问候，

我一直在浏览这个网站上的问题，但没有找到任何相关的问题。

我目前已经构建了一个 Flex/PHP/MySQL 应用程序，我从我的 Hadoop 集群中提取数据并转储到 MySQL 表中。随着我的数据集不断增长，这有几个问题。

我正在寻找一个更强大的开源解决方案，因此已经开始研究 HBase 以及如何利用 PHP 或 Java 将我的数据提取到可视化应用程序中。

你们中有人在 Hadoop 或 HBase 之上构建了任何可视化平台吗？

谢谢！

visualization hbase

2010-11-17T19:21:04.760

0 投票

2 回答

4812 浏览

hadoop - 2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题，我对这个术语不熟悉。“N”是否与我的 HBase 集群中的节点数有关？或者我应该在 Zookeeper 集群中使用的节点数？

2010-11-19T18:34:31.507

0 投票

2 回答

2280 浏览

hbase - HBase 会在不同机器上存储同一行的列族吗？

同一行的列族属于同一 RegionServer。那么，这里的问题是 RegionServer 会在不同的机器上存储不同的列族吗？

hbase

2010-11-22T10:10:44.147

0 投票

4 回答

694 浏览

postgresql - RDBMS 是否像 Hadoop：权威指南中描述的那样糟糕？

我正在阅读 Hadoop：Tom White 的权威指南。在第 13.6 章“HBase 与 RDMS”中，他说如果你有大量数据，即使是像获取 10 个最近的项目这样的简单查询也非常昂贵，他们必须使用 python 和 PL/SQL 重写它们。

他以以下查询为例：

并说：“RDBMS 查询计划器按如下方式处理此查询：

这里的问题是我们只关注前 10 个 ID，但查询计划器实际上实现了整个合并，然后在最后进行限制。.... 实际上，我们甚至编写了一个执行堆排序的自定义 PL/Python 脚本。...在几乎所有情况下，这都优于本机 SQL 实现和查询计划器的策略...

预期性能和实验结果

我无法想象数据集会导致您必须编写 pl/python 才能正确执行如此简单的查询。所以我玩了一段时间关于这个问题并提出了以下意见：

这种查询的性能受到 O(KlogN) 的限制。因为它可以翻译成这样的东西：

（注意每个查询中的'LIMIT 10'。顺便说一句，我知道我不能限制和订购联合，但为了便于阅读，我已经去掉了包装选择）

每个子查询的运行速度应该与在索引 O(logN) 中找到正确位置并返回 10 个项目一样快。如果我们重复 K 次，我们得到 O(KlogN)。

即使查询计划器非常糟糕以至于它无法优化第一个查询，我们也可以始终将其转换为带有联合的查询并获得所需的性能，而无需在 pl/python 中编写任何内容。

为了仔细检查我的计算，我在一个填充了 9,000,000 条测试记录的 postgresql 上运行了查询。结果证实了我的预期，两个查询都非常快，第一个查询为 100 毫秒，第二个查询为 300 毫秒（带有联合的查询）。

因此，如果查询在 100 毫秒内运行 9,000,000 (logn=23) 条记录，那么对于 9,000,000,000 (logn=33) 条记录，它应该在 140 毫秒内运行。

问题

您在上述推理中发现任何缺陷吗？
你能想象一个需要在 pl/python 中重写上述查询的数据集吗？
您是否看到这种查询在 O(K log n) 中不起作用的任何情况？

postgresql nosql rdbms hbase

2010-11-26T22:59:05.540

0 投票

3 回答

1787 浏览

hbase - Hbase表可以按时间分区吗？

我需要根据时间范围获取数据。有没有办法根据时间范围对hbase表进行分区。例如：我想要从 9:00 到 9:05 的数据。

hbase

2010-12-02T06:22:19.737

0 投票

1 回答

1187 浏览

database - HBase/Cassandra 上的属性图数据模型

我愿意将属性图存储到 HBase 中。属性图是图的节点和边具有属性，只要边属于不同的类型，多条边可以链接相同的节点元组。

我的查询模式将要么询问属性和邻域，要么遍历图表。一个例子是：Vertex[name=claudio]=>OutgoingEdge[knows]=>Vertex[gender=female]，这将给我所有claudio喜欢的女性。

我知道图形数据库就是这样做的，但是如果数据集很大，它们通常不会在多个节点上扩展。所以我愿意在 NoSQL ColumnStore（HBase，Cassandra ...）上实现这个

我的数据模型如下。

顶点表:
key: vertexid (uuid)
Family "Properties:": <property name>=><property value>, ...
Family "OutgoingEdges:": <edge key>=><other vertexid>, ...
Family "IncomingEdges:": 与传出边缘相同...

该表允许我快速获取顶点的属性及其邻接列表。我不能将 vertexid 用作另一个端点，因为多条边（具有不同类型）可以连接相同的两个顶点。

Edges Table :
key: edge key (composite(<source vertexid>, <destination vertexid>, <edge typename>)) (即vertexid1_vertexid2_knows)
Family "Properties:": <property name>=><property value>, ...

该表允许我快速获取边缘的属性。

边类型：
key:composite(<source vertexid>, "out|in", <edge typename>) (即vertexid1_out_knows)
Family "Neighbor:": <destination vertexid>=>null,...

该表允许我搜索/扫描从顶点传入或传出并且属于特定类型并且将是 API 遍历能力的核心的边缘（所以我希望它在两个方面都尽可能快网络 I/O (RPC)、磁盘 I/O (seek))。它还应该在图的大小上“缩放”，这意味着随着图的增长，这种类型的操作的成本应该取决于从顶点传出的边数，而不是顶点和边的总数。上面的示例我将考虑 vertexid1 具有属性名称的源顶点：claudio 我将扫描 vertexid1_out_knows 并接收连接的顶点列表。之后，我可以扫描这些顶点上的“属性：性别”列并查找具有“女性”值的那些。

问题：

1) 一般：您认为我的运营有更好的数据模型吗？
2）我可以把所有东西都放在一张桌子上，对于某些键，一些家庭会是空的（即“OutgoingEdges：”家庭对边缘没有意义）？我喜欢这样，因为你可以看到所有的键都是由 vertexid uuid 前缀组成的，所以它们会非常紧凑并且主要适合同一个区域服务器。
3）我想我会广泛使用过滤器进行扫描。我猜正则表达式过滤器将成为我的朋友。您是否担心应用于此数据模型的过滤器的性能？

database graph nosql cassandra hbase

2010-12-11T19:39:26.210

0 投票

2 回答

27494 浏览

java - What exactly is the zookeeper quorum setting in hbase-site.xml?

What exactly is the zookeeper quorum setting in hbase-site.xml?

java hadoop hbase apache-zookeeper

2010-12-14T09:27:18.677

0 投票

1 回答

214 浏览

hbase - HBase 记录在关闭时丢失

嗨，我使用本地文件系统安装 Hbase 0.89（oct 版本），用于开发和测试目的。我使用 hbase shell 创建了几个表和行。不知何故，每当我重新启动 hbase 时，都没有可用的数据/表。对此有何建议？

hbase

2010-12-15T03:31:17.920

0 投票

2 回答

325 浏览

mapreduce - 在哪里可以找到 hbase-0.89.20100924+28 的 HBase 级联模块？

我正在使用 map reduce 和 HBase 开发一个项目。我们正在使用 Cloudera 的 CDH3 发行版，其中捆绑了 hbase-0.89.20100924+28。我想使用级联，因为我们有一些需要多个 map reduce 作业的处理，但是我一直在寻找 HBase 适配器的不同分支以在 github 上进行级联，似乎找不到我们的 HBase 版本。有人能指出我正确的方向吗？

mapreduce hbase cascading

2010-12-23T00:12:41.377

0 投票

2 回答

2738 浏览

hadoop - hbase 错误：“10/12/26 06:48:07 INFO ipc.HbaseRPC：1 次尝试后无法访问 /127.0.0.1:58920 的服务器，放弃。”

有人知道hbase有什么问题吗？我正在为 hadoop 使用 cloudera 分发的 vm 映像，以前它工作正常，但现在当我尝试列出所有表时，每秒都会给我这个错误：

10/12/26 06:48:07 INFO ipc.HbaseRPC：尝试 1 次后无法访问 /127.0.0.1:58920 的服务器，放弃。

hadoop hbase

2010-12-26T15:00:59.487

问题标签 [hbase]

Reference