database - Cassandra 中的地图冗余

Question

输入：表格数据文件：每个文件都有可变数量的列，这些列名可能对文件是唯一的和/或在其他文件之间共享（事先未知）。预计此数据不会更改，因此插入会很频繁，但更新很少。列及其关联值可以是文本的或数字的。

请求的能力：能够通过标识或范围查询以检索给定列名和值的数据行。

数据模型：在CQL我可以使用表示文件的特定单元格值的单个表格进行建模（在这种情况下是文本的，但可以为数字数据构建类似的表格）

create table mytable(
    colname text,
    value text,
    filename text,
    rowid int,
    data map<text,text>,
    primary key (colname , value, filename, rowid)#partitioning on colname may not be ideal here, but will be dealt with in ways unrelated to this question
);

例如，一个文件的内容可能是：

A   B   C   D   E
i1  i2  i3  i4  i5

插入将是：

insert into mytable(colname, value, data, filename, rowid) values ('A', 'i1', {'A':'i1', 'B':'i2', 'C':'i3', 'D':'i4', 'E':'i5', 'F':'i5'}, 'F1', 1);
insert into mytable(colname, value, data, filename, rowid) values ('B', 'i2', {'A':'i1', 'B':'i2', 'C':'i3', 'D':'i4', 'E':'i5', 'F':'i5'}, 'F1', 2);
insert into mytable(colname, value, data, filename, rowid) values ('C', 'i3', {'A':'i1', 'B':'i2', 'C':'i3', 'D':'i4', 'E':'i5', 'F':'i5'}, 'F1', 3);
insert into mytable(colname, value, data, filename, rowid) values ('D', 'i4', {'A':'i1', 'B':'i2', 'C':'i3', 'D':'i4', 'E':'i5', 'F':'i5'}, 'F1', 4);
insert into mytable(colname, value, data, filename, rowid) values ('E', 'i5', {'A':'i1', 'B':'i2', 'C':'i3', 'D':'i4', 'E':'i5', 'F':'i5'}, 'F1', 5);
...

SELECT data from mytable where colname=? and value=?

问题：我们确实有数据存储限制——在这个模型中，一行的每一列值的数据值是相同的，导致大量数据重复（这是一个简单的例子，但列数可能超过 100 列——这意味着地图可以复制数百次）。

问题： Cassandra 有什么方法可以避免这种类型的数据重复，而不必创建/查询第二个表（例如通过指向数据的指针或以某种方式将映射定义为不同的）？或者，用不同的方式对具有相同查询能力和结果的数据进行建模？

score 1 · Accepted Answer

如果您的设计受益于 C* 内置压缩，我不会感到惊讶，您的存储要求可能远低于您的预期。

顺便说一句，如果您想要一个完全不同的模型，您可以尝试：

输入数据的每一列都有一个表
每个表都有一个分区键，即您要查找的值

这些方面的东西：

CREATE TABLE colname_A (
    value text,
    data map<text,text>,
    ...,
    PRYMARY KEY (value)
);

CREATE TABLE colname_B (
    value text,
    data map<text,text>,
    ...,
    PRYMARY KEY (value)
);
....
CREATE TABLE colname_xxx (...);

然后，您可以通过发出以下命令来选择您的数据：

SELECT * FROM colname_A WHERE value = 'i5';
SELECT * FROM colname_A WHERE value IN ('i4', 'i5')

使用分区键中的 clausole 查询时要小心，因为当您不断将数据加载到集群中时，IN您希望避免此类问题。

该模型以不同的方式组织数据，并受益于列间数据复制而不是行间数据复制。如果您有不平衡的列（例如，某些列中有很多记录），这种数据组织提供的压缩可能是一个巨大的胜利。

database - Cassandra 中的地图冗余

1 回答 1

Related

Reference