c++ - 优化模拟 flatbuffer 字典

Question

我的 flatbuffers 模式文件dict.fbs如下所示：

namespace fbs;

table Dict {
    entries:[DictEntry];
}

table DictEntry {
    key:string (key);
    value:string;
}

root_type Dict;

现在根据文档，您可以在 Flatbuffers 中使用排序的向量和二进制查找来模拟字典，如下所示

flatbuffers::FlatBufferBuilder builder(1024);

std::string key, value; 
std::ifstream infile(argv[1]);
std::string outfile(argv[2]);

std::vector<flatbuffers::Offset<DictEntry>> entries;

while (std::getline(infile, key) && std::getline(infile, value)) {
    entries.push_back(CreateDictEntryDirect(builder, key.c_str(), value.c_str()));
}

auto vec = builder.CreateVectorOfSortedTables(&entries);
auto dict = CreateDict(builder, vec);

builder.Finish(dict);

我原来的单词表32MB在磁盘上。现在对于这个列表中的每个单词，我都有一个规范化key的和对应的value. 如果序列化的 flatbuffer dict 现在在磁盘上的大小是原来的两倍，那将是合乎逻辑的64MB，但实际上输出是111MB.

我可以优化此架构以使其更紧凑吗？是什么将输出放大到几乎 4 倍的大小？

score 1 · Accepted Answer

琴弦相对较小吗？平均长度是多少？

您的开销将是：2 个字符串，每个字符串都有一个 32 位长度字段和可能的填充。然后每个 DictEntry 12 个字节（vtable 偏移量 + 2 个字符串偏移量）。然后是向量中的另一个 32 位偏移量。所以是的，如果字符串很小，则可以增加那么多。

请注意，如果您使用 astd::map<std::string, std::string>您可能最终会使用更多内存。

我建议您使用 FlexBuffers ( https://google.github.io/flatbuffers/flexbuffers.html )尝试相同的操作，它具有更紧凑的字符串表示形式，并且为了您的目的应该是相同的速度（因为您的数据是“字符串类型”无论如何）。

c++ - 优化模拟 flatbuffer 字典

1 回答 1

Related

Reference