rdf - 如何有效地加载 rdf 文件进行查询

Question

我将 Apache Jenatdbloader用于基于查询的 Web 应用程序。我的网络应用程序选择一个特定的数据库（一个 Turtle 文件）并加载它。目前我正在使用标准tdbloader来加载选定的文件。但是，当数据集很大时，加载大约需要十五分钟。有没有办法在更短的时间内有效地完成上述工作或提前加载？

score 1 · Accepted Answer

你的问题真的没有多大意义。

TDB 是一个持久性数据库，因此如果您有一组已知的数据文件，您只需从每个数据文件创建并加载一次数据库，很可能是离线的。然后在您的应用程序中，您只需TDBDataset为现有数据库打开一个并继续查询它，就像使用 Jena 的 ARQ API 查询任何其他数据集一样。

听起来您的应用程序可能设计不当，因为您暗示每次要查询数据时都将数据加载到数据库中，这非常浪费。

您可能需要阅读以下内容：

score 1 · Accepted Answer

我想你可能对这些问题及其答案感兴趣

查询内存不足的大型 RDF 数据集
使用 SPARQL 查询开放数据社区数据（见我回答的后半部分）

TDB 以比普通 RDF 文件更有效的格式将数据存储在磁盘上。您应该使用tdbloader once加载数据，然后针对生成的磁盘表示运行查询tdbloader。你可以这样做tdbquery（作为我对所描述的第二个问题的回答）。

rdf - 如何有效地加载 rdf 文件进行查询

2 回答 2

Related

Reference