search - 将表格数据转换为自然语言以用于搜索引擎的索引

Question

如何将具有如下所示的各种列/行的表格数据转换为更易读的（自然语言），以便可以为搜索引擎的下游任务编制索引。我知道我们有TAPAS(TAPAS: Weakly Supervised Table Parsing via Pre-training)，这是BERT(Google) 的一个变体，专为表格数据 QnA（问答）而设计。但是，问题是我们有一个托管在云中的现有搜索服务，它能够读取自然语言并基于它回答文本。因此，在索引整个数据（文本、表格）时，我们会丢失表格中有价值的信息，因为行和列之间的固有关系丢失了。结果是表内信息的答案质量很差，或者根本没有答案。

以下是一个示例：在不丢失上下文的情况下，哪种转换更适合将表格数据转换为可读（自然语言）格式的语义搜索。目前，我们确实有一个可行的解决方案，但是由于列/行元素中固有的关系丢失了，因此上下文丢失了。因此，生产质量差/没有答案。如果我们能够以某种方式保留这种内在关系，同时作为一种自然语言提供给语义搜索，它将提高答案质量。

请参考下表示例。

样品 1：

问题：名称 4 的 PREMIUM_COMPANY 允许多少功能 2

答案：整数值

样本 2：

问题：名称 7 / 名称 8 是否允许 PREMIUM_COMPANY 中的功能 2

答案：在列表 1 中允许/在名称 8 中不允许

在手动回答时，我们能够保留列/行中两个参数之间的关系，而当我们将这些 html 表转换为普通文本以进行索引时，它会丢失。我们这里的问题是解决这个问题。有大量有价值的表格数据。

可能的想法，但很难集成到现有服务中，是为表格数据创建一个单独的数据结构（索引）并应用TAPAS它来检索答案。当问题存在可能的答案时，我们仍然需要知道如何标记表格数据以触发它。

如果您有这方面的专业知识，请您回答。

search - 将表格数据转换为自然语言以用于搜索引擎的索引

0 回答 0

Related

Context

Reference