如何将具有如下所示的各种列/行的表格数据转换为更易读的(自然语言),以便可以为搜索引擎的下游任务编制索引。我知道我们有TAPAS(TAPAS: Weakly Supervised Table Parsing via Pre-training),这是BERT(Google) 的一个变体,专为表格数据 QnA(问答)而设计。但是,问题是我们有一个托管在云中的现有搜索服务,它能够读取自然语言并基于它回答文本。因此,在索引整个数据(文本、表格)时,我们会丢失表格中有价值的信息,因为行和列之间的固有关系丢失了。结果是表内信息的答案质量很差,或者根本没有答案。
以下是一个示例:在不丢失上下文的情况下,哪种转换更适合将表格数据转换为可读(自然语言)格式的语义搜索。目前,我们确实有一个可行的解决方案,但是由于列/行元素中固有的关系丢失了,因此上下文丢失了。因此,生产质量差/没有答案。如果我们能够以某种方式保留这种内在关系,同时作为一种自然语言提供给语义搜索,它将提高答案质量。
请参考下表示例。
样品 1:
问题:名称 4 的 PREMIUM_COMPANY 允许多少功能 2
答案:整数值
样本 2:
问题:名称 7 / 名称 8 是否允许 PREMIUM_COMPANY 中的功能 2
答案:在列表 1 中允许/在名称 8 中不允许
在手动回答时,我们能够保留列/行中两个参数之间的关系,而当我们将这些 html 表转换为普通文本以进行索引时,它会丢失。我们这里的问题是解决这个问题。有大量有价值的表格数据。
可能的想法,但很难集成到现有服务中,是为表格数据创建一个单独的数据结构(索引)并应用TAPAS它来检索答案。当问题存在可能的答案时,我们仍然需要知道如何标记表格数据以触发它。
如果您有这方面的专业知识,请您回答。
