我不确定如何对最近引入的用于单个文档摘要的PEGASUS 模型进行大型文档摘要的评估。
作者对大型文档数据集(如 Big Patent、PubMed 等)的展示评估,文档长度超过了转换器模型的输入大小。
引用论文中的内容,他们确实谈到了这一点,但没有真正进一步详细说明。
CNN/DailyMail、Multi-News、arXiv、PubMed、BIG-PATENT 数据集包含比
L_input = 512 tokens
预训练中的最大输入长度 ( ) 更长的输入文档。这将给位置嵌入带来一个问题,该问题永远不会针对更长的输入长度进行更新,但我们确认了正弦位置编码 (Vaswani et al., 2017) 在微调 PEGASUSLARGE 超出输入长度时泛化良好的假设在训练中观察到L_input = 1024 tokens
. 由于 BIGPATENT、arXiv、PubMed 和 Multi-News 中的平均输入长度远远超过 1024 个标记,因此进一步扩大规模L_input
或应用两阶段方法(Liu 等人,2018 年)可能会进一步提高性能,尽管这是外部的这项工作的范围。
他们确实提到输入长度最多为 1024 个标记。在 huggingface 上的 PEGASUS Large 模型中,最大输入令牌也是 1024。
我不确定他们如何设法将文档摘要扩展到超过 1024 个令牌。
我也想为自己想要尝试的长文档摘要做类似的事情。