给定一个“大”模式列表和一个“短”文本,在文本中搜索/标记这些模式的最佳/最快方法是什么,我们试图在其中找到模式作为文本的子字符串?如果文本中有多个模式匹配,我们希望理想地找到所有匹配。
更具体地说,文本实际上是流式查询,要查找的模式是命名实体。我们需要一个完整的模式来完全匹配。训练 NER 模型来标记实体不是一种选择。“大”列表是指要查找的几十万个实体。“短”文本是指平均 10 个单词。
例如:
文字:复仇者联盟中饰演黑寡妇的演员。
我正在考虑尝试和 FST。试图了解在这种特定情况下两者的优缺点。任何指针将不胜感激。