想象一下,您有数百万条记录,其中包含平均 2000 个单词(每条)的文本,并且您还有另一个包含大约 100000 个项目的列表。
例如:在关键字列表中,您有一个像“总统奥巴马”这样的项目,而在其中一个文本记录中,您有这样的内容:“..... 奥巴马总统 ....”,所以我想找到这个关键字在文本中并将其替换为类似这样的内容:“..... {president Obama} ....”以突出显示文本中的关键字,关键字列表包含多个名词单词,例如示例。
在拥有数百万条文本记录的如此庞大的列表中,最快的方法是什么?
笔记:
现在我以一种贪婪的方式做这项工作,逐字检查并匹配它们,但是每个文本记录大约需要 2 秒,我想要一些接近零时间的东西。
我也知道这类似于命名实体识别,并且我使用过许多 NER 框架,例如 Gate 和 ...,但是因为我想要一种不受框架支持的语言,所以我想手动执行此操作.