python - 文本挖掘：何时使用解析器、标记器、NER 工具？

Question

我正在做一个关于挖掘博客内容的项目，我需要帮助区分使用哪种工具。什么时候使用解析器，什么时候使用标注器，什么时候需要使用 NER 工具？

例如，我想找出几个博客之间谈论最多的话题/主题；我是否使用词性标注器来抓取名词并进行频率计数？这可能是不够的，因为可以弹出非常通用的术语，对吗？或者我有可以匹配的类别列表和这些同义词吗？

顺便说一句，我正在使用 nltk，但我正在查看 stanford 标记器或解析器，因为有几个家伙说它很好。

score 3 · Accepted Answer

与其尝试重新发明轮子，不如阅读主题模型，它基本上会创建经常一起出现的单词集群。Mallet 有一个现成的工具包来完成这样的任务： http: //mallet.cs.umass.edu/topics.php。

为了回答您的原始问题，POS 标记器、解析器和 NER 工具通常不用于主题识别，而是更多地用于信息提取等任务，其目标是在文档中识别特定的参与者、事件、位置、时间等等...例如，如果您有一个简单的句子，例如“约翰把苹果给了玛丽”。您可能会使用依赖解析器来确定 John 是主语，apple 是宾语，而 Mary 是介词宾语；因此，您知道约翰是给予者，而玛丽是接受者，反之亦然。

python - 文本挖掘：何时使用解析器、标记器、NER 工具？

1 回答 1

Related

Reference