我正在做一个关于挖掘博客内容的项目,我需要帮助区分使用哪种工具。什么时候使用解析器,什么时候使用标注器,什么时候需要使用 NER 工具?
例如,我想找出几个博客之间谈论最多的话题/主题;我是否使用词性标注器来抓取名词并进行频率计数?这可能是不够的,因为可以弹出非常通用的术语,对吗?或者我有可以匹配的类别列表和这些同义词吗?
顺便说一句,我正在使用 nltk,但我正在查看 stanford 标记器或解析器,因为有几个家伙说它很好。
与其尝试重新发明轮子,不如阅读主题模型,它基本上会创建经常一起出现的单词集群。Mallet 有一个现成的工具包来完成这样的任务: http: //mallet.cs.umass.edu/topics.php。
为了回答您的原始问题,POS 标记器、解析器和 NER 工具通常不用于主题识别,而是更多地用于信息提取等任务,其目标是在文档中识别特定的参与者、事件、位置、时间等等...例如,如果您有一个简单的句子,例如“约翰把苹果给了玛丽”。您可能会使用依赖解析器来确定 John 是主语,apple 是宾语,而 Mary 是介词宾语;因此,您知道约翰是给予者,而玛丽是接受者,反之亦然。