5

像谷歌新闻这样的新闻媒体如何自动对有关新兴话题的文档进行分类和排名,比如“奥巴马的 2011 年预算”?

我有一堆带有棒球数据标签的文章,例如球员姓名和与文章的相关性(谢谢,opencalais),并且很想创建一个谷歌新闻风格的界面,在新帖子出现时对其进行排名和显示,尤其是新兴的帖子话题。我想可以用一些静态类别来训练一个朴素的贝叶斯分类器,但这并不能真正允许跟踪诸如“这个球员刚刚被交易到这支球队,其他球员也参与其中”这样的趋势。

4

2 回答 2

4

毫无疑问,谷歌新闻可能会使用其他技巧(甚至是它们的组合),但是一个相对便宜的技巧,计算上,从自由文本中推断主题将利用 NLP 的概念,即一个词只有在连接到其他词时才有意义
一种易于从多个文档中发现新主题类别的算法可以概述如下:

  • POS(词性)标记文本
    我们可能希望更多地关注名词,甚至更多地关注命名实体(例如ObamaNew England
  • 规范化文本
    特别是用它们的共同词干替换变形词。甚至可以用相应的命名实体替换一些形容词(例如:Parisian ==> Paris,legal ==> law)
    此外,删除噪音词和噪音表达。
  • 从手动维护的“当前/重复出现的热门词”列表中识​​别一些词(超级碗、选举、丑闻......)
    这可以在后续步骤中用于为某些 N-gram 提供更多权重
  • 枚举在每个文档中找到的所有 N-gram(其中 N 为 1 到 4 或 5)
    确保分别计算每个 N-gram 在给定文档中出现的次数以及引用给定 N 的文档的数量-公克
  • 最常被引用的 N-gram(即被引用最多的文档)可能是主题。
  • 识别现有主题(从已知主题列表中)
  • [可选] 手动查看新主题

也可以更改此通用配方以利用文档的其他属性和其中的文本。例如,文档来源(比如 cnn/sports 与 cnn/politics ...)可用于选择特定领域的词典。另一个示例,该过程可以或多或少地强调文档标题(或具有特定标记的文本的其他区域)中的单词/表达。

于 2010-02-02T00:31:50.570 回答
2

谷歌新闻背后的主要算法已被谷歌研究人员发表在学术文献中:

于 2010-02-02T16:55:17.990 回答