2

有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只显示有趣的帖子?贝叶斯过滤器似乎可以很好地检测垃圾邮件。贝叶斯过滤器的实现是为用户过滤论坛帖子的可行方法吗?

4

2 回答 2

1

尝试通过贝叶斯分类器或任何其他自动分类系统对有趣/好的论坛帖子进行分类的困难在于,帖子的单词和/或单词结构与其相对价值或效用之间可能缺乏相关性。

垃圾邮件过滤器之所以起作用,主要是因为词的选择和结构总体上是不寻常的:垃圾邮件发送者试图推广特定的产品、服务等。虽然垃圾邮件发送者可以尝试增加做事的难度,但可以学习合理的相关性和模式所以通过各种技术。

对于好与坏的论坛帖子,不太可能存在这种单词/结构模式。但是,有另一种方法可以重组可能有用的问题:

  1. 允许用户将帖子分类为好或坏,或者按照您的描述对它们进行排名。
  2. 使用贝叶斯分类器或其他一些统计推断方法来识别与整个社区的排名行为具有最高相关性的论坛用户,即具有最佳品味并且可以很好地预测整个社区如何看待的用户内容。
  3. 使用第 2 步中确定的良好预测用户池中的论坛帖子排名来过滤论坛帖子。这需要一个或多个这样的用户在某个时间点对新内容进行实际排名,因此这个池需要有一定的大小并包括常规用户,这样一个过滤系统才能有用。
  4. 这个分类器系统需要定期重建,因为用户社区可能是动态的,具有不断变化的兴趣等。

我提出的方法对您的问题的实际效果在很大程度上取决于论坛的性质,用户对内容进行排名的意愿,以及他们对发布内容价值的看法有多少共同点。此外,用户社区的整体规模可能是一个因素:如果它太小,可能没有足够的数据可以使用;如果太大,您可能会遇到针对排名数据运行分类器推理方法的计算缩放问题。

于 2010-06-06T01:53:20.483 回答
0

协同过滤不是更好吗?

于 2010-06-06T04:42:31.480 回答