0

我在社交媒体监控系统上工作。我们不会自己爬网,我们会从 Spinn3r 等聚合器获取信息。在大多数情况下,“博客”只不过是色情网站的链接页面,但我们希望在内部进行一些训练,而不是等待上游提供商做出更改。

我查看了 Spamassassin,如果我们处理电子邮件,它将非常适合我们的目的。是否有任何图书馆可以只获取一段文本,并根据工作频率、链接数量、隐藏的背景文本等因素对其进行质量评分?

理想情况下,我正在寻找 Java 中的东西,但如果那里什么都没有,我可以使用客户端服务器或嵌入 jruby 或 jython 库。

我想我最终将不得不自己构建它,但它总是值得一试。

4

1 回答 1

0

WordPress 有垃圾邮件插件来捕获垃圾评论。谷歌搜索产生:WP-SpamFree Anti-SpamSpam Karma 2.3

WordPress 插件似乎是用 PHP 实现的。也许那里有一些有用的东西。

于 2009-09-25T23:16:53.747 回答