我遇到了一个开源爬虫Bixo。有人试过吗?可以分享一下学习吗?我们能否轻松构建定向爬虫(与 Nutch/Heritrix 相比)?谢谢奈恩
1642 次
1 回答
8
我在一个大型社交网站(每天 100M 的页面浏览量)中使用 Bixo 进行用户内容分类(基本上是用户生成的任何带有链接的内容)。
这是一个相当复杂的工作流程,使用 Cascading
- 重复数据删除 URL,
- 让 Bixo 检索页面内容,
- 通过分类器推送页面内容和
- 触发垃圾邮件帐户的帐户撤销,运行垃圾邮件报告等。
如果您了解 Cascading,那么 Bixo 的工作方式与任何其他 Cascading 组件非常相似,本质上期望 URL 作为输入并发出一堆与页面相关的信息作为输出。
一开始我低估的一件事是,对于很多垂直爬虫来说,爬行方面“只是”拼图中的一小部分。围绕它的整个工作流程可能会变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种方法来集成它。使用 Cascading 的 Bixo 只是您工作流程的另一个输入。
Bixo 本身似乎非常稳固。Ken Krugler(首席开发人员)反应灵敏,能够在一天之内解决我一开始遇到的一些悬而未决的问题(我的数据集包含很多“脏”的 URL)。他有一个非常全面的自动化测试套件,可确保 Bixo 按设计工作。
总的来说,我不能高度推荐它。整个系统是我在 6-9 个月内构建的,我认为如果没有它,我无法在那个时间范围内完成它。
于 2010-07-19T21:21:15.497 回答