0

我有一个 Java 网络爬虫应用程序,它需要访问网页中的所有链接。问题是在某些页面中,链接是由 javascript 函数生成的。就像是:

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

我知道HtmlUnit。但在我的测试中,它对于我的目的来说太慢了。一个本地页面(在http://localhost/test.html中)需要将近 2 秒才能获取。其他远程网页花费了更多时间。

我想要最简单/最快的方法来查找网页中的所有链接,甚至是 Java 中的 javascript 链接。(欢迎使用 C/C++ 中的解决方案)。我也知道Nutch(爬虫)有一个来自 Javascript 的链接提取器,但我不确定是否可以从 Nutch 中“提取”该代码以在另一个上下文中使用。

4

1 回答 1

0

似乎可以从 Nutch 中提取有用的代码:

看看如何将 main 方法用作独立的 JS 链接提取器。

于 2010-11-09T14:49:22.433 回答