java - 从 Java 中获取带有 javascript 链接的网页

Question

我有一个 Java 网络爬虫应用程序，它需要访问网页中的所有链接。问题是在某些页面中，链接是由 javascript 函数生成的。就像是：

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

我知道HtmlUnit。但在我的测试中，它对于我的目的来说太慢了。一个本地页面（在http://localhost/test.html中）需要将近 2 秒才能获取。其他远程网页花费了更多时间。

我想要最简单/最快的方法来查找网页中的所有链接，甚至是 Java 中的 javascript 链接。（欢迎使用 C/C++ 中的解决方案）。我也知道Nutch（爬虫）有一个来自 Javascript 的链接提取器，但我不确定是否可以从 Nutch 中“提取”该代码以在另一个上下文中使用。

score 0 · Accepted Answer

似乎可以从 Nutch 中提取有用的代码：

看看如何将 main 方法用作独立的 JS 链接提取器。

1 回答 1