jsoup - 面临使用 Jsoup 提取 youtube 页面源的问题

Question

使用 Jsoup，我能够提取大多数网站页面源代码（右键单击网页并选择“查看页面源”）。但是对于任何 youtube 视频页面，我都无法提取页面源它没有提供正确的页面源代码。尝试了以下男女同校但未能提取。

public class App {
  public static void main(String[] args) throws IOException {

    String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
    Document doc = Jsoup.connect(webUrl)
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
            .get();

    System.out.println(doc);

 }
}

任何人都可以有任何建议来解决这个问题？？？

我得到如下输出：

score 1 · Accepted Answer

您没有设置可能触发网站反抓取措施的用户代理。我将假设问题是您在运行此程序时连接超时。尝试使用以下用户代理，看看它是否适用于你的 connect()。

.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")

jsoup - 面临使用 Jsoup 提取 youtube 页面源的问题

1 回答 1

Related

Reference