1

使用 Jsoup,我能够提取大多数网站页面源代码(右键单击网页并选择“查看页面源”)。但是对于任何 youtube 视频页面,我都无法提取页面源它没有提供正确的页面源代码。尝试了以下男女同校但未能提取。

public class App {
  public static void main(String[] args) throws IOException {

    String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
    Document doc = Jsoup.connect(webUrl)
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
            .get();

    System.out.println(doc);

 }
}

任何人都可以有任何建议来解决这个问题???

我得到如下输出:

样本输出

4

1 回答 1

1

您没有设置可能触发网站反抓取措施的用户代理。我将假设问题是您在运行此程序时连接超时。尝试使用以下用户代理,看看它是否适用于你的 connect()。

.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")

于 2020-01-02T13:19:42.040 回答