1

我正在尝试从网页中获取网址、标题和语言。幸运的是,存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是,我没有注意到获得头衔的方法。

目前,我将 CC 查询为(例如)http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json我得到“url”和“语言”信息。

有没有办法通过API查询CC而不下载每个warc并获取标题?

谢谢!

4

1 回答 1

2

否。页面标题未在 Common Crawl 的 URL 索引中编入索引(既不在 CDX 索引中,也不在列索引中)。

于 2019-01-31T12:12:12.357 回答