我正在尝试从网页中获取网址、标题和语言。幸运的是,存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是,我没有注意到获得头衔的方法。
目前,我将 CC 查询为(例如)http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json我得到“url”和“语言”信息。
有没有办法通过API查询CC而不下载每个warc并获取标题?
谢谢!