amazon-web-services - 是否可以从 Common Crawler API 的 web 版本中获取标题？

翻译自：https://stackoverflow.com/questions/54446593 2019-01-30T17:48:57.380

63 次

1

我正在尝试从网页中获取网址、标题和语言。幸运的是，存在 CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference。但遗憾的是，我没有注意到获得头衔的方法。

目前，我将 CC 查询为（例如）http://index.commoncrawl.org/CC-MAIN-2018-47-index?url=www.example.com/*&output=json我得到“url”和“语言”信息。

有没有办法通过API查询CC而不下载每个warc并获取标题？

谢谢！

1 回答 1

2

否。页面标题未在 Common Crawl 的 URL 索引中编入索引（既不在 CDX 索引中，也不在列索引中）。

于 2019-01-31T12:12:12.357 回答