我们想知道 commoncrawl 数据库是否可以用作 URL 分类的合法数据集。
1 回答
3
Common Crawl 档案可能以低比率包含各种恶意内容。目前只对垃圾链接进行分类,部分屏蔽不被抓取。
一般来说,广泛的网络爬虫样本可能包括垃圾邮件、恶意网站等。通用爬虫档案也用于网络安全研究,参见。 https://scholar.google.de/scholar?q=commoncrawl+vulnerability
这个话题已经在https://groups.google.com/d/msg/common-crawl/xmSZX85cRjg/zwi5vn4NBAAJ上讨论过了
于 2019-02-12T08:16:09.093 回答