我正在尝试运行一个常见的爬网示例并从 Warc 文件中提取 URL 和电子邮件。我只有一个疑问。无论我提取的电子邮件属于 URL 还是其他网站,这都是一个令人困惑的部分。
请帮助我。我该如何解决这种困惑?
我所做的是:使用 WordCount 的常见抓取示例,我设置了一个它来提取 url,然后发送电子邮件。提取后它将存储在一个文件中。
这就是提取的简单逻辑。但是我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?
我正在尝试运行一个常见的爬网示例并从 Warc 文件中提取 URL 和电子邮件。我只有一个疑问。无论我提取的电子邮件属于 URL 还是其他网站,这都是一个令人困惑的部分。
请帮助我。我该如何解决这种困惑?
我所做的是:使用 WordCount 的常见抓取示例,我设置了一个它来提取 url,然后发送电子邮件。提取后它将存储在一个文件中。
这就是提取的简单逻辑。但是我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?