1

我有一个与我创建的和服桌面 API 一起使用的多个 URL 的列表,但是对于我的生活,我无法弄清楚如何在数据输出 (csv) 中明确哪些结果行来自哪个源 URL .

当有 100 多个 URL 时,有没有办法将源 URL 作为另一列拉入以轻松区分数据行?谢谢!

4

1 回答 1

0

它基于生成的源代码中的 html 和 css,因此除非您在源代码中使用明确说明 url 的可靠值(例如 wikipedias 链接规范标签),否则您只能使用抓取索引值。

如果一页的抓取不成功,它不会跳过它,它仍然会创建一个带有索引号的行。它也将按输入的页面值的顺序排列,因此如果您使用的是预先确定的 url 列表,您可以让 url 列表自己编号,然后像 id 一样将两个索引关联在一起。

否则,请使用您已经知道的页面上的值来确认相关内容,例如 ID 号、产品编号或任何其他数据。

于 2016-03-25T03:55:33.603 回答