python - Scraper 在保存多页数据时抛出错误

Question

我在 python 中编写了一个脚本，以从网页中抓取分布在多个页面上的某些产品的不同子类别链接，并将这些链接保存在 Excel 文件中的不同工作表中（根据产品标题命名）。在这种情况下，我使用了“pyexcel”。首先，抓取工具应将“item_list”中的名称与该网页中的“All Brands”进行比较。每当找到匹配项时，它都会抓取该链接，然后对其进行跟踪并解析遍历多个页面的所有子类别链接，并将它们保存在 Excel 文件中，正如我上面所说的那样。如果这些产品没有分布在多个页面上，它就会运行而不会出现任何错误。但是，我在“item_list”中选择了三个有分页的“项目”。

当我执行我的脚本时，它会引发以下错误。但是，我注意到出现该错误时，来自单个页面的带有子类别链接的项目已完成抓取。从该子类别链接的下一页保存数据时，它会引发错误。我该如何解决这个问题？提前致谢。

这是完整的脚本：

import requests ; from lxml import html
from pyexcel_ods3 import save_data

core_link = "http://store.immediasys.com/brands/"
item_list = ['Adtran','Asus','Axis Communications']

def quotes_scraper(base_link, pro):

    response = requests.get(base_link)
    tree = html.fromstring(response.text)
    data = {}
    for titles in tree.cssselect(".SubBrandList a"):
        if titles.text == pro:
            link = titles.attrib['href']
            processing_docs(link, data)   #--------#Error thrown here#----- #

def processing_docs(link, data):

    response = requests.get(link).text
    root = html.fromstring(response)
    sheet_name = root.cssselect("#BrandContent h2")[0].text

    for item in root.cssselect(".ProductDetails"):
        pro_link = item.cssselect("a[class]")[0].attrib['href']
        data.setdefault(sheet_name, []).append([str(pro_link)])
    save_data("mth.ods", data)

    next_page = root.cssselect(".FloatRight a")[0].attrib['href'] if root.cssselect(".FloatRight a") else ""
    if next_page:
        processing_docs(next_page)

if __name__ == '__main__':
    for item in item_list:
        quotes_scraper(core_link , item)

我遇到的错误：

Traceback (most recent call last):
  File "C:\Users\ar\AppData\Local\Programs\Python\Python35-32\goog.py", line 34, in <module>
    quotes_scraper(core_link , item)
  File "C:\Users\ar\AppData\Local\Programs\Python\Python35-32\goog.py", line 15, in quotes_scraper
    processing_docs(link, data)
  File "C:\Users\ar\AppData\Local\Programs\Python\Python35-32\goog.py", line 30, in processing_docs
    processing_docs(next_page)
TypeError: processing_docs() missing 1 required positional argument: 'data'

顺便说一句，如果我在没有“pyexcel”的情况下运行这个脚本，它根本不会遇到任何问题。我遇到的错误是因为写入和保存数据。

score 1 · Accepted Answer

查看您的代码，我想我可以看到您的问题：

def processing_docs(link, data):

    response = requests.get(link).text
    root = html.fromstring(response)
    sheet_name = root.cssselect("#BrandContent h2")[0].text

    for item in root.cssselect(".ProductDetails"):
        pro_link = item.cssselect("a[class]")[0].attrib['href']
        data.setdefault(sheet_name, []).append([str(pro_link)])
    save_data("mth.ods", data)

    next_page = root.cssselect(".FloatRight a")[0].attrib['href'] if root.cssselect(".FloatRight a") else ""
    if next_page:
        processing_docs(next_page) # this line here!

您的函数processing_docs需要两个参数，但您递归调用它 ( processing_docs(next_page)) 只有一个。我想您也想将data字典递归地传递给函数，以便您继续添加它？（虽然这可能是错误的 - 乍一看，它似乎会保存第 1 页，然后保存第 1 页和第 2 页，然后保存第 1、2 和 3 页.. 但我必须仔细观察才能确定）

关于你的第二个问题（在评论中），有几种方法可以做到这一点。

如果我理解您的代码，您将使用保存数据save_data("mth.ods", data)- 如果您将项目名称传递给processing_docs函数而不是这个：

def processing_docs(link, data, item):
    ....
    save_data(item + ".ods", data)

调用这个：

for titles in tree.cssselect(".SubBrandList a"):
    if titles.text == pro:
        link = titles.attrib['href']
        processing_docs(link, data, pro)

和

if next_page:
    processing_docs(next_page, data, item)

然后它将为每个项目生成一个以该项目命名的新文件。

额外的

你对递归的使用效率有点低——我认为它会起作用，因为它会写 p1，然后写 p1 和 p2，然后写 p1-3，所以你最终会得到整个事情（除非数据中的某些内容被覆盖，但是我不这么认为）。

如果您不需要转到下一页，也许最好只保存数据，例如

if next_page:
    processing_docs(next_page, data, item)
else:
    save_data(item + ".ods", data) # move here and take out elsewhere

你可能需要花点时间才能让它工作，但如果你的数据集很大，它会更快一点。

python - Scraper 在保存多页数据时抛出错误

1 回答 1

额外的

Related

Reference