python - 使用 asyncio aiofiles 解析大量 HTML 文件并在 pandas DataFrame 中解析它们

Question

我在磁盘上有大约 40 000 个 HTML 文件，并使用 Beautiful Soup 解析 HTML 并返回每个 HTML 的字典。在读取/解析期间，我将所有字典附加到列表中，并在最后创建 pandas DataFrame。

在同步模式下一切正常，但运行时间很长，所以我想用aiofiles运行

目前我的代码如下所示：

# Function for fetching all ad info from single page
async def getFullAdSoup(soup):
     ...
     adFullFInfo = {} # dictionary parsed from Beautifoul soup object
    return await adFullFInfo


async def main():
    adExtendedDF = pd.DataFrame()
    adExtendednfo = {}
    htmls = glob.glob("HTML_directory" + "/*.html") # Get all HTML files from directory

    htmlTasks = [] # Holds list of returned dictionaries
    for html in natsorted(htmls):
        async with aiofiles.open(html, mode='r', encoding='UTF-8', errors='strict', buffering=1) as f:
            contents = await f.read()
            htmlTasks.append(getFullAdSoup(BeautifulSoup(contents, features="lxml")))
        htmlDicts = await asyncio.gather(*htmlTasks)
    adExtendedDF = pd.DataFrame(data=htmlDicts, ignore_index=True)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

我得到的错误是：

文件“C:/Users/.../test.py”，第 208 行，在 getFullAdSoup 返回 await adFullFInfo TypeError: object dict can't be used in 'await' expression

我在这里找到了类似的问题，但我无法让它发挥作用。我不知道如何将解析函数转换为异步模式以及如何迭代调用该函数的文件。

score 1 · Accepted Answer

你的错误发生是因为你等待一个字典，我猜你误解了，你不需要在 return 语句中等待它是异步的。我会像这样重构它

# Function for fetching all ad info from single page
async def getFullAdSoup(soup):
     ...
     adFullFInfo = {} # dictionary parsed from Beautifoul soup object
    return adFullFInfo #*****1****


async def main():
    adExtendedDF = pd.DataFrame()
    adExtendednfo = {}
    htmls = glob.glob("HTML_directory" + "/*.html") # Get all HTML files from directory

    htmlTasks = [] # Holds list of returned dictionaries
    for html in natsorted(htmls):
        async with aiofiles.open(html, mode='r', encoding='UTF-8', errors='strict', buffering=1) as f:
            contents = await f.read()
            htmlTasks.append(asyncio.create_task( #****2****
                getFullAdSoup(BeautifulSoup(contents, features="lxml"))))
        await asyncio.sleep(0) #****3****
    htmlDicts = await asyncio.gather(*htmlTasks) #****4****
    adExtendedDF = pd.DataFrame(data=htmlDicts, ignore_index=True)


if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

4个变化：

无需等待听写
使用 asyncio.create_task 安排任务尽快运行
sleep(0) 释放事件循环并让任务开始运行
将收集方法移到循环之外，这样您就可以一次收集所有任务，而不是一次收集一个。

2 和 3 是可选的，但我发现它会产生很大的速度差异，具体取决于您在做什么

python - 使用 asyncio aiofiles 解析大量 HTML 文件并在 pandas DataFrame 中解析它们

1 回答 1

Related

Reference