我在磁盘上有大约 40 000 个 HTML 文件,并使用 Beautiful Soup 解析 HTML 并返回每个 HTML 的字典。在读取/解析期间,我将所有字典附加到列表中,并在最后创建 pandas DataFrame。
在同步模式下一切正常,但运行时间很长,所以我想用aiofiles运行
目前我的代码如下所示:
# Function for fetching all ad info from single page
async def getFullAdSoup(soup):
...
adFullFInfo = {} # dictionary parsed from Beautifoul soup object
return await adFullFInfo
async def main():
adExtendedDF = pd.DataFrame()
adExtendednfo = {}
htmls = glob.glob("HTML_directory" + "/*.html") # Get all HTML files from directory
htmlTasks = [] # Holds list of returned dictionaries
for html in natsorted(htmls):
async with aiofiles.open(html, mode='r', encoding='UTF-8', errors='strict', buffering=1) as f:
contents = await f.read()
htmlTasks.append(getFullAdSoup(BeautifulSoup(contents, features="lxml")))
htmlDicts = await asyncio.gather(*htmlTasks)
adExtendedDF = pd.DataFrame(data=htmlDicts, ignore_index=True)
if __name__ == '__main__':
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
我得到的错误是:
文件“C:/Users/.../test.py”,第 208 行,在 getFullAdSoup 返回 await adFullFInfo TypeError: object dict can't be used in 'await' expression
我在这里找到了类似的问题,但我无法让它发挥作用。我不知道如何将解析函数转换为异步模式以及如何迭代调用该函数的文件。