python - 如何使用 lxml 获取数据

Question

我想抓取一个页面的文件：

<body class="body_class" style="background:#444;">
<div class="data" id="id">
<div id="images" style="cursor: auto;">
<img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1">
<p class="img_info">(1/14)</p>
</div>
</div>
</body>

我想获取数据image1.jpg。

我试过代码

from lxml import html
import requests
page = requests.get(r'http://example.com')
tree = html.fromstring(page.content)
a = tree.xpath('//div[@id="images"]/src/text()')

它失败。如何获取数据？

谢谢。

score 1 · Accepted Answer

您是否正在寻找文本“image1.jpg”作为数据？如果是这样，那么只需使用这个 xpath //div[@id="images"]//@src。

如果您想使用 src 中的地址下载图像，您可以使用。

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")

python - 如何使用 lxml 获取数据

1 回答 1

Related

Reference