0

我想抓取一个页面的文件:

<body class="body_class" style="background:#444;">
<div class="data" id="id">
<div id="images" style="cursor: auto;">
<img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1">
<p class="img_info">(1/14)</p>
</div>
</div>
</body>

我想获取数据image1.jpg

我试过代码

from lxml import html
import requests
page = requests.get(r'http://example.com')
tree = html.fromstring(page.content)
a = tree.xpath('//div[@id="images"]/src/text()')

它失败。如何获取数据?

谢谢。

4

1 回答 1

1

您是否正在寻找文本“image1.jpg”作为数据?如果是这样,那么只需使用这个 xpath //div[@id="images"]//@src

如果您想使用 src 中的地址下载图像,您可以使用。

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")
于 2018-09-16T14:03:30.497 回答