python - 如何编写 Python 脚本来搜索网站 html 中的匹配链接

Question

我对python不太熟悉，必须编写一个脚本来执行许多功能。基本上我仍然需要的模块是如何检查网站代码以查找预先提供的匹配链接。

score 6 · Accepted Answer

匹配链接是什么？他们的 HREF 属性？链接显示文字？也许是这样的：

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取 HTML 内容，somesite.com然后使用 BeautifulSoup 对其进行解析，仅查找 HREF 属性以“test”开头的链接。然后它会构建这些链接的列表并将它们打印出来。

您可以使用文档对其进行修改以执行任何操作。

score 3 · Accepted Answer

通常，您使用urllib、urllib2（htmllib 等）在 Python 中进行 Web 编程。你也可以使用mechanize、curl等。然后为了处理 HTML 和获取链接，你会想要使用像BeautifulSoup这样的解析器。

score 0 · Accepted Answer

0

试试scrapy，最全面的网页提取框架。

http://scrapy.org

于 2014-07-05T04:27:50.260 回答

python - 如何编写 Python 脚本来搜索网站 html 中的匹配链接

3 回答 3

Related

Reference