4

我对python不太熟悉,必须编写一个脚本来执行许多功能。基本上我仍然需要的模块是如何检查网站代码以查找预先提供的匹配链接。

4

3 回答 3

6

匹配链接是什么?他们的 HREF 属性?链接显示文字?也许是这样的:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取 HTML 内容,somesite.com然后使用 BeautifulSoup 对其进行解析,仅查找 HREF 属性以“test”开头的链接。然后它会构建这些链接的列表并将它们打印出来。

您可以使用文档对其进行修改以执行任何操作。

于 2010-03-04T04:39:37.567 回答
3

通常,您使用urlliburllib2(htmllib 等)在 Python 中进行 Web 编程。你也可以使用mechanizecurl等。然后为了处理 HTML 和获取链接,你会想要使用像BeautifulSoup这样的解析器。

于 2010-03-04T04:08:04.273 回答
0

试试scrapy,最全面的网页提取框架。

http://scrapy.org

于 2014-07-05T04:27:50.260 回答