Urllib 是 Python 的标准库,它提供了一系列用于处理 URL 的函数和类,包括发送 HTTP 请求、处理 HTTP 响应、解析 URL 等功能。可以使用 urllib 来编写简单的网络爬虫。
request:它是最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现请求过程了。
error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行修正。
parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。
robotparser:主要是用来识别网站的robots.txt文件,判断哪些网站可以爬哪些网站不可以爬,其实用得比较少。
代码实现
#第一个爬虫程序
# 使用urllib
from urllib.request import urlopen
url ='http://www.baidu.com/'
# 发送请求,并将结果返回resp
resp = urlopen(url)
print(resp.read().decode())
在以上示例中,我们使用 urlopen()
函数发送了一个 HTTP 请求,并获取了响应。然后,我们使用 read()
函数读取了响应的内容,并使用 decode()
函数将其转换成 UTF-8 编码的字符串。最后,我们打印了响应的内容。
执行结果: