3.2.2 urlretrieve()函数用法_Python网络爬虫技术与实战-QQ阅读中文都市网

上QQ阅读APP看书，第一时间看更新

3.2.2　urlretrieve()函数用法

下面再来看看urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地。其函数语法如下：

urlretrieve(url, filename=None, reporthook=None, data=None)

相关参数如下所示。

·参数filename指定了保存到本地的路径。如果参数未指定，则urllib会生成一个临时文件来保存数据。

·参数reporthook是一个回调函数，当连接上服务器以及相应的数据块传输完毕时，会触发该回调，我们可以利用这个回调函数来显示当前的下载进度。

·参数data指post到服务器的数据，该方法返回一个包含两个元素的元组(filename,headers)，filename表示保存到本地的路径，header表示服务器的响应头。

通过urlretrieve()能够将网页抓取到本地，具体方法请参考如下示例。

【例3-5】urlretrieve()抓取百度首页

#!/usr/bin/env python  
# coding=utf-8  
1  import urllib.request
2  def cbk(a, b, c):
3   '''回调函数
4   @a: 已经下载的数据块
5   @b: 数据块的大小
6   @c: 远程文件的大小
7   '''
8   per = 100.0 * a * b / c
9   if per > 100:
10      per = 100
11  print
12  '%.2f%%' % per
13 url = 'http://www.baidu.com'
14 local = 'd://baidu.html'
15 urllib.request.urlretrieve(url, local, cbk)

通过上面的例子可以知道，urlopen()可以轻松获取远端html页面信息，通过正则匹配获取想要的数据信息，再利用urlretrieve()将数据下载到本地。对于访问受限或者连接数受限的远程URL地址可以采用proxies（代理的方式）连接，如果远程数据量过大，且单线程下载太慢的话，可以采用多线程下载，这个就是所谓的爬虫。