Python网络爬虫技术与实战
上QQ阅读APP看书,第一时间看更新

3.2.2 urlretrieve()函数用法

下面再来看看urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地。其函数语法如下:


urlretrieve(url, filename=None, reporthook=None, data=None)

相关参数如下所示。

·参数filename指定了保存到本地的路径。如果参数未指定,则urllib会生成一个临时文件来保存数据。

·参数reporthook是一个回调函数,当连接上服务器以及相应的数据块传输完毕时,会触发该回调,我们可以利用这个回调函数来显示当前的下载进度。

·参数data指post到服务器的数据,该方法返回一个包含两个元素的元组(filename,headers),filename表示保存到本地的路径,header表示服务器的响应头。

通过urlretrieve()能够将网页抓取到本地,具体方法请参考如下示例。

【例3-5】urlretrieve()抓取百度首页


#!/usr/bin/env python  
# coding=utf-8  
1  import urllib.request
2  def cbk(a, b, c):
3   '''回调函数
4   @a: 已经下载的数据块
5   @b: 数据块的大小
6   @c: 远程文件的大小
7   '''
8   per = 100.0 * a * b / c
9   if per > 100:
10      per = 100
11  print
12  '%.2f%%' % per
13 url = 'http://www.baidu.com'
14 local = 'd://baidu.html'
15 urllib.request.urlretrieve(url, local, cbk)

通过上面的例子可以知道,urlopen()可以轻松获取远端html页面信息,通过正则匹配获取想要的数据信息,再利用urlretrieve()将数据下载到本地。对于访问受限或者连接数受限的远程URL地址可以采用proxies(代理的方式)连接,如果远程数据量过大,且单线程下载太慢的话,可以采用多线程下载,这个就是所谓的爬虫。