Python网络爬虫技术与实战
上QQ阅读APP看书,第一时间看更新

3.6.2 微信公众号爬虫

我们首先安装微信爬虫接口,命令如下:


pip install wechatsogou –upgrade

安装成功后,需要初始化API:


1  import wechatsogou
2  # 可配置参数
3  # 直连
4  ws_api = wechatsogou.WechatSogouAPI()
5  # 验证码输入错误的重试次数,默认为1
6  ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
7  # 所有requests库的参数都能在这里使用
8  # 如配置代理,代理列表中至少需包含1个HTTPS协议的代理,并确保可用
9  ws_api = wechatsogou.WechatSogouAPI(proxies={
10     "http": "127.0.0.1:8888",
11     "https": "127.0.0.1:8888",
12 })
13 # 如设置超时
14 ws_api = wechatsogou.WechatSogouAPI(timeout=0.1)

接下来,调用API获取特定公众号信息即可。

【例3-42】使用API进行微信公众号爬虫


1  import wechatsogou
2  ws_api = wechatsogou.WechatSogouAPI()
3  print(ws_api.get_gzh_info('Python爬虫'))

运行结果如下,返回的是一个字典:


{'op en_id': 'oIWsFtyRizv4ILM43eMvFxrfsOzc', 'profile_url': '', 'headimage': 'https://img01.
sogoucdn.com/app/a/100520090/oIWsFtyRizv4ILM43eMvFxrfsOzc', 'wechat_name''Python
爬虫大数据AI', 'wechat_id': 'Python_ai_bigdata', 'qrcode': 'http://mp.weixin.qq.com/
rr?src=3&timestamp=1559281895&ver=1&signature=6ARzajlnqx4yHgI80eQbjT0CX4DghKzv
XbGSSEaM9q1qy5D7q4mLz6juLG-chnus64Z1cxOXiJT-2d1TbC492oJkFDmW9Q9Jlk0iZdxam3Q=', 
'introduction': 'Python爱上了bigdata,它想知道bigdata是否也AI它,上帝给它一个建议:用你最
擅长的爬虫爬取bigdata,然后用AI分析bigdata,就知道它是否AI你了.这是一个以分享Python爬虫、
大数据和AI的公众号', 'authentication': '\n', 'post_perm': -1, 'view_perm': -1}