爬虫实战:从数据到产品
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

智能设备(如智能手环、百度音箱、扫地机器人等)的普及使收集个人数据变得非常容易。机器性能的提高使得分析、使用数据变得更加自动化。大量的数据结合强大的计算性能,使数据从量变到质变的过程极短,我们的导航早已不再是傻傻地按照既有的策略规划行驶路线,而是一直在向“老司机”学习,不断更新算法,从而带来更精准的预测。

在这个时代,数据就是新一代的资源。我们的身边充满了数据流。我们既是数据流的生产者,也是数据流的消费者。对个人而言,如果能够合理地识别、收集、分析、利用这些数据,就能够在我们做决策时给出一些新的想法。例如,在 GitHub上一个非常有效的比特币高频交易的源代码,其作者在2016年年底到2017年1月这段时期内,用6000元的初始资金赚到了25万元。他所利用的就是对比特币这种新交易手段交易数据的洞察,利用机器自动收集分析行情并进行自动化交易。为了解决“什么时候买机票最便宜”的问题,我通过长达两年的数据抓取,收集到上百亿条机票价格数据并进行数据分析及可视化,最后形成了一个名为“爱飞狗”的产品。爱飞狗可将近期各平台的历史价格展示给用户,让不对称的价格信息变得更加透明化。通过对这些数据进行分析,我们可以掌握国内航空公司机票票价变化规律。基于人的经验,在机器学习的帮助下,我的这套方法可以对国内的航班价格提供较为准确的预测,为用户的出行节约成本。

掌握获取信息的能力使我们能够站在更高的角度识别一些规律。例如,在求职的过程中,大量的公司信息很难进行分辨,即便是某些APP提供了很多的筛选功能,但仍无法满足我们分析的需求。再如,大量的房产信息淹没在海量数据中,跟踪这些数据的变化或许能够发现一些规律或结论。在这样一个数据丰富的时代,每个人都应该学习一些从数据采集到数据分析的综合技能。

本书从基础知识出发,通过丰富的案例,详细介绍数据抓取和分析的整个过程,帮助读者构建相关能力。

本书不同于大多数介绍爬虫的技术书,不仅讲述如何进行数据抓取,而且通过丰富的案例讲解抓取数据的思路,介绍数据分析、可视化的方法,以及如何根据数据分析结果,开发一个应用,以求为读者提供一个从采集数据到应用数据的完整视角。本书以介绍技术思路为主,不会详细介绍一些特别基础的知识点,例如,Python的基础知识、软件包的安装操作等,所以需要读者自行查阅一些相关资料。另外,由于移动应用、网站等更新速度非常快,当阅读到本书时,可能书中介绍的一些方法已经发生了变化,读者可以自行研究,把知识灵活地运用到实践中。

特别声明

本书仅限于讨论爬虫技术,书中展示的案例只是为了读者更好地理解抓取的思路和操作,达到防范信息泄露、保护信息安全的目的,请勿用于非法用途!严禁利用本书所提到的技术进行非法抓取,否则后果自负,本人和出版商不承担任何责任。

读者服务

轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。

提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。

交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。

页面入口:http://www.broadview.com.cn/35508