Python网络爬虫技术与实战

赵国生王健编著

更新时间：2021-02-22 15:41:27

最新章节：练习题答案

封面

版权页

前言

第1章 Python环境搭建及基础学习

1.1 Python 3.6的安装与配置

1.1.1 Windows下的安装

1.1.2 Linux下的安装

1.1.3 macOS下的安装

1.2 IDE工具：PyCharm的安装

1.3 基础语法

1.3.1 第一个Python程序

1.3.2 Python命名规范

1.3.3 行和缩进

1.3.4 注释和续行

1.3.5 Python输出

1.4 字符串

1.4.1 字符串运算符

1.4.2 字符串内置函数

1.5 数据结构

1.5.1 列表

1.5.2 元组

1.5.3 集合

1.5.4 字典

1.6 控制语句

1.6.1 条件表达式

1.6.2 选择结构

1.6.3 循环结构

1.7 函数、模块和包

1.7.1 函数

1.7.2 模块

1.7.3 包

1.8 文件的读写操作

1.8.1 文件读写步骤与打开模式

1.8.2 文件的基本操作

1.8.3 文件写入操作

1.9 面向对象

1.9.1 类和对象

1.9.2 封装性

1.9.3 继承性

1.9.4 多态性

1.10 本章小结

练习题

第2章爬虫原理和网络基础

2.1 爬虫是什么

2.2 爬虫的意义

2.3 爬虫的原理

2.4 爬虫技术的类型

2.4.1 聚焦爬虫技术

2.4.2 通用爬虫技术

2.4.3 增量爬虫技术

2.4.4 深层网络爬虫技术

2.5 爬虫抓取策略

2.5.1 深度优先遍历策略

2.5.2 广度优先遍历策略

2.5.3 Partial PageRank策略

2.5.4 大站优先策略

2.5.5 反向链接数策略

2.5.6 OPIC策略

2.6 反爬虫和反反爬虫

2.6.1 反爬虫

2.6.2 反反爬虫

2.7 网络基础

2.7.1 网络体系结构

2.7.2 网络协议

2.7.3 Socket编程

2.8 本章小结

练习题

第3章 Python常用库

3.1 Python库的介绍

3.1.1 常用标准库

3.1.2 安装使用第三方库

3.2 urllib库

3.2.1 urlopen()函数用法

3.2.2 urlretrieve()函数用法

3.2.3 URL编码和URL解码

3.2.4 urlparse()和urlsplit()函数用法

3.3 request库

3.3.1 request库的基本使用

3.3.2 request库的高级用法

3.4 lxml库

3.4.1 lxml库的安装和使用

3.4.2 XPath介绍

3.4.3 XPath语法

3.4.4 lxml和XPath的结合使用

3.5 Beautiful Soup库

3.5.1 Beautiful Soup库的安装和使用

3.5.2 提取数据

3.5.3 CSS选择器

3.6 实战案例

3.6.1 使用Beautiful Soup解析网页

3.6.2 微信公众号爬虫

3.6.3 爬取豆瓣读书TOP500

3.6.4 使用urllib库爬取百度贴吧

3.7 本章小结

练习题

第4章正则表达式

4.1 概念介绍

4.2 正则表达式语法

4.2.1 正则模式的字符

4.2.2 运算符优先级