Python网络爬虫技术与实战
上QQ阅读APP看书,第一时间看更新

3.4 lxml库

lxml库是Python的一款高性能HTML/XML解析库,支持HTML和XML的网页内容解析,主要功能是解析和提取HTML/XML数据。XPath(XML Path Language)是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。lxml与XPath相结合能够解析网页,而且解析效率非常高。本节将对lxml的安装、XPath语法以及lxml和XPath的结合使用进行介绍。