人工智能应用技术专业核心专业课,微视频讲解重难点,版式精美。
本书共分为8个项目,具体如下:
项目1主要介绍爬虫的相关基础知识,包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。
项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。
项目3介绍了解析爬取到网页内容时常用的解析库(Beautiful Soup、lxml)和解析方法,它们可以使提取信息变得简易可行。
项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程,获取异步请求返回的数据。
项目5介绍了网站为什么反爬虫,常见的反爬手段以及应对措施。
项目6介绍了数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。
项目7介绍了使用多线程爬虫和协程爬虫,以此可以提高爬虫效率。
项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。