编辑:李老师
QQ:44846277
电话:0411-84707492
邮箱:
Python网络爬虫项目实战
作者:李纪云 孙睿
出版时间:2021-11-01
定价:51.80元
人工智能应用技术专业核心专业课,微视频讲解重难点,版式精美。
本书共分为8个项目,具体如下:
项目1主要介绍爬虫的相关基础知识,包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。
项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。
项目3介绍了解析爬取到网页内容时常用的解析库(Beautiful Soup、lxml)和解析方法,它们可以使提取信息变得简易可行。
项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程,获取异步请求返回的数据。
项目5介绍了网站为什么反爬虫,常见的反爬手段以及应对措施。
项目6介绍了数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。
项目7介绍了使用多线程爬虫和协程爬虫,以此可以提高爬虫效率。
项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。
项目1 爬虫简介 …………………………………………………………… 1
任务1-1 认识爬虫 …………………………………………………………………………… 1
任务1-2 爬虫的实现流程 …………………………………………………………………… 6
任务1-3 网页请求原理 …………………………………………………………………… 11
任务1-4 爬虫环境搭建 …………………………………………………………………… 21
小 结 ………………………………………………………………………………………… 28
习 题 ………………………………………………………………………………………… 28
项目2 爬取网站表层页面 ……………………………………………… 30
任务2-1 爬取网站首页 …………………………………………………………………… 30
任务2-2 爬取图书检索页面 ……………………………………………………………… 33
任务2-3 爬取用户信息验证结果 ………………………………………………………… 37
任务2-4 urllib库知识点扩充 ……………………………………………………………… 40
任务2-5 使用urllib3库爬取网站页面 …………………………………………………… 50
任务2-6 使用requests库爬取网页 ……………………………………………………… 55
小 结 ………………………………………………………………………………………… 61
习 题 ………………………………………………………………………………………… 62
项目3 网页内容解析 …………………………………………………… 63
任务3-1 使用re库解析新闻数据 ………………………………………………………… 63
任务3-2 使用lxml库解析新闻页面 ……………………………………………………… 73
任务3-3 使用 BeautifulSoup解析新闻页面 ……………………………………………… 87
任务3-4 JSON 数据解析 …………………………………………………………………… 95
小 结 ………………………………………………………………………………………… 99
习 题 ………………………………………………………………………………………… 99
项目4 爬取网站动态页面 ……………………………………………… 101
任务4-1 爬取网站深层页面 ……………………………………………………………… 101
任务4-2 使用selenium 库爬取网页 ……………………………………………………… 108
任务4-3 使用selenium 库实现用户验证 ………………………………………………… 112
小 结………………………………………………………………………………………… 115
习 题………………………………………………………………………………………… 115
项目5 认识和应对反爬虫 ……………………………………………… 116
任务5-1 为什么反爬虫 …………………………………………………………………… 116
任务5-2 反爬虫应对策略 ………………………………………………………………… 118
小 结………………………………………………………………………………………… 142
习 题………………………………………………………………………………………… 142
项目6 数据存储 ………………………………………………………… 143
任务6-1 文件存储 ………………………………………………………………………… 143
任务6-2 使用关系型数据库存储数据 …………………………………………………… 155
任务6-3 使用非关系型数据库 MongoDB存储数据 …………………………………… 178
小 结………………………………………………………………………………………… 187
习 题………………………………………………………………………………………… 188
项目7 并发下载 ………………………………………………………… 189
任务7-1 使用多线程实现并发爬取 ……………………………………………………… 189
任务7-2 使用协程技术实现爬虫 ………………………………………………………… 208
小 结………………………………………………………………………………………… 211
习 题………………………………………………………………………………………… 211
项目8 Scrapy框架 ……………………………………………………… 212
任务8-1 使用scrapyshell爬取网站页面 ……………………………………………… 212
任务8-2 创建Spider并爬取网站首页 …………………………………………………… 221
任务8-3 创建Spider并爬取新闻页面 …………………………………………………… 226
任务8-4 爬取所有新闻 …………………………………………………………………… 229
任务8-5 依次爬取大连理工大学出版社新闻列表 ……………………………………… 233
小 结………………………………………………………………………………………… 238
习 题………………………………………………………………………………………… 239
参考文献 …………………………………………………………………… 240
微课-1爬虫的概念和应用
微课-2爬虫的分类
课件-Python网络爬虫项目实战
代码-Python网络爬虫项目实战
教案-Python网络爬虫项目实战
课后题参考答案-Python网络爬虫项目实战
扫码关注
返回顶部