0
样编辑:李老师H
QQ:44846277
电话:0411-84707492
邮箱:
Python网络爬虫项目实战(第二版)
作者:李纪云 孙睿
出版时间:2026-01-01
定价:47.80元
人工智能应用技术专业核心专业课,微视频讲解重难点,版式精美。
本书共分为8个项目,具体如下:
项目1主要介绍爬虫的相关基础知识,包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。
项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。
项目3介绍了解析爬取到网页内容时常用的解析库(Beautiful Soup、lxml)和解析方法,它们可以使提取信息变得简易可行。
项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程,获取异步请求返回的数据。
项目5介绍了网站为什么反爬虫,常见的反爬手段以及应对措施。
项目6介绍了数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。
项目7介绍了使用多线程爬虫和协程爬虫,以此可以提高爬虫效率。
项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。
项目1爬电简介
任务1-1认识爬虫
任务1-2认识爬虫的实现原理与流程
任务1-3认识网页请求过程及原理
任务1-4爬虫环境搭建
小结
习题
项目2请求网站页面
任务2-1解析网站爬虫协议
任务2-2请求图书信息页面
任务2-3请求图书检索结果页面
任务2-4请求用户信息验证结果
任务2-5urllb 库知识点扩充
任务2-6使用 requests 库请求网页
小结
习题
项目3数据解析
任务3-1使用 re 库提取图书数据
任务3-2使用 lxml 库提取图书数据
任务3-3使用 BeautifulSoup 库提取图书数据
任务3-4使用 selenium 库动态提取数据
任务3-5使用 jsonpath 库提取 JSON 数据
小结
习题
项目4认识和应对反爬虫
任务4-1理解网站反爬虫机制
任务4-2反爬虫应对策略
小结
习题
项目5数据存储
任务5-1文件存储
任务5-2使用关系型数据库存储数据
任务5-3使用非关系型数据库 MongoDB 存储数据
小结
习题
项目6并发下载
任务6-1使用单线程技术提取所有图书数据
任务6-2使用多线程技术提取所有图书数据
任务6-3使用协程技术提取所有图书数据
小结
习题
项目7Scrapy 框架
任务7-1使用 scrapy shell 请求图书数据
任务7-2请求图书数据
任务7-3请求所有图书简要数据
任务7-4请求所有图书具体数据
任务7-5Scrapy 框架进阶
小结
习题
参考文献
微课-使用selenium 设置检索条件获取图书检索结果
微课-提取json文件中指定图书数据
课件-Python网络爬虫项目实战(第二版)
案例代码-Python网络爬虫项目实战(第二版)
扫码关注
返回顶部