Python网络爬虫项目实战（第二版）

联系编辑

作者：李纪云孙睿

ISBN：978-7-5685-6145-7

中图分类：TP312.8

出版社：大连理工大学出版社

出版时间：2026-01-01

定价：47.80元

加入收藏样书申请

编辑推荐

人工智能应用技术专业核心专业课，微视频讲解重难点，版式精美。

内容简介
教材目录
样章试读
教学资源

本书共分为8个项目，具体如下：

项目1主要介绍爬虫的相关基础知识，包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。

项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。

项目3介绍了解析爬取到网页内容时常用的解析库（Beautiful Soup、lxml）和解析方法，它们可以使提取信息变得简易可行。

项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程，获取异步请求返回的数据。

项目5介绍了网站为什么反爬虫，常见的反爬手段以及应对措施。

项目6介绍了数据存储的常见形式及存储操作，包括 TXT、JSON、CSV 各种文件的存储，以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容，我们可以灵活方便地保存爬取下来的数据。

项目7介绍了使用多线程爬虫和协程爬虫，以此可以提高爬虫效率。

项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。

项目1爬电简介

　任务1-1认识爬虫

　任务1-2认识爬虫的实现原理与流程

　任务1-3认识网页请求过程及原理

　任务1-4爬虫环境搭建

小结

习题

项目2请求网站页面

　任务2-1解析网站爬虫协议

　任务2-2请求图书信息页面

　任务2-3请求图书检索结果页面

　任务2-4请求用户信息验证结果

　任务2-5urllb 库知识点扩充

　任务2-6使用 requests 库请求网页

小结

习题

项目3数据解析

　任务3-1使用 re 库提取图书数据

　任务3-2使用 lxml 库提取图书数据

　任务3-3使用 BeautifulSoup 库提取图书数据

　任务3-4使用 selenium 库动态提取数据

　任务3-5使用 jsonpath 库提取 JSON 数据

小结

习题

项目4认识和应对反爬虫

　任务4-1理解网站反爬虫机制

　任务4-2反爬虫应对策略

小结

习题

项目5数据存储

　任务5-1文件存储

　任务5-2使用关系型数据库存储数据

　任务5-3使用非关系型数据库 MongoDB 存储数据

小结

习题

项目6并发下载

　任务6-1使用单线程技术提取所有图书数据

　任务6-2使用多线程技术提取所有图书数据

　任务6-3使用协程技术提取所有图书数据

小结

习题

项目7Scrapy 框架

　任务7-1使用 scrapy shell 请求图书数据

　任务7-2请求图书数据

　任务7-3请求所有图书简要数据

　任务7-4请求所有图书具体数据

　任务7-5Scrapy 框架进阶

小结

习题

参考文献

微课-使用selenium 设置检索条件获取图书检索结果

所属课程： Python网络爬虫类型：mp4 大小：9.89 MB 上传时间： 2026-06-03 15:50:31

预览更多微课资源请扫描
教材中的二维码
微课-提取json文件中指定图书数据

所属课程： Python网络爬虫类型：mp4 大小：8.43 MB 上传时间： 2026-06-03 15:50:55

预览更多微课资源请扫描
教材中的二维码
课件－Python网络爬虫项目实战（第二版）

所属课程： Python网络爬虫类型：zip 大小：10.34MB 上传时间： 2026-06-03 15:39:17

下载
案例代码－Python网络爬虫项目实战（第二版）

所属课程： Python网络爬虫类型：zip 大小：654.16KB 上传时间： 2026-06-03 15:49:37

下载

全部下载

购买方式

联系编辑

相关教材

Python网络爬虫项目实战（第二版）

编辑推荐

出版分社导航