X
0


购买方式

联系编辑

编辑:李老师H

QQ:44846277

电话:0411-84707492

邮箱:

相关教材

Python网络爬虫项目实战(第二版)

李纪云 孙睿

978-7-5685-6145-7

TP312.8

大连理工大学出版社

2026-01-01

47.80元

编辑推荐

                          人工智能应用技术专业核心专业课,微视频讲解重难点,版式精美。                        

  • 内容简介
  • 教材目录
  • 样章试读
  • 教学资源

本书共分为8个项目,具体如下:

项目1主要介绍爬虫的相关基础知识,包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。

项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。

项目3介绍了解析爬取到网页内容时常用的解析库(Beautiful Soup、lxml)和解析方法,它们可以使提取信息变得简易可行。

项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程,获取异步请求返回的数据。

项目5介绍了网站为什么反爬虫,常见的反爬手段以及应对措施。

项目6介绍了数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。

项目7介绍了使用多线程爬虫和协程爬虫,以此可以提高爬虫效率。

项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。

 

项目1爬电简介

 任务1-1认识爬虫 

 任务1-2认识爬虫的实现原理与流程

 任务1-3认识网页请求过程及原理

 任务1-4爬虫环境搭建

小结

习题


项目2请求网站页面

 任务2-1解析网站爬虫协议

 任务2-2请求图书信息页面

 任务2-3请求图书检索结果页面

 任务2-4请求用户信息验证结果

 任务2-5urllb 库知识点扩充

 任务2-6使用 requests 库请求网页

小结

习题


项目3数据解析

 任务3-1使用 re 库提取图书数据

 任务3-2使用 lxml 库提取图书数据

 任务3-3使用 BeautifulSoup 库提取图书数据

 任务3-4使用 selenium 库动态提取数据

 任务3-5使用 jsonpath 库提取 JSON 数据

小结

习题


项目4认识和应对反爬虫

 任务4-1理解网站反爬虫机制

 任务4-2反爬虫应对策略

小结

习题


项目5数据存储

 任务5-1文件存储

 任务5-2使用关系型数据库存储数据

 任务5-3使用非关系型数据库 MongoDB 存储数据

小结

习题


项目6并发下载

 任务6-1使用单线程技术提取所有图书数据

 任务6-2使用多线程技术提取所有图书数据

 任务6-3使用协程技术提取所有图书数据

小结

习题


项目7Scrapy 框架

 任务7-1使用 scrapy shell 请求图书数据

 任务7-2请求图书数据

 任务7-3请求所有图书简要数据

 任务7-4请求所有图书具体数据

 任务7-5Scrapy 框架进阶

小结

习题


参考文献


  • 微课-使用selenium 设置检索条件获取图书检索结果

    所属课程: Python网络爬虫 类型:mp4 大小:9.89 MB 上传时间: 2026-06-03 15:50:31
  • 微课-提取json文件中指定图书数据

    所属课程: Python网络爬虫 类型:mp4 大小:8.43 MB 上传时间: 2026-06-03 15:50:55
  • 课件-Python网络爬虫项目实战(第二版)

    所属课程: Python网络爬虫 类型:zip 大小:10.34MB 上传时间: 2026-06-03 15:39:17
  • 案例代码-Python网络爬虫项目实战(第二版)

    所属课程: Python网络爬虫 类型:zip 大小:654.16KB 上传时间: 2026-06-03 15:49:37
全部下载

很抱歉!您正在使用的浏览器版本过低,无法正常使用我们的网站,请升级后再试!

为获得最佳浏览体验,建议您升级或使用其他浏览器,我们列出了一些最受欢迎的浏览器供您尝试: