X
0


购买方式

联系编辑

编辑:李老师

QQ:44846277

电话:0411-84707492

邮箱:

相关教材

Python网络爬虫项目实战

李纪云 孙睿

978-7-5685-3542-7

TP311.561

大连理工大学出版社

2021-11-01

51.80元

编辑推荐

                          人工智能应用技术专业核心专业课,微视频讲解重难点,版式精美。                        

  • 内容简介
  • 教材目录
  • 样章试读
  • 教学资源

本书共分为8个项目,具体如下:

项目1主要介绍爬虫的相关基础知识,包括爬虫的概念、分类、实现原理、网络请求原理以及Python开发环境的安装。

项目2介绍了爬取网站表层页面。主要使用了Python爬虫标准库urllib和常用的三方库requests。

项目3介绍了解析爬取到网页内容时常用的解析库(Beautiful Soup、lxml)和解析方法,它们可以使提取信息变得简易可行。

项目4介绍了爬取深层页面所使用的技术。分析异步请求的过程,获取异步请求返回的数据。

项目5介绍了网站为什么反爬虫,常见的反爬手段以及应对措施。

项目6介绍了数据存储的常见形式及存储操作,包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB 存储的基本存储操作。学会了这些内容,我们可以灵活方便地保存爬取下来的数据。

项目7介绍了使用多线程爬虫和协程爬虫,以此可以提高爬虫效率。

项目8介绍了常用的爬虫框架Scrapy及其爬取网页的具体流程。

 

项目1 爬虫简介 …………………………………………………………… 1

任务1-1 认识爬虫 …………………………………………………………………………… 1

任务1-2 爬虫的实现流程 …………………………………………………………………… 6

任务1-3 网页请求原理 …………………………………………………………………… 11

任务1-4 爬虫环境搭建 …………………………………………………………………… 21

小 结 ………………………………………………………………………………………… 28

习 题 ………………………………………………………………………………………… 28


项目2 爬取网站表层页面 ……………………………………………… 30

任务2-1 爬取网站首页 …………………………………………………………………… 30

任务2-2 爬取图书检索页面 ……………………………………………………………… 33

任务2-3 爬取用户信息验证结果 ………………………………………………………… 37

任务2-4 urllib库知识点扩充 ……………………………………………………………… 40

任务2-5 使用urllib3库爬取网站页面 …………………………………………………… 50

任务2-6 使用requests库爬取网页 ……………………………………………………… 55

小 结 ………………………………………………………………………………………… 61

习 题 ………………………………………………………………………………………… 62


项目3 网页内容解析 …………………………………………………… 63

任务3-1 使用re库解析新闻数据 ………………………………………………………… 63

任务3-2 使用lxml库解析新闻页面 ……………………………………………………… 73

任务3-3 使用 BeautifulSoup解析新闻页面 ……………………………………………… 87

任务3-4 JSON 数据解析 …………………………………………………………………… 95

小 结 ………………………………………………………………………………………… 99

习 题 ………………………………………………………………………………………… 99


项目4 爬取网站动态页面 ……………………………………………… 101

任务4-1 爬取网站深层页面 ……………………………………………………………… 101

任务4-2 使用selenium 库爬取网页 ……………………………………………………… 108

任务4-3 使用selenium 库实现用户验证 ………………………………………………… 112

小 结………………………………………………………………………………………… 115

习 题………………………………………………………………………………………… 115


项目5 认识和应对反爬虫 ……………………………………………… 116

任务5-1 为什么反爬虫 …………………………………………………………………… 116

任务5-2 反爬虫应对策略 ………………………………………………………………… 118

小 结………………………………………………………………………………………… 142

习 题………………………………………………………………………………………… 142


项目6 数据存储 ………………………………………………………… 143

任务6-1 文件存储 ………………………………………………………………………… 143

任务6-2 使用关系型数据库存储数据 …………………………………………………… 155

任务6-3 使用非关系型数据库 MongoDB存储数据 …………………………………… 178

小 结………………………………………………………………………………………… 187

习 题………………………………………………………………………………………… 188


项目7 并发下载 ………………………………………………………… 189

任务7-1 使用多线程实现并发爬取 ……………………………………………………… 189

任务7-2 使用协程技术实现爬虫 ………………………………………………………… 208

小 结………………………………………………………………………………………… 211

习 题………………………………………………………………………………………… 211


项目8 Scrapy框架 ……………………………………………………… 212

任务8-1 使用scrapyshell爬取网站页面 ……………………………………………… 212

任务8-2 创建Spider并爬取网站首页 …………………………………………………… 221

任务8-3 创建Spider并爬取新闻页面 …………………………………………………… 226

任务8-4 爬取所有新闻 …………………………………………………………………… 229

任务8-5 依次爬取大连理工大学出版社新闻列表 ……………………………………… 233

小 结………………………………………………………………………………………… 238

习 题………………………………………………………………………………………… 239


参考文献 …………………………………………………………………… 240


  • 微课-1爬虫的概念和应用

    所属课程: Python网络爬虫 类型:mp4 大小:9.89 MB 上传时间: 2022-07-28 10:45:07
  • 微课-2爬虫的分类

    所属课程: Python网络爬虫 类型:mp4 大小:8.43 MB 上传时间: 2022-07-28 10:45:07
  • 课件-Python网络爬虫项目实战

    所属课程: Python网络爬虫 类型:rar 大小:7.83MB 上传时间: 2023-02-01 14:26:18
  • 代码-Python网络爬虫项目实战

    所属课程: Python网络爬虫 类型:rar 大小:91.52KB 上传时间: 2023-02-01 14:26:46
  • 教案-Python网络爬虫项目实战

    所属课程: Python网络爬虫 类型:rar 大小:120.87KB 上传时间: 2023-12-27 16:12:45
  • 课后题参考答案-Python网络爬虫项目实战

    所属课程: Python网络爬虫 类型:docx 大小:16.75KB 上传时间: 2023-12-27 16:13:27
全部下载

很抱歉!您正在使用的浏览器版本过低,无法正常使用我们的网站,请升级后再试!

为获得最佳浏览体验,建议您升级或使用其他浏览器,我们列出了一些最受欢迎的浏览器供您尝试: