0


大数据分析与挖掘
作者:杨雪峰, 吴圭亮, 曾俊丛书名:新世纪高等职业教育大数据技术专业系列规划教材 ISBN:978-7-5685-4401-6页数:292 开本:16装帧:活页式 出版时间:2023-12-01中图分类:①TP274
¥65.00

编辑推荐

本教材以“岗课赛证”一体化教学模式,使学生掌握大数据技术专业所需的知识与技能,培养学生职业能力和职业素养。本教材是省级精品课程配套教材,配有微课、教学课件、教案、源代码等资源,类型多样、分布合理。每个项目都配备了习题,给读者提供了很多的练习资源,并且提供了完整代码,可以边学边练,起到巩固和提高的目的。

  党的二十大报告指出:坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天强国、交通强国、网络强国、数字中国。加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。优化基础设施布局、结构、功能和系统集成,构建现代化基础设施体系。编者注重加强学生的社会主义核心价值观教育,在教材中融入价值观引导,培养学生树立正确的价值观,提升学生大数据应用开发的技术水平,提高学生解决问题的能力,培养德技并修人才。

  本教材以任务驱动为主线,基于大数据平台搭建、数据采集选型和流程设计、数据采集系统环境搭建、数据分析、数据可视化的企业级项目处理流程展开,由简到繁,全面展示了全国职业技能大赛大数据技术与应用赛项的技能要点。主要内容包括大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据的分析、数据的可视化等,详细讲述了NumPy数值分析、Pandas统计分析、基于Matplotlib的数据可视化、Hadoop平台及组件部署、Spark组件部署、数据采集等内容,最后通过“项目实战——零售行业数据分析”和“用户分析系统”的综合实战项目,让学生了解大数据技术在企业中的实际应用。

  本教材以“岗课赛证”一体化教学模式,使学生掌握大数据技术专业所需的知识与技能,培养学生职业能力和职业素养。本教材是省级精品课程配套教材,配有微课、教学课件、教案、源代码等资源,类型多样、分布合理。每个项目都配备了习题,给读者提供了很多的练习资源,并且提供了完整代码,可以边学边练,起到巩固和提高的目的。

  在编写本教材的过程中,编者参考、引用和改编了国内外出版物中的相关资料及网络资源,在此表示深深的谢意!相关著作权人看到本教材后,请与出版社联系,出版社将按照相关法律的规定支付稿酬。

  由于时间仓促,再加上编者水平有限,书中难免有错误和疏漏之处,敬请广大读者批评指正。


 

项目1 NumPy数值分析 …………………………………………………………………… 1

任务1.1 认识ndarray …………………………………………………………………… 1

任务1.2 NumPy的函数及文件操作 …………………………………………………… 31


项目2 Pandas统计分析 …………………………………………………………………… 39

任务2.1 认识 Pandas库 ………………………………………………………………… 39

任务2.2 Pandas库的索引操作 ………………………………………………………… 63

任务2.3 Pandas库的数据排序和统计函数 …………………………………………… 67


项目3 基于 Matplotlib的数据可视化 …………………………………………………… 75

任务3.1 认识 Matplotlib ……………………………………………………………… 76

任务3.2 基本图形的绘制 ……………………………………………………………… 81


项目4 Hadoop平台及组件部署 …………………………………………………………… 89

任务4.1 Hadoop平台及搭建步骤 ……………………………………………………… 89

任务4.2 Hive组件及搭建步骤 ……………………………………………………… 112


项目5 Spark组件部署 …………………………………………………………………… 125

任务5.1 Spark组件及搭建步骤 ……………………………………………………… 125

任务5.2 ZooKeeper组件及搭建步骤 ………………………………………………… 139


项目6 数据采集 …………………………………………………………………………… 149

任务6.1 数据采集技术概述 …………………………………………………………… 149

任务6.2 分析明确采集对象 …………………………………………………………… 152

任务6.3 构造采集请求 ………………………………………………………………… 161

任务6.4 实现数据爬取 ………………………………………………………………… 175

任务6.5 日志数据采集 ………………………………………………………………… 186

任务6.6 Scrapy框架 …………………………………………………………………… 200


项目7 项目实战———零售行业数据分析 ………………………………………………… 213

任务7.1 大数据平台及组件的部署管理 ……………………………………………… 214

任务7.2 数据采集与处理 ……………………………………………………………… 219

任务7.3 数据清洗与挖掘分析 ………………………………………………………… 224

任务7.4 数据可视化 …………………………………………………………………… 232


项目8 用户分析系统 ……………………………………………………………………… 259

任务8.1 日志数据生成 ………………………………………………………………… 259

任务8.2 日志数据分析 ………………………………………………………………… 270


参考文献……………………………………………………………………………………… 27