0


Spark大数据技术实战教程
作者:潘正军, 赵莲芬丛书名: ISBN:978-7-5685-3994-4页数:0 开本:16装帧:平 出版时间:2023-01-01中图分类:
¥52.80

编辑推荐

Spark是一个大规模数据处理的统一分析引擎;是基于内存计算的大数据分布式计算框架;也是一个快速、分布式、可扩展、容错的集群计算框架。Spark不仅计算速度快,而且内置了丰富的API,能够更加容易地编写程序。Spark具有快速、易用、通用和兼容性等特点。Spark生态系统组件主要包含了SparkSQL、SparkStreaming、StructuredStreaming、GraphX、MLlib等,分别用于各种计算、SQL查询、流数据处理、机器学习等。

Spark计算框架在处理数据时,所有的中间数据都保存在内存中,从而减少磁盘读写操作,提高框架计算效率。同时,Spark还兼容 HDFS、Hive,可以很好地与 Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。因此,Spark是一个更加快速、高效的大数据计算平台。


Spark的编程语言可以 选 择 Scala、Python、R、Java和 SQL。因为 Python有着广泛的应用群体,所以本教材基于 Python语言进行编写。全书共分为10章,包括 Spark概述与运行原理、Spark本地实物环境和集群实物环境搭建、基于 Python开发Spark应用程序、SparkRDD 弹性分布式 数 据 集、SparkSQL 结 构 化 数 据 文件处理、SparkStreaming实时计算框架、StructuredStreaming结

构化流、Spark MLlib机器学习库、基于 Spark的电商网站用户行为统计分析、基于 Spark的餐饮平台菜品智能分析推荐系统。本教材的每一章都配有丰富的实践任务,每个实践任务都有详细的实验步骤和实现代码,可以帮助读者快速巩固所学知识,提升自己的实际应用和开发能力,达到学以致用的目的。


 

第1章 Spark概述与运行原理 ……………………………………………………………… 1

 1.1 Spark概述 …………………………………………………………………………… 1

 1.2 Spark 架构与运行原理 ……………………………………………………………… 5

 1.3 Spark基础实验环境准备 …………………………………………………………… 7

 1.4 实践任务1:Linux虚拟系统安装与配置 …………………………………………… 9

 1.5 实践任务2:Spark本地单机基础实验环境 Hadoop准备 ………………………… 24

 1.6 实践任务3:Spark集群基础实验环境 Hadoop准备 ……………………………… 37

 1.7 小 结 ………………………………………………………………………………… 49

 1.8 习 题 ………………………………………………………………………………… 49

第2章 Spark本地实验环境和集群实验环境搭建 ……………………………………… 50

 2.1 Spark本地实验环境简介 …………………………………………………………… 50

 2.2 Spark集群实验环境简介 …………………………………………………………… 51

 2.3 实践任务1:Spark本地实验环境搭建 ……………………………………………… 52

 2.4 实践任务2:Spark集群实验环境搭建 ……………………………………………… 62

 2.5 小 结 ………………………………………………………………………………… 76

 2.6 习 题 ………………………………………………………………………………… 76

第3章 基于 Python开发Spark应用程序 ………………………………………………… 77

 3.1 基于 Python开发 Spark方式 ……………………………………………………… 77

 3.2 Python编程语言与 PySpark ……………………………………………………… 78

 3.3 PySpark的安装 ……………………………………………………………………… 79

 3.4 PySpark的使用 ……………………………………………………………………… 80

 3.5 spark-submit运行程序 ……………………………………………………………… 83

 3.6 设置 Spark日志输出内容控制 ……………………………………………………… 87

 3.7 实践任务1:使用JupyterNotebook编写 Spark应用程序 ……………………… 89

 3.8 实践任务2:搭建 PyCharm 环境编写 Spark应用程序 ………………………… 101

 3.9 小 结 ……………………………………………………………………………… 106

 3.10 习 题 ……………………………………………………………………………… 107

第4章 SparkRDD 弹性分布式数据集 ………………………………………………… 108

 4.1 RDD 概述 …………………………………………………………………………… 108

 4.2 RDD 创建 …………………………………………………………………………… 111

 4.3 RDD 处理过程 ……………………………………………………………………… 115

 4.4 RDD 持久化机制 …………………………………………………………………… 121

 4.5 RDD 分区 …………………………………………………………………………… 122

 4.6 RDD 的依赖关系 …………………………………………………………………… 123

 4.7 RDD 在 Spark中的运行流程 ……………………………………………………… 125

 4.8 键值对 RDD ………………………………………………………………………… 126

 4.9 实践任务1:词频统计 ……………………………………………………………… 131

 4.10 实践任务2:计算学生“大数据基础”和“Spark”两门课程的平均成绩 ………… 131

 4.11 实践任务3:编写独立应用程序实现求平均值 ………………………………… 132

 4.12 小 结 ……………………………………………………………………………… 134

 4.13 习 题 ……………………………………………………………………………… 134

第5章 SparkSQL结构化数据文件处理 ………………………………………………… 135

 5.1 SparkSQL概述 …………………………………………………………………… 135

 5.2 DataFrame ………………………………………………………………………… 138

 5.3 实践任务1:SparkSQL基本操作 ………………………………………………… 144

 5.4 实践任务2:编程实现将 RDD 转换为 DataFrame ……………………………… 146

 5.5 实践任务3:编程实现使用 DataFrame读写 MySQL数据 ……………………… 150

 5.6 小 结 ……………………………………………………………………………… 156

 5.7 习 题 ……………………………………………………………………………… 156

第6章 SparkStreaming实时计算框架 ………………………………………………… 157

 6.1 实时计算概述 ……………………………………………………………………… 157

 6.2 SparkStreaming概述 ……………………………………………………………… 158

 6.3 Spark 流数据加载 ………………………………………………………………… 159

 6.4 DStream 转换算子 ………………………………………………………………… 161

 6.5 DStream 窗口操作 ………………………………………………………………… 167

 6.6 DStream 输出操作 ………………………………………………………………… 168

 6.7 实践任务1:SparkStreaming基本输入源———文件流的使用…………………… 169

 6.8 实践任务2:SparkStreaming基本输入源———套接字流的使用………………… 172

 6.9 实践任务3:SparkStreaming基本输入源———RDD 队列流的使用 …………… 173

 6.10 实践任务4:词频统计综合案例 ………………………………………………… 174

 6.11 实践任务5:输出操作———把 DStream 写入 MySQL数据库 ………………… 176

 6.12 小 结 ……………………………………………………………………………… 180

 6.13 习 题 ……………………………………………………………………………… 180

第7章 StructuredStreaming结构化流 ………………………………………………… 181

 7.1 StructuredStreaming概述 ………………………………………………………… 181

 7.2 编程模型 …………………………………………………………………………… 183

 7.3 输入源与输出操作 ………………………………………………………………… 185

 7.4 容错处理 …………………………………………………………………………… 186

 7.5 创建 StreamingDataFrame ……………………………………………………… 187

 7.6 输出 StructuredStreaming的结果 ……………………………………………… 188

 7.7 实践任务1:词频统计 WordCount基本案例 …………………………………… 190

 7.8 实践任务2:基于 Spark的广告点击流实时统计 ………………………………… 195

 7.9 实践任务3:基于 Spark的电商成交额实时统计 ………………………………… 200

 7.10 小 结 ……………………………………………………………………………… 206

 7.11 习 题 ……………………………………………………………………………… 206

第8章 SparkMLlib机器学习库 ………………………………………………………… 207

 8.1 机器学习概述 ……………………………………………………………………… 207

 8.2 Spark 机器学习库 MLlib简介 …………………………………………………… 209

 8.3 机器学习工作流 …………………………………………………………………… 211

 8.4 Spark MLlib基本统计 …………………………………………………………… 214

 8.5 分 类 ……………………………………………………………………………… 215

 8.6 推荐模型 …………………………………………………………………………… 215

 8.7 实践任务:基于 Spark的电影推荐系统 …………………………………………… 216

 8.8 小 结 ……………………………………………………………………………… 220

 8.9 习 题 ……………………………………………………………………………… 220

第9章 基于Spark的电商网站用户行为统计分析 ……………………………………… 221

 9.1 用户行为统计分析与设计 ………………………………………………………… 221

 9.2 数据预处理 ………………………………………………………………………… 223

 9.3 Spark读取数据集 ………………………………………………………………… 225

 9.4 使用 SparkSQL进行数据分析 …………………………………………………… 226

 9.5 使用 SparkALS进行商品推荐 …………………………………………………… 227

 9.6 使用 Spark将数据写入 MySQL ………………………………………………… 229

 9.7 利用 PyEcharts进行数据可视化 ………………………………………………… 230

 9.8 小 结 ……………………………………………………………………………… 232

第10章 基于Spark的餐饮平台菜品智能分析推荐系统 ……………………………… 233

 10.1 案例背景 …………………………………………………………………………… 233

 10.2 智能推荐方案需求分析与设计 …………………………………………………… 234

 10.3 数据预处理 ………………………………………………………………………… 238

 10.4 推荐模型构建 ……………………………………………………………………… 240

10.5 使用模型进行推荐 ………………………………………………………………… 241

 10.6 数据分析 …………………………………………………………………………… 243

 10.7 数据可视化 ………………………………………………………………………… 245

 10.8 小 结 ……………………………………………………………………………… 247

参考文献……………………………………………………………………………………… 248


  • Spark大数据技术实战教程-课件

    课程: 计算机类 类型: zip 大小:39.76MB上传时间: 2023-05-23 10:12:20

  • Spark大数据技术实战教程-教学大纲

    课程: 计算机类 类型: docx 大小:33.36KB上传时间: 2023-05-22 14:54:28

全部下载