0


大数据技术实战教程(第二版)
作者:袁丽娜丛书名: ISBN:978-7-5685-4857-1页数:0 开本:装帧:平装 出版时间:2024-08-06中图分类:TP274
¥53.80

编辑推荐

本教材具有以下特点:

(1)本教材内容系统全面,侧重实战能力培养。同时包含大数据理论知识、实践指导和综合案例,理论和实践内容相互融合、相互补充,综合案例提升实战能力。

(2)本教材实践指导部分采用较新的 Hadoop-3.3.3 版本作为实践环境,实践任务的每一个步骤都非常详细完整,截图清楚。本教材最后还给出了两个综合案例,将所有知识进行融合,具有典型性,便于读者从中学习和实践,以达到理论联系实际、真正学以致用的教学目的。

(3)本教材编写团队深入推进党的二十大精神融入教材,充分认识党的二十大报告提出的“实施科教兴国战略,强化现代人才建设支撑”精神,落实“加强教材建设和管理”新要求,在教材中加入思政元素,紧扣二十大精神,围绕专业育人目标,结合课程特点,注重知识传授、能力培养与价值塑造的统一。

(4)本教材随文提供视频微课供学生即时扫描二维码进行观看,实现了教材的数字化、信息化、立体化,增强了学生学习的自主性与自由性,将课堂教学与课下学习紧密结合,力图为广大读者提供更为全面并且多样化的教材配套服务。

本教材包括12章,每个章节包括理论任务和实践任务,理论联系实际。本 教 材 主 要 介 绍 大 数 据 技 术 概 述、Hadoop 初 体 验、Hadoop分布式文件系统、Hadoop分布式计算框架、NoSQL 数据

库、Hadoop分 布 式 数 据 库 HBase、数 据 仓 库 Hive、大 数 据 采 集、Spark技术、数据可 视 化;除 此 之 外,还 包 括 基 于 Hadoop 的 流 量日志分析和基于 Hadoop的网站用户行为分析与可视化两个综合案例。读者在学习大数据技术的同时,可学会真正使用大数据技术解决问题,增强大数据实战能力。

 

第1章 大数据技术概述……………………………………………………………………… 1

 1.1 理论任务:认识大数据………………………………………………………………… 1

 1.1.1 大数据概念 ……………………………………………………………………… 1

 1.1.2 大数据处理的关键技术 ………………………………………………………… 4

 1.1.3 大数据软件 ……………………………………………………………………… 5

 1.2 实践任务:大数据实验环境…………………………………………………………… 7

 1.2.1 安装虚拟机、Linux系统 ………………………………………………………… 8

 1.2.2 Linux常用命令 ………………………………………………………………… 22

第2章 Hadoop初体验 ……………………………………………………………………… 25

 2.1 理论任务:初识 Hadoop …………………………………………………………… 25

 2.1.1 Hadoop概述 …………………………………………………………………… 26

 2.1.2 Hadoop发展简史 ……………………………………………………………… 26

 2.1.3 Hadoop版本 …………………………………………………………………… 28

 2.1.4 Hadoop生态圈 ………………………………………………………………… 30

 2.2 实践任务:Hadoop安装与配置 …………………………………………………… 36

 2.2.1 安装 Hadoop伪分布式环境 …………………………………………………… 36

 2.2.2 安装 Hadoop分布式环境 ……………………………………………………… 50

第3章 Hadoop分布式文件系统 …………………………………………………………… 66

 3.1 理论任务:了解 HDFS ……………………………………………………………… 66

 3.1.1 认识 HDFS …………………………………………………………………… 66

 3.1.2 HDFS相关概念………………………………………………………………… 67

 3.1.3 HDFS体系结构………………………………………………………………… 69

 3.1.4 HDFS运行原理及保障………………………………………………………… 70

 3.2 实践任务:HDFS基本操作 ………………………………………………………… 73

 3.2.1 使用 HDFSShell访问 ………………………………………………………… 73

 3.2.2 使用JAVA API与 HDFS交互 ……………………………………………… 79

第4章 Hadoop分布式计算框架 …………………………………………………………… 97

 4.1 理论任务:认识 MapReduce………………………………………………………… 97

 4.1.1 MapReduce简介 ……………………………………………………………… 98

 4.1.2 MapReduce编程模型 ………………………………………………………… 99

 4.1.3 MapReduce实例分析 ………………………………………………………… 102

 4.2 实践任务:MapReduce应用开发 ………………………………………………… 104

第5章 NoSQL数据库 …………………………………………………………………… 117

 5.1 理论任务:了解 NoSQL 数据库 …………………………………………………… 117

 5.1.1 NoSQL 简介…………………………………………………………………… 117

 5.1.2 NoSQL 类型…………………………………………………………………… 118

 5.1.3 NoSQL 数据库三大基石……………………………………………………… 119

 5.1.4 从 NoSQL 到 NewSQL 数据库 ……………………………………………… 121

 5.2 实践任务:典型 NoSQL 数据库的安装与应用 …………………………………… 122

 5.2.1 Redis的安装与使用 ………………………………………………………… 122

 5.2.2 MongoDB的安装与应用 …………………………………………………… 130

第6章 Hadoop分布式数据库 HBase ……………………………………………………… 138

 6.1 理论任务:认识 HBase …………………………………………………………… 138

 6.1.1 HBase简介 …………………………………………………………………… 138

 6.1.2 HBase数据模型 ……………………………………………………………… 139

 6.1.3 HBase体系结构 ……………………………………………………………… 143

 6.2 实践任务:HBase基本操作 ……………………………………………………… 145

 6.2.1 HBase安装与配置 …………………………………………………………… 145

 6.2.2 HBaseShell命令 …………………………………………………………… 150

 6.2.3 HBase编程 …………………………………………………………………… 154

第7章 数据仓库 Hive …………………………………………………………………… 165

 7.1 理论任务:认识 Hive ……………………………………………………………… 165

 7.1.1 Hive简介 ……………………………………………………………………… 165

 7.1.2 Hive架构 ……………………………………………………………………… 166

 7.1.3 Hive数据存储模型 …………………………………………………………… 168

 7.2 实践任务:Hive基本操作 ………………………………………………………… 170

 7.2.1 Hive和 MySQL 的安装与配置 ……………………………………………… 170

 7.2.2 HiveQL 常用操作 …………………………………………………………… 177

第8章 大数据采集………………………………………………………………………… 180

 8.1 理论任务:了解大数据采集工作…………………………………………………… 180

 8.1.1 Sqoop简介 …………………………………………………………………… 182

 8.1.2 DataX 简介 …………………………………………………………………… 184

 8.1.3 Flume简介 …………………………………………………………………… 187

 8.1.4 Kafka简介 …………………………………………………………………… 190

 8.1.5 Zookeeper简介 ……………………………………………………………… 192

 8.2 实践任务:大数据采集工具的安装与使用………………………………………… 196

 8.2.1 DataX 安装与使用 …………………………………………………………… 196

 8.2.2 Flume安装与使用 …………………………………………………………… 201

8.2.3 Kafka安装与使用 …………………………………………………………… 207

 8.2.4 Zookeeper安装与使用 ……………………………………………………… 211

第9章 Spark技术 ………………………………………………………………………… 216

 9.1 理论任务:认识 Spark……………………………………………………………… 216

 9.1.1 Spark简介 …………………………………………………………………… 216

 9.1.2 Spark生态圈 ………………………………………………………………… 219

 9.2 实践任务:Spark的安装与编程 …………………………………………………… 220

 9.2.1 Spark安装与配置 …………………………………………………………… 220

 9.2.2SparkShell使用 ……………………………………………………………… 224

第10章 数据可视化 ……………………………………………………………………… 228

 10.1 理论任务:了解数据可视化 ……………………………………………………… 228

 10.1.1 数据可视化概述……………………………………………………………… 228

 10.1.2 可视化工具介绍……………………………………………………………… 231

 10.1.3 数据可视化的未来…………………………………………………………… 233

 10.2 实践任务:典型的可视化工具使用方法 ………………………………………… 234

 10.2.1 使用 ECharts制作图表……………………………………………………… 234

 10.2.2 D3可视化库的使用方法 …………………………………………………… 242

第11章 综合案例1:基于 Hadoop的流量日志分析 …………………………………… 248

 11.1 案例需求分析与设计……………………………………………………………… 248

 11.1.1 案例背景……………………………………………………………………… 248

 11.1.2 案例内容……………………………………………………………………… 248

 11.1.3 案例架构设计………………………………………………………………… 248

 11.1.4 案例流程设计………………………………………………………………… 249

 11.1.5 案例实验环境………………………………………………………………… 249

 11.2 数据采集…………………………………………………………………………… 249

 11.2.1 部署 Flume的 Agent节点 ………………………………………………… 250

 11.2.2 数据上传……………………………………………………………………… 250

 11.2.3 数据内容……………………………………………………………………… 250

 11.3 数据预处理………………………………………………………………………… 251

 11.3.1 编写 MapReduce程序 ……………………………………………………… 251

 11.3.2 运行 MapReduce程序 ……………………………………………………… 251

 11.4 数据仓库…………………………………………………………………………… 252

 11.4.1 设计数据仓库………………………………………………………………… 252

 11.4.2 实现数据仓库………………………………………………………………… 253

 11.5 数据分析…………………………………………………………………………… 256

 11.5.1 人均浏览量分析……………………………………………………………… 256

 11.5.2 查询数据分析结果…………………………………………………………… 257

 11.6 数据导出…………………………………………………………………………… 257

11.6.1 MySQL 创建表 ……………………………………………………………… 257

 11.6.2 使用 Sqoop从 Hive导出数据到 MySQL ………………………………… 258

 11.6.3 在 MySQL 中查看结果 ……………………………………………………… 259

 11.7 数据可视化………………………………………………………………………… 259

第12章 综合案例2:基于 Hadoop的网站用户行为分析与可视化 …………………… 260

 12.1 案例需求分析与设计……………………………………………………………… 260

 12.1.1 案例背景……………………………………………………………………… 260

 12.1.2 案例内容……………………………………………………………………… 260

 12.1.3 案例架构设计………………………………………………………………… 261

 12.1.4 案例流程规划………………………………………………………………… 261

 12.1.5 实验环境……………………………………………………………………… 261

 12.2 数据集的处理……………………………………………………………………… 262

 12.2.1 数据集说明…………………………………………………………………… 262

 12.2.2 数据集的预处理……………………………………………………………… 263

 12.2.3 字段预处理…………………………………………………………………… 264

 12.2.4 数据集的上传………………………………………………………………… 266

 12.3 Hive数据分析 …………………………………………………………………… 268

 12.3.1 操作 Hive …………………………………………………………………… 268

 12.3.2 查询条数统计分析…………………………………………………………… 269

 12.3.3 关键字条件查询分析………………………………………………………… 270

 12.3.4 根据用户行为分析…………………………………………………………… 271

 12.3.5 用户实时查询分析…………………………………………………………… 272

 12.4 Hive、MySQL 和 HBase数据互导 ……………………………………………… 273

 12.4.1 Hive中的预操作 …………………………………………………………… 273

 12.4.2 数据从 Hive导入 MySQL ………………………………………………… 273

 12.4.3 将数据从 MySQL 导入 HBase …………………………………………… 275

 12.4.4 使用 JavaAPI将数据从本地导入 HBase ………………………………… 280

 12.5 利用 R 语言进行数据可视化分析 ……………………………………………… 283

 12.5.1 搭建环境……………………………………………………………………… 283

 12.5.2 数据分析……………………………………………………………………… 287

参考文献……………………………………………………………………………………… 291


  • 大数据技术实战教程——课件

    课程: 大数据技术实战教程 类型: zip 大小:141.64 MB上传时间: 2022-08-05 13:43:42

全部下载
0.749672s