项目 1 Hive 数据仓库安装与使用基础 ........................................1
1.1 项目背景 ................................................................................................................. 1
1.2 项目知识准备 ........................................................................................................ 2
1.2.1 什么是 Hive ? .................................................................................................. 2
1.2.2 Hive 的起源和背景 ........................................................................................... 2
1.2.3 Hive 的特性和优势 ........................................................................................... 3
1.2.4 Hive 系统架构 ................................................................................................... 4
1.2.5 Hive 数据模型 ................................................................................................... 6
1.2.6 Hive 工作原理 ................................................................................................... 7
1.2.7 Hive 执行流程 ................................................................................................... 7
1.2.8 Hive 学习社区 ................................................................................................... 8
1.3 项目设计与准备.................................................................................................... 8
1.4 项目实施............................................................................................................... 12
1.4.1 任务 1-1 部署虚拟机环境 .......................................................................... 12
1.4.2 任务 1-2 部署 CentOS 操作系统 ................................................................ 18
1.4.3 任务 1-3 配置 CentOS 阿里 YUM 源.......................................................... 24
1.4.4 任务 1-4 安装系统依赖环境 ...................................................................... 26
1.4.5 任务 1-5 部署 Hadoop 集群环境................................................................ 46
1.4.6 任务 1-6 部署 Hive 数据仓库..................................................................... 56
1.5 项目实训 搭建高可用 Hive 数据仓库集群................................................ 66
1.6 练习题................................................................................................................... 68
项目 2 Hive 数据仓库开发入门............................................... 71
2.1 项目背景............................................................................................................... 71
2.2 项目知识准备...................................................................................................... 72
2.2.1 什么是大数据?.............................................................................................. 72
2.2.2 什么是数据仓库?.......................................................................................... 73
2.2.3 Hive 与传统数据库的对比............................................................................. 74
2.2.4 数据库操作相关概念...................................................................................... 74
2.3 项目设计与准备 ................................................................................................. 75
2.4 项目实施.............................................................................................................. 76
2.4.1 任务 2-1 掌握 HiveQL 基础概念................................................................ 76
2.4.2 任务 2-2 熟悉 HiveQL 基本语法................................................................ 79
2.4.3 任务 2-3 实现 Hive 表数据操作................................................................. 91
2.4.4 任务 2-4 运用 HiveQL 进阶查询.............................................................. 102
2.4.5 任务 2-5 使用 Hive 内置函数................................................................... 115
2.5 项目实训 HiveQL 操作实践 ..................................................................... 126
2.6 练习题 ................................................................................................................ 129
项目 3 Hive 数据仓库设计与优化.......................................... 131
3.1 项目背景............................................................................................................. 131
3.2 项目知识准备.................................................................................................... 132
3.2.1 Hive 的索引 ................................................................................................... 132
3.2.2 SQL 解析器、编译器、优化器、执行器 ................................................... 133
3.2.3 行式存储及列式存储.................................................................................... 133
3.2.4 什么是数据倾斜?........................................................................................ 134
3.3 项目设计与准备 ............................................................................................... 134
3.4 项目实施............................................................................................................ 136
3.4.1 任务 3-1 设计数据模型 ............................................................................ 136
3.4.2 任务 3-2 调优 Hive 系统........................................................................... 144
3.4.3 任务 3-3 优化 HiveQL 查询...................................................................... 150
3.5 项目实训一 Hive 数据仓库模型设计实践.............................................. 158
3.6 项目实训二 Hive 数据仓库优化实践....................................................... 160
3.7 练习题 ................................................................................................................ 161
项目 4 Hive 数据仓库综合应用实践....................................... 163
4.1 项目背景............................................................................................................. 163
4.2 项目知识准备.................................................................................................... 164
4.2.1 Hive 现有的挑战和趋势............................................................................... 164
4.2.2 Hadoop 生态系统........................................................................................... 165
4.2.3 数据可视化工具............................................................................................ 171
4.3 项目设计与准备 ............................................................................................... 172
4.4 项目实施............................................................................................................ 174
4.4.1 任务 4-1 开发与运用 Hive 自定义函数 .................................................. 174
4.4.2 任务 4-2 集成与运用 Hive 与数据可视化工具 ...................................... 187
4.5 项目实训 Hive 综合应用实践 - 收益分析 ............................................. 197
4.6 练习题 ................................................................................................................ 197
项目 5 Hive 数据仓库应用案例分析....................................... 199
5.1 项目背景............................................................................................................. 199
5.2 项目知识准备.................................................................................................... 201
5.2.1 Hive 新兴应用场景 ....................................................................................... 201
5.2.2 Hive 与人工智能、机器学习、深度学习的结合展望 .............................. 201
5.2.3 Hive 在数据处理与分析领域的未来发展趋势........................................... 202
5.3 项目设计与准备 ............................................................................................... 204
5.4 项目实施............................................................................................................ 206
5.4.1 任务 5-1 Hive 综合实践一 :实施影视视频网站统计分析 .................. 206
5.4.2 任务 5-2 Hive 综合实践二 :执行网站流量日志数据分析 .................. 210
5.5 项目实训 Hive 综合应用实践:社交媒体数据分析............................. 251
5.6 练习题 ................................................................................................................ 253
参考文献 .......................................................................... 255