0


大数据平台与编程
作者:付仲明丛书名: ISBN:978-7-5685-4799-4页数:272 开本:16装帧:平装 出版时间:2024-07-16中图分类:TP274
¥56.80

编辑推荐

本教材分为3,分别是概述篇批处理平台与编程篇和 流处理平台与编程篇:1篇概述包括第1章大数据技术概述,介绍大数据背 景大 数 据 体 系 架 构 和 一 些 重 要 大 数 据 平 台 简 介,以 及Lambda架构的相关知识2篇批处理平台与编程中,2Hadoop概述介绍Hadoop生态系统Hadoop 1.0 Hadoop 2.0;3Hadoop分布式文件系统介绍HDFS的基本特征和架构HDFS可靠性设计HDFS文件系统及其操作命令和 HDFS基本编 程接口;4Hadoop MapReduce给出 MapReduce概述,并介绍 Hadoop MapReduce编程及原理开发进阶和编程实 例;5Spark分布式计算框架介绍 Spark背景Spark生 态系统和 Spark 运行架构,并给出编程实例;6 Spark  RDD编程给出 RDD 概述,并介绍 RDD 编程键值对 RDD 数据分区数据读取与保存和RDD编程进阶;7Spark结构化编程 DataFrame给出 DataFrame概述,并介绍 DataFrame的创建和基础操作3篇流处理平台与编程中,8章流数据模型介绍流数据流式架构和流式架构的组 成部分;9章分布式消息队列Kafka给出 Kafka概述,并介绍 Kafka工作流程和 Kafka API;10Spark Streaming给出Spark Streaming概述,并介绍Spark Streaming工作原 理和 DStream 的创建转换和输出;11 Apache Flink 入门给出 Flink 概述,并介绍Flink运行架构流处理 DataStream API

 

1

1 大数据技术概述…………………

 1.1 大数据背景 ……………………… 3

 1.2 大数据体系架构 ………………… 6 

 1.3 重要大数据平台简介 …………… 9 

 1.4 Lambda架构 …………………… 17 

 1.5 本章小结………………………… 19 

 1.6 本章习题………………………… 20

2 批处理平台与编程

2 Hadoop概述 …………………… 23

 2.1 Hadoop生态系统 ……………… 23 

 2.2 Hadoop 1.0 …………………… 26 

 2.3 Hadoop 2.0 …………………… 28

 2.4 本章小结………………………… 30 

 2.5 本章习题………………………… 30

3 Hadoop分布式文件系统 ……… 31

 3.1 HDFS的基本特征架构和其他 概念……………………………… 31 

 3.2 HDFS可靠性设计……………… 35

 3.3 HDFS文件系统………………… 38 

 3.4 HDFS文件系统操作命令……… 42 

 3.5 HDFS基本编程接口…………… 49 

 3.6 本章小结………………………… 52

 3.7 本章习题………………………… 52

4 Hadoop MapReduce ………… 53 

 4.1 MapReduce概述 ……………… 53

 4.2 Hadoop MapReduce编程 ……… 61 

 4.3 Hadoop MapReduce原理 ……… 72

 4.4 Hadoop MapReduce开发进阶 …… 83 

 4.5 Hadoop MapReduce编程实例 …… 98

 4.6 本章小结 ……………………… 127 

 4.7 本章习题 ……………………… 127

5 Spark分布式计算框架 ……… 128 

 5.1 Spark背景 …………………… 128 

 5.2 Spark生态系统 ……………… 130 

 5.3 Spark运行架构 ……………… 133

 5.4 Spark编程实例 ……………… 140 

 5.5 本章小结 ……………………… 145

 5.6 本章习题 ……………………… 145

6 Spark RDD编程 …………… 146 

 6.1 RDD概述 ……………………… 146 

 6.2 RDD编程 ……………………… 148 

 6.3 键值对 RDD数据分区 ……… 171

 6.4 数据读取与保存 ……………… 174

 6.5 RDD编程进阶 ………………… 180 

 6.6 本章小结 ……………………… 182

 6.7 本章习题 ……………………… 182

7 Spark结构化编程DataFrame 184 

 7.1 DataFrame概述 ……………… 184大数据平台与编程 

 7.2 DataFrame的创建 …………… 186

 7.3 DataFrame的基础操作 ……… 188

 7.4 本章小结 ……………………… 199 

 7.5 本章习题 ……………………… 200

3 流处理平台与编程

8 流数据模型…………………… 203

 8.1 流数据 ………………………… 203 

 8.2 流式架构 ……………………… 204 

 8.3 流式架构的组成部分 ………… 204

 8.4 本章小结 ……………………… 208 

 8.5 本章习题 ……………………… 208

9 分布式消息队列 Kafka …… 209 

 9.1 Kafka 概述 …………………… 209

 9.2 Kafka工作流程 ……………… 214 

 9.3 Kafka API …………………… 220 

 9.4 本章小结 ……………………… 227 

 9.5 本章习题 ……………………… 227

10 Spark Streaming …………… 228 

 10.1 Spark Streaming概述 ……… 228

 10.2 Spark Streaming工作原理 … 229 

 10.3 DStream 创建 ……………… 230 

 10.4 DStream 转换………………… 235 

 10.5 DStream 输出………………… 239 

 10.6 本章小结……………………… 239 

 10.7 本章习题……………………… 240

11 Apache Flink入门 ………… 241

 11.1 Flink 概述 …………………… 241 

 11.2 Flink 运行架构 ……………… 244

 11.3 流处理 DataStream API …… 246 

 11.4 本章小结……………………… 263

 11.5 本章习题……………………… 263 

参考文献……………………………………………………………………………………… 264

  • 课件

    课程: 计算机类 类型: rar 大小:8.31MB上传时间: 2024-09-09 15:11:47

全部下载