第一部分:大数据的基础介绍
1.什么是大数据?
2.大数据时代的背景
3.学术上怎么定义大数据?
4.大数据的构成
5.大数据的演进过程
第二部分:大数据带来的影响
1.大数据的关键技术
2.大数据分布式系统的构成
3.计算模式
4.大数据产业
5.大数据与云计算的关系
6.大数据和物联网的关系
第三部分:CentOS系统和Cloudera Manager安装配置
1.VMware虚拟机安装和配置
2.CentOS6.5且64位系统安装
3.简单的配置和遇到的问题
4.动手和实操
5.Cloudera Manager的离线安装
第四部分:Cloudera CDH的安装和配置及环境的测试
1.Cloudera CDH的离线安装的环境准备 和配置,注意事项
2.单机版、伪分布式、真分布式介绍和区别
3.详细介绍了CDH的部署配置,遇到的问题,怎么解决
4.HDFS分布式文件系统的安装配置和测试
5.hdfs的权限配置,目录创建,目录查看等命令的使用
第五部分:开源Hadoop生态圈的介绍
1.Hadoop生态圈
2.组件功能概要
3.Cloudera Manager的介绍
4.CM的硬件监控
5.内存监控
6.硬盘监控
7.预警监控
8.集群监控
第六部分:HDFS分布式文件系统详解
1.什么是分布式文件系统HDFS
2.HDFS基本架构
3.基本概念
4.主要涉及理念
5.hdfs常用命令
6.hdfs的上传文件
7.hdfs的下载文件
8.hdfs的查看数据
9.hdfs优点和缺点
10.例子讲解
第七部分:Sqoop大数据同步工具介绍
1.Sqoop基本介绍
2.基本原理
3.应用场景
4.Sqoop和mysql的连接
5.mysql数据到HDFS
6.HDFS数据到mysql
7.关系型数据库到hive
8.hive到关系型数据库
9.Sqoop优点和缺点
10.例子讲解
第八部分:Eclipse入门使用
1.安装和配置JDK
2.Eclipse基本介绍
3.Eclipse开发
4.开发helloworld的java程序
5.Eclipse的配置
第九部分:MapReduce分布式计算框架详解
1.MapReduce基本介绍
2.为什么要用MR
3.MR是什么
4.工作原理
5.Map的原理
5.Reduce的原理
6.MR例子-单词计数
7.MR的优点和不足
8.例子讲解
9.适用场景
第十部分:Hive 数据仓库及案例
1.Hive 基本介绍
1)Hive 是什么
2)Hive 不是什么
3)Hive 结构图
4)Hive 元数据
5)Hive 和普通关系数据的异同
6)Hive 和 SQL 比较
2.Hive 命令
1)建表
2)显示表
3)修改表
4)load 数据
3.Hive 优化
1)分区概念
2)分区适用场景
3)分区例子
4)优化例子
5)优化建议方案
4.Hive 的用户自定义函数
1)UDF 函数
2)UDAF 函数
3)UDTF 函数
5.Hive 练习和案例
1)练习
2)案例讲解
第十一部分:Impala准实时分析
1.Impala基本介绍
2.技术架构
3.Impala与HIVE的关系
4.基本原理
5.优点和缺点
6.建表
7.加载数据
8.批量处理
9.常用脚本
10.和hive的性能比较
11.和oracle的对比2亿数据性能
12.和oracle的对比12亿数据性能
第十二部分:Hue页面工具详解
1.命令脚本存在的问题
2.为什么需要HUE
3.Hue基本功能
2.Home页面
3.Job Browser页面
4.File Browser页面
5.元数据页面
6.Hive查询页面
7.Impala查询页面
8.创建外部表
9.加载数据
10.查询结果
第十三部分:Hbase列数据库及应用案例
1.Hbase感性认识
1)Hbase简介
2)Hbase特点
3)HBase与RDBMS对比
4)HBase体系结构
5)Hbase常见概念
2.Hbase主要组成
1)HBase基本命令介绍
2)Zookeeper、Hmaster
3)HRegionServer、Region
4)HStore存储、Hfile
5)Hbase内部扫描RowKey的原理
6)Hbase内部读写原理
7)HBase设计原理、架构分析
8)Hadoop+HBase伸缩性(自动扩容、热部署)
9)HBase相关表结构设计(列族、列详细分析)
10)HBase主HMaster与备用HMaster间的切换原理
3.Hbase性能测试
1)测试数据
2)测试过程
3)测试结论
4)和Oracle Rac等进行对比
4.Hbase设计原则和优化
1)Hbase的RowKey设计原则
2)性能参数的设置
3)性能参数的调整
4)模型和性能优化
5.例子讲解
6.项目案例
1)HBase在小米业务的应用
第十四部分:运营商全国用户上网记录案例介绍
1.业务背景
2.难点分析
3.用户需求
4.系统部署
5.技术架构
第十五部分:大数据平台部署及案例
1.hadoop有哪几个版本
2.Hadoop版本介绍
3.CDH和Apache版本主要区别
4.集群硬件应该如何选配?
1)网络拓扑
2)内存
3)硬盘
4)CPU
5)价格
5.集群硬件应该如何选配
6.英特尔Hadoop发行版的介绍
7.英特尔功能增强
8.某省级通信运营商清帐单查询系统
9.为什么采用Hadoop解决方案
10.新清账单中心的部署方案
第十六部分:Kafka详解及应用案例
1.Kafka的基本介绍
1)什么是消息系统?
2)消息队列的分类
3)kafka的基本架构和概念
4)ZooKeeper简介和安装
2.Kafka的原理解析
1)Kafka在ZK上的存储结构
2)Producer的处理逻辑
3)Consumer的处理逻辑
4)Broker的处理逻辑
3.Kafka安装和部署
1)关闭服务
2)下载软件
3)拷贝文件
4)重启服务
5)测试功能是否能用
4.Kafka的Java应用开发
1)Producer端的实现
2)Consumer端的实现
3)程序执行演示
5.Kafka与Hadoop集成
1)Hadoop简介和配置
2)集成Kafka和Hadoop
3)例子演示
6.案例讲解
第十七部分:hadoop衍生数据处理详解例
1.ETL 数据处理介绍
1)ETL 导论
2)ETL 概念
3)ETL 逻辑架构
4)exact 方式
5)增量数据捕获方法
6)数据处理方式
7)数据转换
8)缓慢变化维处理
9)数据仓库 Update 处理
10)ETL 优点
2.Kettle 介绍
1)简介 kettle
2)安装和部署
3)运行
3.Kettle 适用
1)菜单介绍
2)转换
3)作业
4)新建 Ktr
5)新建 Kjb
6)Transformation 菜单介绍
7)Transformation
8)Job 菜单介绍
9)Job 组件介绍
4.Kettle 案例
1)案例准备
2)表准备和说明
3)作业建立过程
4)测试结果检验
5)表到文本文件
6)文本文件到表
5.JAVASCRIPT 的基本应用
6.文件 FTP 下载、上传。
7.作业调用作业、转换。
8.启动脚本说明。
9.JAVA 调用作业、转换
10.kettle 使用原则
11.kettle 练习和案例