第一部份: 生产项目的演进和改造思路
1. 三大生产项目(离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失)业务介绍
2. 离线分析和实时分析的场景介绍
3. 改造思路
4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型
第二部份: 手把手从零搭建开发环境
1. Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装
2. IDEA安装
3. Maven工程构建
4. IDEA调试Spark项目
5. Spark源码编译
6. Spark作业提交方式
第三部份:安全日志上报之Spark Streaming+Kafka保证数据零丢失(一)
1. Spark Streaming 整合Kafka的几种方式对比
2. 彻底搞懂Kafka 消息检索原理
3. 使用Spark Streaming进行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)
4. Spark Streaming保存offset到zookeeper乱码处理
第四部份:安全日志上报之Spark Streaming+Kafka保证数据零丢失(二)
1. 实时作业的at most once、at least once、exactly once语义
2. 方案选型和对比(四种方案)
3. Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。
4. Spark Streming + Kafka(消费) + Kafka(清洗后入)方案和代码实操
第五部份: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(三)
1. SQL on Hbase 实现的几种方式
2. Spark Streming + Kafka(消费) + Hbase(清洗后入)实现exactly once语义方案
3. 代码实操
4. SQL on Hbase 性能优化
第六部份: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(四)
1. Spark 整合Elasticsearch要点和案例实操
2. Spark Streming + Kafka(消费) + Elasticsearch实现exactly once语义方案
3. Spark Streming + Kafka(消费) +Oracle实现exactly once语义方案
4. 代码实操
5 Spark 整合Elasticsearch性能优化
第七部份: 离线日志分析项目(一)
1. 第一版问题分析
2. ETL流程分析
3. Flume+Nginx整合, 数据采集,日志分割
4. Flume如何实现负载均衡和高可用
5. 日志收集系统架构(可用性、可靠性、可扩展性)
第八部份: 离线日志分析项目(二)
1. 文件存储格式对比
2. Spark 整合 Hive
3. 第二版项目方案的演进和代码实操
4. 解决小文件问题
5. 数据质量监控
第九部份: 离线日志分析项目(三)
1. 理解Spark的Stage划分,如何定位导致数据倾斜代码,数据倾斜的场景和需要注意的地方
2. 广播变量使用的坑
3. Spark整合Oracle的表需要注意的地方
4. Spark作业调度异常问题案例汇总
第十部份: 企业预警实时监控
1. 第一版: 使用Spark Streaming清洗数据(Hive动态分区等) + 代码实操
2. 第一版存在的问题分析
3. 第二版项目方案的演进和代码实操
4. 中文乱码问题解决
第十一部份: 通用解决方案
1. Hbase 二级索引
2. Hbase + ElasticSearch整合, 实现海量数据查询
3. 不通场景下, Spark 写数据到Oracle的方案(集群和Oracle服务器网络是否连通等. )
4. Driver内存调优 |