基于Hadoop离线大数据分析平台项目实战
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Hadoop离线大数据分析平台项目实战相关的知识,希望对你有一定的参考价值。
基于Hadoop离线大数据分析平台项目实战课程学习入口:http://www.xuetuwuyou.com/course/184
课程出自学途无忧网:http://www.xuetuwuyou.com
课程简介:
某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。
课程内容
(1)文件收集框架 Flume
①Flume 设计架构、原理(三大组件)
②Flume 初步使用,实时采集数据
③实际案例:使用Flume监控数据,实时收集存储HDFS中
(2)大数据分析平台架构
①数据平台三大模块
让技术产生价值!
②分析平台业务数据
③大数据平台技术选型和搭建配置测试
(3)数据分析平台七大业务分析
①具体的七大业务分析,针对不同的数据
②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用
④数据处理时,针对不同问题如何优化调整等
课程目录:
第1章:大数据离线项目:企业大数据项目业务及设计
1.大数据项目的开发流程
2.大数据的应用领域(一)
3.大数据的应用领域(二)
4.大数据分析平台(一)
5.大数据分析平台(二)
6.数据量及集群规模的规划(一)
7.数据量及集群规模的规划(二)
8.企业常见数据分析需求(一)
9.企业常见数据分析需求(二)
第2章:大数据离线项目:数据采集框架Flume
10.Flume的介绍及其架构组成
11.Flume的安装部署
12.Flume的测试运行
13.Flume中配置使用file channel及HDFS sink
14.Flume中配置HDFS文件生成大小及时间分区
15.Flume中配置Spooling Dir的使用
16.Flume中配置Spooling Dir的文件过滤
17.Flume中配置扇入架构的介绍
18.Flume中配置扇入架构的测试实现
19.Flume中配置扇出架构的实现
20.Flume中Taildir的介绍及编译
21.Flume中Taildir的配置及测试使用
第3章:大数据离线项目:nginx+Flume实现数据采集
22.项目技术架构介绍
23.项目技术架构图
24.项目中框架的技术选型
25.Tengine的介绍及源码编译
26.Tengine的启动及测试
27.配置使用service命令管理nginx服务
28.SDK与Nginx关联测试
29.SDK的设计思路及重要事件类型的介绍
30.JS SDK 与 JAVA SDK的代码实现
31.Nginx中配置自定义收集方案
32.Flume进行数据采集
33.Flume的负载均衡及故障转移及美团的使用案例
第4章:大数据离线项目:ETL的业务分析及实现(一)
34.Nginx日志分割脚本的实现(一)
35.Nginx日志分割脚本的实现(二)
36.Nginx日志上传脚本的实现
37.ETL的流程分析
38.数据分析项目的导入
39.日志解析类的实现(一)
40.日志解析类的实现(二)
41.日志解析类的实现(三)
42.日志解析类的实现(四)
43.ETL具体代码流程分析
44.项目中Hbase表的设计
第5章:大数据离线项目:ETL的业务分析及实现(二)
45. ETL的Map类的实现(一)
46.ETL的Map类的实现(二)
47.ETL的Driver类的实现(一)
48. ETL的Driver类的实现(二)
49.ETL的Driver类的实现(三)
50.ETL的本地运行测试
51. ETL的集群运行测试
第6章:大数据离线项目:数据分析的思路及代码实现
52.新增访客的统计分析实现思路(一)
53.新增访客的统计分析实现思路(二)
54.使用MapReduce实现思路分析
55.Hbase中值和字段的过滤(一)
56.Hbase中值和字段的过滤(二)
57.Hbase中值和字段的过滤(三)
58.新增用户统计Map代码的实现(一)
59.新增用户统计Map代码的实现(二)
60.新增用户统计Map代码的实现(三)
61.新增用户统计Reduce及Driver代码的实现(一)
62.新增用户统计Reduce及Driver代码的实现(二)
第7章:大数据离线项目:Hourly分析及可视化展示
63.MapReduce中自定义输入输出
64.新增用户统计代码的讲解(一)
65.新增用户统计代码的讲解(二)
66.hourly分析-hbase与hive的集成
67.hourly分析-活跃用户的分析
68.hourly分析-会话长度的分析
69.hourly分析-平均访问时长分析及sqoop导出
70.使用zeus实现项目任务调度(一)
71.使用zeus实现项目任务调度(二)
72.使用zeus实现项目任务调度(三)
73.使用zeus实现项目任务调度(四)
74.数据展示层及Highcharts的使用讲解(一)
75.数据展示层及Highcharts的使用讲解(二)
76.项目总结(一)
77.项目总结(二)
hadoop课程整合推荐:
跟轩宇老师学习大数据基础框架Hadoop
课程观看地址:http://www.xuetuwuyou.com/course/193
Hadoop架构设计与源码分析
课程观看地址:http://www.xuetuwuyou.com/course/88
Hadoop实战+超大集群调优
课程观看地址:http://www.xuetuwuyou.com/course/97
Hadoop零基础高端实战培训(CDH5、hive、Sqoop)
课程观看地址:http://www.xuetuwuyou.com/course/62
以上是关于基于Hadoop离线大数据分析平台项目实战的主要内容,如果未能解决你的问题,请参考以下文章
Spark进阶 大数据离线与实时项目实战 Spark-Hbase-Redis-Hadoop 大技术栈的企业级应用 网盘云分享