基于Hadoop离线大数据分析平台项目实战

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Hadoop离线大数据分析平台项目实战相关的知识,希望对你有一定的参考价值。

基于Hadoop离线大数据分析平台项目实战 
课程学习入口:http://www.xuetuwuyou.com/course/184
课程出自学途无忧网:http://www.xuetuwuyou.com


课程简介:
某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。
 

课程内容
(1)文件收集框架 Flume
①Flume 设计架构、原理(三大组件)
②Flume 初步使用,实时采集数据
③实际案例:使用Flume监控数据,实时收集存储HDFS中

(2)大数据分析平台架构
①数据平台三大模块
让技术产生价值!
②分析平台业务数据
③大数据平台技术选型和搭建配置测试

(3)数据分析平台七大业务分析
①具体的七大业务分析,针对不同的数据
②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用
④数据处理时,针对不同问题如何优化调整等


 
课程目录:
第1章:大数据离线项目:企业大数据项目业务及设计
1.大数据项目的开发流程  
2.大数据的应用领域(一)
3.大数据的应用领域(二) 
4.大数据分析平台(一) 
5.大数据分析平台(二)
6.数据量及集群规模的规划(一) 
7.数据量及集群规模的规划(二) 
8.企业常见数据分析需求(一) 
9.企业常见数据分析需求(二) 

第2章:大数据离线项目:数据采集框架Flume
10.Flume的介绍及其架构组成 
11.Flume的安装部署
12.Flume的测试运行 
13.Flume中配置使用file channel及HDFS sink
14.Flume中配置HDFS文件生成大小及时间分区 
15.Flume中配置Spooling Dir的使用 
16.Flume中配置Spooling Dir的文件过滤 
17.Flume中配置扇入架构的介绍 
18.Flume中配置扇入架构的测试实现 
19.Flume中配置扇出架构的实现 
20.Flume中Taildir的介绍及编译 
21.Flume中Taildir的配置及测试使用 

第3章:大数据离线项目:nginx+Flume实现数据采集
22.项目技术架构介绍 
23.项目技术架构图
24.项目中框架的技术选型 
25.Tengine的介绍及源码编译 
26.Tengine的启动及测试 
27.配置使用service命令管理nginx服务
28.SDK与Nginx关联测试
29.SDK的设计思路及重要事件类型的介绍 
30.JS SDK 与 JAVA SDK的代码实现 
31.Nginx中配置自定义收集方案 
32.Flume进行数据采集 
33.Flume的负载均衡及故障转移及美团的使用案例 

第4章:大数据离线项目:ETL的业务分析及实现(一)
34.Nginx日志分割脚本的实现(一) 
35.Nginx日志分割脚本的实现(二) 
36.Nginx日志上传脚本的实现 
37.ETL的流程分析 
38.数据分析项目的导入 
39.日志解析类的实现(一) 
40.日志解析类的实现(二) 
41.日志解析类的实现(三) 
42.日志解析类的实现(四) 
43.ETL具体代码流程分析 
44.项目中Hbase表的设计 

第5章:大数据离线项目:ETL的业务分析及实现(二)
45. ETL的Map类的实现(一) 
46.ETL的Map类的实现(二) 
47.ETL的Driver类的实现(一)
48. ETL的Driver类的实现(二) 
49.ETL的Driver类的实现(三) 
50.ETL的本地运行测试 
51. ETL的集群运行测试

第6章:大数据离线项目:数据分析的思路及代码实现
52.新增访客的统计分析实现思路(一) 
53.新增访客的统计分析实现思路(二) 
54.使用MapReduce实现思路分析 
55.Hbase中值和字段的过滤(一) 
56.Hbase中值和字段的过滤(二) 
57.Hbase中值和字段的过滤(三) 
58.新增用户统计Map代码的实现(一) 
59.新增用户统计Map代码的实现(二) 
60.新增用户统计Map代码的实现(三) 
61.新增用户统计Reduce及Driver代码的实现(一)
62.新增用户统计Reduce及Driver代码的实现(二) 

第7章:大数据离线项目:Hourly分析及可视化展示
63.MapReduce中自定义输入输出 
64.新增用户统计代码的讲解(一) 
65.新增用户统计代码的讲解(二) 
66.hourly分析-hbase与hive的集成 
67.hourly分析-活跃用户的分析 
68.hourly分析-会话长度的分析 
69.hourly分析-平均访问时长分析及sqoop导出 
70.使用zeus实现项目任务调度(一) 
71.使用zeus实现项目任务调度(二) 
72.使用zeus实现项目任务调度(三) 
73.使用zeus实现项目任务调度(四) 
74.数据展示层及Highcharts的使用讲解(一) 
75.数据展示层及Highcharts的使用讲解(二) 
76.项目总结(一) 
77.项目总结(二) 



hadoop课程整合推荐:

跟轩宇老师学习大数据基础框架Hadoop
课程观看地址:http://www.xuetuwuyou.com/course/193

Hadoop架构设计与源码分析
课程观看地址:http://www.xuetuwuyou.com/course/88

Hadoop实战+超大集群调优 
课程观看地址:http://www.xuetuwuyou.com/course/97

Hadoop零基础高端实战培训(CDH5、hive、Sqoop) 
课程观看地址:http://www.xuetuwuyou.com/course/62

以上是关于基于Hadoop离线大数据分析平台项目实战的主要内容,如果未能解决你的问题,请参考以下文章

基于Solr的多表join查询加速方法

基于Solr的淘宝商家交易数据实时查询方法

Spark进阶 大数据离线与实时项目实战 Spark-Hbase-Redis-Hadoop 大技术栈的企业级应用 网盘云分享

《大数据开发》Hive

《大数据开发》Hive

《大数据开发》Hive