全国高校暑期大数据 “ Hadoop应用与开发”与“Spark机器学习”师资培训班
Posted DeepCore
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全国高校暑期大数据 “ Hadoop应用与开发”与“Spark机器学习”师资培训班相关的知识,希望对你有一定的参考价值。
现如今大数据、云计算、移动互联网处于高速发展阶段,互联网每天都会产生大量的数据,这些海量的数据资源对我们生活产生了影响,对企业的经营决策进行指导。在这种形势下,大数据已经被视为一种财富、一种资产、一种可以被衡量和计算的价值,大数据将成为不可或缺的战略资源。新技术的发展必然导致大批专业人才的稀缺,对于高校而言,拥有专业的大数据师资队伍将成为高教产业发展的重要环节。而在这个过程中,中国软件产业培训网办公室凭借多年的大数据企业培训、技术咨询、专业师资等优势资源,和各大院校一起共同构建大数据专业人才培养体系,同时欢迎更多的高校能够与本单位联手,共同为中国培养出优秀的云计算、大数据的专业人才!本次培训由北京中科软培科技有限公司具体承办,相关事项如下:
一、课程目标
1、使参加学员全面掌握物大数据相关技术及教学方法;帮助各高校在大数据专业课程体系建设提供全方位、强有力的教学资源和技术支持。
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
4.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop、spark大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。。
5.让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。
二、培训时间
可咨询:13932327338
2018年7月18日-7月25日 杭州(18日全天报到)
2018年8月08日-8月15日 深圳(08日全天报到)
2018年8月22日-8月29日 北京(22日全天报到)
三、培训对象
各高等院校计算机科学技术、网络工程、软件工程、信息工程、信息管理、物联网等相关专业教学带头人及骨干教师;各高校教务处、科研处、信息中心、实验室等领导
各企业大数据架构师、技术总监、数据挖掘负责人、数据挖掘开发工程师
四、培训安排
在本届师资培训安排的实训课程中,来自阿里与高校等专家讲师、一线工程师将结合自主研发的Hadoop课程体系及实验,讲解并带着老师们完成了从实验基础环境的搭建---实验数据的建立---实验数据的导入---数据分析—数据挖掘全过程,以帮助参训教师完整学习Hadoop知识体系,包括实验环境的搭建、使用、数据分析、数据挖掘,给参训老师们有了更加直观的体验。还详细讲解了大数据搜索挖掘平台,通过大数据精准搜索,使其搜索结果自动分组统计。根据关键词提取,聚类、过滤分类等技术流程进行数据挖掘,挖掘出数据的价值。
五、师资力量
张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、大数据挖掘算法等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
蒋老师: 清华大学博士,云计算专家 熟悉主流的云计算平台,并有商业与开源云计算平台的实践经验,对云计算关键技术有深刻了解和实践经验,如分布式系统、虚拟化、分布式文件系统、云存储等,参与并领导多个大型云计算项目。对大数据关键技术有深刻了解和实践经验,如NoSQL数据库、大数据处理、Hadoop、Hive、HBase、Spark等。
六、颁发证书
参加相关培训并通过考试的学员,可以获得:
工业和信息化部颁发的-大数据处理高级工程师。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注:请学员带二寸彩照2张(背面注明姓名)、身份证复印件一张。
七、培训费用及须知
高校特惠价7800元/人(含U盘电子资料、教材、培训费、证书费以及学习用具等费用)
食宿统一安排,费用自理。
八、增值服务
1、协助高校大数据专业共建和课程置换
2、建立大数据联合实验室,协助高校搭建大数据实验平台
3、培养大数据专业讲师,为高校大数据课程储备人才
4、培养大数据应用型人才,面向就业提高学生就业率
5、免费提供大数据相关咨询服务
九、报名方式
请填好报名回执表,并于开班前一周传真或者邮件至会务组,开班前一周我们将发送报到通知,届时请注意查收.
十、培训内容(hadoop3天+Spark机器学习3天)
Hadoop开发 |
课程主题 |
主要内容 |
案例和演示 |
模块一 |
大数据介绍及高校如何开设大数据教学课程
|
1)大数据概念的发展与解析 2)大数据在国内外发展现状 3)大数据在互联网发展现状 4)大数据四个特点分析 5)大数据课程教师需要具备的大数据知识储备 6)大数据相关招聘岗位需求分析 7)大数据技术演进与变革 8)应对 IT 新技术变革,教师知识的储备与提升 9)在哪个层面进行教学 |
精彩案例 高校开设大数据的教学可在多个层面上进行 有条件的高校可以开设云计算专业 不具备条件的高校可以开设大数据方面的课程,介绍大数据的知识,引导学生向大数据方面发展 |
模块二 |
大数据带来的机遇和挑战 |
大数据带来的机遇和挑战 1)大数据能带来什么 、引领社会进入“大数据时代” 2)大数据对国家、社会的作用 、大数据将推动经济发展 3)大数据将推动科技发展进程、开启商业智能新阶段 4)数据分析的发展——从数据到知识 大数据如何让商业更智能、大数据应用案例 5)带来数据处理新变革 、大数据的关键技术 6)大数据与云计算 、大数据技术的发展趋势 |
精彩案例 电信手机上网日志分析 移动 GPRS 上网日志查询系统 某省份联通网络不良信息检测系统 国土资源部门下属单位非结构离线网格分析平台 某银行海量数据统一分析平台 某电信用户属性精分系统 某银行实时计算平台 某电力电台电视节目推荐系统 |
模块三 |
Hadoop在云计算技术的作用和地位 |
u 传统大规模系统存在的问题 u Hadoop概述 u Hadoop分布式文件系统 u MapReduce工作原理 u Hadoop集群剖析
|
|
模块四 |
Hadoop生态系统介绍和演示 |
u Hadoop HDFS 和 MapReduce u Hadoop数据库之HBase u Hadoop数据仓库之Hive u Hadoop数据处理脚本Pig u Hadoop数据接口Sqoop和Flume,Scribe DataX u Hadoop工作流引擎 Oozie |
u 运用Hadoop自下而上构建大规模企业数据仓库 u 暴风影音数据仓库实战解析 |
模块五 |
Hadoop组件详解 |
u Hadoop HDFS 基本结构 u Hadoop HDFS 副本存放策略 u Hadoop NameNode 详解 u Hadoop SecondaryNameNode 详解 u Hadoop DataNode 详解 u Hadoop JobTracker 详解 u Hadoop TaskTracker 详解 |
u Hadoop Mapper类核心代码 u Hadoop Reduce类核心代码 u Hadoop 核心代码 |
模块六 |
Hadoop安装和部署 |
u Hadoop系统模块组件概述 u Hadoop试验集群的部署结构 u Hadoop 安装依赖关系 u Hadoop 生产环境的部署结构 u Hadoop集群部署 u Hadoop 高可用配置方法 u Hadoop 集群简单测试方法 u Hadoop 集群异常Debug方法
|
u Hadoop安装部署实验 u Red hat Linux基础环境搭建 u Hadoop 单机系统版本安装配置 u Hadoop 集群系统版本安装和启动配置 u 使用 Hadoop MapReduce Streaming 快速测试系统 u Hadoopcore-site,hdfs-site,mapred-site 配置详解 |
模块七 |
Hadoop集群规划 |
u Hadoop 集群内存要求 u Hadoop集群磁盘分区 u 集群和网络拓扑要求 u 集群软件的端口配置 |
u 针对NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同组件需求推荐服务器配置 |
模块八 |
MapReduce 算法原理 |
u Hadoop MapReduce 算法的原理和优化思想 u 灵活运用MapReduce 实现算法 |
u 运用MapReduce 构建数据库算法 u Select Sort GrougBy Sum Count u Join 新进流失算法 u 使用 Y-Smart 快速转换SQL 为MapReduce 代码 |
模块九 |
编写MapReduce高级程序 |
u 使用 Hadoop MapReduce Streaming 编程 u MapReduce流程 u 剖析一个MapReduce程序 u 基本MapReduceAPI概念 u 驱动代码 Mapper、Reducer u Hadoop流 u API 使用Eclipse进行快速开发 u 新MapReduce API u MapReduce的优化 u MapReduce的任务调度 u MapReduce编程实战 u 如何利用其他Hadoop相关技术,包括Apache Hive, Apache Pig,Sqoop和Oozie等 u 满足解决实际数据分析问题的高级Hadoop API |
u Hadoop Streaming 和 Java MapReduce Api 差异。 u MapReduce 实现数据库功能 u 利用Combiners来减少中间数据 u 编写Partitioner来优化负载平衡 u 直接访问Hadoop分布式文件系统(HDFS) u Hadoop的join操作 u 辅助排序在Reducer方的合并 u 定制Writables和WritableComparables u 使用SequenceFiles和Avro文件保存二进制数据 u 创建InputFormats OutputFormats u Hadoop的二次排序 u Hadoop的海量日志分析 u 在Map方的合并 |
模块十 |
集成Hadoop到现有工作流 及Hadoop API深入探讨 |
u 存储系统 u 利用Sqoop从关系型数据库系统中导入数据到Hadoop u 利用Flume导入实时数据到Hadoop u ToolRunner介绍、使用MRUnit进行测试 u 使用Configure和Close方法来进行Map/Reduce设置和关闭 |
u 使用FuseDFS和Hadoop访问HDFS u 使用分布式缓存(Distributed Cache) u 直接访问Hadoop分布式文件系统(HDFS) u 利用Combiners来减少中间数据 u 编写Partitioner来优化负载平衡 |
模块十一 |
使用Hive和Pig开发及技巧 |
u Hive和Pig基础 u Hive的作用和原理说明 u Hadoop仓库和传统数据仓库的协作关系 u Hadoop/Hive仓库数据数据流 u Hive 部署和安装 u Hive Cli 的基本用法 u HQL基本语法 u 运用Pig 过滤用户数据 |
u 使用JDBC 连接Hive进行查询和分析 u 使用正则表达式加载数据 u HQL高级语法 u 编写UDF函数 u 编写UDAF自定义函数 u 基于Hive脚本内嵌Streaming 编程 |
模块十二 |
Hbase安装和使用 |
u Hbase 安装部署 u Hbase原理和结构 u Hbase 运维和管理 |
u 使用Hbase+Hive 提供 OLAP SQL查询能力 u 使用Hbase+Phoenix提供 OLTP SQL能力 u 基于Hbase 的时间序列数据库 OpenTsDb 结构解析 |
模块十三 |
Hadoop2.0 集群探索 |
u Hadoop2.0 HDFS 原理 u Hadoop2.0 Yarn 原理 u Hadoop2.0 生态系统 |
u 基于Hadoop2.0 构建分布式系统 |
模块十四 |
Hadoop企业级别案例解析 |
u Hadoop 结构化数据案例 u Hadoop 非结构化案例 u Hbase 数据库案例 u Hadoop 视频分析案例 |
u 利用大数据分析改进交通管理 u 区域医疗大数据应用案例 u 银联大数据数据票据详单平台 u 某银行大数据Spark应用案例详解 u 某证券公司大数据案例介绍 u 广东移动省公司请账单系统 u 上海电信网络优化 u 某通信运营商全国用户上网记录 u 浙江台州市智能交通系统 u 移动广州详单实时查询系统 u 跨区域实时视频监控系统 u 电信大数据案例介绍: u 基于社交网络的精确营销和客户维系 u 基于信令分析用户的移动轨迹 u 基站规划和动态优化 u 智慧城市交通 u 流量分析 u 上海联通大数据开放变现的实现案例介绍 |
模块十五 |
RedHadoop 企业版本 |
u 运用RedHadoop快速构建服务集群 u 运用RedHadoop DW 构建数据仓库 |
u 基于RedHadoop Hive构建数据仓库平台 u 灵活运用 Hive 加速游戏数据仓库 u 基于Pig+OpenCV大规模图像人脸识别 |
模块十六 |
Spark原理和入门 |
u Spark原理;Spark的架构图;Spark运行模式介绍 u —local;—standalone;—messos;—yarn;Spark的RDD u 什么是RDD;RDD的种类;—Tranformation;—Action u Spark的存储级别;Cache介绍;Spark的容错原理 u Lineage容错;Checkpoint容错;RDD的创建 u 案例—统计单词的个数 |
|
模块十七 |
互联网大数据应用案例 |
ü 根阿里的ODPS大数据平台架构介绍 ü 阿里的实时推荐架构 ü 阿里的交叉营销系统 ü 阿里支付宝交易监控系统 ü 支付宝微贷案例分析(互联网征信系统) ü 京东打白条系统分析 ü 百度预测大数据平台案例分析 |
|
机器学习 |
内容提要 |
授课详细内容 |
|
模块一 |
Spark ML基础入门 |
1.1 Spark介绍 1.2 Spark ML介绍 1.3 课程的基础环境 1.4 Spark SparkSession 1.5 Spark Datasets操作 1.6 Datasets操作的代码实操 |
|
模块二 |
Spark ML Pipelines(ML管道) |
2.1 Pipelines的主要概念 2.2 Pipelines实例讲解 2.3 ML操作的代码实操 2.4 使用 ML Pipeline 构建机器学习工作流案例展示 2.5 实例的代码实操声 |
|
模块三 |
Spark ML数学基础 |
3.1 ML矩阵向量计算 3.2 分类效果评估指标及ML实现详解 3.3 交叉-验证方法及ML实现详解 3.4 实例的代码实操 3.5 特征的提取及ML实现详解 3.6特征的转换及ML实现详解 3.7 特征的选择及ML实现详解 3.8 实例的代码实操 |
|
模块四 |
Spark ML特征的提取、转换和选择 |
4.1 线性回归算法 4.2 逻辑回归算法 4.3 ML回归算法参数详解 4.4 ML实例 4.5 实例的代码实操 |
|
模块五 |
Spark ML线性回归/逻辑回归算法 |
5.1 决策树算法 5.2 随机森林算法 5.3 GDBT算法 5.4 ML树模型参数详解 5.5 ML实例 5.6 实例的代码实操 |
|
模块六 |
Spark ML决策树/随机森林/GBDT算法 |
6.1 KMeans聚类算法 6.2 ML KMeans模型参数详解 6.3 ML实例 6.4 实例的代码实操 |
|
模块七 |
Spark ML KMeans聚类算法 |
7.1 LDA主题聚类算法 7.2 ML LDA主题聚类模型参数详解 7.3 ML实例 7.4 实例的代码实操 |
|
模块八 |
Spark ML LDA主题聚类算法 |
8.1 协同过滤推荐算法 8.2 ML协同过滤分布式实现逻辑 8.3 ML协同过滤源码开发 8.4 实现实例 8.5 实例的代码实操 |
|
模块九 |
Spark ML协同过滤推荐算法 |
9.1 案例背景 9.2 架构设计 9.3 数据准备 9.4 模型训练 9.5 模型预测 9.6 脚本封装 |
|
模块十 |
项目实践 |
大型案例:基于Spark的推荐模型开发 |
|
模块十一 |
培训总结 |
项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能 |
以上是关于全国高校暑期大数据 “ Hadoop应用与开发”与“Spark机器学习”师资培训班的主要内容,如果未能解决你的问题,请参考以下文章