合格大数据分析师应该具备的技能
Posted mschen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了合格大数据分析师应该具备的技能相关的知识,希望对你有一定的参考价值。
阶段一、业务数据分析师
课程一、数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧
本部分内容主要介绍了数据挖掘、分析师、数据产品经理必备的常用工具的,主要有 Excel,Visio,Xmind,PPT的涉及图表数据分析方面的高级技巧,包括但不限于:数据透视表演练、Vision跨职能流程图演练、Xmind项目计划导图演练、PPT高级动画技巧等!
一、Excel
1)数据分析工具EXECL入门介绍 |
二、Visio
1)流程图visio入门介绍 |
三、Xmind
1) 思维导图xmind入门介绍 |
四、 PPT
1) 办公PPT入门介绍 |
课程二、数据挖掘/分析师之硬技能 - 零基础到数据挖掘精通(Excel、Oracle、SPSS初步)
本课程介绍了数据挖掘技术基本的概念、功能、使用人员所需能力、使用方式以及数据挖掘部分主流算法实现方式。课程中嵌入了oracle数据库和办公软件excel,
这两款软件主要用于存储及处理数据挖掘所需的数据,其中还使用excel作为简单入门工具对数据挖掘进行了算法实现,该部分主要用于帮助大家对数据挖掘相关知
识有一个全面和大概的了解。在此基础上,后期使用数据挖掘专业工具SPSS MODELER结合一些案例对之前的excle实现的挖掘算法部分进行了深入学习以及增加了
一些SPSS MODELER自带的算法模块讲解。课程除了主要讲解了数据挖掘知识和技术,同时其中还涉及了部分oracle数据库知识、sql语句和excel的函数运用。
一、数据挖掘基础内容讲解
1)数据挖掘初探之功能介绍 |
二、SPSS MODELER数据挖掘
1)SPSS Modeler 下载安装及常规数据操作 |
课程三、数据挖掘/分析师之软技能 - 数据分析入门
本课程让学员明确数据分析思路和主要步骤,了解互联网分行业关键数据指标,熟练掌握常用的数据分析方法和数据分析方法的应用,熟练掌握数据分析报告的结构和应用。
1)数据分析概念、作用和步骤 |
4)数据图表讲解 |
课程四、数据挖掘/分析师之软技能 - 实战需求分析
本部分内容主要包括两份重要文档的编写商业需求与文档撰写格式技巧(BRD)和市场需求分析与文档撰写技巧(MRD)
一、商业需求与文档撰写格式技巧(BRD)
1)行业分析-PEST宏观环境的分析 |
二、市场需求分析与文档撰写技巧(MRD)
1)如何构建用户画像、理解用户行为,真正理解用户需求 |
课程五、数据挖掘/分析师之软技能 - 实战竞品分析
1、本课程让学员真正了解竞品分析的用途、流程、方法,能够在正确的时间点,找到正确的竞品,并用恰当的方法,做出准确的分析,最终得出的结果有利于在产
品定位的时候,确定需要学习、避免和差异化的点。 2、另外本课程选取体现互联网/移动互联网行业热点的App,以及部分优质的App;讲述其战略定位、行业标
杆产品、自身在行业中排名、主要功能、差异化特色、盈利模式及逻辑、用户体验设计。使得学员通过学习,达到以下目标:第一,了解互联网及移动互联网的各个
领域;第二,了解互联网各行业的热点,提升择业能力;第三,了解优秀App的定位、设计、盈利模式,这对将来数据分析师的工作和实践非常有用;第四,培养产品感和分析产品的思路和能力;第五,通过对比,掌握同类产品定位、设计差异的缘由,从而能够举一反三,设计出自己的、有差异化特色和竞争力的产品。
一、竞品分析
1)什么是竞品 |
二、热门各互联网行业 APP分析
1)2016年互联网行业投资热点及融资分布 |
课程六、数据挖掘/分析师之软技能 - 实战产品规划与设计
本部分课程主要包括两块内容: 1. 需求分析与管理 2. 产品需求文档撰写格式与技巧(PRD)
一、需求分析与管理
1)需求的定义、本质和分类 |
二、产品需求文档撰写格式与技巧(PRD)
1)产品需求文档PRD的整体结构介绍 |
阶段二、建模分析师
课程七、建模分析师之软技能 - 数据库技术
本部分课程主要介绍mysql数据库的安装使用及常用数据操作
1、关系型数据库介绍 2、MySQL的基本操作: |
3、常用的SQL语句: |
4、高级查询语句: |
5、高级应用: |
6、数据可视化管理:SQLyog |
课程八、建模分析师之软技能 - 实用型大数据挖掘算法、(Apriori算法、Tanagra工具、决策树)
本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学
习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘
算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的
数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用Java、C#语言两种语言做演示来完成数据挖掘算法的实现。根据实际的引用场景,数据挖掘技术通
常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法。
1、数据挖掘概述与数据 |
6、关联分析 |
课程九、建模分析师之硬技能 - SPSS Modeler数据挖掘项目实战(高阶篇)(课程9、10、11三门课任选其一)
本教程从数据挖掘生命周期、过程及管理思想开始,讲解了实际项目中各大阶段的重要任务及各自承上启下的关键作用。并用通俗易懂的语言将挖掘技术所涉及的思
想、方法、参数与统计学基础联系起来,仔细讲解了包括维度、数据、分析、数据流等在内的功能、参数的实际意义和选择、组合等应用方法。对建模技术的原理思
想及选择方法是本课程的重点与难点。此外,本课程在结合对Modeler软件应用的同时,更加强调建模思想,强调模型规划设计。针对有更高要求的朋友,还应常常训练自己对数据挖掘项目全过程的整体规划与设计,培养自己项目全局的眼光和思维方式。
一、数据挖掘项目管理基础与思想
1)课程规划 |
二、感性认识SPSS Modeler
1)SPSS MODELER软件基础 |
三、必备的统计学基础
1)简单的统计学概念 |
四、数据准备与预处理
1)数据质量与样本管理 |
五、常用模型的数学思想与思考
1)数据挖掘知识类型 |
六、项目案例解析
1)信用风险评估 |
课程十、建模分析师之硬技能 - Python基础和网络爬虫数据分析(课程9、10、11三门课任选其一)
本课程面向从未接触过Python的学员,从最基础的语法开始讲起,逐步进入到目前各种流行的应用。整个课程分为基础和实战两个单元。基础部分包括Python语法
和面向对象、函数式编程两种编程范式,基础部分会介绍Python语言中的各种特色数据结构,如何使用包和函数,帮助同学快速通过语法关。在实战部分选择了网
络爬虫、数据库开发、Web网站3种最基础的应用类型,详细介绍其思想原理,并通过案例讲解Python中的实现方案,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。
一、Python语言开发要点详解
1)模块的概念.主模块和非主模块的区别.pycharm中定义代码模版 |
二、Python数据类型
7)列表和列表解析 |
三、函数和函数式编程
15)函数参数和变长参数列表 |
四、面向对象编程
21)认识经典类和新式类 |
五、网页爬虫(单线程,保存到文本
28)爬虫介绍 |
六、mongodb数据库
44)mongodb介绍 |
七、多线程和多进程
51)概述 |
八、scrapy实战
55)scrapy介绍和安装 |
九、django实战
59)django架构介绍 |
课程十一、建模分析师之硬技能 - 零基础数据分析与挖掘R语言实战课程(课程9、10、11三门课任选其一)
本课程面向从未接触过数据分析的学员,从最基础的R语法开始讲起,逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元。 基础部分包
括R语法和统计思维两个主题,R语法单元会介绍R语言中的各种特色数据结构,以及如何从外部抓去数据,如何使用包和函数,帮助同学快速通过语法关。统计思维
单元会指导如何用统计学的思想快速的发现数据特点或者模式,并利用R强大的绘图能力做可视化展现。在实战部分选择了回归、聚类、数据降维、关联规则、决策
树这5中最基础的数据分析模型,详细介绍其思想原理,并通过案例讲解R中的实现方案,尤其是详细的介绍了对各种参数和输出结果的解读,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。
一、R语法详解:
1)R的核心数据结构之向量、因子的区别和使用技巧 |
二、数据组织和整理:
1)数据导入,从多种数据源导入数据 |
三、建立数据分析的统计思维和可视化探索:
1)单变量数据特点的描述方法 |
四、用回归预测未来:
1)线性回归的思想,代码、结果的详细解读; |
五、聚类方法:
1)层次聚类和k-means聚类方法 |
六、数据降维——主成分分析和因子分析:
1)维度过多会导致哪些问题 |
七、关联规则:
1)用关联规则做购物车分析 |
八、决策树:
1)决策树算法ID.3、C4.5、CART算法区别和演示 |
课程十二、建模分析师之扩展篇(机器学习) - 零基础实战机器学习入门篇(Python语言、算法、Numpy库、MatplotLib)
机器学习作为人工智能的一部分,已经应用于很多领域,远超过人们的想象,垃圾邮件的过滤,在线广告的推荐系统,还有目前发展飞快的物体识别、人脸识别和语
音识别的发展,都是机器学习的应用的成果。机器学习在改善商业决策、提高生产率、检测疾病、预测天气等方面都有非常大的应用前景。 本课程系统的介绍了机
器学习的目的和方法。并且针对每一种常用的方法进行了详细的解析,用实例来说明具体的实现,学生可以跟着一步步完成。在面对现实的问题的时候,可以找到非常可靠的参照。本课程在最开始讲解了Python语言的基础知识,以保证后面的课程中可以顺利进行。更多的Python语言的知识,需要学员自己去找更多的资料进行
学习。 本课程主要讲述了两大类机器学习的方法:有监督学习和无监督学习,其中有监督学习里面,又分为分类和预测数值型数据。这些算法都是基础的算法。这样可以降低学习的难度,容易理解机器学习思路和实现的过程。
1)机器学习的任务和方法 |
11)利用回归预测数值型数据 |
课程十三、建模分析师之扩展篇(机器学习) - 实战机器学习高阶篇(基于Python机器学习、项目案例实战)
大数据时代,数据是企业值钱的财富,但海量的数据并非都是有价值的,如何挖掘出有用的数据变成商业价值,就需要机器学习算法。大数据和机器学习势必颠覆传
统行业的运营方式,必将驱动公司业务的发展。目前,越来越多的机器学习/数据挖掘算法被应用在电商、搜索、金融、游戏,医疗等领域中的分析、挖掘、推荐
上。 但懂机器学习算法的人才却少之又少,物以稀为贵,致使这个行业的工资奇高。 本课程作为深度学习系列课程的第一阶段,介绍机器学习的基本概念,原理,
以及常用算法(如决策树,支持向量机,Adaboost、EM算法等)。以Python语言为工具对每种算法进行结合实例讲解。学生学完本课程后将会理解机器学习的常
用算法原理,并会使用Python来对实际问题进行数据预处理,分类和回归分析。为开发机器学习相关应用打下必要基础,同时也为学习深度学习进阶课程打下必要基础。
一、k最近邻算法:
1)机器学习课程介绍 |
二、朴素贝叶斯分类算法
5)概率论的基本知识(基本概念、加法公式、乘法公式) |
三、聚类算法:
9)聚类算法概述 |
四、决策树算法:
12)决策树介绍 |
五、线性回归和梯度下降算法:
16)线性回归的相关概念(相关、独立和协方差) |
六、逻辑回归和极大似然估计:
21)广义线性回归和逻辑回归 |
七、支持向量机:
25)支持向量机原理介绍 |
八、EM算法和GMM:
29)EM算法思想 |
九、随机森林和Adaboost:
32)随机森林 |
十、机器学习思想精华和实战经验分享:
36)机器学习解决问题思想框架 |
阶段三、大数据分析师(赠送)
课程十四、大数据挖掘/分析师之硬技能 - Java语言基础
本课程讲解了java语法基础、类和对象、java中的字符串、java实用类与集合、泛型、继承和多态、接口与抽象类异常处理等等。
1、Java语法基础 2、类和对象 3、字符串 4、Java实用类 |
5、集合与泛型 6、面向对象三大特性 7、接口与抽象类 8、Java异常 |
课程十五、大数据挖掘/分析师之硬技能 - 大数据必备的数据结构与算法
这门课程是针对大数据工程师和云计算工程师的基础课程,同时也是所有计算机专业人士必须掌握的一门课程。如果不掌握数据结构和算法,你将难以掌握高效、专业的数据处理手段,更难以从容应对复杂的大数据处理场景。
1.数据结构和算法概述 2.数组、链表、队列、栈等线性表 3.二叉树、BST、AVL树及二叉树的递归与非递归遍历 4.B+树 |
5.跳表 6.图、图的存储、图的遍历 7.有向图、无向图、懒惰与积极的普利姆算法、克鲁斯卡尔算法及MST、单源最短路径问题及Dijkstra算法 8.并查集与索引式优先队列、二叉堆 |
9.遗传算法初步与TSP问题 10.内部排序(直接插入、选择、希尔、堆排序、快排、归并等)算法与实践中的优化 11.外部排序与优化(文件编码、数据编码、I/O方式与JVM特点、多线程、多路归并等) |
课程十六、大数据挖掘/分析师之硬技能 - Linux必知必会
本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。
1.Linux系统概述 2.系统安装及相关配置 3.Linux网络基础 4.OpenSSH实现网络安全连接 5.vi文本编辑器 |
6.用户和用户组管理 7.磁盘管理 8.Linux文件和目录管理 9.Linux终端常用命令 10.linux系统监测与维护 |
课程十七、大数据挖掘/分析师之硬技能 - Hadoop大数据开发技术光速入门
本课程从基础的环境搭建到更深入的知识学习都会有一个比较好的讲解。帮助学员快速上手hadoop生态圈的大数据处理框架的使用,使用hadoop生态圈进行一些
模块化、项目功能化的开发,主要包括安装部署hadoop、hive、hbase、hue、oozie、flume等生态圈相关软件环境的搭建,并且在已搭建好的环境上进行相关知
识点的讲解和功能的开发。项目/模块主要涉及到使用MR开发相关实际业务功能,包括最短路径的计算、社交好友推荐算法实现、分布式锁的实现等,这些模块可
以在实际的生成环境中使用到,可以很简单的将这些模块的代码直接集成到相关实际生产环境代码中。
一、hadoop:
1)Hadoop起源、体系结构以及生态圈介绍 |
二、zookeeper:
20)Zookeeper起源、体系结构介绍 |
三、hbase:
25)HBase起源、体系结构以及数据模型介绍 |
四、hive:
32)Hive起源、体系结构介绍 |
五、hue:
37)Hue简介 |
六、Oozie:
38)Oozie简介 |
七、Flume:
43)Flume介绍以及安装 |
八、Sqoop:
48)Sqoop介绍与安装 |
九、Kafka:
51)Kafka介绍与安装 |
十、MR扩展:
53)MapReduce案例:最短路径算法 |
课程十八、数据分析专家之硬技能 - 基于Hadoop技术实现的离线电商分析平台
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程通过一个离线电商的项目实战全面
对Hadoop技术做了一个演练。项目主要涉及到用户行为数据的收集、用户数据的etl操作、用户数据的分析以及分析数据展示等项目模块,最终展示了一个基本的
离线数据分析平台的全部实现。
一、项目需求介绍:
1)需求分析 |
二、用户行为数据收集模块实现讲解:
3)JavaSDK数据收集引擎编写 |
三、数据分析模块实现讲解:
5)用户数据etl操作一 |
四、数据展示模块讲解:
23)DataApi后台框架搭建 |
课程十九、大数据挖掘/分析师之硬技能 - 基于金融行业的大数据挖掘/分析实战(Python语言)
本课程介绍使用Python进行数据分析和金融应用开发的基础知识。课程从介绍简单的金融应用开始,带领学员回顾Python的基础知识,并逐步学习如何将Python
应用到金融分析编程中。课程覆盖了Python的基本数据结构、输入输出、效率分析、数学库、随机分析库、统计分析库等。接着课程以专题的形式介绍了Python与
Excel的结合,学习如何使用Python的相关库生成Excel可调用的函数;Python与Hadoop和MongoDB结合进行大数据分析的基础知识。最后课程介绍了Python的
面向对象编程并介绍了两个案例:使用Python实现金融衍生品分析库以及使用Python实现事件驱动的量化投资系统,使学员在实战的环境下理解Python在金融
应用开发中的具体应用方式,训练学员独立开发Python模块的能力。
1)Python与金融应用概述 |
6)提升Python效率 |
11)使用Python操作Excel 12)Python面向对象编程与图形用户界面 13)金融中的大数据技术概述 14)案例1:使用Python构建期权分析系统 15)案例2:使用Python构建简单的算法交易系统 |
阶段四、数据分析专家(赠送)
课程二十、数据分析专家之软技能 - 卓越的项目管理应用与实践
通过本课程的学习,使学员能够正确、熟练地选择项目生命周期中,各阶段各场景中的技术、工具、方法,并根据项目实际情况灵活应用在项目管理中;掌握项目工具的设计思想,能根据项目实际情况设计和修改工具;提升学员对项目管理的全局眼光与思维方式。
第一篇 项目管理基础
1.基础与导读 2.战略管理 3.项目、群、组合与资源 4.项目选择方法 |
第二篇 体系解读与应用实践
5.项目管理过程组 6.十大知识领域 7.项目策划、定义方法与实践 8.项目资源预估方法及实践 9.项目网络方法及实践 10.风险管理方法及实践 11.合同管理方法及实践 12.质量管理方法及实践 13.全局方法及实践 |
课程二十一、数据分析专家之软技能 - 大道至简之软件开发从设计到编码全程实录
本课程从无到有,搭建一个简易版的电商平台,并从不同角度分析设计此项目各个主要模块和功能点,将会应用到除迭器模式以外的所有GoF设计模式,旨在演示设计模式在项目中的实际应用,以及如何针对不同情况进行功能设计,希望可以帮助大家敲开设计之门。
一、订单模块:
1)多模块的业务状态跟踪处理的方式 |
二、仓储模块 :
1)如何灵活的预留功能扩展。 |
三、成本核算管理:
1)如何动态的组装所需成本项。 |
四、编号生成器:
1)生成不重复的流水号,并支持各业务生成单独的流水号。 |
五、消息模块:
1)如何设计消息交互模块 |
六、权限模块:
1)如何实现API和SPI分离设计 |
课程二十二、数据分析专家之软技能 - 系统架构设计的原理、核心技术与案例分析
本课程首先围绕普通开发人员如何向架构师转型这一课题,从架构师的角色以及转型过程中会遇到的困难及其解决方法切入展开讨论,总领整个课程。课程主体部分
从软件架构体系结构、架构设计、技术体系等角度出发,详细介绍了架构师区别于一般开发人员所需要掌握的架构设计方法论与相关实践,包括架构风格与模式、领
域驱动设计、类与框架设计、分布式系统架构设计、微服务架构设计、各种主流的技术体系与实践等内容。然后针对软件架构系统工程、业务模型设计、敏捷方法与
实践、产品交付模型与质量控制等架构师所必须掌握的系统工程和过程管理知识以及应用进行详细阐述,确保其站在架构师的高度进行系统设计和开发完整生命周期
的全局管理。作为技术团队的领导者,架构师同样需要具备相应的综合能力,课程的最后对架构师所需的各项软能力做全面介绍。
一、程序员向架构师转型:
1)整体课程概述 |
二、软件架构体系结构:
1)软件架构体系结构概述 |
三、架构设计:
1)领域驱动设计 |
课程二十三、数据分析专家之硬技能 - Spark基础--快学Scala(未来大数据处理的主流语言)
Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序
。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#
一样,所以Scala代码可以调用Java类库(对于.NET实现则可调用.NET类库)。Scala包括编译器和类库,以及BSD许可证发布。 学习Scala编程语言,为后续学习Spark奠定基础。
1)Spark的前世今生 |
11)Scala编程详解:Map与Tuple |
课程二十四、数据分析专家之硬技能 - 大数据Spark从入门到精通
本课程主要讲解目前大数据领域最热门、最火爆、最有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含
完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程、Spark SQL和Spark Streaming、Spark内核以及源码剖析、性能
调优、企业级案例实战等部分。完全从零起步,让学员可以一站式精通Spark企业级大数据开发,提升自己的职场竞争力,实现更好的升职或者跳槽,或者从j2ee等
传统软件开发工程师转型为Spark大数据开发工程师,或是对于正在从事hadoop大数据开发的朋友可以拓宽自己的技术能力栈,提升自己的价值。
1、Spark核心编程进阶 |
课程二十五、数据分析专家之 BI 扩展技能 - 高端微软BI商业智能(SSIS数据仓库、SSAS MDX多维数数据集、Ssrs实战)(赠送)
微软BI(BI,BusinessInteligence),微软商业智能。微软BI是一套完善、完全集成的 BI 技术,能够帮助降低组织和分发信息的复杂度,同时获得竞争优势、整体更
明智的决策和更好的成果。Microsoft BI 通过三个层面或工作负载交付:数据仓库、报表与分析以及绩效管理。所有这一切都旨在提供整合的、全面的数据源和工
具,以帮助改进决策制订。在我们看来,Microsoft BI 的承诺就是:帮助组织内所有层面的决策者对其决策所支持的企业目标与计划充满信心。从技术层面上来讲,
Microsoft BI由三大部分以及其他的协同平台组成, 它们分别是SSIS, SSAS, SSRS以及与office, sharepoint产品. 通常我们所说的Microsoft BI, 指的主要是
SSIS, SSAS, SSRS三大部分. 通过这几个部分的学习, 我们就能建立起完善强大的BI体系, 这也是我们课程的最主要讲解的知识点。
1)商业智能的概念及初步体验 |
11)SSAS-开发多维数据库 |
课程二十六、数据分析专家之 BI 扩展技能 - 中小型企业商业智能平台的开发和实现(数据仓库、BI系统、真实项目)(赠送)
本课程以公共卫生领域高血压的管理为实际应用场景,为高血压管理系统建立数据仓库,进行数据分析。本课程一共分为四个章节,76讲。第一章主要介绍了商业
智能系统的发展,从商业智能的学科范围、演化史、应用案例到自然演化式的体系结构,以及面临的问题,再讲到数据仓库以及开发方法。第二章主要解析了数据仓
库的一些主要术语,例如,分区、粒度、维度、度量值、多维数据模型以及DW2.0。第三章讲述了如何设计数据仓库,引入了元数据的概念。第四章是整个课
程中课时最多的部分,花了比较多的时间从头到尾搭建了一个BI系统,最终是以Web Service的方式供第三方调用。
一、理论讲解部分:
1.商业智能系统的发展 |
二、项目实战部分:
1. 操作性数据库的准备和分析 |
阶段五、机器学习/深度学习研究员
课程二十七、机器学习/深度学习研究员之硬技能-贝叶斯方法与机器学习及实践
本课程先基于PyMC 语言以及一系列常用的Python 数据分析框架,如NumPy、 SciPy 和Matplotlib,通过概率编程的方式,讲解了贝叶斯推断的原理和实现方法。 该方法常常可以在避免引入大量数学分析的前提下,有效地解决问题。课程中使用的 案例往往是工作中遇到的实际问题,有趣并且实用。通过对本课程的学习,学员可以 对贝叶斯思维、概率编程有较为深入的了解,为接下来的机器学习打下基础;接下来 以Python 编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,讲师 逐步带领学员熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具, 如Scikit、Google Tensorflow 等;同时会着重讲解两类机器学习的核心的“算法族”, 即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则等。
1.使用计算机执行贝叶斯推断 2.了解PyMC 3.MCMC 的黑盒子 4.大数定律 5.损失函数 6.主观与客观先验 7.贝叶斯AB 测试 8.关于预测的两类核心算法 |
9、“岩石vs 水雷”数据集的特性 10.基于因素变量的实数值预测 11.预测模型的构建:平衡性能、复杂性以及大数据 12.惩罚线性回归模型 13.使用惩罚线性方法来构建预测模型 14.集成方法 15.用Python 构建集成模型 |
课程二十八、机器学习/深度学习研究员之硬技能- 深度学习与TensorFlow 实战
本课程希望用简单易懂的语言带领大家探索TensorFlow(基于1.0 版本API)。 课程中讲师主讲TensorFlow 的基础原理,TF 和其他框架的异同。并用具体的代码完 整地实现了各种类型的深度神经网络:AutoEncoder、MLP、CNN(AlexNet, VGGNet,Inception Net,ResNet)、Word2Vec、RNN(LSTM,Bi-RNN)、 Deep Reinforcement Learning(Policy Network、Value Network)。此外,还讲解 了TensorBoard、多GPU 并行、分布式并行、TF.Learn 和其他TF.Contrib 组件。本课程能帮读者快速入门TensorFlow 和深度学习,在工业界或者研究中快速地将想法 落地为可实践的模型。
1.TensorFlow 基础 2.TensorFlow 和其他深度学习框架的对比 3.TensorFlow 第一步 4.TensorFlow 实现自编码器及多层感知机 5.TensorFlow 实现卷积神经网络 |
6.TensorFlow 实现经典卷积神经网络 7.TensorFlow 实现循环神经网络及Word2Vec 8.TensorFlow 实现深度强化学习 9.TensorBoard、多GPU 并行及分布式并行 |
课程二十九、机器学习/深度学习研究员之硬技能- 推荐系统
本课程重点讲解开发推荐系统的方法,尤其是许多经典算法,重点探讨如何衡量 推荐系统的有效性。课程内容分为基本概念和进展两部分:前者涉及协同推荐、基于 内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实 例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以 及普适环境中的推荐。课程中包含大量的图、表和示例,有助于学员理解和把握相关 知识等。
1.协同过滤推荐 2.基于内容的推荐 3.基于知识的推荐 4.混合推荐方法 |
5.推荐系统的解释 6.评估推荐系统 7.案例研究 |
课程三十、机器学习/深度学习研究员之硬技能-人工智能(选修)
本课程主要讲解人工智能的基本原理、实现技术及其应用,国内外人工智能研究 领域的进展和发展方向。内容主要分为4 个部分: 第1 部分是搜索与问题求解,系 统地叙述了人工智能中各种搜索方法求解的原理和方法,内容包括状态空间和传统的 图搜索算法、和声算法、禁忌搜索算法、遗传算法、免疫算法、粒子群算法、蚁群算 法和Agent 技术等;第2 部分为知识与推理,讨论各种知识表示和处理技术、各种 典型的推理技术,还包括非经典逻辑推理技术和非协调逻辑推理技术;第3 部分为学 习与发现,讨论传统的机器学习算法、神经网络学习算法、数据挖掘和知识发现技术; 第4 部分为领域应用,分别讨论专家系统开发技术和自然语言处理原理和方法。通 过对这些内容的讲解能够使学员对人工智能的基本概念和人工智能系统的构造方法 有一个比较清楚的认识,对人工智能研究领域里的成果有所了解。
1.AI 的产生及主要学派 2.人工智能、专家系统和知识工程 3.实现搜索过程的三大要素 4.搜索的基本策略 5.图搜索策略 6.博弈与搜索 7.演化搜索算法 |
8.群集智能算法 9.记忆型搜索算法 10.基于Agent 的搜索 11.知识表示与处理方法 12.谓词逻辑的归结原理及其应用 13.非经典逻辑的推理 14.次协调逻辑推理 |
以上是关于合格大数据分析师应该具备的技能的主要内容,如果未能解决你的问题,请参考以下文章