[学习笔记]黑马程序员-Hadoop入门视频教程
Posted N刻后告诉你
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[学习笔记]黑马程序员-Hadoop入门视频教程相关的知识,希望对你有一定的参考价值。
文章目录
参考资料
黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程
目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用
学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用
第一章:大数据导论(p1-5)
1.1 企业数据分析方向
数据分析是为了把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向:现状分析->原因分析->预测分析
- 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
- 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做成调整优化
- 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理
。
实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短,可细分秒级、毫秒级。实时分析又称为流式处理(Streaming)。
机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
1.2 数据分析基本流程步骤
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖老师在《数据分析六部曲》中提到,典型的数据分析应该包含以下几个步骤:
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写
明确分析的目的和思路
- 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
- 思路是使
分析框架体系化
,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性
,分析结果的有效性
以及正确性
,需要数据分析方法论
进行支撑; - 数据分析方法论是一些营销管理相关理论,比如用户行为理论、PEST分析法、5W2H分析法等
数据收集
- 数据
从无到有
的过程:比如传感器收集气象数据、埋点收集用户行为数据 - 数据
传输搬运
的过程:比如采集数据库数据到数据分析平台
常见的数据源和种类:
- 业务数据(RDBMS)
- 日志数据(服务器、应用日志)
- 爬虫数据(爬虫数据库)
- 互联网公开数据(行业、政府网站)
数据处理
- 准确来说,应该称之为
数据预处理
。 - 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括
数据清洗
、数据转化
、数据提取
、数据计算
; - 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的
结构化数据
。
思考:
- 当下的企业中用于分析的数据是侧重文本数据多一些,还是侧重于图片、视频数据多一些?
答案:文本数据多一点- 什么叫干净规整的结构化数据?有非结构化数据?
答案:结构化数据,专业来说就是二维表的数据,行列对应
数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 需要掌握各种
数据分析方法
,还要熟悉数据分析软件
的操作;
数据展现
- 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
- 数据可视化(Data Visualization)属于数据应用的一种;
- 注意,
数据分析的结果不是只有可视化展示
,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。
报告攥写
- 数据分析报告是对整个数据分析结过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
1.3 大数据时代
大数据定义
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特征
5个V开头的单词,从5个方面准确、生动、形象地介绍了大数据特征。
- Volume:数据体量大
采集数据量大;存储数据量大;计算数据量大;TB、PB级别起步 - Variety:种类、来源多样化
种类:结构化、半结构化、非结构化
来源:日志文本、图片、音频、视频 - Value:低价值密度
信息海量但是价值密度低
深度复杂的挖掘分析需要机器学习参数 - Velocity:速度快
数据增长速度快
获取数据速度快
数据处理速度快 - Veracity:数据的质量
数据的准确性
数据的可信赖度
应用场景
电商领域:精准广告位、个性化推荐、大数据杀熟
传媒领域:精准营销、猜你喜欢、交互推荐
金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品,推荐相应的投资理财产品。
交通领域:拥堵预测、智能红绿灯、导航最优规划
电信领域:基站选址优化、舆情监控、客户用户画像
安防领域:犯罪预防、天网监控
医疗领域:智慧医疗、疾病预防、病源追踪
1.4 分布式与集群
概念
分布式、集群是两个不同的概念,但口语中经常混淆 二者。
分布式是指”多台机器,每台机器上部署不同组件
“。
集群是指”多台机器,每台机器上部署相同组件
“。
分布式示意图:
例如:去京东买东西,京东背后是多台服务器,不同服务器承担不同的服务。
集群示意图:
例如:访问百度,百度背后也有多台服务器,多台服务器都来提供搜索服务(再配合负载均衡),防止某台宕机。
应用
数据大爆炸,海量数据处理场景面临问题
如何存储?单机存储有瓶颈,多台机器分布式存储
。
如何计算(高效)?单台计算能力有限,多台机器分布式计算
。
第二章:Linux操作系统概述
2.1 操作系统概念与分类
操作系统概念
- 操作系统(operating system, 简称OS)是
管理计算机硬件与软件资源
的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务; - 没有操作系统的机器称之为
裸机
,不管是开发还是使用都十分不便。 - 操作系统也提供一个让
用户与系统交互的操作界面
。
操作系统分类
操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:
- 桌面操作系统:所谓的桌面是指图形化操作页面。
Mac os(Apple)、Windows(Microsoft)、Linux三足鼎立。 - 服务器操作系统:一般指的是安装在大型计算机上的操作系统。比如Web服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
主要分为四大流派:Unix、Linux
、Windows Server
和Netware。 - 嵌入式操作系统:是一种完全嵌入受控器内部,为特定应用而设计的专用计算机系统。
如嵌入式Linux、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统、军事航空领域)等;在工业、军事、航空等领域使用较多。 - 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
主要有android(谷歌)、ios(苹果)、Symbian(诺基亚)、BlackBerry OS(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。
Linux起源与发展
- Unix系统是较早被广泛使用的计算机操作系统之一,油Ken Thompsonb在AT&T贝尔实验室发现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
1991
年芬兰学生Linus Torvalds
发布Linux系统第一版本,遵循GPL协议(通用公共许可证),开源免费
;- Linux是一个
类似Unix
的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。
Linux内核(Kernel)
操作系统的核心部分简称内核
,Linux第一版本独立内核由Linus Torvalds开发实现,约10000行代码;- 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的
最终裁定权
; Linux操作系统 = Linux Kernel + GNU软件及系统软件 + 必要的应用程序
- Linux选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。
Linux发行版本
- Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
- 从大的方面来说,Linux发行版可大致分为
个人桌面版
和企业服务器版
。 - 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而
Redhat(红帽系列)
及其延伸版本(Centos
)凭借稳定的性能在企业服务器中占比很大。
第三章:
3.1 VMware虚拟机概念与安装
VMware介绍
- VMware Workstation是一款
虚拟机软件
,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行
; - 用户可以在虚拟机上重现服务器、桌面和平板电脑环境,无需重新启动即可跨不同操作系统同时运行应用。
VMvare功能、组件
- 通过对个人笔记本(PC)
硬件资源的虚拟
,在一台PC上运行其他隔离操作系统; - 隔离出来的操作系统虽然是虚拟的,但是
硬件组成与功能上与物理实体机完全一致
; - VMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等,此处不做深入探究。
网络架构图
3.2 Centos操作系统的虚拟机导入
3.3 VMware虚拟机常规使用
3.4 FinalShell介绍使用
以上是关于[学习笔记]黑马程序员-Hadoop入门视频教程的主要内容,如果未能解决你的问题,请参考以下文章