大数据
Posted arrowchen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据相关的知识,希望对你有一定的参考价值。
大数据的定义
1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。
2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。
3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。
理论知识
1、大数据的相关概念及行业生态
2、Hadoop的基础原理及其架构
应用知识
实战:HDFS实际操作(通过shell命令/Python程序)
实战:MapReduce程序开发实例
课程目标
1、掌握Hadoop框架的基础原理及使用方式
2、掌握基于Hadoop框架进行数据处理与分析的应用程序的开发
预备知识
1、Linux常用命令
2、有一定的Python或者的程序基础
3、对Hadoop有一定的了解,可以搭建自己的测试环境
Hadoop是什么?
1、Hadoop是一个开源的大数据框架
2、Hadoop是一个分布式计算的解决方案
3、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)
Hadoop核心
1、HDFS分布式文件系统:存储是大数据技术的基础
2、MapReduce编程模型:分布式计算是大数据应用的解决方案
举例
1、从一个100M文件中过滤出含有Hadoop字符串的行
解决方案一:Linux grep命令
解决方案二:编写Java/Python程序
2、从一个100T/100P的文件中过滤出含有Hadoop字符串的行?
HDFS总结:
1、普通的成百上千的机器
2、按TB甚至PB为单位的大量的数据
3、简单便捷的文件获取
Hadoop基础架构:
HDFS概念(数据块、NameNode、DataNode)
数据块:数据块是抽象块而非整个文件作为存储单元,默认大小为64M
一般设置为128M,备份X3
(存储10M文件使用一个数据块,存储300M文件使用3个数据块)
NameNode(主):1、管理文件系统的命名空间,存放文件元数据;
2、维护着文件系统的所有文件和目录,文件与数据块的映射
3、记录每个文件中各个块所在数据节点的信息
DataNode(从):1、存储并检索数据块
2、向NameNode更新所存储块的列表
HDFS优点:
1、适合大文件存储,支持TB、PB级的数据存储,并有副本策略
2、可以构建在廉价的机器上,并有一定的容错和恢复机制
3、支持流式数据访问,一次写入,多次读取最高效。
HDFS缺点:
1、不适合大量小文件存储
2、不适合并发写入,不支持文件随机修改
3、不支持随机读等低延迟的访问方式
以上是关于大数据的主要内容,如果未能解决你的问题,请参考以下文章