一、初识大数据
- 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
- 1MB = 1024KB、1GB = 1024MB
- 1TB = 1024GB、1PB = 1024TB
二、大数据的特征
- 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
- 种类(Variety):数据类型的多样性;
- 速度(Velocity):指获得数据的速度;
- 可变性(Variability):妨碍了处理和有效地管理数据的过程。
- 真实性(Veracity):数据的质量
- 复杂性(Complexity):数据量巨大,来源多渠道
- 价值(value):合理运用大数据,以低成本创造高价值
三、学习的路线
-
JAVA =====> 面向对象编程语言
-
Linux =====> 类Unix操作系统
-
Hadoop生态圈
-
Scala =====> 多范式编程语言、面向对象和函数式编程的特性
-
Spark =====> 目前企业常用的批处理离线/实时计算引擎
-
Kafka =====> 处理实时数据提供一个统一、高通量、低等待的平台
-
Elasticsearch =====> 大数据分布式弹性搜索引擎
四、电脑性能要求
- 硬性要求:
- 内存:最低8G+ (建议12G+)
- 个人电脑最大内存检测:
- 1)win + R 输入 cmd
- 2)复制代码:wmic memphysical get maxcapacity
- 3)所显示的值:MaxCapacity除以1024的平方
- 4)MaxCapacity:33554432
- 5)33554432 除以 1024 除以 1024 等于 32G
- 6)即个人PC的最大支持内存为32G
- 磁盘:500GB+
五、就业大数据岗位
- 大数据开发工程师
- 大数据清洗开发工程师
- 大数据仓库开发工程师
- 大数据运维开发工程师
- 大数据平台开发工程师
可以去一些招聘网站看看。如:BOOS直聘