《Hadoop金融大数据分析》读书笔记

Posted 沧海一滴

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《Hadoop金融大数据分析》读书笔记相关的知识,希望对你有一定的参考价值。

《Hadoop金融大数据分析》 Hadoop for Finance Essentials

使用Hadoop,是因为数据量大
数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据

3V定义:即“大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度。
大量指的是数据的量很大,
多样指的是数据的类型很多,
高速指的是数据处理的速度很快


对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,
对于处理TB级数据的大公司来说,PB级的数据,则被认为是大数据

就常规而言,大数据至少是TB级的

 

除了想要存储无尽的数据,企业也需要分析它们

数据以不同的形式存储,其中大量的交易数据被称为结构化数据,图像和音频等数据被称为非结构化数据

 

ETL:提取Extract,转换Transform,加载Load 

现在的企业需要处理异构型数据,从Excel表格,数据库到纯文本、图片、视频、网络数据、GPS数据、传感器数据、文本数据、移动信息数据、甚至包括可以扫描和转换成电子格式的文件

 

以上是关于《Hadoop金融大数据分析》读书笔记的主要内容,如果未能解决你的问题,请参考以下文章

hadoop大数据分析与挖掘实战(读书笔记1)

金融需要 hadoop,spark 等这些大数据分析工具吗?使用场景是怎样的

《大数据时代》读书笔记

大数据读书——《淘宝技术这十年》读书笔记

尚硅谷大数据Hadoop教程-笔记01入门

尚硅谷大数据Hadoop教程-笔记02HDFS