HDFS特征引入背景时的一些思考

Posted 大数据面试学习指北

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS特征引入背景时的一些思考相关的知识,希望对你有一定的参考价值。

我们说HDFS面向的是大数据存储,其实这里引入了一道面试题。如果你面的是数据开发岗或者大数据开发岗的校招,那么你就很可能会遇到,即:


Q: 你认为数据量达到多少就能被称为大数据了?


我个人倾向于,谈到具体的数据量,就输了。谈到大数据总躲不过5V特征:

【1】Volumn(大体量):即可从数百TB到数十数百PB甚至EB级别的数据;

【2】Variety(多样性):大数据会包含各种格式或者形态的数据;

【3】Velocity(时效性):数据大多需要在一定时间限度内被处理;

【4】Veracity(精确性):数据处理的结果需要保证一定的精度;

【5】Value(大价值):数据会包含很多深度的价值。

从这个角度而言,量仅是大数据的特征,但并不意味着大数据会和数据大画上某等于或者线性的关系。大体积的无用数据,仅仅是占用存储的垃圾而已,需要清楚。体量大,且包含大价值的数据,才能够被称为大数据。


以上是关于HDFS特征引入背景时的一些思考的主要内容,如果未能解决你的问题,请参考以下文章

关于特征工程的一些学习思考与错误的纠正

Python图像特征的音乐序列生成关于小样本的一些思考

Flutter卡顿问题的监控与思考

交叉特征思考

架构思考:对于代码开发,服务架构的一些思考

对博客网站的一些思考