什么是大数据?

Posted qwangxiao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是大数据?相关的知识,希望对你有一定的参考价值。

  什么是大数据?
  
  大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。
  
  大数据测试类型
  
  测试大数据应用程序更多的是验证其数据处理,而不是测试软件产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。
  
  在大数据测试中,QA工程师使用集群和其他组件来验证对TB级数据的成功处理。因为处理非常快,所以它需要高水平的测试技能。处理可以是三种类型:批量、实时、交互。
  
  与此同时,数据质量也是大数据测试的一个重要因素。在测试应用程序之前,有必要检查数据的质量,并将其视为数据库测试的一部分。它涉及检查各种字段,如一致性,准确性,重复,一致性,有效性,数据完整性等。
  
  大数据测试步骤
  
  下图给出了测试大数据应用程序阶段的高级概述:
  
  大数据测试实现被分成三个步。
  
  Step 1:数据阶段验证
  
  大数据测试的第一步,也称作pre-hadoop阶段该过程包括如下验证:
  
  ? 来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统
  
  ? 将源数据与推送到Hadoop系统中的数据进行比较,以确保它们匹配
  
  ? 验证正确的数据被提取并被加载到HDFS正确的位置
  
  该阶段可以使用工具Talend或Datameer,进行数据阶段验证。
  
  Step 2:"MapReduce"验证
  
  大数据测试的第二步是MapReduce的验证。在这个阶段,测试者在每个节点上进行业务逻辑验证,然后在运行多个节点后验证它们,确保如下操作的正确性:
  
  ? Map与Reduce进程正常工作
   >>> D(8)
C 8
<__main__.D object at 0x00D7ED90>
14)新的metaclass语法:
class Foo(*bases, **kwds):
pass
15)支持class decorator。用法与函数decorator一样:
>>> def foo(www.bomaoyule.cn/ cls_a):
def print_func(self):
print(‘Hello, world! www.feishenbo.cn/ ‘)
cls_a.print = print_func
return cls_a
>>> @foo
class C(object):
pass
>>> C().print(www.hjha178.com)
Hello, world!
  ? 在数据上实施数据聚合或隔离规则
  
  ? 生成键值对
  
  ? 在执行Map和Reduce进程后验证数据
  
  Step 3:输出阶段验证
  
  大数据测试的最后或第三阶段是输出验证过程。生成输出数据文件,同时把文件移到一个EDW(Enterprise Data Warehouse:企业数据仓库)中或着把文件移动到任何其他基于需求的系统中。在第三阶段的活动包括:
  
  ? 检查转换(Transformation)规则被正确应用
  
  ? 检查数据完整性和成功的数据加载到目标系统中
  
  ? 通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏



































































以上是关于什么是大数据?的主要内容,如果未能解决你的问题,请参考以下文章

什么是大数据时代

什么是大数据?

初识大数据(一. 什么是大数据)

漫画:什么是大数据?

什么是大数据?

什么是大数据