大数据测试方法

Posted

技术标签:

【中文标题】大数据测试方法【英文标题】:BIg data testing approch 【发布时间】:2016-11-16 15:08:07 【问题描述】:

我正在从事大数据项目。 项目的基本流程如下: - 数据来自大型机并存储到基石 3.0 - 之后使用调度程序将数据摄取到配置单元中 - 然后使用 map reduce 作业(运行 hive 查询以获取特定的聚合属性)根据键值对将其存储到 mapr db 中,以使用 Rest API 反映到应用程序中。

假设 Hive 中的数据已正确加载,我想从 Hive 开始测试此应用程序到 Rest API。

测试此应用程序的最佳方法是什么 (要测试的目标:Hive 数据、hive 查询、mapr db 性能、mapr dp 数据、Rest api)。最好使用哪些工具和技术。

提前谢谢你。

【问题讨论】:

用你最喜欢的语言进行单元测试将是一个好的开始。否则,对于 *** 来说,询问有关工具和技术的建议是无关紧要的 【参考方案1】:

可以测试什么? - 这由需求/问题自行解释

数据来自大型机大型机并存储到基石 3.0 中 - 验证数据按预期(根据要求)从大型机存储到基石

李>

在使用调度程序将数据摄取到 hive 之后 - 验证 hive 表是否具有预期的数据/hdfs 文件位置等(根据要求 - 如果在 hive 期间发生任何转换表加载 - 您将对其进行验证)

然后使用 map reduce 作业(运行 hive 查询以获取特定的聚合属性)根据键值对将其存储到 mapr db 中,以使用 Rest API 反映到应用程序中 - 这里基本上是你正在测试在 maprdb 中加载/转换数据的 map-reduce 作业。您应该首先运行作业 -> 验证作业端到端运行 no error/warns(注意执行时间非常接近作业的 性能)-> 验证 maprdb - > 测试 REST API 应用程序并根据要求验证预期结果。

最好使用哪些工具和技术?

用于 hive/hdfs/数据验证 - 我将创建 shell-script(由 hive、hdfs 文件位置、日志文件验证、运行 mapreduce 作业组成,验证 mapreduce 作业等)测试/验证上述每个步骤。应该首先从手动 CLI 命令开始进行测试。

用于测试 REST API - 有许多可用的工具,例如ReadyAPI,邮递员。我也会在 shell-script 中包含这一步(使用curl

【讨论】:

感谢您的回答。能否请您解释一下有关 shell-script 的更多信息(其中应包含哪些内容)。假设我有一个针对数百万数据运行的查询以找出一些汇总值,让说最近 2 年数据的成功率。我希望这个查询能够在不同的所需测试数据上运行,而这些数据不断增加。那么我怎样才能自动化脚本,以便它可以用于任何类型的测试数据。 这是一个非常广泛的话题,但提示是……不要在自动化脚本(shell 脚本)中对任何测试数据进行硬编码。测试数据可以从数据库中查询或存储在其他数据文件中

以上是关于大数据测试方法的主要内容,如果未能解决你的问题,请参考以下文章

什么是大数据?

小白学习大数据测试 VS 传统数据库测试

mysql 大数据 查询方面的测试

大数据测试

有关大数据测试

大数据测试技术研究