大数据测试方法
Posted
技术标签:
【中文标题】大数据测试方法【英文标题】:BIg data testing approch 【发布时间】:2016-11-16 15:08:07 【问题描述】:我正在从事大数据项目。 项目的基本流程如下: - 数据来自大型机并存储到基石 3.0 - 之后使用调度程序将数据摄取到配置单元中 - 然后使用 map reduce 作业(运行 hive 查询以获取特定的聚合属性)根据键值对将其存储到 mapr db 中,以使用 Rest API 反映到应用程序中。
假设 Hive 中的数据已正确加载,我想从 Hive 开始测试此应用程序到 Rest API。
测试此应用程序的最佳方法是什么 (要测试的目标:Hive 数据、hive 查询、mapr db 性能、mapr dp 数据、Rest api)。最好使用哪些工具和技术。
提前谢谢你。
【问题讨论】:
用你最喜欢的语言进行单元测试将是一个好的开始。否则,对于 *** 来说,询问有关工具和技术的建议是无关紧要的 【参考方案1】:可以测试什么? - 这由需求/问题自行解释
数据来自大型机大型机并存储到基石 3.0 中 - 验证数据按预期(根据要求)从大型机存储到基石
李>在使用调度程序将数据摄取到 hive 之后 - 验证 hive 表是否具有预期的数据/hdfs 文件位置等(根据要求 - 如果在 hive 期间发生任何转换表加载 - 您将对其进行验证)
然后使用 map reduce 作业(运行 hive 查询以获取特定的聚合属性)根据键值对将其存储到 mapr db 中,以使用 Rest API 反映到应用程序中 - 这里基本上是你正在测试在 maprdb 中加载/转换数据的 map-reduce 作业。您应该首先运行作业 -> 验证作业端到端运行 no error/warns(注意执行时间非常接近作业的 性能)-> 验证 maprdb - > 测试 REST API 应用程序并根据要求验证预期结果。最好使用哪些工具和技术?
用于 hive/hdfs/数据验证 - 我将创建 shell-script(由 hive、hdfs 文件位置、日志文件验证、运行 mapreduce 作业组成,验证 mapreduce 作业等)测试/验证上述每个步骤。应该首先从手动 CLI 命令开始进行测试。
用于测试 REST API - 有许多可用的工具,例如ReadyAPI,邮递员。我也会在 shell-script 中包含这一步(使用curl
)
【讨论】:
感谢您的回答。能否请您解释一下有关 shell-script 的更多信息(其中应包含哪些内容)。假设我有一个针对数百万数据运行的查询以找出一些汇总值,让说最近 2 年数据的成功率。我希望这个查询能够在不同的所需测试数据上运行,而这些数据不断增加。那么我怎样才能自动化脚本,以便它可以用于任何类型的测试数据。 这是一个非常广泛的话题,但提示是……不要在自动化脚本(shell 脚本)中对任何测试数据进行硬编码。测试数据可以从数据库中查询或存储在其他数据文件中以上是关于大数据测试方法的主要内容,如果未能解决你的问题,请参考以下文章