基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化
Posted wzy0623
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化相关的知识,希望对你有一定的参考价值。
四、数据可视化与Hue简介1. 数据可视化简介
数据可视化在维基百科上是这样定义的:指一种表示数据或信息的技术,它将数据或信息编码为包含在图形里的可见对象(如点、线、条等),目的是将信息更加清晰有效地传达给用户,是数据分析或数据科学的关键技术之一。简单地说,数据可视化就是以图形化方式表示数据。决策者可以通过图形直观地看到数据分析结果,从而更容易理解业务变化趋势或发现新的业务模式。使用可视化工具,可以在图形或图表上进行下钻,以进一步获得更细节的信息,交互式地观察数据改变和处理过程。
(1)数据可视化的重要性
从人类大脑处理信息的方式看,使用图形图表观察大量复杂数据要比查看电子表格或报表更容易理解。数据可视化就是这样一种以最为普通的方式,向人快速、简单传达信息的技术。通过数据可视化能够有效地利用数据,帮助人们给诸如以下问题快速提供答案:
- 需要注意的问题或改进的方向。
- 影响客户行为的因素。
- 确定商品放置的位置。
- 销量预测。
(2)数据可视化的用途
快速理解信息
通过使用业务信息的图形化表示,企业可以以一种清晰的、与业务联系更加紧密的方式查看大量的数据,根据这些信息制定决策。并且由于相对于电子表格的数据分析,图形化格式的数据分析要更快,因此企业可以更加及时地发现问题、解决问题。
标识关系和模式
即使面对大量错综复杂的数据,图形化表示也使数据变得可以理解。企业能够识别高度关联、互相影响的多个因素。这些关系有些是显而易见的,有些则不易发现。识别这些关系可以帮助组织聚焦于最有可能影响其重要目标的领域。
确定新兴趋势
使用数据可视化,可以辅助企业发现业务或市场趋势,准确定位超越竞争对手的自身优势,最终影响其经营效益。企业更容易发现影响产品销量和客户购买行为的异常数据,并把小问题消灭于萌芽之中。
方便沟通交流
一旦从可视化分析中对业务有了更新的深入了解,下一步就需要在组织间沟通这些情况。使用图表、图形或其它有效的数据可视化表示在沟通中是非常重要的,因为这种表示更能吸引人的注意,并能快速获得彼此的信息。
(3)实施数据可视化需要考虑的问题
实施一个新技术,需要采取一些步骤。除了扎实地掌握数据外,还需要理解目标、需求和受众。在组织准备实施数据可视化技术时,先要做好以下功课:
- 明确试图可视化的数据,包括数据量和基数(一列数据中不同值的个数)。
- 确定需要可视化和传达的信息种类。
- 了解数据的受众,并领会他们如何处理可视化信息。
- 使用一种对受众来说最优、最简的可视化方案传达信息。
(4)几种主要的数据可视化工具
- Tableau Desktop(主流桌面BI)
- Business Object(SAP收购的BI公司)
- Hyperion(Oracle收购的BI公司)
- Cognos(IBM收购的BI公司)
- Pentaho Report(最流行的开源BI)
前面讨论了数据可视化,那么在Hadoop生态圈中,有哪些图形化的用户界面可以做数据可视化呢?这里就简单介绍一个常用的Hadoop组件——Hue。
(1)Hue是什么
Hue是Hadoop User Experience的缩写,是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。
我使用的CDH 5.7.0自带的Hue是3.9.0版本。通过使用CDH的Hue Web应用,可以与Hadoop集群进行交互。在Hue中可以浏览HDFS和作业,管理Hive元数据,运行Hive、Impala查询或Pig脚本,浏览HBase,用Sqoop导出数据,提交MapReduce程序,用Solr建立定制的搜索引擎,调度重复执行的Oozie工作流等。
Hue应用运行在Web浏览器中,不需要安装客户端。其体系结构如下图所示。
以上是关于基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化的主要内容,如果未能解决你的问题,请参考以下文章
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化