大数据有啥技术,大数据技术内容介绍

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据有啥技术,大数据技术内容介绍相关的知识,希望对你有一定的参考价值。

大数据是众多学科与统计学交叉产生的一门新兴学科。大数据牵扯的数据挖掘、云计算一类的,所以是计算机一类的专业。分布比较广,应用行业较多。

零售业:主要集中在客户营销分析上,通过大数据技术可以对客户的消费信息进行分析。获知客户的消费习惯、消费方向等,以便商场做好更合理商品、货架摆放,规划市场营销方案、产品推荐手段等。


金融业:在金融行业里头,数据即是生命,其信息系统中积累了大量客户的交易数据。通过大数据可以对客户的行为进行分析、防堵诈骗、金融风险分析等。


医疗业:通过大数据可以辅助分析疫情信息,对应做出相应的防控措施。对人体健康的趋势分析在电子病历、医学研发和临床试验中,可提高诊断准确性和药物有效性等。


制造业:该行业对大数据的需求主要体现在产品研发与设计、供应链管理、生产、售后服务等。通过数据分析,在产品研发过程中免除掉一些不必要的步骤,并且及时改善产品的制造与组装的流程。

参考技术A

1、数据采集与预处理

Flume NG,实时日志收集系统

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具

流式计算strom,spark streaming等

Zookeeper,是一个分布式的,开放源码的分布式应用程序协调服务

2、数据存储

Hadoop,一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase,是一个分布式的、面向列的开源数据库

Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度

Redis是一种速度非常快的非关系数据库

3、数据清洗

MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算

4、数据查询分析

Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表

Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架

5、数据可视化

主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。

参考技术B

先上一张大数据技术学习的必备技能图

入门学习需要掌握的基本技能

1、Java

2、Linux命令

3、HDFS

4、MapReduce

5、 Hadoop

6、Hive

7、ZooKeeper

8、HBase

9、Redis

10、Flume

11、SSM

12、Kafka

13、Scala

14、Spark

15、MongoDB

16、Python与数据分析等等。

我们所说的大数据培训学习,一般是指大数据开发。大数据开发需要学习的东西可以参考一下加米谷大数据培训0基础学习的课程大概:

第一阶段:Java设计与编程思想

第二阶段: Web前端开发

第三阶段: JavaEE进阶

第四阶段: 大数据基础

第五阶段: HDFS分布式文件系统

第六阶段:MapReduce分布式计算模型

第七阶段: Yarn分布式资源管理器

第八阶段: Zookeeper分布式协调服务

第九阶段: Hbase分布式数据库

第十阶段: Hive分布式数据仓库

第十一阶段: FlumeNG分布式数据采集系统

第十二阶段: Sqoop大数据迁移系统

第十三阶段: Scala大数据黄金语言

第十四阶段: kafka分布式总线系统

第十五阶段: SparkCore大数据计算基石

第十六阶段: SparkSQL数据挖掘利器

第十七阶段: SparkStreaming流失计算平台

第十八阶段: SparkMllib机器学习平台

第十九阶段:SparkGraphx图计算平台

第二十阶段: 大数据项目实战

参考技术C

这是华为大数据HCNA的课程大纲,就是需要学习这些,希望能帮到你。

参考技术D 简单说有三大核心技术:拿数据,算数据,卖数据。
基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。
大数据预处理,指的是在进行数据分析之前,先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。数据预处理主要包括四个部分:数据清理、数据集成、数据转换、数据规约。
数据清理:指利用ETL等清洗工具,对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)。
数据集成:是指将不同数据源中的数据,合并存放到统一数据库的,存储方法,着重解决三个问题:模式匹配、数据冗余、数据值冲突处理。
数据转换:是指对所抽取出来的数据中存在的不一致,进行处理的过程。它同时包含了数据清洗的工作,即根据业务规则对异常数据进行清洗,以保证后续分析结果准确性。
数据规约:是指在最大限度保持数据原貌的基础上,最大限度精简数据量,以得到较小数据集的操作,包括:数据方聚集、维规约、数据压缩、数值规约、概念分层等。

大数据入门:各种大数据技术介绍

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。
我们可以带着下面问题来阅读本文章:
1.hadoop都包含什么技术
2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性
3.Spark与hadoop的关联是什么?
4.Storm与hadoop的关联是什么?


技术分享



hadoop家族
创始人:Doug Cutting
整个Hadoop家族由以下几个子项目组成:

Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。详细可查看
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理大全1-9章

HDFS:

是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。下面为详细资料:
什么是HDFS及HDFS架构设计
HDFS+MapReduce+Hive快速入门
Hadoop2.2.0中HDFS为何具有高可用性
Java创建hdfs文件实例

MapReduce:

是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。
详细可查看:
Hadoop简介(1):什么是Map/Reduce
Hadoop MapReduce基础
MapReduce工作原理讲解
手把手交你写Mapreduce程序实例并部署在Hadoop2.2.0上运行

Hive:

Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。
详细可查看:
Hive的起源及详细介绍
hive详解视频


Pig:

Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
详细可查看:
pig入门简单操作及语法包括支持数据类型、函数、关键字、操作符等
hadoop家族Pig和Hive有什么不同?



HBase:

Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。
详细可查看:
hbase与传统数据的区别
HBASE分布式安装视频下载分享

ZooKeeper:

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
详细可查看:
什么是Zookeeper,Zookeeper的作用是什么,在Hadoop及hbase中具体作用是什么

Avro:

Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。


Sqoop:
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。
详细可查看:
Sqoop详细介绍包括:sqoop命令,原理,流程

Mahout:

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:
推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
聚集:收集文件并进行相关文件分组。
分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。


Cassandra:

Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

Chukwa:

Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

Ambari:

Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。



HCatalog

Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:
提供一个共享模式和数据类型机制。
提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

------------------------------------------------------------------------------------------------------------------------------------------------

Chukwa:

Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。


------------------------------------------------------------------------------------------------------------------------------------------------

Cloudera系列产品:
创始组织:Cloudera公司
1.Cloudera Manager:
有四大功能
(1)管理
(2)监控
(3)诊断
(4)集成
Cloudera Manager四大功能

2.Cloudera CDH:英文名称:CDH (Cloudera‘s Distribution, including Apache Hadoop)
Cloudera对hadoop做了相应的改变。
Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。
详细可以查看
Cloudera Hadoop什么是CDH及CDH版本介绍
相关资料
CDH3实战Hadoop(HDFS) , HBase , Zookeeper , Flume , Hive
CDH4安装实践HDFS、HBase、Zookeeper、Hive、Oozie、Sqoop
Hadoop CDH四种安装方式总结及实例指导
hadoop的CDH4及CDH5系列文档下载分享


3.Cloudera Flume
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。


Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
详细可查看:
什么是 flume 日志收集,flume的特性
什么是 flume 日志收集,flume的原理是什么,flume会遇到什么问题

4.Cloudera Impala

Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
详细可查看:

什么是impala,如何安装使用Impala
5.Cloudera   hue
Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
详细可查看:
cloudera hue安装及Oozie的安装
什么是Oozie?Oozie简介
Cloudera Hue 使用经验分享,遇到的问题及解决方案


------------------------------------------------------------------------------------------------------------------------------------------------

Spark

创始组织:加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发


Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

可以详细了解
科普Spark,Spark是什么,如何使用Spark(1)
科普Spark,Spark核心是什么,如何使用Spark(2)
优酷土豆用Spark完善大数据分析
Hadoop新成员Hadoop-Cloudera公司将Spark加入Hadoop


-----------------------------------------------------------------------------------------------------------------------------------------------

Storm

创始人:Twitter
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。

详细可以了解:
storm入门介绍
Storm-0.9.0.1安装部署 指导
总体认识storm包括概念,场景,组成
大数据架构师:hadoop、Storm改选哪一个?
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合

 

原文链接:

http://www.aboutyun.com/thread-7569-1-1.html































































































































































































以上是关于大数据有啥技术,大数据技术内容介绍的主要内容,如果未能解决你的问题,请参考以下文章

大数据学院|数据科学与大数据技术专业介绍

大数据分析中的挖掘技术

Hadoop大数据都学啥?和java大数据有啥区别?

大数据在未来有啥样的发展趋势

Linux和大数据云计算之间有啥关系?

大数据技术——数据获取