大数据技术包括哪些

Posted 2023-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据技术包括哪些相关的知识，希望对你有一定的参考价值。

大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。

1、数据收集：在大数据的生命周期中，数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类，大数据的采集主要有4种来源：管理信息系统、Web信息系统、物理信息系统、科学实验系统。

2、数据存取：大数据的存去采用不同的技术路线，大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据，

3、基础架构：云存储、分布式文件存储等。

4、数据处理：对于采集到的不同的数据集，可能存在不同的结构和模式，如文件、XML 树、关系表等，表现为数据的异构性。对多个异构的数据集，需要做进一步集成处理或整合处理，将来自不同数据集的数据收集、整理、清洗、转换后，生成到一个新的数据集，为后续查询和分析处理提供统一的数据视图。

5、统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

6、数据挖掘：目前，还需要改进已有数据挖掘和机器学习技术；开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术；突破基于对象的数据连接、相似性连接等大数据融合技术；突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

7、模型预测：预测模型、机器学习、建模仿真。

8、结果呈现：云计算、标签云、关系图等。

参考技术A

大数据可以简单理解为：

"大数据"是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

参考技术B 想要成为炙手可热的大数据技术人才，这些大数据的核心技术一定要知晓！

一、大数据基础阶段
大数据基础阶段需掌握的技术有：Linux、Docker、KVM、mysql基础、Oracle基础、MongoDB、redis以及hadoop mapreduce hdfs yarn等。
1、Linux命令
对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开源的大数据软件很受限制，因此，想从事大数据开发相关工作，还需掌握Linux基础操作命令
2、 Redis
Redis是一个key-value存储系统，其出现很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，php，javascript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。
二、大数据存储阶段
大数据存储阶段需掌握的技术有：hbase、hive、sqoop等。
1、HBase
HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。
2、Hive
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。
三、大数据架构设计阶段
大数据架构设计阶段需掌握的技术有：Flume分布式、Zookeeper、Kafka等。
1、Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现！
2、Flume
Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。
3、ZooKeeper
ZooKeeper是Hadoop和Hbase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。
四、大数据实时计算阶段
大数据实时计算阶段需掌握的技术有：Mahout、Spark、storm。
1、Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。
2、storm
Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。
五、大数据数据采集阶段
大数据数据采集阶段需掌握的技术有：Python、Scala。
1、Python与数据分析
Python是面向对象的编程语言，拥有丰富的库，使用简单，应用广泛，在大数据领域也有所应用，主要可用于数据采集、数据分析以及数据可视化等，因此，大数据开发需学习一定的Python知识。
2、Scala
Scala是一门多范式的编程语言，大数据开发重要框架Spark是采用Scala语言设计的，想要学好Spark框架，拥有Scala基础是必不可少的，因此，大数据开发需掌握Scala编程基础知识！
以上只是一些简单的大数据核心技术总结，比较零散，想要学习大数据的同学，还是要按照一定到的技术路线图学习！参考技术C

大数据开发涉及到的关键技术：

大数据采集技术

大数据采集技术是指通过 RFID 数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

大数据预处理技术

大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作。

大数据存储及管理技术

大数据存储及管理的主要目的是用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。

大数据处理技术

大数据的应用类型很多，主要的处理模式可以分为流处理模式和批处理模式两种。批处理是先存储后处理，而流处理则是直接处理。

大数据分析及挖掘技术

大数据处理的核心就是对大数据进行分析，只有通过分析才能获取很多智能的、深入的、有价值的信息。

大数据展示技术

在大数据时代下，数据井喷似地增长，分析人员将这些庞大的数据汇总并进行分析，而分析出的成果如果是密密麻麻的文字，那么就没有几个人能理解，所以我们就需要将数据可视化。

数据可视化技术主要指的是技术上较为高级的技术方法，这些技术方法通过表达、建模，以及对立体、表面、属性、动画的显示，对数据加以可视化解释。

参考技术D 大数据技术主要涵盖哪些内容，具体如下：
　　一、流处理
　　伴随着业务发展的步调，以及业务流程的复杂化，我们的注意力越来越集中在“数据流”而非“数据集”上面。
　　决策者感兴趣的是紧扣其组织机构的命脉，并获取实时的结果。他们需要的是能够处理随时发生的数据流的架构，当前的数据库技术并不适合数据流处理。
　　例如，计算一组数据的平均值，可以使用一个传统的脚本实现。但对于移动数据平均值的计算，不论是到达、增长还是一个又一个的单元，有更高效的算法。如果你想构建数据仓库，并执行任意的数据分析、统计，开源的产品R或者类似于SAS的商业产品就可以实现。但是你想创建的是一个数据流统计集，对此逐步添加或移除数据块，进行移动平均计算，而且数据库不存在或者尚不成熟。
　　数据流周边的生态系统有欠发达。换言之，如果你正在与一家供应商洽谈一个大数据项目，那么你必须知道数据流处理对你的项目而言是否重要，并且供应商是否有能力提供。
　　二、并行化
　　大数据的定义有许多种，以下这种相对有用。“小数据”的情形类似于桌面环境，磁盘存储能力在1GB到10GB之间，“中数据”的数据量在100GB到1TB之间，“大数据”分布式的存储在多台机器上，包含1TB到多个PB的数据。
　　如果你在分布式数据环境中工作，并且想在很短的时间内处理数据，这就需要分布式处理。
　　并行处理在分布式数据中脱颖而出，Hadoop是一个分布式/并行处理领域广为人知的例子。Hadoop包含一个大型分布式的文件系统，支持分布式/并行查询。
　　三、摘要索引
　　摘要索引是一个对数据创建预计算摘要，以加速查询运行的过程。摘要索引的问题是，你必须为要执行的查询做好计划，因此它有所限制。
　　数据增长飞速，对摘要索引的要求远不会停止，不论是长期考虑还是短期，供应商必须对摘要索引的制定有一个确定的策略。
　　四、数据可视化
　　可视化工具有两大类。
　　探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系，这是一种可视化的洞察力。类似的工具有Tableau、TIBCO和QlikView，这是一类。
　　叙事可视化工具被设计成以独特的方式探索数据。例如，如果你想以可视化的方式在一个时间序列中按照地域查看一个企业的销售业绩，可视化格式会被预先创建。数据会按照地域逐月展示，并根据预定义的公式排序。供应商Perceptive Pixel就属于这一类。
　　五、生态系统战略
　　许多最大最成功的公司都花费大量资金构建围绕它们产品的生态系统。这些生态系统被产品特性和商务模型所支持，并与合作伙伴的产品和技术协同工作。如果一个产品没有一个富有战略的生态系统，是很难适应客户的要求的。

常用的大数据工具都有哪些？

未至科技魔方是一款大数据模型平台，是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台，其采用分布式文件系统对数据进行存储，支持海量数据的处理。采用多种的数据采集技术，支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具，支持流程化的模型配置。通过第三方插件技术，很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集，数据模型的搭建，数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程，平台主要包括数据采集部分，模型配置部分，模型执行部分及成果展示部分等。

未至科技小蜜蜂网络信息雷达是一款网络信息定向采集产品，它能够对用户设置的网站进行数据采集和更新，实现灵活的网络数据采集目标，为互联网数据分析提供基础。
未至科技泵站是一款大数据平台数据抽取工具，实现db到hdfs数据导入功能，借助Hadoop提供高效的集群分布式并行处理能力，可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中，能有效解决大数据传统抽取导致的作业负载过大抽取时间过长的问题，为大数据仓库提供传输管道。
未至科技云计算数据中心以先进的中文数据处理和海量数据支撑为技术基础，并在各个环节辅以人工服务，使得数据中心能够安全、高效运行。根据云计算数据中心的不同环节，我们专门配备了系统管理和维护人员、数据加工和编撰人员、数据采集维护人员、平台系统管理员、机构管理员、舆情监测和分析人员等，满足各个环节的需要。面向用户我们提供面向政府和面向企业的解决方案。
未至科技显微镜是一款大数据文本挖掘工具，是指从文本数据中抽取有价值的信息和知识的计算机处理技术,
包括文本分类、文本聚类、信息抽取、实体识别、关键词标引、摘要等。基于Hadoop
MapReduce的文本挖掘软件能够实现海量文本的挖掘分析。CKM的一个重要应用领域为智能比对,
在专利新颖性评价、科技查新、文档查重、版权保护、稿件溯源等领域都有着广泛的应用。
未至科技数据立方是一款大数据可视化关系挖掘工具，展现方式包括关系图、时间轴、分析图表、列表等多种表达方式，为使用者提供全方位的信息展现方式。参考技术A 常用的大数据采集工具有八爪鱼、Content Grabber、Parsehub、Mozenda、Apache Flume等。
八爪鱼是一款免费的、可视化免编程的网页采集软件，可以从不同网站中快速提取规范化数据。
Content Grabber是一个支持智能抓取的网页爬虫软件。
Parsehub是一款基于网页的爬虫程序。
Mozenda是一款网页抓取软件，它还可以为商业级数据抓取提供定制服务。
Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。参考技术B 数据挖掘和数据分析的能力在当今时代相当重要，智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。我列出了一部分最热门的大数据工具，供大家参考。

Part 1：数据采集工具

1 .八爪鱼

八爪鱼是一款免费的、简单直观的网页爬虫工具，无需编码即可从许多网站抓取数据。无论你是初学者还是经验丰富的技术人员或企业高管，它都可以满足你的需求。为了减少使用上的难度，八爪鱼为初学者准备了“网站简易模板”，涵盖市面上多数主流网站。使用简易模板，用户无需进行任务配置即可采集数据。简易模板为采集小白建立了自信，接下来还可以开始用“高级模式”，它可以帮助你在几分钟内抓取到海量数据。此外，你还可以设置定时云采集，实时获取动态数据并定时导出数据到数据库或任意第三方平台。

2. Content Grabber

Content Grabber是一个支持智能抓取的网页爬虫软件。它的程序运行环境可用在开发、测试和产品服务器上。你可以使用c#或VB.NET来调试或编写脚本来控制爬虫程序。它还支持在爬虫工具上添加第三方扩展插件。凭借其全面综合的功能，Content Grabber对于具有技术基础的用户而言功能极其强大。

3.Import.io

Import.io是一款基于网页的数据抓取工具。它于2012年首次在伦敦上线。现在Import.io将其商业模式从B2C转向了B2B。2019年，Import.io收购了Connotate并成为网页数据集成平台。凭借广泛的网页数据服务，Import.io成为了业务分析的绝佳选择。

4. Parsehub

Parsehub是一款基于网页的爬虫程序。它支持采集使用了AJax， JavaScripts技术的网页数据，也支持采集需要登录的网页数据。它有一个为期一周的免费试用窗口，供用户体验其功能。

5. Mozenda

Mozenda是一款网页抓取软件，它还为商业级数据抓取提供定制服务。它可以从云上和本地软件中抓取数据并进行数据托管。

Part 2：数据可视化工具

1. PowerBI

Microsoft PowerBI同时提供本地和云服务。它最初是作为Excel插件引入的，不久PowerBI凭借其强大的功能开始普及。目前，它被视为商业分析领域的软件领导者。它提供了数据可视化和bi功能，使用户可以轻松地以更低的成本实现快速，明智的决策，用户可协作并共享自定义的仪表板和交互式报告。

2. Solver
Solver是一家专业的企业绩效管理(CPM)软件公司。Solver致力于通过获取可提升公司盈利能力的所有数据源来提供世界一流的财务报告、预算方案和财务分析。其软件BI360可用于云计算和本地部署，它专注于四个关键的分析领域，包括财务报告、预算、仪表板和数据仓库。

3.Qlik
Qlik是一种自助式数据分析和可视化工具。它具有可视化仪表板，可简化数据分析，并帮助公司快速制定业务决策。

4.Tableau Public
Tableau 是一个交互式数据可视化工具。不像大多数可视化工具那样需要编写脚本，Tableau的简便性可以帮助新手降低使用难度。只需托拉拽的简单操作使数据分析轻松完成。他们也有一个“新手入门工具包”和丰富的培训资料，可帮助用户创建创更多的分析报告。

5. 谷歌Fusion Tables
Fusion Table 是谷歌提供的数据管理平台。你可以使用它来做数据收集、数据可视化和数据共享。他就像电子数据表，但功能更强大更专业。你可以通过添加CSV、KML和电子表格中的数据集和同事共享资料。你还可以发布数据资料并将其嵌入到其他网页属性中。

6. Infogram
Infogram是一种直观的可视化工具，可帮助你创建精美的信息图表和报告。它提供了超过35个交互式图表和500多个地图，帮助你可视化数据。除了各种各样的图表，还有柱状图、条形图、饼图或词云等，它用创新的信息图表给你留下深刻印象。参考技术C 大数据工具特别广泛了，数据建模、数据分析挖掘、数据采集、数据展示等都有不同工具，目前我能说得上的是软件机器人小帮数据采集工具，对于CS、BS架构的软件都能兼容，更适合大数据这个范畴，不过，采集数据只是第一步，整个大数据工具的话，是个更系统的概念了。参考技术D 大数据是互联网发展的方向，大数据人才是未来的高薪贵族。随着大数据人才的供不应求，大数据人才的薪资待遇也在不断提升。大数据时代，中国IT环境也将面临重新洗牌，不仅仅是企业，更是程序员们转型可遇而不可求的机遇。综合以下是10家专门从事大数据构建或相关业务的企业所提供的应用程序，有需要的可以直接收藏了！
1. Domo
Omniture公司前首席执行官Josh James于2010年创立了Domo公司，为企业提供了一种方法，可以从不同来源、不同的孤岛中查看数据。它自动从电子表格、社交媒体、内部存储、数据库，基于云的应用程序，以及数据仓库中提取数据，并在可定制仪表板上显示信息。它以其易用性以及几乎任何人都可以建立和使用它而闻名，而不仅仅是数据科学家采用。它配备了许多预加载的图表和数据源设计，可以快速移动。
2. Teradata Database
从Teradata Database 15开始，该公司增加了Teradata统一数据架构等新的大数据功能，使企业能够跨多个系统访问和处理分析查询，其中包括从Hadoop导入和导出双向数据。它还添加了地理空间数据的3D显示和处理，以及增强的工作负载管理和系统可用性。支持AWS和Azure的基于云计算的版本称为Teradata Everywhere，它在基于公共云的数据和本地部署的数据之间提供了大规模的并行处理分析。
3. Hitachi Vantara
Hitachi Vantara的大数据产品是建立一些流行的开源工具基础上。Hitachi Vantara成立于2017年，是日立数据系统公司的存储和数据中心基础设施业务部门，是由Hitachi Insight集团物联网业务和日立Pentaho大数据业务组合成的一家合资公司。 Pentaho基于Apache Spark内存计算框架和Apache Kafka消息系统。Pentaho 8.0还增加了对Apache Knox Gateway的支持，以对用户进行身份验证，并强制访问大数据存储库的访问规则。它还增加了对依靠Docker容器构建分析应用程序的支持。
4. TIBCO公司的Statistica
TIBCO公司的Statistica是针对各种规模企业的预测分析软件，使用Hadoop技术对结构化和非结构化数据执行数据挖掘，解决物联网数据，能够在全球任何地方的设备和网关上部署分析，并支持数据库内分析来自Apache Hive、MySQL、Oracle、Teradata等平台的功能。它使用模板来设计完整的分析，因此只有较少的技术用户可以进行自己的分析，并且可以将模型从电脑导出到其他设备。
5. Panoply
Panoply公司依靠使用人工智能来销售所谓的智能云数据仓库，以消除转换、集成和管理数据所需的开发和编码。该公司声称，其智能云数据仓库实质上提供了数据管理即服务，能够在无需任何干预的情况下消费和处理高达1PB的数据。其机器学习算法可以检查来自任何数据源的数据，并对该数据执行查询和可视化。
6. IBM Watson Analytics
Watson Analytics是IBM公司的基于云计算的分析服务。当用户将数据上传到Watson时，它会根据数据分析向用户提供可帮助回答的问题，并立即提供关键数据可视化。它还可以进行简单分析、预测分析、智能数据发现，并提供各种自助服务仪表板。IBM公司还有另一种分析产品SPSS，可用于从数据中发现模式，并查找数据点之间的关联。
7. SAS Visual Analytics
Statistical Analysis System (SAS)创建于1976年，比大数据的创建还要早，就是为了处理大量数据。它可以从各种来源中挖掘、更改、管理和检索数据，并对所述数据执行统计分析，然后将其呈现在一系列方法中，如统计数据、图表等，或将数据写入其他文件。它支持所有类型的数据预测和分析要点，并附带预测工具来分析和预测流程。
8. Sisense商业智能软件
Sisense公司声称其提供了唯一的商业智能软件，使用户可以依靠从商品服务器硬件上的多个源进行来准备、分析和可视化复杂数据。Sisense的片上高性能数据引擎可以在一秒钟内完成对TB级数据的查询，并且为不同行业提供了一批模板。
9. Talend的大数据工作室
Talend一直专注于为Hadoop生成干净的原生代码，无需手动编写所有代码。它为各种大数据存储库提供接口，如Cloudera，MapR，Hortonworks和Amazon EMR。它近期添加了一个数据准备应用程序，可以让客户创建一个通用字典，并使用机器学习，自动执行数据清理过程，以便在更短的时间内为数据处理准备好数据。
10. Cloudera
Apache Hadoop公司是很受欢迎的提供商和支持者，它与戴尔、英特尔、甲骨文、SAS、德勤和凯捷等公司都有合作关系。它由五个主要应用程序组成：核心数据管理平台Cloudera Essentials，数据管理平台Cloudera Enterprise Data Hub，用于商业智能和基于SQL的分析的Cloudera Analytic DB; 高度可扩展的NoSQL数据库Cloudera Operational DB，以及Cloudera Data Science and Engineering，在Core Essentials平台上运行的数据处理、数据科学和机器学习。

以上是关于大数据技术包括哪些的主要内容，如果未能解决你的问题，请参考以下文章