大数据包括哪些？

Posted 2023-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据包括哪些？相关的知识，希望对你有一定的参考价值。

简单来说，从大数据的生命周期来看，无外乎四个方面：大数据采集、大数据预处理、大数据存储、大数据分析，共同组成了大数据生命周期里最核心的技术，下面分开来说：

一、大数据采集

大数据采集，即对各种来源的结构化和非结构化海量数据，所进行的采集。

数据库采集：流行的有Sqoop和ETL，传统的关系型数据库mysql和Oracle 也依然充当着许多企业的数据存储方式。当然了，目前对于开源的Kettle和Talend本身，也集成了大数据集成内容，可实现hdfs，hbase和主流Nosq数据库之间的数据同步和集成。

网络数据采集：一种借助网络爬虫或网站公开API，从网页获取非结构化或半结构化数据，并将其统一结构化为本地数据的数据采集方式。

文件采集：包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。

二、大数据预处理

大数据预处理，指的是在进行数据分析之前，先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作，旨在提高数据质量，为后期分析工作奠定基础。数据预处理主要包括四个部分：数据清理、数据集成、数据转换、数据规约。

数据清理：指利用ETL等清洗工具，对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)、不一致数据进行处理。

数据集成：是指将不同数据源中的数据，合并存放到统一数据库的，存储方法，着重解决三个问题：模式匹配、数据冗余、数据值冲突检测与处理。

数据转换：是指对所抽取出来的数据中存在的不一致，进行处理的过程。它同时包含了数据清洗的工作，即根据业务规则对异常数据进行清洗，以保证后续分析结果准确性。

数据规约：是指在最大限度保持数据原貌的基础上，最大限度精简数据量，以得到较小数据集的操作，包括：数据方聚集、维规约、数据压缩、数值规约、概念分层等。

三、大数据存储

大数据存储，指用存储器，以数据库的形式，存储采集到的数据的过程，包含三种典型路线：

1、基于MPP架构的新型数据库集群

采用Shared Nothing架构，结合MPP架构的高效分布式计算模式，通过列存储、粗粒度索引等多项大数据处理技术，重点面向行业大数据所展开的数据存储方式。具有低成本、高性能、高扩展性等特点，在企业分析类应用领域有着广泛的应用。

较之传统数据库，其基于MPP产品的PB级数据分析能力，有着显著的优越性。自然，MPP数据库，也成为了企业新一代数据仓库的最佳选择。

2、基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装，是针对传统关系型数据库难以处理的数据和场景（针对非结构化数据的存储和计算等），利用Hadoop开源优势及相关特性（善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等），衍生出相关大数据技术的过程。

伴随着技术进步，其应用场景也将逐步扩大，目前最为典型的应用场景：通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑，其中涉及了几十种NoSQL技术。

3、大数据一体机

这是一种专为大数据的分析处理而设计的软、硬件结合的产品。它由一组集成的服务器、存储设备、操作系统、数据库管理系统，以及为数据查询、处理、分析而预安装和优化的软件组成，具有良好的稳定性和纵向扩展性。

四、大数据分析挖掘

从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面，对杂乱无章的数据，进行萃取、提炼和分析的过程。

1、可视化分析

可视化分析，指借助图形化手段，清晰并有效传达与沟通信息的分析手段。主要应用于海量数据关联分析，即借助可视化数据分析平台，对分散异构数据进行关联分析，并做出完整分析图表的过程。
具有简单明了、清晰直观、易于接受的特点。

2、数据挖掘算法

数据挖掘算法，即通过创建数据挖掘模型，而对数据进行试探和计算的，数据分析手段。它是大数据分析的理论核心。

数据挖掘算法多种多样，且不同算法因基于不同的数据类型和格式，会呈现出不同的数据特点。但一般来讲，创建模型的过程却是相似的，即首先分析用户提供的数据，然后针对特定类型的模式和趋势进行查找，并用分析结果定义创建挖掘模型的最佳参数，并将这些参数应用于整个数据集，以提取可行模式和详细统计信息。

3、预测性分析

预测性分析，是大数据分析最重要的应用领域之一，通过结合多种高级分析功能（特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等），达到预测不确定事件的目的。

帮助分用户析结构化和非结构化数据中的趋势、模式和关系，并运用这些指标来预测将来事件，为采取措施提供依据。

4、语义引擎

语义引擎，指通过为已有数据添加语义的操作，提高用户互联网搜索体验。

5、数据质量管理

指对数据全生命周期的每个阶段（计划、获取、存储、共享、维护、应用、消亡等）中可能引发的各类数据质量问题，进行识别、度量、监控、预警等操作，以提高数据质量的一系列管理活动。

以上是从大的方面来讲，具体来说大数据的框架技术有很多，这里列举其中一些：

文件存储：Hadoop HDFS、Tachyon、KFS

离线计算：Hadoop MapReduce、Spark

流式、实时计算：Storm、Spark Streaming、S4、Heron

K-V、NOSQL数据库：HBase、Redis、MongoDB

资源管理：YARN、Mesos

日志收集：Flume、Scribe、Logstash、Kibana

消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式协调服务：Zookeeper

集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习：Mahout、Spark MLLib

数据同步：Sqoop

任务调度：Oozie

······

想要学习更多关于大数据的知识可以加群和志同道合的人一起交流一下啊[https://sourl.cn/d9wRmb ]

参考技术A 大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。
大数据主要技术组件：Hadoop、HBase、kafka、Hive、MongoDB、Redis、Spark 、Storm、Flink等。
大数据技术包括数据采集，数据管理，数据分析，数据可视化，数据安全等内容。数据的采集包括传感器采集，系统日志采集以及网络爬虫等。数据管理包括传统的数据库技术，nosql技术，以及对于针对大规模数据的大数据平台，例如hadoop，spark，storm等。数据分析的核心是机器学习，当然也包括深度学习和强化学习，以及自然语言处理，图与网络分析等。参考技术B 大数据（英语：Big data[1][2]或Megadata），或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
在总数据量相同的情况下，与个别分析独立的小型数据集（data
set）相比，将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性，可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等；这样的用途正是大型数据集盛行的原因。
大数据的应用示例包括大科学、RFID、感测设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、照片图像和视频封存、大规模的电子商务等。参考技术C 什么是大数据？
列举三个常用的大数据定义:
(1)具有较强决策、洞察和流程优化能力的海量、高增长、多样化的信息资产需要新的处理模式。
——Gartner
(2)海量数据量、快速数据流和动态数据速度、多样的数据类型和巨大的数据价值。
—— IDC
(3)或者是海量数据、海量数据、大数据，是指所涉及的数据太大，无法在合理的时间内被截取、管理、处理、整理成人类可以解读的信息。
—— Wiki
大数据的其他定义也差不多，可以用几个关键词来定义大数据。
首先是“大尺度”，可以从两个维度来衡量，一是从时间序列中积累大量数据，二是对数据进行深度提炼。
其次，“多样化”可以是不同的数据格式，比如文字、图片、视频等。，可以是不同的数据类别，如人口数据、经济数据等。，也可以有不同的数据源，如互联网和传感器等。
第三，“动态”。数据是不断变化的，它可以随着时间迅速增加大量的数据，也可以是在空间不断移动变化的数据。
这三个关键词定义了大数据的形象。
但是，需要一个关键能力，就是“处理速度快”。如果有这样的大规模、多样化、动态的数据，但是需要很长时间的处理和分析，那就不叫大数据。从另一个角度来说，要实现这些数据的快速处理，肯定没有办法手工实现，所以需要借助机器来实现。参考技术D 大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

常用的大数据工具都有哪些？

未至科技魔方是一款大数据模型平台，是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台，其采用分布式文件系统对数据进行存储，支持海量数据的处理。采用多种的数据采集技术，支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具，支持流程化的模型配置。通过第三方插件技术，很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集，数据模型的搭建，数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程，平台主要包括数据采集部分，模型配置部分，模型执行部分及成果展示部分等。

未至科技小蜜蜂网络信息雷达是一款网络信息定向采集产品，它能够对用户设置的网站进行数据采集和更新，实现灵活的网络数据采集目标，为互联网数据分析提供基础。
未至科技泵站是一款大数据平台数据抽取工具，实现db到hdfs数据导入功能，借助Hadoop提供高效的集群分布式并行处理能力，可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中，能有效解决大数据传统抽取导致的作业负载过大抽取时间过长的问题，为大数据仓库提供传输管道。
未至科技云计算数据中心以先进的中文数据处理和海量数据支撑为技术基础，并在各个环节辅以人工服务，使得数据中心能够安全、高效运行。根据云计算数据中心的不同环节，我们专门配备了系统管理和维护人员、数据加工和编撰人员、数据采集维护人员、平台系统管理员、机构管理员、舆情监测和分析人员等，满足各个环节的需要。面向用户我们提供面向政府和面向企业的解决方案。
未至科技显微镜是一款大数据文本挖掘工具，是指从文本数据中抽取有价值的信息和知识的计算机处理技术,
包括文本分类、文本聚类、信息抽取、实体识别、关键词标引、摘要等。基于Hadoop
MapReduce的文本挖掘软件能够实现海量文本的挖掘分析。CKM的一个重要应用领域为智能比对,
在专利新颖性评价、科技查新、文档查重、版权保护、稿件溯源等领域都有着广泛的应用。
未至科技数据立方是一款大数据可视化关系挖掘工具，展现方式包括关系图、时间轴、分析图表、列表等多种表达方式，为使用者提供全方位的信息展现方式。参考技术A 常用的大数据采集工具有八爪鱼、Content Grabber、Parsehub、Mozenda、Apache Flume等。
八爪鱼是一款免费的、可视化免编程的网页采集软件，可以从不同网站中快速提取规范化数据。
Content Grabber是一个支持智能抓取的网页爬虫软件。
Parsehub是一款基于网页的爬虫程序。
Mozenda是一款网页抓取软件，它还可以为商业级数据抓取提供定制服务。
Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。参考技术B 数据挖掘和数据分析的能力在当今时代相当重要，智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。我列出了一部分最热门的大数据工具，供大家参考。

Part 1：数据采集工具

1 .八爪鱼

八爪鱼是一款免费的、简单直观的网页爬虫工具，无需编码即可从许多网站抓取数据。无论你是初学者还是经验丰富的技术人员或企业高管，它都可以满足你的需求。为了减少使用上的难度，八爪鱼为初学者准备了“网站简易模板”，涵盖市面上多数主流网站。使用简易模板，用户无需进行任务配置即可采集数据。简易模板为采集小白建立了自信，接下来还可以开始用“高级模式”，它可以帮助你在几分钟内抓取到海量数据。此外，你还可以设置定时云采集，实时获取动态数据并定时导出数据到数据库或任意第三方平台。

2. Content Grabber

Content Grabber是一个支持智能抓取的网页爬虫软件。它的程序运行环境可用在开发、测试和产品服务器上。你可以使用c#或VB.NET来调试或编写脚本来控制爬虫程序。它还支持在爬虫工具上添加第三方扩展插件。凭借其全面综合的功能，Content Grabber对于具有技术基础的用户而言功能极其强大。

3.Import.io

Import.io是一款基于网页的数据抓取工具。它于2012年首次在伦敦上线。现在Import.io将其商业模式从B2C转向了B2B。2019年，Import.io收购了Connotate并成为网页数据集成平台。凭借广泛的网页数据服务，Import.io成为了业务分析的绝佳选择。

4. Parsehub

Parsehub是一款基于网页的爬虫程序。它支持采集使用了AJax， JavaScripts技术的网页数据，也支持采集需要登录的网页数据。它有一个为期一周的免费试用窗口，供用户体验其功能。

5. Mozenda

Mozenda是一款网页抓取软件，它还为商业级数据抓取提供定制服务。它可以从云上和本地软件中抓取数据并进行数据托管。

Part 2：数据可视化工具

1. PowerBI

Microsoft PowerBI同时提供本地和云服务。它最初是作为Excel插件引入的，不久PowerBI凭借其强大的功能开始普及。目前，它被视为商业分析领域的软件领导者。它提供了数据可视化和bi功能，使用户可以轻松地以更低的成本实现快速，明智的决策，用户可协作并共享自定义的仪表板和交互式报告。

2. Solver
Solver是一家专业的企业绩效管理(CPM)软件公司。Solver致力于通过获取可提升公司盈利能力的所有数据源来提供世界一流的财务报告、预算方案和财务分析。其软件BI360可用于云计算和本地部署，它专注于四个关键的分析领域，包括财务报告、预算、仪表板和数据仓库。

3.Qlik
Qlik是一种自助式数据分析和可视化工具。它具有可视化仪表板，可简化数据分析，并帮助公司快速制定业务决策。

4.Tableau Public
Tableau 是一个交互式数据可视化工具。不像大多数可视化工具那样需要编写脚本，Tableau的简便性可以帮助新手降低使用难度。只需托拉拽的简单操作使数据分析轻松完成。他们也有一个“新手入门工具包”和丰富的培训资料，可帮助用户创建创更多的分析报告。

5. 谷歌Fusion Tables
Fusion Table 是谷歌提供的数据管理平台。你可以使用它来做数据收集、数据可视化和数据共享。他就像电子数据表，但功能更强大更专业。你可以通过添加CSV、KML和电子表格中的数据集和同事共享资料。你还可以发布数据资料并将其嵌入到其他网页属性中。

6. Infogram
Infogram是一种直观的可视化工具，可帮助你创建精美的信息图表和报告。它提供了超过35个交互式图表和500多个地图，帮助你可视化数据。除了各种各样的图表，还有柱状图、条形图、饼图或词云等，它用创新的信息图表给你留下深刻印象。参考技术C 大数据工具特别广泛了，数据建模、数据分析挖掘、数据采集、数据展示等都有不同工具，目前我能说得上的是软件机器人小帮数据采集工具，对于CS、BS架构的软件都能兼容，更适合大数据这个范畴，不过，采集数据只是第一步，整个大数据工具的话，是个更系统的概念了。参考技术D 大数据是互联网发展的方向，大数据人才是未来的高薪贵族。随着大数据人才的供不应求，大数据人才的薪资待遇也在不断提升。大数据时代，中国IT环境也将面临重新洗牌，不仅仅是企业，更是程序员们转型可遇而不可求的机遇。综合以下是10家专门从事大数据构建或相关业务的企业所提供的应用程序，有需要的可以直接收藏了！
1. Domo
Omniture公司前首席执行官Josh James于2010年创立了Domo公司，为企业提供了一种方法，可以从不同来源、不同的孤岛中查看数据。它自动从电子表格、社交媒体、内部存储、数据库，基于云的应用程序，以及数据仓库中提取数据，并在可定制仪表板上显示信息。它以其易用性以及几乎任何人都可以建立和使用它而闻名，而不仅仅是数据科学家采用。它配备了许多预加载的图表和数据源设计，可以快速移动。
2. Teradata Database
从Teradata Database 15开始，该公司增加了Teradata统一数据架构等新的大数据功能，使企业能够跨多个系统访问和处理分析查询，其中包括从Hadoop导入和导出双向数据。它还添加了地理空间数据的3D显示和处理，以及增强的工作负载管理和系统可用性。支持AWS和Azure的基于云计算的版本称为Teradata Everywhere，它在基于公共云的数据和本地部署的数据之间提供了大规模的并行处理分析。
3. Hitachi Vantara
Hitachi Vantara的大数据产品是建立一些流行的开源工具基础上。Hitachi Vantara成立于2017年，是日立数据系统公司的存储和数据中心基础设施业务部门，是由Hitachi Insight集团物联网业务和日立Pentaho大数据业务组合成的一家合资公司。 Pentaho基于Apache Spark内存计算框架和Apache Kafka消息系统。Pentaho 8.0还增加了对Apache Knox Gateway的支持，以对用户进行身份验证，并强制访问大数据存储库的访问规则。它还增加了对依靠Docker容器构建分析应用程序的支持。
4. TIBCO公司的Statistica
TIBCO公司的Statistica是针对各种规模企业的预测分析软件，使用Hadoop技术对结构化和非结构化数据执行数据挖掘，解决物联网数据，能够在全球任何地方的设备和网关上部署分析，并支持数据库内分析来自Apache Hive、MySQL、Oracle、Teradata等平台的功能。它使用模板来设计完整的分析，因此只有较少的技术用户可以进行自己的分析，并且可以将模型从电脑导出到其他设备。
5. Panoply
Panoply公司依靠使用人工智能来销售所谓的智能云数据仓库，以消除转换、集成和管理数据所需的开发和编码。该公司声称，其智能云数据仓库实质上提供了数据管理即服务，能够在无需任何干预的情况下消费和处理高达1PB的数据。其机器学习算法可以检查来自任何数据源的数据，并对该数据执行查询和可视化。
6. IBM Watson Analytics
Watson Analytics是IBM公司的基于云计算的分析服务。当用户将数据上传到Watson时，它会根据数据分析向用户提供可帮助回答的问题，并立即提供关键数据可视化。它还可以进行简单分析、预测分析、智能数据发现，并提供各种自助服务仪表板。IBM公司还有另一种分析产品SPSS，可用于从数据中发现模式，并查找数据点之间的关联。
7. SAS Visual Analytics
Statistical Analysis System (SAS)创建于1976年，比大数据的创建还要早，就是为了处理大量数据。它可以从各种来源中挖掘、更改、管理和检索数据，并对所述数据执行统计分析，然后将其呈现在一系列方法中，如统计数据、图表等，或将数据写入其他文件。它支持所有类型的数据预测和分析要点，并附带预测工具来分析和预测流程。
8. Sisense商业智能软件
Sisense公司声称其提供了唯一的商业智能软件，使用户可以依靠从商品服务器硬件上的多个源进行来准备、分析和可视化复杂数据。Sisense的片上高性能数据引擎可以在一秒钟内完成对TB级数据的查询，并且为不同行业提供了一批模板。
9. Talend的大数据工作室
Talend一直专注于为Hadoop生成干净的原生代码，无需手动编写所有代码。它为各种大数据存储库提供接口，如Cloudera，MapR，Hortonworks和Amazon EMR。它近期添加了一个数据准备应用程序，可以让客户创建一个通用字典，并使用机器学习，自动执行数据清理过程，以便在更短的时间内为数据处理准备好数据。
10. Cloudera
Apache Hadoop公司是很受欢迎的提供商和支持者，它与戴尔、英特尔、甲骨文、SAS、德勤和凯捷等公司都有合作关系。它由五个主要应用程序组成：核心数据管理平台Cloudera Essentials，数据管理平台Cloudera Enterprise Data Hub，用于商业智能和基于SQL的分析的Cloudera Analytic DB; 高度可扩展的NoSQL数据库Cloudera Operational DB，以及Cloudera Data Science and Engineering，在Core Essentials平台上运行的数据处理、数据科学和机器学习。

以上是关于大数据包括哪些？的主要内容，如果未能解决你的问题，请参考以下文章