数据科学与大数据
Posted 呵呵^~^
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据科学与大数据相关的知识,希望对你有一定的参考价值。
1. 数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理,数据科学的知识体系
-
数据预处理:为了提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的准确性,数据科学中需要对原始数据进行预处理——进行数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据规约和数据标注等。
-
数据计算:在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算。有一定的代表性的是Google云计算3大技术、Hadoop MapReduce和YARN技术的出现。数据计算模式的变化意味着数据科学中所关注的数据计算的主要目标、瓶颈和矛盾发生了根本性变化。
-
数据管理:在完成“数据预处理”(或“数据计算”)之后,我们需要对数据进行管理,以便进行(再次进行)“数据处理”以及数据的再利用和长久保管。在数据科学中,数据管理方法与技术发生了根本性的改变——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,例如NoSQL、NewSQL技术和关系云等。
这是最常见的一种。在业务中,它向分析师们提供业务的重要衡量标准的概览。
一个例子是每月的利润和损失账单。类似地,分析师可以获得大批客户的数据。了解客户(如,30% 的客户是自雇型)的地理信息也可认为是“描述型分析”。充分利用可视化工具能增强描述型分析所带来的信息。
2. 诊断型:为什么会发生?
这是描述型分析的下一步难题。通过评估描述型数据,诊断分析工具使得分析师们能够深入分析问题的核心原因。
设计良好的商业信息 dashboard 整合了时间序列数据(譬如,在多个联系时间点上的数据)的读入、特征的过滤和钻入功能,能够用于这类分析。
3. 预测型:可能发生什么?
预测型分析主要是进行预测。某事件在将来发生的可能性,预测一个可量化的值,或者是估计事情可能发生的某个时间点,这些都可以通过预测模型完成。
预测模型通常运用各种可变数据来作出预测。数据成员的多样化与可能预测的目标是相关联的(如,人的年龄越大,越可能发生心脏病,我们可以说年龄与心脏病风险是线性相关的)。随后,这些数据被放在一起,产生分数或预测。
在一个充满不确定性因素的世界里,能够预测允许人们作出更好的决定。预测模型在很多领域都被用到。
4. 指导型:我需要做什么?
交通应用是一个很好的例子,它帮助人们选择最好的回家路线,考虑到了每条路线的距离、在每条路上的速度、以及很关键的目前的交通限制。
以上是关于数据科学与大数据的主要内容,如果未能解决你的问题,请参考以下文章
分类推荐&通俗易懂 :数据科学与大数据技术专业领域的实用工具
VBOXAI威博智能首席科学家谈人工智能与大数据等技术相互融合