机器学习如何实现物联网数据价值最大化?

Posted Vertica

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习如何实现物联网数据价值最大化?相关的知识,希望对你有一定的参考价值。

“汽车工厂机器生产流水线:三维渲染模型”

来自作者LinkedIn账号

 

撰稿:Hem Muralidharan, Vertica大数据分析高级产品&市场经理

编辑:Vertica中国团队

 

当今的世界是如此深刻地为数据驱动着。如果与现代数据无缘但想引领组织前进,接下来将举步维艰。

据IDC报告(2020年5月),截止2020年,全世界将有总量超过59ZB的数据被创造、捕获、复制与消费。未来3年内,数据量将超越过去30年创造的数据总量;而未来5年内,全世界创造的数据总量将是2020年前5年的3倍及以上。


随着市场逐渐成熟,物联网越来越多地成为“物”、人与流程的信息交换通道。数据成为最大的共同点——数据从网络的这端到那端被捕获、处理和使用,为行业、政府和个人的生活持续创造价值。

——IDC报告,2019年


值得一提的是,所有这些数据绝大部分来自于连接性设备(connected devices)与物联网(IoT),如组件、传感器、电子小工具(electronic gadgets)和可穿戴设备等等。


机器生成的现代数据(modern manchine-generated data)鼓励企业从其中获得洞察,但,收集了越来越多数据的企业到底如何发挥数据的最大价值呢?

 


数据价值生成:

有效的物联网机器学习需采纳最先进的方法

 

让我们来探讨机器生成数据的本质吧。机器生成数据的特性在于:随着时间推移而具备连续性,因数据产生的方式而具有动态性,因需处理的载量之巨大而具有复杂性

传统数据仓库技术已无法持续高效地处理机器数据,而曾经只能通过编程语言或框架(如R、Python、Java和Scala)或笔记本接口(如Jupyter)编码分析的机器学习算法,现在已经可以实现智能数据分析和高级数据处理

现代的统一分析仓库往往内置了机器学习算法,它们允许机器学习工作流完全通过在数据库内部简单调用SQL完成。同时,它们还具备扩展性和交互性,可以支持使用R、Python和Jupyter等工具,在为数据科学团队提供熟悉的工作环境的同时,也从整体上提升了性能、容量和部署的便利性



见解与洞察

通过识别数据趋势、模式、关联性与隐藏关系,机器学习可以帮助人们解锁对大量机器生成数据的见解,而分析性数据仓库通过快速组合不同的海量数据来支持并优化这一点



性能优化

由于现代统一分析仓库为列式存储,并针对快速读取和连接的性能进行了优化,因此运行SQL查询的速度更快、效率更高。当分析已经在接近数据实际所在之处运行时,没有必要再编写的额外代码。



先进方法

以下是统一分析仓库可以实现的最突出的机器学习算法,包括:

  • 线性回归

  • 逻辑回归

  • K-means聚类

  • 决策树

    - 梯度提升

    - 随机森林

  • 朴素贝叶斯(Naïve Bayes)

  • 支持向量机(SVM)

  • 层次聚类(Hierarchical clustering)



层次多样性

结合机器学习算法可以较好利用有价值的洞察,让人惊讶的是,这也可以在分析数据库中完成。

以下所述的现在已经相对普遍化,但不同的数据仓库技术会以不同的方式实现这些功能


1、一些分析数据库会将机器学习作为一套独立工具,需要额外成本并与数据库集成;

2、有些分析数据库将机器学习内置于数据库核心位置,即包含数据库内机器学习,如Vertica

3、一些平台以开源框架为基础提供并实现机器学习,此举旨在取代分析数据库,以机器学习作为集成一部分同查询功能一起工作。


 在以上三项选择中,只有将机器学习作为第一类公民(first-class citizen)、将其内置而非附加在库之上才往往能给用户带来最多的好处。


机器学习如何实现物联网数据价值最大化?


作为驱动全球顶级数据驱动企业的统一分析仓库方案,Vertica将高性能MPP 查询引擎的强大功能与高级分析和机器学习完美结合Vertica内置时间序列、地理空间和完整的机器学习流程,完整支持整个分析预测流程。



易于部署性

在现代物联网发展规模之下,使用现代的统一分析仓库进行机器学习的优势之一是易于部署。当开发环境、数据库与部署环境相匹配时,在生产机器上部署机器学习模型的过程就会被大大简化。


机器学习如何实现物联网数据价值最大化?


基于现代数据处理需要,Vertica创新地提供了Eon模式的云原生计算存储分离的部署选项。采用多云策略,既支持主流的公有云、混合云,也支持 Pure Storage、Minio 和 HDFS等可在企业本地部署的对象存储和分布式存储,按需分配资源,大大提升并发或吞吐能力

无需专门资源,可以直接调用SQL或分析师最习惯使用的框架来完成工作,且无需维护多个产品。最重要的是,以Vertica为代表的现代数据分析方案可以让企业以可重复、可扩展的方式,实现对大量设备数据的充分且高效的利用。



Vertica 精彩看点





▼▼▼

关注Vertica,同步数据智能前沿讯息:

猛戳下方阅读原文,获取Vertica免费试用!

以上是关于机器学习如何实现物联网数据价值最大化?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用机器学习算法进行能耗预测 1:背景知识

如何使用机器学习算法进行能耗预测 1:背景知识

如何使用机器学习算法进行能耗预测 1:背景知识

互联网+时代 CIO如何实现企业IT价值转型

基于机器学习的物联网安全技术:物联网设备如何使用人工智能来增强安全性?

Kafka +深度学习+ MQTT搭建可扩展的物联网平台附源码