说“大数据”?还是先说说聚类算法吧!
Posted 中哲思维
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了说“大数据”?还是先说说聚类算法吧!相关的知识,希望对你有一定的参考价值。
在言IT必称“大数据”“云计算”的今天,说算法这个事情可能有点不够“高大上”,因为在很多童靴的眼里,算法似乎属于上个时代——“数据仓库”时期经常谈论的话题,但是你把所谓的现在可能“落地”的“大数据”问题研究下去,会发现关键还是算法问题。我一直有个观点,“大数据”这个事情在某种程度上还是没有脱离“数据挖掘”这个范畴。IT人都清楚,数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中提取隐含的、未知的、有潜在应用价值的信息或模式的过程,难道GOOGLE的流感预测不是属于这个范围吗?无非是它的挖掘对象是个体低价值密度,但总量十分庞大的数据而已。数据挖掘的根本在于统计学,在统计方法中,多元数据分析的三大方法之一的聚类算法,则是数据挖掘采用的起步技术,也是数据挖掘入门的一项关键技术,聚类分析是基于“物以类聚”的朴素思想,根据事物的特征对其进行聚类或分类。可以毫不夸张的讲,聚类算法如果都搞不明白,或者说没有“落地”的“实例”,那你说你在搞数据挖掘就是忽悠,说你在搞大数据就根本是纯粹瞎掰了。
泛态情况下的聚类算法不敢谈,那是科学家、理论家做的事,我只能说说聚类算法如何在公共安全行业生根开花,特别是基本的三种算法能够落实到相应的数据中心建设之中。从前期和目前正在开展的工作看,聚类算法是可以广泛应用于公共安全行业的,而且还可以发挥大作用。在人口管理上,聚类能帮助警务分析人员从业务的基本库中发现不同的数据集群,并且用不同的分析模式来刻画不同的群体的特征。在公安指挥调度上,聚类能用于帮助推导管理对象或者参与对象在不同时段、地区的分类,获得对相对一段时间和区域中管理、参与对象结构的认识。在刑事侦查上,聚类能够对于多发型案件的相似性进行算法上的确定,根据案件类型、发案时间和位置等案件信息的一些基本维度对一个城市的案件情况进行智能分类,对发案特征进行自动的归纳。在辅助公安决策上,聚类可以用来对重点内容、关键数据进行自动分类,以发现有用的信息辅助领导决策。对于其他一些涉及公安安全的领域,只要具备了符合聚类条件的数据基础,聚类分析可以作为一种独立的工具来获得相关业务数据的分布情况,同时通过观察每个簇的特点,并对某些特定的业务流程节点(比如刑事或行政执法办案的流程管理)进一步分析。此外,聚类还可以作为其他数据挖掘方法的预处理步骤。
介绍聚类算法的三种基本方法。1、随机划分方法。主要提供一个包含n个涉及公共安全业务数据对象或元组的数据库,给定一个划分方法构建数据的c个划分,每个划分表示一个簇,且c≤n。采用一个划分准则(经常称为相似度函数),例如同类案件相距的发案时间,以便发现在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。2、基于层次的方法。基于层次的方法对给定公安业务数据对象集合进行层次的分解。层次聚类的方法应当可以进一步凝聚的和分裂。比如对于一个人群而言,可以进行基于特定行为正常与否的层次聚类。3、基于密度的方法。基于密度的聚类方法是为了发现相关业务数据集的聚类结果。比如案件的发案区域,只要临近区域的密度超过某个阈值,就应当开始或者继续聚类。这个方法可以用来过滤数据“噪点”孤立某些干扰研判的数据。当然,这只是聚类的三种基本方法,其他还有比较复杂的基于网络结构的聚类,还有基于模型的智能聚类等等,在商业上都已经有了比较成熟的应用,但是在公共安全行业的应用还有待时日,我的观点很明确,就是先把基础的三个方法搞好吧。就像说“大数据”一样,常规数据挖掘还没有搞定,你搞什么“大数据”呢?
最后说几句,即使是最基础的三种方法,也不是很容易能搞定的,就说几点从技术层面的要求吧:1、处理海量结构化数据集的能力,现阶段能把海量的结构化的就可以了,非结构化还是等等吧。2、基本能处理任意范畴与维度,包括去处理有间隙的、嵌套的数据的能力。3、算法要独立封装,要相对独立于数据的输入。4、需要有处理“脏数据”的能力,一个强大的数据质量管控平台就显得非常重要了。5、聚类不同于分类,分类是给予规则,清楚最终获取的分类个数,需要用户直接给出分类规则,而聚类分析是无指导学习的例子,且对数据维度会非常敏感。与分类相比,它不需要依赖事先定义的类和带符号的训练实践。所以聚类分析可以说一种观察式学习,而不是示例式学习。
写到最后,忽然想起最近看了个电影《机器纪元》,聚类算法可能就是那块生物核中最基本的一小块。
【新朋友】请戳右上角“关注官方账号”
\⊙_⊙/中哲思维\⊙_⊙/
欢迎收听“中哲思维”。
电子邮箱:zzzxfw@163.com
以上是关于说“大数据”?还是先说说聚类算法吧!的主要内容,如果未能解决你的问题,请参考以下文章