数据科学 | 什么是数据挖掘?

Posted 运筹OR帷幄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据科学 | 什么是数据挖掘?相关的知识,希望对你有一定的参考价值。







『运筹OR帷幄』转载



编者按:

大部分人一提到数据挖掘,脑海中首先想到的总是如何通过网络爬虫获得数据,针对获得的数据进行分析并进行可视化。知乎此问题的回答数量虽然不多,但是几个答主以趣味性的文字通俗易懂的解释了数据挖掘与数据分析及统计工作的区别,令人在阅读之后耳目一新。


以下整理按照知乎获赞数量进行排序:


1

链接:

https://www.zhihu.com/question/19637218/answer/24277701

来源:知乎


这是个有意思的问题。

由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人?很难解释对不对。

所以咱们来举个栗子简单看看:


一、分析报告


在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。

  • 孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。

  • 二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。

  • 所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。

  • 最后二郎神赢了。

  • 分析报告完成。

二、统计分析


大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。

  • 首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。

  • 然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。

  • 所以可以得出综合预测总体胜率是孙悟空赢面大。

  • 结论依靠历史记录,使用样本预测总体,根据经验做出假设。

  • 统计分析完成。

三、数据挖掘


孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:

  • 贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。

  • 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。

  • 在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。

  • 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。


综上所述,我们可知道:

  • 论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。

  • 悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。

  • 斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。

  • 另孙行者由于样貌原因始终单身(好伤感)。

  • 所以可以得出结论,这次大战孙悟空赢面大。

  • 数据挖掘完成。

四、最后总结


  • 分析报告一般是整个事件发生结束以后的总结(描述性)。

  • 统计分析能利用大量的历史样本来预测整个事件总体未来的走向(预测性概率)。

  • 数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来(规范性)。


以上,祝挖掘快乐:)



2


链接:

https://www.zhihu.com/question/19637218/answer/149600314

来源:知乎


1948年辽沈战役的时候,林彪每天深夜都要求汇报每日军情,其实都是重复着一堆枯燥无味的数据:每支部队歼敌多少、俘虏多少、缴获的火炮、车辆多少、枪支、物资多少,还要统计出机枪、长枪、短枪,击毁和缴获尚能使用的汽车,也要分出大小和类别。


这种工作很繁琐,很累人,看不出有任何价值。


然而,1948年10月份,林彪发现缴获的长短枪比例、大小车比例、军官与士兵的比例略微有些异常,从这些微妙的数字变化中他判断出国军司令廖耀湘的指挥所就在附近。


这就是数据挖掘。


(补充文中没有说明的详情如下:)

经过一天紧张的战斗指挥工作,人们都非常疲劳。整个作战室里面估计只有定下这个规矩的司令员林彪本人、还有那个读电报的倒霉参谋在用心留意。


1948年10月14日,东北野战军以迅雷不及掩耳之势,仅用了30小时就攻克了对手原以为可以长期坚守的锦州并全歼了守敌十余万之后,不顾疲劳,挥师北上与从沈阳出援的敌精锐廖耀湘基团二十余万在辽西相遇,一时间形成了混战。战局瞬息万变,谁胜谁负实难预料。


在大战紧急中,林彪无论有多忙,仍然坚持每晚必作的“功课”。一天深夜,值班参谋正在读着下面某师上报的其下属部队的战报。说他们下面的部队碰到了一个不大的遭遇战,歼敌部分、其余逃走。与其它之前所读的战报看上去并无明显异样,值班参谋就这样读着读着,林彪突然叫了一声“停!”他的眼里闪出了光芒,问:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”


大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:

“为什么那里缴获的短枪与长枪的比例比其它战斗略高”?

“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”?

“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”?


人们还没有来得及思索,等不及的林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”


随后林彪口授命令,追击从胡家窝棚逃走的那部分敌人,并坚决把他们打掉。各部队要采取分割包围的办法,把失去指挥中枢后会变得混乱的几十万敌军切成小块,逐一歼灭。司令员的命令随着无线电波发向了参战的各部队….

而此时的廖耀湘,正庆幸自己刚刚从偶然的一场遭遇战中安全脱身并与自己的另外一支部队汇合。他来不及休息就急于指令各部队尽快调整部署,为下一阶段作准备。可是好景不长,紧追而来的解放军迅速把他的新指挥部团团围住,拼命攻击,漫山遍野的解放军战士中,不断有人喊着:“矮胖子,白净脸;金丝眼镜湖南腔,不要放走廖耀湘!”


把对方指挥官的细节特征琢磨到如此细微,并变成如此威力巨大的顺口溜,穿着满身油渍伙夫服装的廖耀湘只好从俘虏群中站出来,无奈的说“我是廖耀湘”,沮丧的举手投降。

廖耀湘对自己静心隐蔽的精悍野战司令部那么快就被发现、打掉,觉得实在不可思议,认为那是一个偶然事件,输得不甘心。当他得知林彪是如何得出判断之后,这位出身黄埔军校并留学法国著名的圣西尔军校,参加过滇缅战役,在那里把日本鬼子揍得满地乱爬的新六军军长说,“我服了,败在他手下,不丢人。”

取得这场重要战役胜利的其中一个关键因素,居然出于获胜方的统帅夜半时分,对一份普通遭遇战之后的战报的数据分析,来源于他“从红军带兵时起,身上有个小本子,上面记载着每次战斗的缴获、歼敌数量”的优良军事素养。


3


链接:

https://www.zhihu.com/question/19637218/answer/607134772

https://mp.weixin.qq.com/s/UbsKGqEwtNBkZ7iv7wPdZQ 

来源:知乎


一、数据挖掘的定义


什么是数据挖掘?

  • 数据挖掘是一个用数据发现问题、解决问题的学科。

  • 通常通过对数据的探索、处理、分析或建模实现。


数据挖掘学习路线

  • 大学里并没有数据挖掘这么一个专业,现有的数据挖掘工程师大都来自工科或统计学等专业。

  • 目前的数据挖掘工程师大都来自不同背景,计算机科学、数学甚至是机械工程。要想成功胜任,其诀窍是热情、好奇心,不断学习新的工具的能力,以及对数据清洗和分析的耐心。


给新人的建议

  • 最重要的三个品质:好奇心、是非观以及批判性思考。这三个品质,放在其他领域同样适用。

  • 专业领域的三种能力:编程能力、统计基础、商业思维。编程和统计在大学较为容易学到,商业思维需要多实践总结。


二、数据挖掘在做什么


数据挖掘工程师的一天

  • 检查日常报表数据是否异常,寻求数据波动的合理解释。

  • 针对新业务,设计指标,搭建数据模型。

  • 搭建商品推荐系统、价格预测系统、文本分类系统或是聊天机器人。


数据挖掘的算法

  • 使用复杂的机器学习算法并不能保证效果。一般来讲,最好的解决办法,通常很简单。

  • 生产环境使用简单的算法,并不意味着要放弃前沿算法。每一套新的方法,其目的都在解决前面的薄弱之处。


数据挖掘与服务器

  • 本地 PC 由于硬件与系统限制,工程师常在服务器进行大规模数据的运算、脚本部署与接口部署。


三、商业中的数据挖掘


作为公司,该如何开展数据挖掘

  • 评估可能的收益与需要的投入

  • 开始收集数据

  • 招募数据挖掘团队


招聘数据挖掘团队

  • 好奇心应该是数据挖掘从业者的最重要品质。

  • 招聘时,应确保候选人对工作内容感兴趣。

  • 候选人应具备一定的成果意识。商业更重成果,而不是过程。


数据挖掘应用

  • 广告位点击预估

  • 信用卡风控评估

  • 用户流失干预

四、数据挖掘工具


数据挖掘工具与大数据

  • 掌握以下工具:Python、Linux、Pandas 及 Jupyter、关系型和非关系型数据库。

  • 大数据通常指传统数据系统无法处理的数据。体量和增速都相当大。处理工具以 Hadoop 为代表。


五、数据挖掘进阶


神经网络和深度学习

  • 神经网络出现已数十年,但由于条件限制,这一方向搁置了数十年。目前随着新的优化方法的出现和算力的提升,这一方向的工业化逐渐成为可能。

如何更上一层楼

  • 掌握基本的编程知识,更多地去理解背后的原理。

  • 流程化意识,及时复盘总结,规范流程(复用)。

  • 成果导向,将知识转化为行动和成果,给他人带来价值,服务更多人。




『运筹OR帷幄』新建立了【】的知识星球啦,特邀腾讯,百度,阿里,华为等公司大咖与您一起聊算法面经,快来扫码加入!


数据科学 | 什么是数据挖掘?


加入『运筹OR帷幄』知识星球的好处

  • 中国你能说出名字的几乎所有大厂(资深)算法工程师入驻

  • 欧美数家大厂(资深)软件工程师入驻

  • 以上所有公司独家内推机会

  • 简历修改指导

  • 面试咨询, 模拟面试

  • 得到一对一指导、解答工作中的疑惑

  • 多家Offer选择指导

  • 以面试题为学习资料学习真正的算法干货,从小白变成大咖

  • 不定期的线上、线下交流会和聚会,拓展人脉。



合伙人介绍

留德华叫兽:【运筹OR维幄】主编,德国海德堡大学数学博士,欧盟玛丽居里学者,IBM Cplex意大利实习半年,现德国某汽车集团无人驾驶感知研发工程师。擅长欧美留学申请,运筹学、数据科学、人工智能职业规划和德国求职咨询。


霍华德:【AI】板块主编,海外电子及计算机工程博士,资深自然语言处理算法工程师,现任职于腾讯,熟悉搜索引擎及其各种模块。可提供优质面试指导与咨询,包括面试培训、offer选择、职业规划及公司实习、校招和社招内推。



豪华嘉宾阵容(不断扩展中)


目前星球特邀嘉宾(曾)就职的公司包括:

腾讯、百度、阿里(菜鸟、达摩院、盒马)、华为、微软、英伟达、顺丰科技、SAP、NEC、美团、苏宁、福特、阿里妈妈、东芝、松下、佳能、拼多多、环球易购、携程、滴滴、京东、杉数科技、Sabre、悠桦林、Pier、奇弦智能等




相关文章推荐


已经读到这里了,不想更进一步的了解一下数据挖掘算法的技能树么?如果您是数据挖掘的老手,也不妨分享一些经验和看法,详见数据分析征稿通知。


点击蓝色标题,即可阅读




温馨提示


—— 完 ——




数据科学 | 什么是数据挖掘?

文章申明

June 2019

责任编辑:书生

微信编辑:葡萄

文章由『运筹OR帷幄』整理发布,原文链接:https://www.zhihu.com/question/19637218


数据科学 | 什么是数据挖掘?
数据科学 | 什么是数据挖掘?

点击查看详情

   

以上是关于数据科学 | 什么是数据挖掘?的主要内容,如果未能解决你的问题,请参考以下文章

数据分析师or数据科学家:你的职业选择是什么?

数据这就是为什么这么多数据科学家离职的原因

数据科学 | 什么是数据挖掘?

数据科学引论——Python之道

我是如何从物理学转行到数据科学领域

数据科学统计学:什么是偏度?