一个小白学习学习数据分析师有多难

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个小白学习学习数据分析师有多难相关的知识,希望对你有一定的参考价值。

以下是一个文科生小白转行数据分析的人生历程,分享给你,相信可以帮助正处人生十字路口的朋友或正处于迷茫摇摆时期的人们一些启发或借鉴。
1、在选择数据分析师这条路之前,一定要思考再三,虽然这条路看着光鲜靓丽(至少职业的薪酬收入类比其他行业不会好不少),但也是一条艰难前行之路,充满着未知、荆棘和困惑,尤其是对于文科出身的我,付出的努力更是一般理工男的好几倍吧应该……
2、虽然数据分析这个行业有着天然的专业鄙视链(文理科的逻辑思维功底、编程语言接受程度上以及数理统计基础实实在在的存在差别,这也是甲方更信赖理工科出身的重要原因,因为社科或文艺类专业,很少有学校会严格地按照数理逻辑去制定学生的课程培养计划),但是并不代表文科生没有任何机会,因为大学以前,其实我们都没正式接触过编程或统计学,大学本科更多的是提升一个人的思维、而不是过硬的专研能力。所以文科专业的朋友,兴趣和决定也是重要因素,不能单单凭借客观的专业背景就否定自己。
3、如果你要坚定的选择这条路,就必须克服各种依赖症,比如安装一个R语言或Python软件,从庞大的数据中得出客观的结论过程,用学到的知识去分析数据的价值等等,一定要动手动脑去实战,不要单凭以前的文科思维(更注重思维的创造和个性的发扬),理性思维和客观科学更重要。因为这种学习习惯决定着你必然会被同行的有心者远远地摔在后面,百度、谷歌、Stack Overflow永远向你免费敞开大门;
4、动手实践和实习参与项目是很好的数据科学或者数据分析的开端,只学不练假把式,只有直接用于实战,才能看出来你学的东西到底有多少能够落地,能够用于提升业务的价值;
5、在求职以前,倘若时间允许,把R语言、Python(数据科学相关模块)、SQL(可以选择一个平台,比如mysql)这三大关卡早点过了。(如果你不想再天天加班补的话);
6、如果你还是在校学生,学会分清各种事情的轻重缓急,比如各种无聊拉人凑场子讲座、听课发礼品的营销洗脑课,各种……的无效应酬社交,如果全部都用在数据分析的学习上,你会发现你的时间多了很多,自然你也可以更早地追上同行的脚步;
7、脚踏实地的去走自己的路,不会的多写、多看、多问(问真正有价值的问题)、多总结、多交流,给自己足够的转行周期(如果你是科班出身的【统计、数学、计算机】,也许会走的顺风顺水,但也不可以掉以轻心,倘若不是,请一定要慎重选择,起码要给自己一到两年的转行缓冲期【具体视自己的专业背景和技术实力而定】,什么7天精通机器学习、三个月精通人工智能,你自己敢信嘛?)
8、学会融会贯通不同领域的知识,触类旁通、横向迁移,这样学起来才有越学越有通透的感觉,否则你只能增加笔记本的厚度,徒增烦恼罢了。
其实文科生学习数据分析或零基础转行的痛快和纠结大家都有,但任何的时间节点上,倘若一直停滞不前、犹豫不决,那么所有可以有或可能有的机会都会错失。庆幸我虽然浑浑噩噩,一路上也是披荆斩棘,但时光不负我,付出终究收获成果!愿所有文科生想进入数据分析行业或转行的小伙伴一切都顺利。
参考技术A 首先我们要了解下大数据分析和传统的数据分析在概念上的区别,大数据分析相较于传统的数据分析,需要掌握更多的技能,对于从业者能力要求提高了。但是大数据分析的学习门槛并没有太高,学习难度适中,很多人都能够学会大数据分析。 参考技术B 总体来说,先学基础,再学理论,最后是工具
1、学习数据分析基础知识,包括概率论、数理统计
2、你的目标行业的相关理论知识。比如金融类的,要学习证券、银行、财务等各种知识。
3、学习数据分析工具,如sas、spss,甚至excel也可以(数据分析模块的功能很强大)
切记,第一步是必不可少的,是数据分析的基础。本回答被提问者采纳
参考技术C

  随着大数据热潮的兴起,越来越多的人群想要进入大数据行业,尤其是对于没有技术功底的人群来说,一般会考虑报一些大数据培训班来进行系统的学习,一段时间之后就忍不住吐槽,学大数据学得想哭。事实上,任何一门新技能的习得,肯定是需要付出努力的,尤其是在基础薄弱的情况下,学习难度可想而知。

  然而近来也会有这样一种声音在网上:大数据太难学了,学大数据学得想哭。其实学习本来就没那么简单,大数据分析太难了学的想哭但是如果努力了还学不好大数据,就应该好好反思自己的学习方法是不是出了问题。下面小编就带大家看看,大数据真有这么难学吗?

  为什么觉得大数据难学?

  不可否认确实有一些人学大数据纯粹是兴趣使然,但是大多数人都是冲着大数据行业高薪资好前景去的。因此学习的出发点可能就过于功利和急于求成,当然不是说不能因为这个去学习,而是绝大多数人只是一时的头脑发热,并没有考虑清楚怎样去学习,也并没有付出多少努力。最后浪费了不少时间,甚至还有的人报了培训班浪费了不少钱,后悔莫及地大呼:学大数据学得想哭!大数据真难学!大数据真有这么难学吗?还是你根本就没有下定决心努力去学习呢?希望大家在觉得学习很难的时候,问一问自己到底为此付出了多少努力,如果使用时是因为没有花费多少心血而没学好,那就没什么好抱怨的了。

参考技术D 我是来自农村的一名很普通的女孩,17年大学毕业,现在在杭州一家大数据公司做分析师。想跟大家分享一下,我是如何从刚毕业的一张白纸,成长为一名大数据分析师的,希望我的学习成长心路历程,能够给到现在想往大数据分析行业发展的小伙伴一些参考。
我刚毕业的时候和现在许多学弟学妹一样,都非常迷茫,因为我对自己未来并没有一个非常清晰的职业规划,我不知道自己能够做什么?心里还有一些自卑,因为即便我很爱我的大学,但不得不承认,它只是一个很普通的大学,并非985、211。在如今大学生多如牛毛,激烈的就业环境中,我的学历和专业并没有太大竞争力,也有些后悔为什么大学期间没有再认真努力一些,但为时已晚。毕业,意味着新的人生起点,必须要勇敢面对,未来只能靠自己的能力在社会上生存和发展。
于是,就这样,带着对母校和同学们的不舍、对社会的彷徨、对自己内心的恐惧、以及家人给予我的期望迈入社会,开始了我的求职之路。找了半个月的工作,面试20来家,有3家成功的,但是开的工资最高3500一个月,并且2家是销售岗位,1家也不是我本专业的岗位(我的专业是信息与计算科学),我算了一下,就算我接受这些陌生并且不喜欢的岗位,在杭州这样的城市,合租房包水电物业费也得1500左右,公交一个月最少200,生活费最少900,电话费100,3500一个月的工资还要扣除五险一金,每个月还要倒贴。我简直快奔溃了,感觉自己很没用,连独立在城市生存下去的能力都没有,心里非常的沮丧。
也许命运就是这样,当你面临几乎绝望的时候,往往能审视自己,明白自己真的想要什么,静下心来的时候,我问自己,为什么企业不要我这样的学生?答案其实大家都知道,一是没有工作经验,二是啥都不懂不能为企业创造价值;三是面试的时候紧张、不自信、没有很好的表现自己。按这个逻辑分析下去,再找半个月我也不指望能出现奇迹,可能连我最后一点的自信都会被打击光。我隐约的感觉到需要重新定位自己,需要与其他同学拉开区分度,目前我学的这个专业和知识好像与企业要求的能力相差太大,如此分析后,摆在我面前的路有三条,一是接受3500的工作,熬个一年半载希望能加点工资,让自己在杭州生活下去,以后再谋发展;二是回老家的小城市随便找个工作以后结婚过日子;三是选择一个现在人才缺口大的行业,并且未来有前景的职业从头开始学习,这样至少我还比别人快一步。
去年社会上最热门的字眼就是人工智能、大数据,当时我在网上查了很多信息,看了很多新闻,也在招聘网站上查询大数据岗位的薪资和招聘人数及技术要求等情况,我发现大数据行业分二个方向,一是大数据工程开发类,二是大数据分析类,开发类的编程要求比较高,而分析类的编程技术要求相对低些,在网上找了一些分析课程听了一下,感觉还挺有意思的,也能听懂,相比与开发类,自己更喜欢也更适合分析类,所以就下定决心往数据分析这个方向进行学习。后面我花了10来天的时间去了解数据分析的前景和学习路径,但是网上的信息太杂乱,只能了解一个大概,在网上买了一些课,也买了好几本书,一个星期下来还是毫无头绪,本以为把HADOOP学会就能入门了,结果发现HADOOP搭建会了后面的SPARK太吃力;这时候我感觉还是需要去正式培训一下,自学找不到方向,也比较浪费时间;上天还是比较眷顾我的,我记得是去年的7月初,我在网上查大数据分析培训的时候,发现阿里云和他的内容提供商杭州决明数据科技联合推出一个《阿里云大数据分析师企业实战训练营》,需要选拨才能进入,抱着对阿里云品牌的信任,我进行了考试筛选,当时考的内容是两部分,一是数据库、二是C语言和JAVA;说真的JAVA一窍不通,没想到第二天接到通知说通过了,接下来需要电话面试,我当时就怀疑是不是骗人的,在电话面试的时候我就问了负责的老师,老师说是从250多个报名参加的学生中选10个人参加,主要是为新研发出来的课程体系做实验,我作为计算机相关专业、不懂JAVA只懂数据库的学生样本被选中了,另外面试沟通表达能力必须通过。突然有种被实验的感觉,这不是拿我做小白鼠嘛,我问还有其他样本是怎么样的,负责老师说,有一个是大三未毕业数学统计专业的、有一个机械工程三本学生、有一个软件开发专业的一本学生、有一个工作三年软件开发的学生、有一个工商管理专业的学生……我的个神了,当时就蒙圈了,这玩意万一实验失败我钱不就白花了,还浪费1个多月时间,我给父母说后没一个人支持我的,直到7月9号正式开营的前一天我才想明白一件事,在中国连阿里云这样的企业目前都没有一套完整的科学的课程体系,那其他家肯定也没有,如果是骗人的负责老师也没必要把做实验这事情给我说的这么清楚,最后一天选择了这个训练营,其实心里非常忐忑不安。
集训营10个同学一起学习35天,近2个月时间,经过系统的训练,我们10个同学被杭州7家企业录用,全部是数据分析岗位,有去电信的、有去外贸企业的、有去金融企业的、有去阿里系相关企业的,我和那个大三的学弟一起去了阿里系的企业,我试用期,他实习期,大
佛手:
家都非常的开心,说真的非常感谢阿里云和阿里云的合作伙伴决明数据科技的老师们,当时给我们上课的全部都是决明的老师,老师们都非常的专业负责,公司本来就是做企业商业数据咨询的,所以有很多商业案例跟我们分享,用的实验平台是九道门商业数据分析实验平台。
从小白鼠到入行,到现在也有小三年工作经验的我,给大家一个学数据分析师的学习路径,仅供大家参考;
1、 建议大家先学习MYSQL关系数据库,在分析师岗位上数据库是经常要用到的,也是必须要会的;
2、 建议大家接下来学习数据建模、数据仓库,ETL数据清洗,特别在工作中数据质量管理是比较重的,ETL是经常用的(当然数据清洗工具也有其他的,ETL是大家通用的);
3、 HADOOP分布式其实在分析师这个岗位上用的比较少,了解就可以了,因为现在分布式这块大公司都有现成的工具用,连搭建都不需要,直接用就可以了,非常方便。
4、 分析工具还是需要好好学一下的,建议大家学Python,现在公司里面大部分都是用这个,EXCEL也需要学习学习,一些小的数据集和简单的BI报表还是比较方便的。当然分析工具比较多比如R、SPSS,SAS等都是工具,就看你自己用什么了,会用一个熟练的工具就可以了。另外Python功能非常强大,也不需要研究太深,其实工作做在做项目的时候经常用很快就能学会的,毕竟只是个工具,就像EXCEL要想全部弄清楚所有功能那可不是一天二天的事情,而我们日常经常用的也就是那点东西。
5、 接下来需要学习机器学习,原来叫数据挖掘,现在叫机器学习,也有的叫人工智能,这个需要大家花点时间去学习了,我现在经常用的比如决策树、回归问题、分类问题、聚类问题、降维问题等,还有预测、无监督、最优化也经常用到,这门学科可能是需要我们长时间学习和研究的。
6、 算法方面其实我没有学过,在项目组里面有专门的算法工程师,另外有些通用算法是可以套用的,所以这方面我觉得项目组团队可以配合来做,这方面本人没有经验不做建议。
7、 我现在觉得分析师最重要的是看待问题、处理问题的思路,在这一年工作中我发现团队的大牛们解决问题的思路和我们真不一样,在每次项目组会议的时候我感觉学到的东西最多,那就是解决问题的思路和能力;而且分析师还需要对业务深入了解,因为不同的行业数据结构和业务逻辑都是不一样的,需要花时间去理解和学习;同时我也感觉到作为数据分析师还需要学习商业思维和营销知识。
8、 另外一个就是数据可视化,这个主要是把我们分析出来的数据结构用图像、动画等按时呈现出来。我现在正在做的就是数据大屏,工具很多,BAT公司都有自己的工具,当时老师教我们的时候教的是 Tableau,个人感觉非常好用,这个随便自己喜好了,做大屏可能需要一点美术功底,当然现在模板比较多,也可以套用。
9、 其实在学习的过程中要想学得快,最好是从项目案例入手,当时阿里云和他的内容提供商决明数据就是先让我们训练九道门实验平台上的23个场景案例,数据集全部做好放在服务器里,和我们现在工作的场景很像。老师上午讲知识点,下午和晚上我们就是做实操实验,工具老师基本上都不讲,在做案例项目的时候用到什么临时去查,二次下来工具就上手了。最后一周是加拿大的赵强老师给我们训练了一个大项目,模拟一个企业的数据分析项目,那5天是我最刻苦铭心的,虽然压力很大,分组进行,但是5天时间把我们原来所学的东西全部串起来了,一下子思路就通了,最后每个人还要上台去讲,也培养了自己的沟通能力和演讲能力,整个项目流程下来,受益匪浅。赵老师原来为世界500强企业做过数据咨询项目的,又是加拿大舒立克商学院的MBA教授,项目经验丰富,确实是国内少有的专家大咖,是决明科技的创始人,也是我现在上班这家公司的项目顾问,多亏了赵老师的悉心指导,让我在成为大数据分析师的学习之路上少走了很多弯路,真的蛮感谢赵老师的,也希望大家在学习的路上都能遇到这样的良师益友。
10、 最后一个建议就是大家还需要学习学习PPT制作和演讲,最近我们项目要陆续交付,每次交付都需要向客户进行讲解,每个人做的部分由自己讲,所以PPT制作和演讲都需要训练,亚历山大。
说了这么多,只能代表我这一年来的经历和感受,也不知道对学弟学妹有没有帮助,反正如果你们想往大数据分析师这个职业发展的话,建议大家一定要从项目入手去学习,工具要学但是不要研究太深,会浪费时间,工作后用起来上手非常快,如果自学没有头绪,培训还是很有必要的,但一定要找专业方面的人进行培训,我觉得我还是非常幸运的,遇到了阿里云以及杭州决明科技的老师们,如果学弟学妹们有这样的想法,可以去了解一下,当时我们是第一批培训的,不知道他们现在还在不在做,他们集训就是从项目入手,跟我现在工作内容十分相似,虽然集训过程很辛苦学的也很累,但收获与影响是巨大的。
我当时集训结束的时候就拿到了两个个公司的OFFER,一个是全球排名前十的游戏营销咨询公司,一个是我现在上班的XX云公司;当时选择的时候其实很痛苦,两个公司都非常不错,因为我是在阿里云实验班出来的,我还是选择了阿里系的企业。如愿以偿进入了大数据分析职业,天天做项目,非常开心,我相信我自己能在杭州好好的工作,好好的生活下去,毕业季,也祝小伙伴们能和我一样幸运,找到自己喜欢的工作。

实现一个边缘机器学习项目到底有多难?

  实现一个边缘机器学习项目到底有多难?

  我们每天都要跟传感器打交道,如果你不相信的话,拿出手机,Google一下它里面配备了多少种传感器—加速度计,陀螺仪,压力传感器,……,或许还能发现很多你从未听过的名词。

  这些传感器输出的信号都是独特的。理解它信号的含义,对信号进行处理,都需要有专业背景和经验。如果你的机器学习模型需要的数据正好来自这些传感器,通常意味着,你需要雇佣熟知传感器并且具有信号处理能力的机器学习工程师。

  即便不考虑组建机器学习团队的成本和难度,进入项目开发流程,仍然还有很多难关需要克服,而这些经常成为被“忽略”的事实。

传统机器学习流程

  传统机器学习流程

  对于机器学习工程师来说,除了传统软件开发工具之外,他们还需要使用多套开发工具来创建ML模型。就算已经有像Jupyter Notebook这样比较强大并且相对成熟的工具,但其目前也还存在着极大的局限性。虽然针对机器学习开发的新平台和工具层出不穷,但是目前还没有一个端到端的解决方案,让工程师们可以实现整套流程,从创建项目开始,一直到在嵌入式芯片上运行机器学习模型。此外,这些工具也需要工程师们花费额外的精力和时间来学习,并且会增加项目的管理成本和硬件及软件成本。

  在开发机器学习模型的过程中,通常需要进行大量的实验来找到表现最好的模型,而且每一次不同的实验之间都可能存在很多变数。保证实验数据的可复现性非常重要,所以对于硬件,操作平台,模型配置,训练数据等等都需要做到精确的版本控制,这些都需要花费很多的精力和时间来完成。

  就像在传统软件开发过程中,开发人员们从来没有摆脱过Bug的困扰,在机器学习开发中,类似的问题依然存在。不同的是,传统软件开发人员已经建立了一套测试和debug的最佳方式,然而,这些方式并不适合机器学习。当机器学习模型失败时,通常没有信息显示失败的原因和改进的方向。除此之外,造成失败的还有可能是一些“其他”因素,包括糟糕的训练数据等等,这让问题更难被排除。

  有一个案例就是对这一问题最好的说明,Anders Arpteg在他与其他三位作者合著的《Software Engineering Challenges of Deep Learning》一文中提到,为了解决某个公司天气预测系统中重组后输出图像分辨率过低的问题,开发人员花费了2周时间,用不同的神经网络模型完成了几百次实验,才发现是由于pooling operation过于激进,导致分辨率在数据被编码之前就已经受损,而这一结果正是由于缺乏针对深度神经网络的debug调试工具。

  而且这篇文章也明确指出,在如何简单和高效地构建一个高质量的可用于生产的机器学习系统上仍然需要更多的研究和努力。

  从公司的角度来说,要构建一个复杂的机器学习模型,通常需要花费几天甚至几周的时间来训练,而且无法对结果做出预测,也无法预知如果模型出现问题,究竟需要花费多少时间来解决这些问题,那么构建这样一个模型的成本是非常高的。

  即便对于一个已经部署的可用于生产的机器学习系统来说,保障它处于最新状态也需要花费大量的时间和努力。因为对一个成熟的机器学习系统来说,它一般会依赖许多不同的pipelines,这些pipelines可能是用不同的程序语言,格式和结构系统实现的,它们的改变,增加或者移除,甚至被弃用都是很常见的情况,因此要确保检测系统和日志系统能获取到这些信息。但这些成本通常也是很多公司在进行项目规划时可能不会考虑到的。

  对于传统软件开发而言,一个相同的程序可以运行在不同的设备上,例如,Win10系统可以运行在成千上万台不同型号的电脑上(这里讨论的是理论可行性,不考虑为了让用户体验最优而要做的种种适配性工作),但是对于机器学习而言,通常每一种不同的设备都需要不同对待。

  以预测性维护为例,如果汽车厂商要为发动机加入预测性维护功能,那么即便有2种不同型号的汽车使用的是同一种发动机,从理论上来说,这2种车型的发动机数据都需要单独采集和处理,进行特征提取,然后再进行模型训练,调参等步骤。

  Qeexo在FingerSense(指关节技术)项目上也遇到过同样的问题,这项技术是在手机上执行机器学习推理,分辨手指、指关节等不同的输入方式,依靠的也是传感器数据。不同的手机型号会使用不同的硬件配置,一台手机上采集到的数据无法满足另一台不同型号手机的需求,所以每一个不同的手机型号都必须经历一次从采集数据开始到配置机器学习库的完整过程,再加上即便是同一个型号的手机,在很多部件也会使用多家供应商提供的不同产品,这又衍生出更多种不同的可能性。

  以上种种问题也从一定程度上解释了为什么眼下AI成为了大公司追逐的游戏,因为对于中小型企业来说,尝鲜成本极高,而且一旦做错决定就很有可能给公司带来极大的危险,所以如何规避或者降低风险也就成为了领导者们首先需要考虑的问题。

  也正是因为这些原因,自动化机器学习平台进入了很多公司的视野。将传统机器学习过程中的特征提取,模型选择,超参数优化,模型验证等等步骤通过自动化的方式来实现,极大地降低了普通企业在应用机器学习时的难度和所需的资源。Qeexo也基于自己的经验与需要,创建了Qeexo AutoML,利用传感器数据针对高度受限的环境快速创建机器学习解决方案。自动化机器学习到底是什么—这一问题,我们也会在之后的文章中进行详细的介绍。

以上是关于一个小白学习学习数据分析师有多难的主要内容,如果未能解决你的问题,请参考以下文章

三分钟教会你Python数据分析—数据导入,小白基础入门必看内容

mysql零基础小白必备!入门数据库数据分析方法+总结

电商运营小白,如何快速入门学习数据分析?

快速掌握SPSS数据分析

想学数据分析,SPSS/R语言/Python/SQL中哪个才是小白最佳入门工具?

数据分析师教程_从小白到“数据分析师”大神进阶之路