数据挖掘随笔
Posted Love _YourSelf
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘随笔相关的知识,希望对你有一定的参考价值。
数据挖掘随笔
记录一下自己对与数据挖掘的一些了解与感想
文章目录
前言
2022年7月22日,第五届数字中国建设峰会在福建省举行,开幕式上国家网信办发布了《数字中国发展报告(2021年)》,报告指出2017年—2021年,我国数据产量从2.3ZB增长至6.6ZB。由此可见我们当下正处于大数据的时代,随着信息时代的到来,我们面临着信息爆炸的问题,大数据的特点主要包括数量大、种类多、价值密度低以及产生速度快,也就是所谓的“4V”,面对海量且良莠不齐的信息,数据挖掘技术应运而生,它能够帮助我们从随机的、不完整的、复杂的数据中筛选提取出潜在的有价值的数据及信息,通过数据挖掘处理大量冗杂的数据内容可以极大地提高处理信息的效率,从中可以快速获取大量有价值的信息和知识来帮助我们进行决策与工作。
在我看来数据挖掘及大数据分析可以改变我们看世界的方式,技术加数据思维能够发挥数据最大的价值,因为掌握越多的信息可以使我们能以更高的维度或者说是能在全局化的层面上看待问题,因为我们的世界本身就是可以由不同尺度不同粒度的数据来描述,正如“Everything is data, data is everything”。目前数据挖掘已渗透于人们生活的各个方面,不管是金融投资、价格预测领域,还是智慧医疗、轨迹规划领域均可寻到数据挖掘的踪迹,这彰显出大数据在社会中的重要地位,其与深度学习、数据分析、人工智能相结合,呈现出广阔的应用前景和极高的研究价值。接下来我将从以下三个方面记录一下,目前我对数据挖掘的一些认识与思考。
一、数据挖掘简介及处理过程
数据是最原始的信息表达方式,通过数理分析方法和算法从海量数据中搜索、挖掘出隐藏在海量数据中那些不能靠直觉发现的但有价值的数据,这也就是信息,然后对信息进行结构化或者是规范化,使其变成对应的知识,最后就是通过建立和验证模型来帮助进行决策,这也就是为达到某种目标利用数据挖掘对知识进行合理的应用。数据挖掘任务可以分为两类,一类是预测型任务,例如分类和回归,这是指根据学习一些已有数据的规则去预测未知数据的相关信息;另一类是描述型任务,例如关联规则挖掘和聚类分析,这是指该任务没有先验知识,根据对数据的分析与建模,得到数据间的联系及潜在规律。由于数据挖掘技术涉及的领域很广,用于解决数据挖掘任务的方法大致可分为以下4类:统计学习的方法、机器学习的方法、神经网络和数据库的方法。由此可见数据挖掘技术是一门多学科交叉技术,其涉及数学、计算机科学和人工智能等多个领域。
在我看来数据挖掘主要包括数据收集、数据清洗、模型构建以及迭代调优四个过程。在数据收集过程中可以通过网络爬虫、网页埋点技术以及外部数据库导入等方法来获取大量数据,要尽可能保证收集的数据对问题求解有所帮助,避免出现资源浪费;数据清洗是为了保证预测质量,可以采用相关分析、周期性分析以及异常值分析等方法对收集数据进行探索、审核和必要的加工处理;在得到相关数据特征信息后,可以使用回归分析、分类分析和异常检测等方法构建模型,分类和回归技术有很多,如决策树、贝叶斯网络、Logistic回归方法、随机森林算法、遗传算法、神经网络等;在得到模型后需对其进行测试分析,利用所得数据进行模型的评价,不断改进现有的模型,使之有较好的容差能力以及应用性。在这过程中可使用的方法很多,所以研究方向也是非常广阔的。
二、数据挖掘应用场景举例
数据挖掘是一门交叉性质的研究学科,它综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果,依托该技术已创造出了许多领域的新业态、新运营模式及新决策方法,它助力多领域推动社会经济创新发展。
在短视频领域,数据挖掘可以较为精准推荐感兴趣的视频内容,例如抖音会根据用户平常使用习惯,收集用户点赞、评论以及视频停留时间等信息来综合评估用户感兴趣的内容,以此来达到有目的地推送;在电商领域,数据挖掘可以帮助电商站内广告推荐,给用户推荐可能喜欢的商品,例如淘宝会在用户搜索某一商品后,向其推荐其他同类商品或者是相关产品;在零售领域,数据挖掘分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量,一个经典的案例是纸尿布和啤酒;在房产领域,数据挖掘全面助力房地产行业,打造精准投资政策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人;在金融领域,数据挖掘可从多维度体现用户特征,挖掘不同类数据之间蕴含的潜在联系,帮助金融机构推荐优质客户,防范欺诈风险;在企业管理领域,数据挖掘技术深入分析企业的日常经营问题和经营业绩情况,为企业的财务发展和未来战略提供相关的建议,提升管理层的决策水平;在保险领域,数据挖掘及风险预测可以助力保险行业精准营销,深层次分析信息数据之间的特点和联系,提升精细化定价能力;在水利工程领域,通过人工神经网络预测,对监测的数据进行计算和分析,对工程的安全状况进行判断和预测,在人工信息化监管平台进行处理、展示和管理,可给水利建设管理单位提供极大的便利;在物流仓储领域,数据挖掘可分析用户购买力及购买趋势,帮助企业合理构建实体仓,例如京东物流基本可实现上午下单下午送达、下午下单次日上午送达;在数值预测领域,数据挖掘采用相似性搜索方法,从海量历史数据中查找与当前时问序列相似的序列,通过查找到的一组或若干组序列来预测未来的趋势,该方法已较为成熟,且广泛运用在电力价格、股票价格、水文情况和交通流量等预测中。
三、对数据挖掘的思考和展望
2019年是5G的元年,至此国家仍在大力铺设5G设备,我们要了解5G带来的不仅是通讯方面的便捷与高效,更带来了海量的数据,回看3G到4G的转变,绝大多数人将传统打电话和发短信的方式改为语音、视频、直播、网上购物等生活方式,于此带火了淘宝、京东、美团、字节跳动等企业。所以说5G时代的到来是挑战更是机遇,我认为在今后掌握更多流量掌握更多数据的企业会有更大的发展,从这些数据中不仅可以分析出人们的生产生活习惯,更能反映出今后一些潜在的发展方向,而数据挖掘技术恰恰能够在降低人工处理数据成本的同时极大地提高数据分析的效率。另外目前深度学习领域的研究还是通过大规模数据集来驱动的,数据集的质量很大程度上决定了深度学习模型优化的程度,数据集的规模不够很可能会导致复杂模型出现过拟合的现象,模型会学习到一些无关紧要的特征,进而降低了模型的泛化能力,所以可以利用数据挖掘技术对大规模数据进行相应的处理,通过数据筛选、异常值处理以及数据标准化等方法进行数据的再加工使其满足模型训练需要,这也会进一步推动深度学习领域的发展,给研究者更广阔的发挥空间。
目前利用数据挖掘技术对大数据进行分类分析、聚类分析、关联规则挖掘及异常挖掘是获取隐藏知识的基本途径,在我看来数据挖掘是大数据技术的一种应用和发展,将它应用到各领域将有助于对大容量、多种类、实时性很强的数据进行有效的分析、处理和利用,通过预测未来趋势可以为各层级的人员或决策者提供有价值的信息。可视化分析就是大数据分析的一种应用,这其中包含统计分析技术、数据挖掘技术和机器学习技术,利用这些方法对获得到的数据进行分析与处理,然后实现数据与可视化图像的映射达到让使用者更为清晰直观地分析、监测或者是决策,最后是为开发的可视化系统添加用户交互的手段,也就是用户可以按照自己的需求进行相应数据的展示或者是选择数据显示的形式。我认为可视化分析在将来会有很大的发展前景,因为相比于枯燥的字符,图像更适合也更方便人们去查看,通过可视化之后的数据更加生动更加灵活更加的有利于人们去接受,再加上自然语言处理技术的发展,在以后素有人工智能皇冠上的明珠之称的自然语言处理技术搭配数据可视化的系统很大可能会是今后发展的趋势。
总结
我认为大数据时代最大的转变在于放弃传统的对因果关系的渴求,转而更多地关注相关关系,关注海量数据中隐含着宝贵的知识和规律信息,获取这些知识并将之应用于相关领域中具有重要意义。数据挖掘的应用非常广泛,只要所研究产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析,进而有较好的发展的前景。未来数据挖掘技术的使用会越来越广泛,不仅仅是教育领域、商业领域、电信领域、医疗卫生领域,甚至以后可能会出现的一些新型领域。我相信越来越多的组织会将存在于现有数据库中的大数据转化为对于研究有使用价值的知识和资源,未来数据挖掘技术势必会带给使用者更大更多的利益,通过更为先进的技术手段去预测未来的发展趋势,以实现更加准确地掌控未来,造福于各行各业。
以上是关于数据挖掘随笔的主要内容,如果未能解决你的问题,请参考以下文章