机器学习:概述入门篇

Posted zhif97

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习:概述入门篇相关的知识,希望对你有一定的参考价值。

本周任务:

1.python基础的准备

本课程拟采用Python做为机器算法应用的实现语言,所以请确保:

1)安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好。

2)基本库的安装,如numpy、pandas、scipy、matplotlib

3)具备一定的Python编程技能,如果不熟悉,可选择一个教程进行学习,Python简单好上手,资源也很丰富。

菜鸟教程 Python 3 教程 http://www.runoob.com/python3/python3-tutorial.html 

廖雪峰的官方网站 Python3 https://www.liaoxuefeng.com/wiki/1016959663602400

学习视频

 

2.本周视频学习内容:https://www.bilibili.com/video/BV1Tb411H7uC?p=1

1)P4 Python基础

2)P1 机器学习概论

机器学习是一门多领域交叉学科,涉及较多的数学知识,我们不做太多理论上的要求,如果有听不懂的地方,不要放弃,看一遍就有个印象。通过观看视频,大家对课程有个总体的认识。

建议大家边看边做笔记,记录要点及所在时间点,以便有必要的时候回看。学习笔记也是作业的一部分。

 

3.作业要求:

1)贴上Python环境及pip list截图,了解一下大家的准备情况。暂不具备开发条件的请说明原因及打算。

①Python环境

 技术图片

②pip list:基本库都已经安装,如numpy、pandas、scipy、matplotlib

 技术图片

2)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。

什么是机器学习在P1-5分钟的描述:

技术图片

 

 

Python基础:P4-527秒安装库教程

技术图片

 

3)什么是机器学习,有哪些分类?结合案例,写出你的理解。

解析:什么是机器学习机器学习是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。机器学习有哪些分类?机器学习按照学习形式进行分类,可分为监督学习、无监督学习、半监督学习、强化学习等。区别在于,监督学习需要提供标注的样本集,无监督学习不需要提供标注的样本集,半监督学习需要提供少量标注的样本,而强化学习需要反馈机制。

案例:机器学习已经“无处不在”,应用遍及人工智能的各个领域,包括数据挖掘、计算机视觉、自然语言处理、语音和手写识别、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、汽车自动驾驶、军事决策等。

①异常检测

异常是指某个数据对象由于测量、收集或自然变异等原因变得不同于正常的数据对象的场景,找出异常的过程,称为异常检测。根据异常的特征,可以将异常分为以下三类:点异常、上下文异常、集合异常。异常检测的训练样本都是非异常样本,假设这些样本的特征服从高斯分布,在此基础上估计出一个概率模型,用该模型估计待测样本属于非异常样本的可能性。异常检测步骤包括数据准备、数据分组、异常评估、异常输出等步骤。

②用户画像

用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。由这些标签集合能抽象出一个用户的信息全貌,每个标签分别描述了该用户的一个维度,各个维度相互联系,共同构成对用户的整体描述。在产品的运营和优化中,根据用户画像能够深入理解用户需求,从而设计出更适合用户的产品,提升用户体验。使用某新闻App用户行为数据构建用户画像的流程和一些常用的标签体系实践,详见干货请收好:终于有人把用户画像的流程、方法讲明白了。

③广告点击率预估

互联网广告是互联网公司主要的盈利手段,互联网广告交易的双方是广告主和媒体。为自己的产品投放广告并为广告付费;媒体是有流量的公司,如各大门户网站、各种论坛,它们提供广告的展示平台,并收取广告费。广告点击率(Click Through Rate,CTR)是指广告的点击到达率,即广告的实际点击次数除以广告的展现量。在实际应用中,我们从广告的海量历史展现点击日志中提取训练样本,构建特征并训练CTR模型,评估各方面因素对点击率的影响。当有新的广告位请求到达时,就可以用训练好的模型,根据广告交易平台传过来的相关特征预估这次展示中各个广告的点击概率,结合广告出价计算得到的广告点击收益,从而选出收益最高的广告向广告交易平台出价。

④企业征信大数据应用

征信是指为信用活动提供信用信息服务,通过依法采集、整理、保存、加工企业、事业单位等组织的信用信息和个人的信用信息,并提供给信息使用者。征信是由征信机构、信息提供方、信息使用方、信息主体四部分组成,综合起来,形成了一个整体的征信行业的产业链。征信机构向信息提供方采集征信相关数据,信息使用方获得信息主体的授权以后,可以向征信机构索取该信息主体的征信数据,从征信机构获得征信产品,针对企业来说,是由该企业的各种维度数据构成的征信报告。

⑤智慧交通大数据应用

智慧交通大数据应用是以物联网、云计算、大数据等新一代信息技术,结合人工智能、机器学习、数据挖掘、交通科学等理论与工具,建立起的一套交通运输领域全面感知、深度融合、主动服务、科学决策的动态实时信息服务体系。基于人工智能和大数据技术的叠加效应,结合交通行业的专家知识库建立交通数据模型,解决城市交通问题,是交通大数据应用的首要任务。交通大数据模型主要分为城市人群时空图谱、交通运行状况感知与分析、交通专项数字化运营和监管、交通安全分析与预警等几大类。

以上是关于机器学习:概述入门篇的主要内容,如果未能解决你的问题,请参考以下文章

Pandas高级数据分析快速入门之五——机器学习特征工程篇

机器学习编译入门课程学习笔记第一讲 机器学习编译概述

机器学习入门

机器学习入门

阅读宋立恒《AI制胜:机器学习极简入门》第1章:机器学习概述

机器学习入门与进阶