Datawhale 吃瓜教程组队学习 task01

Posted 临风而眠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Datawhale 吃瓜教程组队学习 task01相关的知识,希望对你有一定的参考价值。

Datawhale 吃瓜教程组队学习task01

还没写完,会持续更新~~

上个月看了周志华老师的机器学习视频课的前三章,但是后面中断了没看…(主要是懒🤐)

于是打算这个月继续来学习西瓜书和南瓜书🤯

Task01:概览西瓜书+南瓜书第1、2章 2天 截止时间 01月18日03:00

  • 既然上个月已经看过了视频课,那下面就结合上个月的笔记还有书来总结归纳一下,同时尝试一些学习方式
    • 先列出目录进行回忆
    • 部分地方画图总结
    • 给自己提出一些问题,不限于西瓜书,可以是联想到其他学习AI的过程中的内容从而提出的问题

文章目录

chap1 绪论

1.1 引言 1.2 基本术语

画图玩玩

总结图1:关于数据集、样本、样本空间、样本维数、本书的向量记法、属性、属性值

总结图2:关于学习过程、假设、真相、样例、标记、标记空间、泛化

文字总结

  • 下面列个大纲就算了吧, 毕竟一图胜千言,何况上面有两图👻👻👻

还是列出一些要点吧hhh

  • ”算法”是从数据中学得“模型”的具体方法

  • 模型是一个抽象的说法,可以理解为从数据里面产生出来的一个东西,可以是一个神经网络,甚至是一条规则

  • 机器学习是关于学习算法(learning algorithm)的设计、分析和应用的学问。所以我们研究的核心是学习算法。

    • 学习算法决定了获得什么样的模型,模型的性质很多时候来自于算法。
    • 算法是用到数据上,不一定每次都得到同样一个模型。
  • 训练:我们拿到的数据用来建立这个模型,建立这个模型的过程就是训练

  • 测试是把模型拿来用,而这个用 既可能是 考察模型好不好,也可能是 输入一个东西,让模型给结果

  • 假设(hypothesis) 真相 (ground-truth)

    • 模型

      • 所谓的模型,其实是找到了某种规律。

        比如现在要找到的是颜色是青绿色,耕地是蜷缩,敲起来声音很浑浊的这样的西瓜是一个好西瓜,就会得到了一个规则。这个规则假如我们把它当做一个模型,实际上它是揭示了 关于 什么是好西瓜 的一个规律。

      • 模型揭示了关于我们要判断的结果的一个规律。

        • 这个规律可能是显式的,比如我们一看就知道颜色,青绿色
        • 也可能是隐式的。比如一个神经网络,看不清楚它在干什么,但是反正输入一个西瓜,它就能告诉你是好还是不好。
      • 所以模型包含了一个规律。而模型找出来的这个规律不一定是正确的,所以它实际上是形成了一种假设

    • 当我们说 hypothesis 的时候,它其实就是在指我们学到的模型。对一个问题,我们可以形成很多的hypothesis,真的假设就是事实的真相(ground-truth)。

      • 🍉书的原话是 学得模型对应了关于数据的某种潜在规律,因此亦称"假设";这种潜在规律自身,则称为“真相”或“真实”
        • 我理解为:数据有规律,他们是客观存在的ground-truth,学习数据,学成归来得到模型,不一定功夫到家,所以只敢称自己学得了一种hypothesis
      • 比如我们要学习的是“青绿、蜷缩、浑浊是好西瓜“。这一条,它就是 ground-truth,是一个正确的答案。 模型学到了一个东西,而这个东西是关于结果的一个可能的规律,这个规律不一定对。如果它是对的,就是真相。
      • PAC模型中,f(x)就是hypothesis, y 就是 ground-truth

自问不答🤔

引导思考~🙄

  • 这本书上的向量写法的区分是什么?什么时候行向量,什么时候列向量?

  • 为什么很多书上在没有指明的情况下,一般默认向量为列向量

    • prompt:和矩阵乘积的习惯性写法有关
  • 经常问自己

    • 一个算法针对什么样的数据是有效的
    • 这样的数据需要满足什么样的特点
    • 它产生的模型什么情况下有效
    • 这样的模型具有什么特点
  • 在脑子里想一下属性张成空间

    • prompt:点、向量、坐标轴
    • 联想一下词向量
  • 为什么要假设正类和负类是可交换的

  • 有哪些常见的监督学习和无监督学习任务?

  • 为什么要假定数据独立同分布

术语列表

  • 数据集 data set

    • 样本/示例 sample/instance
      • 属性/特征 attribute/feature
      • 属性值 attribute value
      • 属性空间/样本空间/输入空间 attribute space/sample space
    • 样例 example
      • 标记 label
      • 标记空间/输出空间 label space
    • 特征向量 feature vector
      • 维数 dimensionality
  • 学习/训练 learning/training

    • 假设 hypothesis
    • 真相/真实 ground-truth
  • 训练集 training set

    • 训练数据 training data
      • 训练样本 training sample
  • 测试集 testing set

    • 测试数据 testing data
      • 测试样本 testing sample
  • 模型/学习器 model/learner

    • 预测 prediction
    • 泛化 generalization
  • 监督学习 supervised learning

    • 分类 classification
      • 二分类 binary classification
      • 多分类 multi-class classification
      • 正类 positive class
      • 反类 negative class
    • 回归 regression
  • 无监督学习 unsupervised learning

    • 聚类 clustering
  • 分布 distribution

    • 独立同分布 independent and identically distributed(简称i.i.d)

1.3 假设空间

  • 归纳(induction)

    想想数学归纳法

    • 从特殊到一般:泛化(generalization)
    • 具体事实→一般规律
      • 例如,"从样例中学习"是一个归纳的过程,亦称 “归纳学习” (inductive learning) .
  • 演绎(deduction)

    • 从一般到特殊:特化(specialization)
    • 基础原理→具体情况
      • 例如,在数学公理系镜中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎;
  • 归纳学习有狭义与广义之分

    • 广义:大体相当于从样例中学习

    • 狭义:要求从训练数据中学得概念(concept) ,因此亦称为"概念学习"或"概念形成"

      概念学习技术目前研究、应用都比较少,因为要学得 泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生"黑 箱"模型.然而,对概念学习有所了解,有助于理解机器学习的一些基础思想.

  • 我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行 搜索的过程,搜索目标是找到与训练集"匹配"(fit)的假设,即能够将训练集中 的瓜判断正确的假设

    • 假设的表示一旦确定,假设空间及其规模大小就确定了.
    • 现实问题中我们常面临很大的假设空间?但学习过程是基于 有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的"假设集合",我们称之为"版本空间" (version space).

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

填空答案(仅供参考)

  • 1.1
    • 001:算法
    • 002:数据
    • 003:模型

chap2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 比较检验

2.5 偏差与方差

填空答案(仅供参考)

填空答案(仅供参考)

  • 1.1
    • 001:算法
    • 002:数据
    • 003:模型

chap2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 比较检验

2.5 偏差与方差

填空答案(仅供参考)

以上是关于Datawhale 吃瓜教程组队学习 task01的主要内容,如果未能解决你的问题,请参考以下文章

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

吃瓜教程——datawhale10月组队学习

DataWhale组队学习吃瓜教程(西瓜书+南瓜书)Task03-香农信息量与信息熵

吃瓜教程——datawhale10月组队学习