视频学习VALSE短教程《因果发现与因果性学习》 蔡瑞初教授
Posted ViviranZ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频学习VALSE短教程《因果发现与因果性学习》 蔡瑞初教授相关的知识,希望对你有一定的参考价值。
1。VALSE短课程
20220505【VALSE短教程】《因果发现与因果性学习》特邀讲师:蔡瑞初教授_哔哩哔哩_bilibili
首先还是由【因果性≠相关性】和【辛普森悖论】引入
包含因果的新一代人工智能的目标:
目录
发现因果关系的方法:
1.干预实验(对照试验)
优:清晰明确
缺:1.难度大 成本高 2.有时候有伦理问题甚至不可行(两个完全一样的病人一个吃药一个不吃药)
2.基于观察数据的方法:
观察数据+因果假设(无法被证明或者证伪,只能基于先验知识)=>因果模型
常见模型:SCM、因果图模型(粗粒版SCM)
1)基于约束的方法:A1
假设:
A1因果马尔可夫假设:与父节点以外节点独立
A2:因果忠诚性(faithfulness)假设:没有隐变量
PEARL最经典的V结构等……
PC算法:
最经典的有PC算法、IC算法(都在Pearl的书里提及)
优点:简单清晰
缺点:强烈依赖于忠诚性假设,无法处理隐变量
FCL模型:
部分解决了隐变量的问题,但是还没解决马尔可夫性质问题
因此 需要其他的方法
2)基于因果函数的方法
假设:
A1独立噪声假设:原因变量和噪声变量是独立的
A2独立机制假设:原因和机制函数f是独立的
模型1:
线性非高斯噪声可以用于判断因果方向,例如题目所给的对比,对于型的因果函数产生的数据,噪声是均匀分布的,当X对Y做回归的时候,残差关于X分布是均匀的,而Y对X做回归的时候,E是有倾斜的。但是如果噪声E符合高斯分布,那么两方面回归没有明显差别,因此需要事先假设线性的噪声分布是非高斯的。
实例:LiNGAM模型
起源于盲源信号分离,也就是从收到的混杂信号中分离几个不同的独立源的信号
LiNGAM和ICA的联系:
缺点:只能处理线性的、并且要求噪声分布是非高斯的。
非线性高斯模型(ANM模型):
发现非线性函数可以部分实现非高斯噪声的功能。Y表示成X的函数时候(黑线),E是独立的,X表示成Y的函数的时候(红线),E是随着Y变化的。
缺点:实际上,很多实验中表明,Y->X, X->Y表现出都是非独立的……例如:
原因是(仅针对上例)实际上数据的生成机制是
因此,想要对数据有一个级联式的分析变化
但是这样需要对中间的很多节点进行分析 难度很大。
CANM模型
但是分析发现,不需要研究中间变量。通过对AN的分析,没有观察到的可以被已知先验分布的噪声替代,也就是可以用VAE计算!
具体算法, (encoder-decoder)
优点:有很好的可识别性,只有满足Thm中奇奇怪怪的等式的噪声才会不可识别
应用:用电量、股票市场
后非线性模型:post-nonlinear model
假设:
因果可识别性
前三种方法的统一:
3)基于因果机制独立假设的方法 A2
非常不严谨的变量和函数独立……
因果变量的不对称性:
IGCI
HCR
主要利用基于函数的方法解决ANM的不足:离散数据不存在加法(男人+女人=?),给个例子:
把离散数据的因果生成过程建模成一个函数:
这个方法听起来有一点迷……给的实例是鲍鱼,无论长宽高发现的中间变量都是年龄?实际上因为鲍鱼要到一定年龄大小才能看出来性别?啥玩意儿啊
(GES)
其实这一系列方法中还有我很熟悉的GES哈哈,
优点: 1.保证因果图收敛性 2.搜索速度较快
缺点: 1.容易陷入局部最优 2.仍未摆脱超指数增长问题
混合型方法
基于独立性:可以解决高维问题,
基于函数:高维有问题,但是可以处理发现隐变量
综合:混合型方法
目前工作重点:
1.隐变量问题
measurement model:如何利用观测数据得到隐变量参数
structural model:获得隐变量之间的关系
TRAD算法:
隐变量结构可以通过协变量关系部分表示:【称为四分体条件】
方法问题在于 只能分辨因果图里有这个边,但是不知道这个边的方向,因此,还需要进一步优化
发现不对称性(针对的特殊的三元关系)
三分体方法:
限制:可以利用的隐变量个数有限
GIN方法
1.多个可以研究三个,也可以通过X4X5反解L1L2
应用:
FRITL算法:
处理含有未知隐变量的问题
基于局部的因果图判断背后是不是有隐变量【例如全连接了还不满足】
高维的、具有隐变量和观察变量混合结构的因果关系发现
2. 数据非独立同分布问题
分成聚类-找共同结构
共性领域-个性领域-个性领域独立地刻画问题:基站->
3.开源平台
因果性学习
关于因果性而不是相关性……老生常谈了放着很清晰了
泛化性、可解释性
基于先验因果结构的因果性学习方法
领域自适应问题
1.最简单的情形,只需要对于L函数重新加权就可以了
2.important-resampling很难;因此采用基于black-box shift的方法,利用分类器估计target domain的分布和source domain的分布的混淆矩阵进行纠偏
3.
假设:source和target不影响Y。
方法:基于样本生成,研究变化,认为生成是线性变化的,然后去学习这个矩阵。
4.
最复杂的情况。方法:粗暴地上述两个方法结合
研究隐变量:
CIC&CTC:
共性:将隐变量分为两类,随不随domain变化
通过生成target domain的数据来学习分布变化
CIC:约束数据 CTC:样本层面约束样本的相似性
领域信息(动画片)+语义上信息(label)
类似conditional shift!
模型:左边语义信息,右边领域信息,实现解耦(推拉?)
问题:
(a)边缘分布不一致 (b)overlap support
具体结构:
Stable learning:
又见到想要打牌子的崔教授了……
观点:因果层面:去除伪关联,统计方面:共线性关系
NICO比赛
基于先验因果的方法
张老师,又是你……长尾分布这篇挺有意思
中科大的冯老师,推荐算法,去除bias,进一步引入来促进推荐平衡
基于因果发现的因果性学习方法
因果表示学习
颜色形状大小等等……人知道只有七个因素影响,数目很少
构造解耦方法~若干元的线性表示
TCL:非稳态序列上的因果表示
PCL:稳态序列上的因果表示非线性ICA
稳定的持续依赖,依赖T时刻和其他时刻样本……
开始加速跟不上了
去看这个综述!!!!
形式化定义、因果和统计模型的区别联系等
因果结构迁移
时间序列上的领域自适应问题
联合分布难对齐,因果机制是稳定的,只是强度周期不同
从稀疏到真正因果
数据影响因素:历史数据和两个因素A1A2,利用格兰杰因果
协变量-因果条件shift
因果上源域和目标域相似度的度量
马普所 线性的
对的好 收敛快
北京和天津,相似(PM2.5)
其它未覆盖主题
Causal and Anti-causal Learning
对半监督学习分析,”半监督很多时候无效的“:P(X)对预测P(Y|X)是无效的
从反因果学习角度来看 是有效的
因果强化学习
考虑多环境 环境与因果无关 奖励与环境独立
因果元学习
(a)(b)(c)因果也是元学习保障之一
以上是关于视频学习VALSE短教程《因果发现与因果性学习》 蔡瑞初教授的主要内容,如果未能解决你的问题,请参考以下文章
视频学习VALSE短课程《对抗攻击与防御》byXingjun Ma