比较早,就布局了地震属性计算与机器学习下的地震相划分

Posted GI 地质智能软件平台

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了比较早,就布局了地震属性计算与机器学习下的地震相划分相关的知识,希望对你有一定的参考价值。

      

       最近瞄着DIRECT、比着PETREL的GI地质建模版本的地震解释相关模块(下图),两个关注点:第一,地震属性计算与机器学习下的地震相划分,这块儿,我们基本成熟;第二,就是井震数据深度融合的一个突破点,攻关要点也是地质随机统计模型的替代及MCMC采样效率问题。这个点,最近的推送,好像一直在啰嗦,也是今年的FLAG。下个月每周,跟肖晔继续讨论。



      2017年,基于已有的、基于泛化编程实现的地震数据存储(前面提到过)、通用单机多线程属性计算框架(及进一步开发的MAP-REDUCE计算框架)、二三维地震可视化框架,在消化Tao Zhao等读博期间(The University of Oklahoma,2015)一篇文献基础上,加上团队曾经的张博士自己的专业理解及外部的地质放大镜软件公司的技术力量支持,形成了较为全面的、基于机器学习算法的地震属性计算与地震相划分相关模块,也形成了系列专利。


       后续,在建模课题间合作测试应用中,需要解决单机计算效率问题,以及地震相与建模具体环节衔接问题。地震数据读取效率问题,在去年我已经给出一个新版本修改,最近会抓紧证明下。地震相划分下的三维地质建模的结合,需要在新攻关项目中,落地。还是自己的观点,离开井震数据深层次特征挖掘与融合的那些单纯的两地、多点等地质统计建模数学模型,解决高分辨率确定性建模问题,会存在根本性模型适配问题。因此,2017年,我们在较为全面的地震属性计算的基础上,实现了基于SVM\SOM为代表的机器学习下的地震相划分,以及与基于地质统计数学模型假设的波阻抗随机反演的版本。


     另外,张博士也贡献了诸多叠前贝叶斯随机反演等算法,那些方法也许会过时,但是在最近设计深层网络的可解释层面,那些工作还都是基础性的研究。况且我们的脆性、烃源岩性反演,应该不至于那么快落伍。现在,还是亟需张博士这样专业背景的老师或者学生,来帮一下,这里是没人鸟了。


       附:TAO的地震相文献总结,张博士翻译并对每个方法做了注解。这些方法,大部分GI已实现。这里面的机器学习涉及的基础数学概念,实际也就是目前深层网络设计中的基础数学概念,我做了不准确的补充。从机器学习到深度学习,确实是只是数据量大了、计算能力强了,梯度下降的算法(包括特定的非线性激活,也称表征)上新了而已,基础数学模型及特征挖掘概念未变,只是手法更多了而已。


摘要

     3D地震数据的量和地震属性的种类得到了极大的增长,对于解释人员来说,一条线一条线,一个切片一个切片的去查看是非常困难的。为了解决这个问题,一些地震相分类的算法例如K-means,SOM,GTM,SVM,混合高斯模型以及ANN都得了成功的应用,通过从多个地震属性体中提取感兴趣的地质体。在这篇文章中,我们将展示出六种常用的算法,并将其应用到新西兰海岸,坎特伯雷盆地,其主要目标是刻画出浊积流系统。这里面最重要的一步是选择合适的输入属性,而这一项工作主要是靠解释人员主观细致的分析确定。我们可以发现监督学习可以提供精确地地震向分类,而无监督学习则可以凸出可能被埋没的特征。


无监督学习技术回顾

交会图(GI可视化支持)

       基于交互模式的多属性交汇分析是一种最常用的分类方法。通过简单的实施,人们可以以2D直方图的形式显示出来。在很多软件中,解释人员可以通过多边形拾取方式将感兴趣的聚类划分出来。甚至一些软件有3D交会图,但是3D以上的交会图的绘制就很棘手。针对这一问题,一种解决途径就是首先将高维的输入数据进行降维处理至2D或者3D,然后再基于交会图的形式进行处理。


K-means分类(实现,自身专利特色)

       K-means是最简单的分类算法,在很多商业软件中都有集成。图2展示了该算法的示意。但是该方法有个缺点就是需要解释人员首先给出聚类的个数。一旦聚类的个数确定,聚类的中心就会随着迭代过程的进行不断的优化。由于不同的属性具有不同的量纲和单位,因此需要将数据进行校正,数据到聚类中心的距离是用马哈拉诺比斯距离表示的。每个数据点会被分到离他距离最近的中心所在的类。然后新的聚类中心又被重新计算,如果要划分Q个聚类,只需要Q步就会收敛。

      

      张:K-means简单高效,但是缺点是所分的类之间是没有联系和结构的,这种缺失联系和结构的特性就导致相近的地震相却以完全不同的颜色展示,改变聚类的个数又会导致相近的聚类划分到为一类,降低了预测的精度和分辨率。

 


投影技术(特征挖掘与融合表征问题,盛)

      主成份分析(PCA),自主织映射(SOM)(单层神经网络训练,盛),原生拓扑映射(GMT)(单层神经网络训练,盛)均属于投影(特征表征,盛)技术。该类算法的核心是将高维的输入数据映射到低维空间中,一旦映射到低维空间中,就可以借助其他算法或者交互模式进行拾取。


1)主成份分析(实现)

       主成份分析(奇异值分解,盛)可以被广泛应用于减少输入数据的冗余度和纬度。能够进行降维处理是基于信号大都保存在前几个主分量(特征向量)中,因此,PCA通常应用于SOM和GTM之前(国外好多这种实例做法,文献看到的,盛)。许多解释人员通过利用PCA将多种地震属性变换为“原属性”,来降低输入数据的维数。第一特征向量表示N维属性空间中,最佳代表属性特征的向量。N维属性数据在第一特征向量上的投影,便可以得到第一特整体。第二特征向量表示最佳代表残差属性特征。将N维属性数据投影到第二特征向量,便得到第二特征向量体。PCA的输出是N个特征值和N个特征向量。本文中将选用两个特征向量构成一个平面,这个平面以最小平方的方式去拟合N维属性体。如图3c所示。

 


2)自组织映射(实现)

      许多学者认为自组织映射是一种神经网络(就是单层神经网络的“分类”响应效果,K-MEANS是聚类效果,盛),而我则认为是一种流形投影技术。SOM源于基因模式识别,是一种流行的分类算法。SOM相对于K-means算法的优势在于聚类存在于流形空间,可以直接映射到2D隐空间中。

       

       张:SOM算法也存在一些缺点:每次迭代的近邻函数的选择是主观的,不同的选择会导致不同的结果。另外缺少量化的误差导致没有一个标准可以确定是否收敛。


3)原生拓扑映射(实现)

       GTM是个非线性降维技术。它在一个低纬度的流形中以概率的形式表示数据向量,进而可以再映射到低纬度的隐空间中。SOM是基于原向量中最接近输入的数据量,而GTM中流形的节点将提供“数学”支持。因此这个节点在某种程度被认为对数据向量“负责”,支持或者“负责”的程度可以用混合高斯模型来模拟。其中概率模型的参数可以用EM算法来估计。


       张:GTM算法是基于概率学的,所以可以被用来做风险分析。我们在特定的时窗内,将多属性的后验概率均值映射到2D隐空间中,进而可以预测他们是否属于同一分类的概率(我们也被授权了相关专利)。因此我们也可以预测空间某个点是否含有油气的概率。


其他无监督学习

1)独立分量分析

       像主成份分析一样,独立分量分析是一种基于统计学的降维技术。ICA是基于高斯统计,第一特征向量是表示多维数据的方差,ICA试图将数据映射到子空间,这就导致非高斯分布,因此便于区分。PCA和ICA都是一种通用的降维技术,将高维的冗余数据映射到低纬度的元数据。


2)高斯混合模型

       GMM是一种参数化的概率分布,相比传统的无监督学习,可以提供更加灵活更加精准的模拟。Lobo(2014)用测井数据来产生岩相。然后岩相在叠前反演中做约束,进而可以获得物性参数。


监督学习技术回顾

1)人工神经网络(BP)(可以用典型的诸如DNN网络了,盛)

       ANN可以用在无监督学习和监督学习中。在监督学习中,多层感知器和径向基函数是ANN中最流行的两种。概率神经网络(PNN),也使用径向基函数。监督学习属于前馈神经网络。而无监督的SOM算法属于后馈神经网络,前馈网络的优势在于既可以预测离散值也可以预测连续值。神经网络主要应用于地震反演、基于测井曲线的岩性识别、波形聚类、地震相分析以及储层参数反演。但是由于地震和测井的分辨率是不同的,以及构造和岩性在井间之间的变化,因此这两种资料之间的非线性关系是非常强的,要想达到令人信服的预测还是具有挑战性的。在这种情况下,地球物理师通过结合贝叶斯理论,通过提供的概率指数,来给出预测值的可信度概率。

       

      张:ANN可以通过建立伽马曲线与井旁道之间的非线性关系,进而可以进一步揭示储层内部的岩石性质、沉积环境。尽管ANN得到许多成功的应用实例,但是也存在收敛局部极小值,以及参数化困难等缺点。因此我们更需要一种文件分类算法,20世纪后期的支持向量机便应运而出。


2)支持向量机(代表机器学习最新成果 ,实现)

       支持向量机的基础理念是很简单的。首先,我们将训练数据通过非线性映射到一个更高维的特征空间中,然后我们在特征空间中选择一个超平面来将数据分为两类(降维是为了去噪下的投影转换,升维是为了流形表征或者揭示高维分布,盛)。最优间隔被定义离超平面最近训练向量与超平面之间的距离。最优间隔的定义是存在如下两种准则的:超平面的选择使得间隔最大化,保证数据最大化间隔分类;第二,如果数据不是线性可分的,要保证错误分类的数据向量的个数最少。这个间隔实际也等于决策边界与由距离决策边界最近的数据向量确定的超平面之间的距离。因此这两个超平面分别称为:“正平面”和“负平面”。而在这两个超平面上的向量,就被称之为支持向量。

  

      张:支持向量机可以用于监督学习,也可以用于半监督学习。相比监督学习,半监督学习利用标签向量或者非标签向量。当数据向量较少时,由于不充分训练,分类效果并不好。在半监督学习中,一些未被分类的数据向量将被选择并分类,分类的准则是基于类似无监督学习的距离准则。这些向量后来被作为额外的训练向量。这种半监督学习模式,在某些问题上分类的性能要相对好些。在不远的将来,基于半监督学习的支持向量机在地震勘探领域将有光明的前景。


3)近似支持向量机

       PSVM是SVM的改进算法。通过直接建立两个平行的超平面来代替传统的决策边界。而决策边界正好在这两个平行的超平面中间。一些学者认为PSVM和SVM有近似相同的分类效果,但是PSVM计算效率更快。

       在多维地震属性空间中,地震相的分类是线性不可分的,在SVM中,我们可以将这些数据映射到更高维度,使其变得线性可分,但是当纬度增加的时候,计算量也会增加很多。而PSVM通过代替传统的高维映射,利用在输入属性空间进行核函数操作,可以达到同SVM相同的精度。文章中,我们使用高斯核函数。


       张:支持向量机可以用来做回归或分类。当做回归算法使用时,SVM可以预测物性参数如孔隙度,纵横密三参数以及渗透率等参数。在这些实力应用中,SVM不管在精度还是训练时间,基本等同甚至超越ANN。当作为分类算法时,可以基于测井数据、岩心数据或者地震数据中预测岩性。

 


以上是关于比较早,就布局了地震属性计算与机器学习下的地震相划分的主要内容,如果未能解决你的问题,请参考以下文章

地震解释专家应用机器学习技术,多方面用足手中数据

双差地震定位法以各地震对到同一台站的走时差为基础数据,消除了各地震对间共同的模型误差。

ArcGIS API for JavaScript 4.2学习笔记[20] 使用参数查询要素(油井和地震关系)

月光下的凤尾竹—彩云之南西双版纳游记

基于pySpark得地震数据处理与分析

山东省地震局立体应急指挥调度解决方案