RANSAC

Posted 2020-09-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RANSAC相关的知识，希望对你有一定的参考价值。

一、概述

RANSAC(RANdom SAmple Consensus)随机抽样一致，是用来从一组观测数据中估计数学模型参数的一种方法。由于是观测数据，避免不了有误差存在，当误差太大了就变成了无效数据outlier（与outlier对应的是inlier有效数据）。如果我们在估计参数的时候没有剔除掉这些无效的数据，结果会被这些无效数据所影响。所以我们希望采用一种方法从数据集的inliers中估计模型参数，这就是RANSAC.

二、算法描述

1. 输入

数据------------------------------------一组观测数据
模型------------------------------------含有参数的模型
确定模型参数的最小数据个数n---例如确定一条直线至少要两个点
最大迭代次数k-----------------------最大迭代次数
误差阈值t-----------------------------误差在阈值t之内，则认为是有效数据
符合模型数据的个数d--------------如果数据中有d个数据符合迭代中产生的模型，则认为该模型有效，即可以认为该模型包含足够都的有效数据

2. 输出

模型参数（成功找到合适的模型）或NULL（没有找到合适的参数）

3. 步骤

从数据中随机挑选n个数据，假设这n个数据都是有效的（只是算法认为其有效，并非真正有效），用这个n个数据求出模型参数（例如用解方程组的方法）
用第一步生成的模型依次验证剩下的数据，统计在误差阈值t之内的数据个数c，如果c>d，认为该模型有效，否则认为该模型无效，转第一步
把第一步n个数据和第二步c个数据合并，检测该模型对这些数据的拟合程度，即检查该模型参数基于有效数据的好坏程度，如果比当前最好的参数好，则更换最好参数为当前参数
增加迭代次数，返回第一步

4. 具体描述

iterations = 0
bestfit = null
besterr = something really large
while iterations < k {
    maybeinliers = n randomly selected values from data
    maybemodel = model parameters fitted to maybeinliers
    alsoinliers = empty set
    for every point in data not in maybeinliers {
        if point fits maybemodel with an error smaller than t
             add point to alsoinliers
    }
    if the number of elements in alsoinliers is > d {
        //this implies that we may have found a good model
        // now test how good it is
        bettermodel = model parameters fitted to all points in maybeinliers and alsoinliers
        thiserr = a measure of how well model fits these points
        if thiserr < besterr {
            bestfit = bettermodel
            besterr = thiserr
        }
    }
    increment iterations
}
return bestfit

三、举例

譬如现在有一组测量的二维点数据，分布如下：

技术分享

图中红色点为无效数据，蓝色点为有效数据，我们期望拟合出一条如上图的直线，然而不排除这些无效数据的话，直接采用最小二乘法会的到如下一条直线：

技术分享

假设共有50个点，按照RANSANC的思路：

从50个点随机选两个点确定一条直线L
基于L验证剩下的48个点中误差在t之内的数据个数，记为inlierNum，如果inlierNum < d，则表示这条直线不够好，返回第一步
计算第一步中的两个点和第二步中的inlierNum个点对与该直线L的残差平方和thiserr,如果thiserr<besterr，则设这个参数为最优，否则丢弃
继续迭代

四、参数确定

注意上面的输入数据中，除了数据和模型之外还有一些参数，那这些参数怎么确定呢？

通常n的值由模型确定，t和d的值有观测数据和具体应用共同由实验确定。而k的值可以从理论上进行确定，直观上来讲k值越大求得最优参数的概率就越大。假设算法迭代k次能在初始选择数据时选择的都是有效数据的概率为p，数据集中有效数据的比率为w(w = 有效数据数/总数据数)，w一般是不知道的，但可以估计的偏小一点，让算法更鲁棒。n次都选择为有效数据的概率为w^n，至少有一次选择到了无效数据的概率为1-w^n，连续k次每次都至少有一次选择到了无效数据的概率为(1-w^n)^k。

有：1-p = (1-w^n)^k

则：k = log(1-p)/log(1-w^n)

假设设定p = 0.98则就能确定k=log(0.02)/log(1-w^n).通常这样确定的k要比k的实际上界偏小一点，因为上面的计算每次选择一个数据都是基于全部数据选择的，即有放回的选取，实际上不能这样，选择的时候要求数据不能重复出现。故还要在k的基础上加上一个额外值：

SD(k) = [(1-w^n)^1/2]/w^n

即实际上：k = log(1-p)/log(1-w^n) + [(1-w^n)^1/2]/w^n.

以上是关于RANSAC的主要内容，如果未能解决你的问题，请参考以下文章

RANSAC 多元回归

随机抽样一致性算法（RANSAC)示例及源代码--转载

PCL：多直线拟合（RANSAC）

python机器学习手写算法系列——RANSAC(随机抽样一致)回归