soft-argmax将热点图转换为数值坐标应用于人体姿态估计

Posted 2020-12-31 xiongzihua

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了soft-argmax将热点图转换为数值坐标应用于人体姿态估计相关的知识，希望对你有一定的参考价值。

人体姿态估计常用预测热点图的方法预测x和y的坐标值，热点图可以理解为概率响应图，通过求热点图最大值所在位置坐标，就可以得到该关键点的位置坐标

热点图法的缺点

量化产生的精度损失：卷积网络下采样使模型的计算量减小，输出可能是输入图像大小的四分之一，而坐标经过量化[x/n]再还原回去，就不可避免的产生偏差
监督热点图标签，不是直接的监督坐标，有一定问题，如下图。（为什么不直接回归坐标呢？实验证明直接输出坐标不如监督热点图，如何结合起来？于是有了soft-argmax）

技术分享图片

soft-argmax

思想就是如何通过热点图，用某种计算方法得到坐标。

在文献【2】中叫积分法，图像中的积分是累加和，我的理解就是加权求和。下面按照文献【3】中的描述具体介绍

对关键点的热点图作归一化，目的是使得下一步的加权求和范围在0-1之间

[Phi left ( h_{i,j} ight )=frac{e^{h_{i,j}}}{sum_{k=1}^{M}sum_{l=1}^{H}e^{h_{k,l}}}]

分别用x,y两个与热点图大小一样的卷积核对归一化后的热点图加权就和，等价于对应元素相乘再相加，等价于卷积运算

技术分享图片

形象的看一下x和y的参数W是怎样的，颜色渐变，白色表示权重大，实际上就是反应坐标位置。

总结：概率响应图上个响应值利用对应坐标作为权值，加权求和...

技术分享图片

优缺点

优点：一定意义上缓解了量化精度损失问题，可以直接学习热点图和位置坐标，学习的目标更直接。网络可以直接输出所需目标，一体化程度高。

个人的实验发现，实现soft-argmax可以采用分组卷积，即输入是k个通道（k表示关键点个数），则分组为k，分组卷积指通道上不做卷积的聚合。

缺点：会增加训练所需时间，毕竟加了一层运算，如果输入热点图的尺寸较大如128，应该是会增加一点时间的。测试时间影响不大，因为没有soft-argmax也要用argmax，所以测试速度应该影响不大。

参考文献

Numerical Coordinate Regression with Convolutional Neural Networks
Integral Human Pose Regression
Human Pose Regression by Combining Indirect Part Detection and Contextual Information

以上是关于soft-argmax将热点图转换为数值坐标应用于人体姿态估计的主要内容，如果未能解决你的问题，请参考以下文章

怎样将gps wgs-84坐标系转换为其他坐标系

如何将自定义函数应用于 xarray.Dataset 坐标的每个值？

双对数坐标的两个坐标轴上的数值是啥样的对应关系？

图表中的坐标轴数值怎么将百分数改为整数?

怎么改变R中柱状图的坐标数值大小

如何找到 UICollectionViewCell 相对于应用程序窗口的坐标