如何扩展 GPGPU 的顶点着色器功能

Posted

技术标签:

【中文标题】如何扩展 GPGPU 的顶点着色器功能【英文标题】:How to extend vertex shader capabalities for GPGPU 【发布时间】:2014-07-30 18:46:35 【问题描述】:

我正在尝试在 GLSL 上实现 Scrypt 哈希(用于 LTC 矿工)(不要问我为什么)。

实际上,我被 HMAC SHA-256 算法所困扰。尽管我已经正确实现了 SHA-256(它为输入重新调整了正确的哈希值),但当我添加最后一步(哈希与 oKey 连接的前一个哈希值)时,片段着色器停止编译。

着色器最多只能执行三轮 SHA-256。它只是停止编译。有什么限制?它不使用太多内存,总共 174 个 vec2 对象。看起来,它与内存无关,因为任何额外的 SHA256 轮次都不需要新的内存。看来,它与视口大小无关。它停止在 1x1 和 1x128 视口上工作。

我已经开始在 WebGL 上做矿工,但是在出现限制后,我尝试在 Qt 中在全功能 OpenGL 上运行相同的着色器。结果,桌面 OpenGL 允许的 SHA256 轮次比 WebGL 中的 OpenGL ES 少(为什么?)。

忘了说。着色器在联动阶段失败。着色器本身编译良好,但程序链接失败。

我不使用任何纹理、任何扩展、缓慢的东西等。只是简单的正方形(4 个 vec2 顶点)和几个用于片段着色器的制服。 输入数据只有 80 字节,片段着色器的结果是二进制(黑色或白色),因此该任务非常符合 GLSL 原则。

我的显卡是具有大量 VRAM 的 Radeon HD7970,它能够容纳数百个 scrypt 线程(scrypt 每个哈希使用 128kB,但我不能只实现 HMAC-SHA-256)。我的卡支持 OpenGL 4.4。

我是 OpenGL 的新手,可能理解有问题。我知道片段着色器分别为每个像素运行,但如果我有 1x128 视口,则只使用 128x348 字节。片段着色器的极限在哪里。

这是我用来让您了解我如何解决问题的常用代码。

uniform vec2 base_nonce[2];
uniform vec2 header[20];    /* Header of the block */
uniform vec2 H[8];
uniform vec2 K[64];

void sha256_round(inout vec2 w[64], inout vec2 t[8], inout vec2 hash[8]) 
    for (int i = 0; i < 64; i++) 
        if( i > 15 ) 
            w[i] = blend(w[i-16], w[i-15], w[i-7], w[i-2]);
        

        _s0 = e0(t[0]);
        _maj = maj(t[0],t[1],t[2]);
        _t2 = safe_add(_s0, _maj);
        _s1 = e1(t[4]);
        _ch = ch(t[4], t[5], t[6]);
        _t1 = safe_add(safe_add(safe_add(safe_add(t[7], _s1), _ch), K[i]), w[i]);

        t[7] = t[6]; t[6] = t[5]; t[5] = t[4];
        t[4] = safe_add(t[3], _t1);
        t[3] = t[2]; t[2] = t[1]; t[1] = t[0];
        t[0] = safe_add(_t1, _t2);
    
    for (int i = 0; i < 8; i++) 
        hash[i] = safe_add(t[i], hash[i]);
        t[i] = hash[i];
    


void main () 
    vec2 key_hash[8]; /* Our SHA-256 hash */
    vec2 i_key[16];
    vec2 i_key_hash[8];
    vec2 o_key[16];

    vec2 nonced_header[20]; /* Header with nonce */
    set_nonce_to_header(nonced_header);

    vec2 P[32]; /* Padded SHA-256 message */
    pad_the_header(P, nonced_header);

    /* Hash HMAC secret key */
    sha256(P, key_hash);

    /* Make iKey and oKey */
    for(int i = 0; i < 16; i++) 
        if (i < 8) 
            i_key[i] = xor(key_hash[i], vec2(Ox3636, Ox3636));
            o_key[i] = xor(key_hash[i], vec2(Ox5c5c, Ox5c5c));
         else 
            i_key[i] = vec2(Ox3636, Ox3636);
            o_key[i] = vec2(Ox5c5c, Ox5c5c);
        
    

    /* SHA256 hash of iKey */

    for (int i = 0; i < 8; i++) 
        i_key_hash[i] = H[i];
        t[i] = i_key_hash[i];
    

    for (int i = 0; i < 16; i++)  w[i] = i_key[i]; 
    sha256_round(w, t, i_key_hash);

    gl_FragColor = toRGBA(i_key_hash[0]);

我可以使用哪些解决方案来改善这种情况?在 OpenGL 4.4 和 OpenGL ES 3.1 中有什么很酷的东西吗?甚至可以进行这样的计算并在片段着色器中保留这么多(128kB)吗?顶点着色器的限制是什么?我可以在顶点着色器而不是片段上做同样的事情吗?

【问题讨论】:

WebGL 和 Qt 实现都使用 ANGLE 将 OpenGL 调用转换为 DirectX。所以这种翻译可能会使事情复杂化(如果它正在发生的话)。我猜循环展开可能会增加可执行文件大小超出 GPU 的能力(似乎不太可能,但我不知道着色器的全部复杂性) 你建议我在 Linux 上试试吗? 我不知道那里的 AMD 驱动程序情况,但我想你可以检查着色器的二进制大小,否则我没有任何想法,我自己没有做过大量的 OpenGL。 我前段时间翻译了 HLSL 着色器(来自 WebGL)。看来,它是 1 比 1 翻译的。pastebin.com/uY7V8uHC。 GLSL 中的 for 循环对应于 HLSL 中的相同循环 你检查过我的回购github.com/Kukunin/webgl-scrypt吗?它使用 WebGL 实现了整个 scrypt 算法,但比普通 JS 慢 10 倍。使用 WebGL2 应该会更快,但我没有尝试过 【参考方案1】:

我试着回答我自己的问题。

Shader 是一个小型处理器,具有有限的寄存器和高速缓存。此外,指令执行也有限制。因此,将所有内容融入一个片段着色器的整个架构是错误的。

另一方面,您可以在渲染过程中更改着色器程序数十或数百次。这是正常的做法。

需要将大计算分成更小的部分并分别渲染。使用渲染到纹理来保存您的工作。

由于webgl statistic,96.5% 的客户端具有 MAX_TEXTURE_SIZE eq 4096。它为您提供 32 兆字节的内存。它可以包含 256 个 scrypt 计算线程的草稿数据。

【讨论】:

如何确保避免使用纹理(GPU CPU)进行长时间的内存操作?是否可以将一个渲染的结果纹理绑定为另一个渲染的输入,而无需将其复制到 CPU 内存并返回到 GPU? 愚蠢的问题。当然可以。只需将您的纹理绑定到帧缓冲区,渲染到帧缓冲区,数据就会在您的纹理中。只需将此纹理附加到您的下一个场景即可。更多信息here

以上是关于如何扩展 GPGPU 的顶点着色器功能的主要内容,如果未能解决你的问题,请参考以下文章

是否可以从顶点着色器读取数据?

如果几何着色器处于活动状态,如何将信息从顶点着色器传递到片段着色器?

在顶点着色器中更改顶点的颜色

SpriteKit 中的顶点着色器

在顶点着色器中定位顶点后如何更新法线?

如何在 C++ 中获取像素着色器版本和顶点着色器版本