内联汇编代码和存储 128 位结果

Posted

技术标签:

【中文标题】内联汇编代码和存储 128 位结果【英文标题】:Inline assembly code and storing 128-bit result 【发布时间】:2016-02-23 16:59:11 【问题描述】:

我必须在我的 C 程序中使用 Ubuntu 上的 GCC 编译器将以下语句作为内联汇编代码编写。

__int128 X = (__int128)F[0]*T[0]+(__int128)F[1]*T[1]+(__int128)F[2]*T[2]);

其中 F 是无符号 64 位整数数组,T 是有符号 64 位整数数组。数组 F 作为参数通过引用传递,而 T 是本地数组。我将上述声明翻译如下

__asm__("movq %0, %%rax;        imulq  %1;  movq %%rax, %%xmm0; movq %%rdx, %%xmm1;"
        ::"m"(F[0]), "m"(T[0]));
__asm__("movq %0, %%rax;        imulq  %1;  movq %%xmm0, %%rcx; addq %%rcx, %%rax;" 
        "movq %%rax, %%xmm0;                movq %%xmm1, %%rcx; adcq %%rcx, %%rdx;"
        "movq %%rdx, %%xmm1;"
        ::"m"(F[1]), "m"(T[1]));
__asm__("movq %2, %%rax;        imulq  %3;  movq %%xmm0, %%rcx; addq %%rcx, %%rax;" 
        "movq %%rax, %?;                    movq %%xmm1, %%rcx; adcq %%rcx, %%rdx;"
        "movq %%rdx, %?;"
        :"=m"(??), "=m"(??):"m"(F[2]), "m"(T[2]));

首要的问题是我做得对吗?如果是,那么我不知道如何将结果存储到 X 中,因为结果的低 64 位在 rax 中,而高 64 位在 rdx 中。我已经检查过是否可以替换?? X,那么我得到了错误的结果。

使用 xmm 寄存器进行存储是有原因的。由于我对内联汇编很天真,因此我认为有更好的方法来做到这一点。我用上面的内联汇编代码检查了我的程序,没有错误。任何帮助或改进建议将不胜感激。

【问题讨论】:

【参考方案1】:

您正在对 F 进行符号扩展。由于没有带符号 * 无符号乘法指令,因此必须明确进行符号扩展(16 位到 32 位示例):

(0xFFFF0000 + S) * U
= 0xFFFF0000 * U + S * U
= (0x100000000 - 0x10000) * U + S * U
= 0x100000000 * U - 0x10000 * U + S * U
= S * U - 0x10000 * U  (don't care about high bits)

您不能依赖内联 asm 语句块之间的寄存器中剩余的值;你必须使用变量。所有修改过的寄存器都必须声明为输出或clobbers。

例如,U(64 位无符号值)和 S(64 位有符号值)的单次乘法:

__int128 X;
uint64_t Utmp = U;
asm ("mov %1, %%rax;"
     "mul %2;"
     "test %2, %2;"
     "cmovns %3, %1;"
     "sub %1, %%rdx"
     : "=&A" (X), "+r" (Utmp) : "r" (S), "rm" (0UL));

编辑:无需零输入即可完成:

int64_t Stmp = S;
asm ("mov %1, %%rax;"
     "mul %2;"
     "sar $63, %1;"
     "and %2, %1;"
     "sub %1, %%rdx"
     : "=&A" (X), "+rm" (Stmp) : "r" (U));

【讨论】:

正如我所说,我对内联汇编很天真,那么“rm”(0UL)是什么意思。 %3 是否代表 Utmp?如果“+r”(Utmp)我没记错的话,你要确保 Utmp 在使用前应该存储在寄存器中。同样,您正在使用 mul 将 S 视为无符号。 如何将结果移动到 X 中而不在程序集模板中指定它? S 不被视为无符号,因为如果 S 为负,mul 的结果会被适当地修改。 %3 是寄存器或内存中的 64 位零,如 "rm" (0UL) 所示。

以上是关于内联汇编代码和存储 128 位结果的主要内容,如果未能解决你的问题,请参考以下文章

32位汇编第七讲,混合编程,内联汇编

64 位应用程序和内联汇编

64 位应用程序和内联汇编

纯 C++ 代码比内联汇编程序快 10 倍。为啥?

GCC 无法从具有内联汇编的函数生成 32 位代码

内联汇编语言