汇编中浮点数的总和数组

Posted

技术标签:

【中文标题】汇编中浮点数的总和数组【英文标题】:Sum array of float in assembly 【发布时间】:2017-04-12 14:41:25 【问题描述】:

我在汇编 x86 中实现一个从 C 程序调用的函数,以添加一个浮点数组。函数的第一个参数是指向数组的指针,第二个是元素的数量。当我在 linux 中运行代码时,出现分段错误。我做错了什么?

.text
.globl floatsum

floatsum:
push %ebp
movl %esp, %ebp

movl  8(%ebp), %eax
movl 12(%ebp), %edx
shrl $2, %edx

xorps %xmm0, %xmm0
loop:
testl %edx, %edx
je end  
movaps (%eax), %xmm1
addps %xmm1, %xmm0
addl $16, %eax
decl %edx
jmp loop 

end:
                            #         3       2      1       0
movaps %xmm0, %xmm1         # xmm0:   w       z      y       x 
                            # xmm1:   z       w      x       y
shufps $0xb1, %xmm1, %xmm1  #        10      11      00      01  = 0xb1
addps  %xmm1, %xmm0         # xmm0:  w+z     z+w     y+x     x+y
movaps %xmm0, %xmm1         # xmm1:  w+z     z+w     y+x     x+y
                            # xmm1:  x+y     y+x     z+w     w+z
shufps $0x1b, %xmm1, %xmm1  #        00      01      10      11  = 0x1b
addps  %xmm1, %xmm0         # xmm0:  w+z+x+y z+w+y+x y+x+z+w x+y+w+z
                            #
#movd %xmm0, %eax
#pushl %eax

finst:

flds (%esp)
popl %eax

movl %ebp, %esp
popl %ebp
ret

// C 代码

#include <stdio.h>
#include <stdlib.h>


float
floatsum(float *array, size_t number_of_items);

float
floatsum_c(float *array, size_t number_of_items)
float sum;
size_t i;

sum=0.0;
for(i=0; i<number_of_items;i++)
    sum+=array[i];

return sum;


float *
create_array(size_t number_of_items)
float *array;
size_t i;

array=calloc(number_of_items, sizeof(float));
if(array)
    for(i=0; i<number_of_items; i++)
        array[i]=1.0+(float)i;
    
   
   return array;
 

int
main(int argc, char **argv)
float *a;
float result;
size_t number_of_items, i;

number_of_items=8;
a=create_array(number_of_items);
if(a)
    result=floatsum_c(a, number_of_items);
    printf("Sum (c version): %f\n", result);    
    result=floatsum(a, number_of_items);
    printf("Sum (asm version): %f\n", result);  
    free(a);


return 0;

【问题讨论】:

欢迎来到 Stack Overflow!听起来您可能需要学习如何使用debugger 来单步执行您的代码。使用好的调试器,您可以逐行执行您的程序,并查看它与您期望的偏差在哪里。如果您要进行任何编程,这是必不可少的工具。进一步阅读:How to debug small programs. 崩溃发生在哪里?我猜是movaps (%eax), %xmm1?如果是这样,那可能是对齐问题。 正如我上面所说,这可能是对齐问题 - 您可以在调试器中检查地址是否为 16 字节对齐,或者您可以将 movaps 更改为 movups 并查看如果这样可以解决问题。 您确定在对movups 进行更改后组装了代码? 如果不是对齐问题,那么它可能只是一个无效地址 - 你真的必须learn how to use your debugger...(并且提供minimal reproducible example 也可能是个好主意) . 【参考方案1】:

正如保罗所说,这可能是一个对齐问题。从您的 C 代码中可以清楚地看出,您的浮点数组不能保证在 16 字节边界上对齐。失败是这一行:

movaps (%eax), %xmm1

原因是MOVAPS有这个要求:

当源或目标操作数是内存操作数时,操作数必须在 16 字节(128 位版本)或 32 字节(VEX.256 编码版本)边界上对齐或将生成一般保护异常 (#GP)。

由于您使用的是 128 位向量寄存器,因此您需要 16 字节对齐。你有两个选择:

MOVAPS 更改为 MOVUPS 以便可以完成未对齐的内存访问 修改您的 C 代码以创建在 16 字节边界上对齐的浮点数组

第一个解决方案需要:

movaps (%eax), %xmm1

改为;

movups (%eax), %xmm1

第二个解决方案是避免使用calloc,并利用允许您创建具有 16 字节对齐的对象的函数。如果使用C11,那么您可以使用函数aligned_allocmemset 将数组归零。您的 create_array 可能如下所示:

float *
create_array(size_t number_of_items)

    float *array = NULL;
    size_t i;

    array=(float *)aligned_alloc(16, number_of_items * sizeof(*array));
    if(array)
        memset (array, 0x00, number_of_items * sizeof(*array));
        for(i=0; i<number_of_items; i++)
            array[i]=1.0+(float)i;
        
    
    return array;

如果您不使用 C11,您可以在 Linux 上使用 POSIX 函数 posix_memalignmemset。代码可能类似于:

float *
create_array(size_t number_of_items)

    float *array = NULL;
    size_t i;

    if (!posix_memalign((void **)&array, 16, number_of_items * sizeof(*array)))
        memset (array, 0x00, number_of_items * sizeof(*array));
        for(i=0; i<number_of_items; i++)
            array[i]=1.0+(float)i;
        
    
    return array;

您还必须取消注释这些行:

#movd %xmm0, %eax
#pushl %eax

让它们以这种方式出现:

movd %xmm0, %eax
pushl %eax

注意:虽然我使用 memset 将浮点数组清零,就像 calloc 一样,但实际上在您的代码中并不需要它因为您之后将所有元素初始化为特定值。在您的情况下,可以删除对 memset 的调用。

【讨论】:

以上是关于汇编中浮点数的总和数组的主要内容,如果未能解决你的问题,请参考以下文章

python中浮点数的处理

shell中浮点数运算

DSP中浮点数和定点数 dsp

核心 OCaml 中浮点数的绝对值

MODBUS RTU协议中浮点数是如何存储,读到浮点数寄存器的数值如何转换成所需的浮点数

js中浮点数的精度问题