如何在 x86 汇编中编写自己的 atoi 函数

Posted

技术标签:

【中文标题】如何在 x86 汇编中编写自己的 atoi 函数【英文标题】:How to write my own atoi function in x86 assembly 【发布时间】:2019-04-08 02:19:59 【问题描述】:

我在汇编中编写自己的 atoi 函数时遇到了一些麻烦。说明是

"更改函数,使其返回与传递给函数的 C 字符串(指针)等效的整数。您可以假设第一个字符介于 '0' 和 '9' 之间,包括 '0' 和 '9'。 ato 应该考虑从第一个到第一个非十进制数字的所有字符。如您所见,main 将 atoi 返回的值用作退出代码(这只是访问 atoi 输出的一种廉价方法,无需编写 itoafunction .) 正如给你的,atoireturns 1234。返回值与 0xFF 进行 ANDed 以将其减少为一个字节。因此 1234 和 255 变为 210。”

    # Useful constants 
    .equ    STDIN,0 
    .equ    STDOUT,1 
    .equ    READ,0 
    .equ    WRITE,1 
    .equ    EXIT,60 
# Stack frame 
    .equ    bufferSize, 32
    .equ    buffer,-bufferSize
    .equ    localSize,16 
    .equ    frameSize, bufferSize + localSize
# Read only data 
    .section    .rodata # the read-only data section 
prompt: 
    .string     "Enter an integer: " 
    .equ    promptSz,.-prompt-1 
msg: 
    .string     "You entered: " 
    .equ    msgSz,.-msg-1 

代码

    .text   # switch to text section 


    .globl  __start 
 __start: 
    pushq   %rbp    # save caller’s frame pointer 
    movq    %rsp, %rbp  # establish our frame pointer 
    subq    $frameSize, %rsp    # for local variables 

    movl    $promptSz, %edx # prompt size 
    movl    $prompt, %esi   # address of prompt text string 
    movl    $STDOUT, %edi   # standard out 
    movl    $WRITE, %eax 
    syscall     # request kernel service 

    movl    $bufferSize,%edx
    leaq    buffer(%rbp), %rsi  # load buffer address
    movl    $STDIN, %edi    # standard in 
    movl    $READ, %eax 
    syscall     # request kernel service 
    movl    %eax, (%rsp)    # store num chars read

    leaq    buffer(%rbp), %rsi  # load buffer address
    call    atoi    # our exit code will be the return from atoi

    movq    %rbp, %rsp  # delete local variables 
    popq    %rbp    # restore caller’s frame pointer 
    movl    %eax, %edi  # put exit status in %edi (will be ANDed with FF)
    movl    $EXIT, %eax # exit from this process 

    syscall

基本代码如下所示,我只需要实现自己的 atoi。到目前为止,我所拥有的 atoi 功能是

atoi:
    pushq   %rbp    # save caller’s frame pointer 
    movq    %rsp, %rbp  # establish our frame pointer 
    subq    $16, %rsp   # for local variables

    movq    %rdi, -16(%rbp) #moving first argument to local variable
    movl    $0, -4(%rbp) #moving 0 to local variable
    movl    $10, -12(%rbp) #moving 10 to local variable

    movl    -16(%rbp), %rax
    movzbl  (%rax), %eax #getting value of rax
    movl    -4(%rbp), %eax

    imull   -12(%rbp), %eax
    movl    %eax,   -4(%rbp)

    movq    %rbp, %rsp  # delete local variables 
    popq    %rbp    # restore caller’s frame pointer 
    ret

我不知道下一步该去哪里。似乎我所做的任何事情都会给我带来分段错误

【问题讨论】:

NASM Assembly convert input to integer? 有一个很好的实现,不需要堆栈空间。 【参考方案1】:

您过度使用局部变量(以及使用不足的寄存器);将需要一个在发现无效字符时停止的循环;并且可能使用了错误的调用约定(系统调用看起来像 Linux,这意味着 System V AMD64 ABI,这意味着参数在寄存器中传递,而不是在堆栈中)。

请注意,这完全可以在没有任何局部变量的情况下完成。例如(NASM 语法,因为我不做 AT&T,未经测试):

;Convert string to integer
;
;Input
; rdi = first parameter (address of string)
;
;Output
; rax = result

atoi:
    xor rax,rax               ;rax = 0 (this will become the returned result)
.nextChar:
    movzx rcx,byte [rdi]      ;rcx = next character
    sub rcx,'0'               ;rcx = value of next digit
    jb .done                  ;Invalid character (too low to be a decimal digit)
    cmp rcx,9                 ;Was it too high to be a decimal digit?
    ja .done                  ; yes, invalid

    lea rax,[rax*4+rax]       ;rax = result*5
    lea rax,[rax*2+rcx]       ;rax = result*5*2 + digit = result*10 + digit
    inc rdi                   ;rdi = address of next character
    jmp .nextChar
.done:
     ret

注意:此代码不适用于负值(例如以 '-' 开头的字符串),并且在结果溢出时不会返回错误条件。结果也将是 64 位(而 int 可能应该是 32 位)。大多数情况下,它是“转换为 unsigned long long”(错误处理与 atoi() 一样糟糕)。

【讨论】:

OPs 代码确实从寄存器中读取其参数。您的答案根本没有解决 OPs 代码中的错误。投反对票。 @fuz:关于调用约定,你是对的(由于所有其他堆栈访问,很难注意到);但是你确定 OP 没有过度使用局部变量/堆栈并且不需要循环吗?? OP把各种东西都放在栈上没关系;这就是堆栈的用途。这样做可能效率低下,但并没有错。 OP 询问他的代码有什么问题,而不是如何提高效率。这就是为什么您的答案无法解决问题的原因。 @fuz:不,OP问如何编写代码,我说需要一个在发现无效字符时停止的循环,并提供了一个示例(不能不假思索地剪切和粘贴)关于它)显示一个在找到无效字符时停止的循环。不必要的堆栈使用(这使得阅读/维护变得困难并且速度变慢)只是一个奖励(以确保 OP 了解他们需要学习的内容,而不仅仅是了解他们所要求的内容)。 我认为这个答案没有问题。我们不是机器人,我们是人类。 @Brendan 以他认为合适的方式回答了这个问题。我唯一的疑虑是希望 OP 知道 AT&T 和 Intel 语法存在,但我相信他们会弄清楚的。如果这个答案没有回答原始问题并且提到了文体/编辑的东西,我会担心,但这里的情况并非如此。我也很欣赏最后的注释,它进一步提高了答案的质量。

以上是关于如何在 x86 汇编中编写自己的 atoi 函数的主要内容,如果未能解决你的问题,请参考以下文章

C#编写的DLL如何加密?

GNU 汇编器 x86 指令后缀(如“mov.s”中的“.s”)如何工作?

反汇编基本原理与x86指令构造

如何在x86 linux上执行MIPS汇编程序?

X86汇编6.编写汇编语言程序

x86汇编语言基础