这是优化器的怪癖还是语言规则禁止优化的结果?

Posted

技术标签:

【中文标题】这是优化器的怪癖还是语言规则禁止优化的结果?【英文标题】:Is this a quirk of optimizers or the result of language rules forbidding optimizations? 【发布时间】:2017-01-10 19:28:03 【问题描述】:

我正在使用编译器资源管理器,发现这两个函数在 gcc 和 clang 中生成不同的程序集。我预计在内联后它们会产生相同的表达式树,从而产生相同且最佳的组装。

constexpr bool is_nonzero_decimal_digit(char const c) noexcept

    return c == '1' || c == '2' || c == '3' || c == '4' || c == '5'
        || c == '6' || c == '7' || c == '8' || c == '9';


bool is_decimal_digit_v1(char const c) noexcept

    return c == '0' || is_nonzero_decimal_digit(c);


bool is_decimal_digit_v2(char const c) noexcept

    return c == '0' || c == '1' || c == '2' || c == '3' || c == '4' 
        || c == '5' || c == '6' || c == '7' || c == '8' || c == '9';

Clang 3.9.1 -std=c++1z -O3 结果

is_decimal_digit_v1(char):
    cmp     dil, 48
    sete    cl
    add     dil, -49
    cmp     dil, 9
    setb    al
    or      al, cl
    ret

is_decimal_digit_v2(char):
    add     dil, -48
    cmp     dil, 10
    setb    al
    ret

gcc 6.3 -std=c++1z -O3 结果

is_decimal_digit_v1(char):
    cmp     dil, 48
    je      .L3
    sub     edi, 49
    cmp     dil, 8
    setbe   al
    ret
.L3:
    mov     eax, 1
    ret

is_decimal_digit_v2(char):
    sub     edi, 48
    cmp     dil, 9
    setbe   al
    ret

那么,

【问题讨论】:

大概,将 OR'd 比较合并为一个减法+比较的过程在内联过程之前运行。 The gcc 7.0 snapshot optimizes them into the same code。我认为 T.C.是正确的。 【参考方案1】:

这是 gcc

is_decimal_digit_v2:
    sub    cl, 48
    cmp    cl, 9
    setbe  al
    ret    0
is_decimal_digit_v1:
    sub    cl, 48
    cmp    cl, 9
    setbe  al
    ret    0

作为 T.C.指出,内联是在一些优化通过之后执行的,在这个特定的代码中,它把一个比较链合并到一个更简单的范围检查中。在内联之前这样做是有用的,可以使叶函数更小,这反过来又增加了它们被内联的机会。基本上,v1 函数被转换成这样的:

bool is_decimal_digit_v3(char const c) noexcept

    if (c == 48) return true;
    // this is what was inlined
    char tmp = c - 49;
    return tmp >= 0 && tmp < 9;

而 v2 被转换为更简单的形式:

bool is_decimal_digit_v4(char const c) noexcept

  char tmp = c - 48;
  return tmp >= 0 && tmp < 10;

为 v3 生成的程序集类似于为 v1 生成的程序集

#clang 3.9.1
is_decimal_digit_v3(char):               # @is_decimal_digit_v3(char)
    cmp     dil, 48
    sete    cl
    add     dil, -49
    cmp     dil, 9
    setb    al
    or      al, cl
    ret
# gcc 6.3
is_decimal_digit_v3(char):
    cmp     dil, 48
    je      .L8
    sub     edi, 49
    cmp     dil, 8
    setbe   al
    ret
.L8:
    mov     eax, 1
    ret

我想,要将 v3 转换为 v4,它需要 gcc 7.0 能够完成的一些重要分析。此版本为所有四个 sn-ps 生成完全相同的程序集:

is_decimal_digit_v1(char):
    sub     edi, 48
    cmp     dil, 9
    setbe   al
    ret
is_decimal_digit_v2(char):
    sub     edi, 48
    cmp     dil, 9
    setbe   al
    ret
is_decimal_digit_v3(char):
    sub     edi, 48
    cmp     dil, 9
    setbe   al
    ret
is_decimal_digit_v4(char):
    sub     edi, 48
    cmp     dil, 9
    setbe   al
    ret

有趣的是,VC++2015 无法将 v3 转换为 v4 并生成此程序集:

is_decimal_digit_v3:
    cmp    cl, 48
    jne    SHORT $LN2@is_decimal
    mov    al, 1
    ret    0
$LN2@is_decimal:
    xor    eax, eax
    sub    cl, 49
    cmp    cl, 8
    setbe  al
    ret    0

如果我不得不猜测,我会说它为 v1 而不是为 v3 生成最佳代码的原因是因为它在减少与范围检查的比较之前进行了内联。

【讨论】:

以上是关于这是优化器的怪癖还是语言规则禁止优化的结果?的主要内容,如果未能解决你的问题,请参考以下文章

Oracle_sql优化基础——优化器总结

Oracle的优化器介绍

Oracle优化器

Oracle优化器

jQuery 选择器优化

了解二元分类器的精度和召回结果