代码里-3>>1是-2但3>>1是1，-3/2却又是-1，为什么？

之前群里有个同学向大家提出了类似这样的问题。随后这位同学公布了答案：右移运算是向下取整，除法是向零取整。这句话对以上现象做了很好的总结，可是本质原因是什么呢？

我一直以为-3>>1的结果是-1。所以打算思考一下这个问题。

补码

首先我们看看-3存储的形态是怎么样的：

代码语言：javascript复制

int main()
{
    int n = -3;
    printf("0x%x",n);
}

打印结果为：

代码语言：javascript复制

0xfffffffd

这是32位有符号数负数的补码形式，即0x3按位取反之后0xfffffffc再加一，即为0xfffffffd

为什么会有这样的“奇怪”的补码形式呢？首先一个32位的寄存器的值的范围是0~0xffffffff （8个f）。如果仅仅表示正数的话，即无符号整型数，所有的值都是正数的情况下范围是0~4294967295(0xffffffff)

那么如果我想表示负数呢？？？比如我想在计算机中表达-1这个数字，正1很简单就0x1嘛。那么根据1和-1相加等于0以及整型相加溢出的bit会被丢弃的特性，-1就可以是0xffffffff

例如：0xffffffff 0x1 = 0x100000000(32bit计算机中此处最高位的1会被丢弃) = 0x00000000

0x1怎么转化成0xffffffff，就是按位取反(0xfffffffe)后再加一嘛，这个就是补码的说法了。

然后呢，正负两种数的范围就对半分吧。正数：0 ~ 0x7fffffff，负数：0x80000000 ~ 0xffffffff

0x80000000 是很特殊的数，和0一样，0x80000000只有和自己相加才会等于“零”。如果把0x80000000 归类成负数的话，那么就有一个明显的规律了，那就是最高位的bit为1的数都是负数，最高位bit为0的数都是正数。

这就是最高位是符号位的规定。

整型数字的移位（-3>>1为啥等于-2）

这里我们想确凿地弄清楚这个过程，只能借助汇编代码了。方法即为：

准备好一段C代码
编译这段代码
反汇编可执行文件，查看汇编代码

因为我更擅长一点arm的汇编代码，所以需要在 https://www.linaro.org/downloads/上下载arm的交叉编译工具链，这个比较方便，因为不需要编译，直接下载后就可以在Linux环境上执行了。

准备以下代码：

代码语言：javascript复制

#include<stdio.h>
int shift(int a, int b)
{
    return (a >> b);
}

unsigned int shift_u(unsigned int a, unsigned int b)
{
    return (a >> b);
}

main(){
    int a = shift(-3, 1);
    unsigned int b = shift_u(3, 1);
    printf("[%d][%u]",a,b);
}

下载好linaro的gcc和glibc之后执行：

代码语言：javascript复制

~/linro/gcc-linaro-7.5.0-2019.12-x86_64_arm-linux-gnueabihf/bin/arm-linux-gnueabihf-gcc test.c --sysroot=~/linro/sysroot-glibc-linaro-2.25-2019.12-arm-linux-gnueabihf/

然后反汇编：

代码语言：javascript复制

~/linro/gcc-linaro-7.5.0-2019.12-x86_64_arm-linux-gnueabihf/bin/arm-linux-gnueabihf-objdump -d a.out

可以看到有符号的移位操作：

代码语言：javascript复制

asr.w   r3, r2, r3

无符号数的移位操作：

代码语言：javascript复制

lsr.w   r3, r2, r3

以上指令的意思是将r2的值右移r3次，并将结果赋值到r3中。

关于asr和lsr可以在官方文档中找到解释：https://developer.arm.com/documentation/dui0497/a/the-cortex-m0-instruction-set/about-the-instruction-descriptions/shift-operations

Arithmetic shift right by n bits moves the left-hand 32-n bits of the register Rm, to the right by n places, into the right-hand 32-n bits of the result, and it copies the original bit[31] of the register into the left-hand n bits of the result

asr和lsr不同之处在于，asr指令会在移位之后，将原来的最高位bit[31]重新赋值到结果里。

所以-3 >> 1的过程应该是这样的：

0xfffffffd右移一位是0x7ffffffe，然后再置位最高位符号位，结果为：0xfffffffe，这就是-2的补码表现形式。

整型数字的除法（-3/2为啥等于-1）

那么为啥-3/2等于-1，难道在做除法的时候不会用移位进行优化吗？

多说无益，只能按照套路来反汇编，还是一样的套路代码。

代码语言：javascript复制

#include<stdio.h>

int div(int a, int b)
{
    return (a / b);
}

unsigned int div_u(unsigned int a, unsigned int b)
{
    return (a / b);
}

main(){
        int a = div(-3, 2);
        unsigned int b = div_u(3, 2);
        printf("[%d][%d]",a,b);
}

如果使用linaro上的armv8的交叉编译工具链，那么可以看到div函数调用的指令是：

代码语言：javascript复制

sdiv    r3, r2, r3，

div_u函数调用的指令是:

代码语言：javascript复制

udiv    r3, r2, r3

显然除法对于有符号数和无符号数做了区分，但是我们无法看到内部的区别，所以要用armv7的编译链反汇编，因为armv7没有直接的div指令，所以我们可以看到汇编中除法都做了什么。

此处我们主要看有符号数除法和无符号数除法的区别，而汇编篇幅太长，在此我只截取有符号数除法中有，而无符号数除法不存在也不需要的那部分代码，这样就能看到-3/2和3/2的区别。有符号数除法一开始的处理：

代码语言：javascript复制

//此处被除数是r0，除数是r1
<__divsi3>:
cmp     r1, #0 //判断r1和0的关系，并更新cpsr寄存器
beq.w   1098a <.divsi3_skip_div0_test 0x27c> //如果除数等于0，那么跳转

<.divsi3_skip_div0_test>:
eor.w   ip, r0, r1 //将除数和被除数进行异或并将结果存储到ip寄存器中，但是不会更新cpsr寄存器
it      mi //判断cpsr中的Negative Flag
negmi   r1, r1 //如果r1为负数则改成正数
subs    r2, r1, #1
beq.w   1095a <.divsi3_skip_div0_test 0x24c> //如果r1为1则跳转
movs    r3, r0
it      mi
negmi   r3, r0 //如果r0为负数则改成正数
//接下来就进行和无符号数一样的常规除法算法

以及有符号数除法对结果的处理：

代码语言：javascript复制

cmp.w   ip, #0 
it      mi //如果异或结果为负，则表示被除数和除数的符号不相同，那么结果必然是负数
negmi   r0, r0 //如果异或结果为负，把结果赋成负值
bx      lr //返回到函数调用处的后一个指令

以上可以看到对有符号数的除法处理会这样：

记录除数和被除数的符号是否相同
将被除数和除数都转成正数
除法算法结束之后，根据第一步的结果，来决定是不是把结果赋值成负数。

所以-3/2的时候，会先计算3/2，得到1之后再赋值成-1

还记得那个神奇的数字0x80000000（-2147483648）吗，0x80000000乘以-1依然是0x80000000如果是这个数字除以2会是什么结果呢。

0x80000000/2的步骤如下：

记录两个数字异或结果，如果两个数字的符号位不同，说明结果为负，反之为正
对0x80000000进行乘以-1处理，结果依然还是0x80000000
将0x80000000当作是无符号数进行除以2操作得到：0x40000000
把0x40000000赋值为负数即为0xC0000000 (-1073741824)

打包汇编语言

0 人点赞