之前群里有个同学向大家提出了类似这样的问题。随后这位同学公布了答案:右移运算是向下取整,除法是向零取整。这句话对以上现象做了很好的总结,可是本质原因是什么呢?
我一直以为-3>>1的结果是-1。所以打算思考一下这个问题。
补码
首先我们看看-3存储的形态是怎么样的:
代码语言:javascript复制int main()
{
int n = -3;
printf("0x%x",n);
}
打印结果为:
代码语言:javascript复制0xfffffffd
这是32位有符号数负数的补码形式,即0x3按位取反之后0xfffffffc再加一,即为0xfffffffd
为什么会有这样的“奇怪”的补码形式呢?首先一个32位的寄存器的值的范围是0~0xffffffff (8个f)。如果仅仅表示正数的话,即无符号整型数,所有的值都是正数的情况下范围是0~4294967295(0xffffffff)
那么如果我想表示负数呢???比如我想在计算机中表达-1这个数字,正1很简单就0x1嘛。那么根据1和-1相加等于0以及整型相加溢出的bit会被丢弃的特性,-1就可以是0xffffffff
例如:0xffffffff 0x1 = 0x100000000(32bit计算机中此处最高位的1会被丢弃) = 0x00000000
0x1怎么转化成0xffffffff,就是按位取反(0xfffffffe)后再加一嘛,这个就是补码的说法了。
然后呢,正负两种数的范围就对半分吧。正数:0 ~ 0x7fffffff,负数:0x80000000 ~ 0xffffffff
0x80000000 是很特殊的数,和0一样,0x80000000只有和自己相加才会等于“零”。如果把0x80000000 归类成负数的话,那么就有一个明显的规律了,那就是最高位的bit为1的数都是负数,最高位bit为0的数都是正数。
这就是最高位是符号位的规定。
整型数字的移位(-3>>1为啥等于-2)
这里我们想确凿地弄清楚这个过程,只能借助汇编代码了。方法即为:
- 准备好一段C代码
- 编译这段代码
- 反汇编可执行文件,查看汇编代码
因为我更擅长一点arm的汇编代码,所以需要在 https://www.linaro.org/downloads/上下载arm的交叉编译工具链,这个比较方便,因为不需要编译,直接下载后就可以在Linux环境上执行了。
准备以下代码:
代码语言:javascript复制#include<stdio.h>
int shift(int a, int b)
{
return (a >> b);
}
unsigned int shift_u(unsigned int a, unsigned int b)
{
return (a >> b);
}
main(){
int a = shift(-3, 1);
unsigned int b = shift_u(3, 1);
printf("[%d][%u]",a,b);
}
下载好linaro的gcc和glibc之后执行:
代码语言:javascript复制~/linro/gcc-linaro-7.5.0-2019.12-x86_64_arm-linux-gnueabihf/bin/arm-linux-gnueabihf-gcc test.c --sysroot=~/linro/sysroot-glibc-linaro-2.25-2019.12-arm-linux-gnueabihf/
然后反汇编:
代码语言:javascript复制~/linro/gcc-linaro-7.5.0-2019.12-x86_64_arm-linux-gnueabihf/bin/arm-linux-gnueabihf-objdump -d a.out
可以看到有符号的移位操作:
代码语言:javascript复制asr.w r3, r2, r3
无符号数的移位操作:
代码语言:javascript复制lsr.w r3, r2, r3
以上指令的意思是将r2的值右移r3次,并将结果赋值到r3中。
关于asr和lsr可以在官方文档中找到解释:https://developer.arm.com/documentation/dui0497/a/the-cortex-m0-instruction-set/about-the-instruction-descriptions/shift-operations
Arithmetic shift right by n bits moves the left-hand 32-n bits of the register Rm, to the right by n places, into the right-hand 32-n bits of the result, and it copies the original bit[31] of the register into the left-hand n bits of the result
asr和lsr不同之处在于,asr指令会在移位之后,将原来的最高位bit[31]重新赋值到结果里。
所以-3 >> 1的过程应该是这样的:
0xfffffffd右移一位是0x7ffffffe,然后再置位最高位符号位,结果为:0xfffffffe,这就是-2的补码表现形式。
整型数字的除法(-3/2为啥等于-1)
那么为啥-3/2等于-1,难道在做除法的时候不会用移位进行优化吗?
多说无益,只能按照套路来反汇编,还是一样的套路代码。
代码语言:javascript复制#include<stdio.h>
int div(int a, int b)
{
return (a / b);
}
unsigned int div_u(unsigned int a, unsigned int b)
{
return (a / b);
}
main(){
int a = div(-3, 2);
unsigned int b = div_u(3, 2);
printf("[%d][%d]",a,b);
}
如果使用linaro上的armv8的交叉编译工具链,那么可以看到div函数调用的指令是:
代码语言:javascript复制sdiv r3, r2, r3,
div_u函数调用的指令是:
代码语言:javascript复制udiv r3, r2, r3
显然除法对于有符号数和无符号数做了区分,但是我们无法看到内部的区别,所以要用armv7的编译链反汇编,因为armv7没有直接的div指令,所以我们可以看到汇编中除法都做了什么。
此处我们主要看有符号数除法和无符号数除法的区别,而汇编篇幅太长,在此我只截取有符号数除法中有,而无符号数除法不存在也不需要的那部分代码,这样就能看到-3/2和3/2的区别。有符号数除法一开始的处理:
代码语言:javascript复制//此处被除数是r0,除数是r1
<__divsi3>:
cmp r1, #0 //判断r1和0的关系,并更新cpsr寄存器
beq.w 1098a <.divsi3_skip_div0_test 0x27c> //如果除数等于0,那么跳转
<.divsi3_skip_div0_test>:
eor.w ip, r0, r1 //将除数和被除数进行异或并将结果存储到ip寄存器中,但是不会更新cpsr寄存器
it mi //判断cpsr中的Negative Flag
negmi r1, r1 //如果r1为负数则改成正数
subs r2, r1, #1
beq.w 1095a <.divsi3_skip_div0_test 0x24c> //如果r1为1则跳转
movs r3, r0
it mi
negmi r3, r0 //如果r0为负数则改成正数
//接下来就进行和无符号数一样的常规除法算法
以及有符号数除法对结果的处理:
代码语言:javascript复制cmp.w ip, #0
it mi //如果异或结果为负,则表示被除数和除数的符号不相同,那么结果必然是负数
negmi r0, r0 //如果异或结果为负,把结果赋成负值
bx lr //返回到函数调用处的后一个指令
以上可以看到对有符号数的除法处理会这样:
- 记录除数和被除数的符号是否相同
- 将被除数和除数都转成正数
- 除法算法结束之后,根据第一步的结果,来决定是不是把结果赋值成负数。
所以-3/2的时候,会先计算3/2,得到1之后再赋值成-1
还记得那个神奇的数字0x80000000(-2147483648)吗,0x80000000乘以-1依然是0x80000000如果是这个数字除以2会是什么结果呢。
0x80000000/2的步骤如下:
- 记录两个数字异或结果,如果两个数字的符号位不同,说明结果为负,反之为正
- 对0x80000000进行乘以-1处理,结果依然还是0x80000000
- 将0x80000000当作是无符号数进行除以2操作得到:0x40000000
- 把0x40000000赋值为负数即为0xC0000000 (-1073741824)