C语言指针加 1 引发的思考

2023-02-24 17:21:41 浏览数 (1)

1. 问题背景

最近有小伙伴对于 C 语言中指针的运算有点疑问:指针变量加 1 之后,到底向后偏移了几个字节呢?

示例代码如下,这段代码运行在32位CPU平台上:

代码语言:javascript复制
#include<stdio.h>

#pragma pack(1)
struct tree
{
  int height;
  int age;
  char tag;
};
#pragma pack() 

int main()
{
  char buffer[512];
  char *tmp_ptr = NULL;
  struct tree *t_ptr = NULL;
  char *t_ptr_new = NULL; 

  tmp_ptr = buffer;
  t_ptr = (struct tree *) tmp_ptr;
  t_ptr_new = (char *)(t_ptr   1);

  printf("t_ptr_new point to buffer[%ld]n", t_ptr_new - tmp_ptr);
  
  return 0;
}

请问,指针变量 t_ptr_new 指向数组 buffer 的哪个位置?

如果能快速得出答案,恭喜你,已经掌握指针算术运算的原理,以及结构体占用空间大小的计算方法。如果不能,也不要气馁,正好可以将这部分欠缺的知识补充上。下面,让我们来逐步揭开它的内幕。

2. 结构体

C 语言中 struct 声明创建一个数据类型(结构体),能将不同类型的对象聚合到一个对象中,用名字来引用结构体的各个组成部分。结构体的所有组成部分都存放在一段连续的内存中。指向结构的指针就是结构体第一个成员的地址。

示例中结构体类型定义:

代码语言:javascript复制
#pragma pack(1)
struct tree
{
 int height;
 int age;
 char tag;
};
#pragma pack()

结构体内部有三个成员变量,其中两个为 int 型,一个 char 型。编译器按照成员列表顺序挨个给每个成员分配内存。此结构体占用的内存空间是多少个字节呢?

height 和 age 各占用4个字节,tag 占用 1 个字节。那结构体占用的空间就是 9 个字节呗。是这样吗?

让我们先来了解一个概念:数据对齐

数据对齐

许多计算机系统对基本的数据类型的合法地址做了一些限制。要求某种类型对象的地址必须是某个值(通常为2、4、8)的倍数。对齐原则是:任何占用 K 字节空间大小的基本对象,其地址必须是 K 的倍数。

由此,编译器可能需要在结构体成员内存的分配中插入间隙,保证每个结构成员都满足它的对齐要求。或者需要在结构体的末尾加入填充,从而使得结构体数组中的每个元素都会满足它的对齐要求。

本例中,结构体的首地址满足 4 字节对齐(第一个成员类型为 int)要求后,height、age、tag 三个成员均满足对齐原则。不过要考虑下面的声明:

代码语言:javascript复制
Struct tree a[4];

如果分配 9 个字节,就不能满足数组 a 的每个元素的对齐要求。

假设数组的起始地址为 x,则每个元素的地址分别为 x、x 9、x 18、x 27,有三个元素不满足对齐原则。由此,编译器会为结构 tree 分配 12 个字节,最后 3 个字节是补充的空间(浪费的空间)。

pragma pack()

注意编译指令,#pragma pack(1) 和 #pragma pack()

pragma pack 的主要作用就是改变编译器的内存对齐方式。

在不使用这条指令的情况下,编译器采取默认方式对齐。这两条编译预处理指令,使得在这之间定义的结构体按照 1 字节方式对齐。在本例中,使用这两条指令的效果是,编译器不会在结构体尾部填充空间了

结构体大小

最终,这个结构体占用的内存空间大小为 9 个字节。

3. 理解指针

指针定义

每个指针都对应一个类型。这个类型表明该指针指向的是哪一类对象。指针的类型不是机器码中的一部分,而是C语言提供的一种抽象,帮助程序员避免寻址错误。

每个指针都有一个值。这个值是某个指定类型的对象的地址。

示例代码中

代码语言:javascript复制
struct tree *t_ptr = NULL;

这语句是什么意思呢?其含义为:定义一个指针变量 t_ptr 并赋予了初值 NULL。

详细解释:星号 “*” 说明标识符 t_ptr为 “一个指向…的指针”;struct tree 为类型说明符;可知,t_ptr 为指向结构体 tree 类型的指针。

指针的类型由指向对象的数据类型和星号 “*” 组合起来表示。例如,指针 t_ptr 的指针类型为 “struct tree *”。

示例代码中,t_ptr_new 和 tm_ptr 为指向 char 类型的指针,并赋初始值NULL。

NULL 指针

C语言标准中定义了 NULL 指针,作为一种特殊的指针变量,其指向的内容为空(即不指向任何东西)。将其赋值给某个指针变量,表示该指针目前并未指向任何东西。

数组的名字

一个数组的名字也是一种指针,但这个指针的值是不能改变的。这种指针永远指向数组中的第一个元素,其指向的类型为数组元素的数据类型。

示例代码:

代码语言:javascript复制
char buffer[512];

数组名字 buffer 为指向 char 数据类型的指针,它指向数组的首个元素 buffer[0]。

4. 指针转换

通过类型转换,可以将指针从一种类型转换为另一种形式,改变的只是它的类型,值是不会改变的。

C语言中的类型转换有两种:隐式类型转换和强制类型转换。

示例代码:

代码语言:javascript复制
t_ptr_new = (char *)(t_ptr   1);

通过 “(char *)” 强制将 struct tree * 类型的指针转换为 char * 类型,并将其赋值给一个 char * 类型的指针。如果去掉 “(char *)”,在编译过程中,编译器会根据 “=” 左侧变量的类型自动进行转换,但会产生告警信息。告警信息如下:

代码语言:javascript复制
example.c: In function ‘main’:
example.c:21:12: warning: assignment from incompatible pointer type [-Wincompatible-pointer-types]
t_ptr_new = (t_ptr   1);

本例中用强制类型转换,一方面是为了消除编译过程产生的警告,另一方面是为了使程序便于理解。

5. 指针运算

C语言的指针运算有两种形式

第一种:指针 ± 整数

这种计算出来的值,会根据该指针指向的某种数据类型的大小进行伸缩。例如,指针的值为 x,指向的数据类型大小为 L,整数为 n,则计算出来的结果值为 x n * L

示例代码,

代码语言:javascript复制
t_ptr_new = (char *)(t_ptr   1);

此表达式等价于(a_ptr 符号在此处是为了便于理解而添加):

代码语言:javascript复制
a_ptr = (t_ptr   1);
t_ptr_new = (char *)a_ptr;

指针 t_ptr 加 1(t_ptr 1)的结果,会根据数据类型 struct tree 的大小进行增加。假设指针 t_ptr 的值为 x(即地址值为 x),而结构体类型 tree 的大小为 9 字节,则 t_ptr 1 的值为 x 9。然后,将此结果进行强制类型转换后,赋值给指针变量 t_ptr_new。

第二种:指针 – 指针

只有当两个指针都指向同一个数组中的元素时,计算才有意义。

减法运算的值是两个指针在内存中的距离(等于两个地址之差除以该元素数据类型的大小)。两个指针相减的结果的类型是 ptrdiff_t,它是一种有符号整数类型。

如果两个指针值(地址值)的差值为 12 字节,每个元素占用 4 个字节,则两个指针相减得到的结果将是 3(两个指针的差值 12 将除以每个元素的长度 4)。

示例代码

代码语言:javascript复制
printf("t_ptr_new point to buffer[%ld]n", t_ptr_new - tmp_ptr);

由以上分析,两个指针相减(t_ptr_new - tmp_ptr),地址差值为 9 字节,而数组中每个元素的大小为 1 字节(char类型数据),则指针相减得到结果为 9(9字节/1字节)。

6. 综上分析

有了以上分析的基础,让我们看看最终答案是如何得出的。

代码语言:javascript复制
tmp_ptr = buffer;

tmp_ptr 指针指向数组 buffer 的第 0 个元素,即 buffer[0]。

代码语言:javascript复制
t_ptr = (struct tree *) tmp_ptr;

将指针tmp_ptr强制转换为 struct tree * 类型的指针后,赋值给指针变量 t_ptr。

代码语言:javascript复制
t_ptr_new = (char *)(t_ptr   1);

这个表达式是问题的关键。t_ptr 1 运算得到的结果指针指向下一个结构体 tree 元素,而结构体占用的空间大小为9个字节,因此指针加 1 后,实际偏移了 9 个字节。经过强制类型转换后,赋值给指针 t_ptr_new。

代码语言:javascript复制
printf("t_ptr_new point to buffer[%ld]n", t_ptr_new - tmp_ptr);

t_ptr_new - tmp_ptr 运算得到结果是 9。由于 tmp_ptr 指向数组的第 0 个元素buffer[0],则 t_ptr_new 指向数组的第 9 个元素buffer[9]。

最终答案

指针加 1 后,偏移 9 个字节;t_ptr_new指向buffer数组的第 9 个元素。打印输出结果如下:

t_ptr_new point to buffer[9]

往期推荐

C语言令人抓狂的一面——全局变量

看完还不会指针,锤自己!

EEPROM 和 flash 这样讲,早就懂了!

0 人点赞