【Linux】从零开始认识多线程 --- 线程ID

2024-07-27 10:21:19 浏览数 (1)

在这个浮躁的时代

只有自律的人才能脱颖而出

-- 《觉醒年代》

1 前言

上一篇文章中讲解了线程控制的基本接口:

  1. 线程创建pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *(*start_routine) (void *), void *arg);:
    • pthread_t *thread :输出型参数,线程ID。
    • const pthread_attr_t *attr :线程属性(优先级,上下文…),默认传入nullptr
    • void *(*start_routine) (void *) : 函数指针,线程需要执行的函数地址。
    • void arg:想要传入到线程的信息,可以传入int,string地址或者传入一个类对象的地址。
  2. 线程等待pthread_join(pthread_t thread, void **retval);
    • pthread_t thread:需要进行等待的线程ID
    • void **retval: 获取的返回信息
  3. 线程终止pthread_cancel(pthread_t thread)
    • pthread_t thread:需要进行终止的线程ID

需要深入理解的是线程传参!可以传递任何类型!注意传递堆空间的地址,保持线程独立性!

通过创建的线程我们看到了线程的tid,它和LWP不一样,是类似一个地址的存在,今天我们来详细分析一下线程ID。而且线程是有独立的栈空间的,这个独立栈空间是在哪里的?与线程ID有没有关系?

2 理解线程库与线程ID

我们先来写一个基础的创建线程的程序:

代码语言:javascript复制
#include <iostream>
#include <pthread.h>
#include <string>
#include<unistd.h>

std::string ToHex(int x)
{
    char buffer[128];
    snprintf(buffer , 128 , "0x%x" , x);
    return buffer;
}

void *threadrun(void *args)
{
    std::string name = static_cast<const char *>(args);
    while (true)
    {
        std::cout << "name: " << name << "is running... ,tid: " << ToHex(pthread_self()) << std::endl;
        sleep(1);
    }
}

int main()
{
    pthread_t tid;
    pthread_create(&tid, nullptr, threadrun, (void *)"thread-1");
    std::cout << "new thread is running ,tid: " << tid << std::endl;
    pthread_join(tid, nullptr);
    return 0;
}

我们运行可以看到tid

也可以通过ps -aL来查看查看运行线程的信息:

显然tidLWP是不一样的,用户能获取的线程ID不是内核中的LWP,而内核中的LWP其实也不需要给用户呈现,tid是一个库内部自己维护的唯一值,因为库内部需要承担对线程的管理维护。

我们来深入理解库。 首先,库没被加载的时候是在磁盘中的,而线程库是一个动态库,本质上是一个文件。可执行程序也是在磁盘中。刚开始运行的时候,可执行程序会先变成一个进程,加载代码和数据到内存中,并同步创建PCB,页表,地址空间…当CPU调度到这个进程,会运行代码,进而动态创建多线程!

接下来,运行到创建线程的代码的前提是把库加载到进程的地址空间中!动态库也要加载到内存中。进程要使用动态库需要将动态库映射到进程地址空间的共享区中!代码运行到动态库中的代码时会跳转到共享区对应函数,在通过其偏移量映射到内存中库函数实现部分,完成动态库函数的调用!

LInux内核只会维护轻量级进程,通过LWP(轻量级进程ID)维护,而用户层看到的是线程,需要的是线程的ID,线程的相关属性。上面我们提过线程是线程库维护的!接下来我们来看看线程库内部是如何维护管理的?如果库要管理线程和内核管理进程类似!同样遵循先描述,再组织

  1. 动态库内部会有一个描述线程属性的内存块,每一个线程都会创建这样一个内存块结构,用来描述属性。
  2. 这个内存块内部有线程在用户层面的基本属性,线程的独立栈结构

也就是在库中创建了描述线程的相关结构体字段属性,因为是连续开辟的,所以管理方法类似数组。未来我们只要找到线程控制的地址即可!pthread_t id就是一个地址!通过这个地址我们就可以访问这个内存块的所有属性! 我们对比一下FILE* fopen()这个接口会返回一个文件指针(而不是一个文件对象),那么这个指针指向的文件是在哪里呢?在C标准库中!返回的也是一个地址(指针)。这和创建线程是一致的!@ 注意一点:在库里维护不一定要在库里开辟空间,都可以进行malloc的!

再来看pthread_join,如何理解?因为在库内部中线程结束时会直接return,并没有进行资源的释放,所以如果不进行join就会产生内存泄漏!join就是通过tid来找到对应位置来释放资源!

一个线程内部就可以有一个数组来维护一个栈结构!线程就独立的拥有自己的栈结构了!栈空间本质是地址空间的一部分区域!主线程使用自己的栈,新线程使用自己开劈的栈!

在用户层面是线程,内核层是轻量级进程,他们是1 :1的。

  1. lwp是用来调度的单位:具有自己的系统调用,pthread库就是对这些系统调用的封装!
  2. 线程概念的表现是在用户层的!

Linux的线程 = pthread库中线程的属性集 LWP

总的来说,pthread_t tid就是线程属性集合的起始虚拟地址 — 在pthread中进行维护。

3 线程局部存储

接下来我们,谈一下线程的局部存储。 我们设置一个全局变量gval,让新线程和主线程都不断打印,但是只有新线程进行 工作:

可以看到他们的地址是一致的,因为他们共享地址空间,会访问到同一个gval!

今天如果我们不想让他们看到同一个gval呢?让他们各自拥有一份,我们可以使用编译选项__thread(只在linux有效,只能修饰内置类型)

代码语言:javascript复制
__thread int gval = 100;

可以看到此时主线程和新线程就是不一样的gval了!地址也不一样,说明新线程和主线程是各自拥有一份gval

这个全局变量,在加上__thread后就会在线程局部存储中各自储存一份,互不干扰!

Thanks♪(・ω・)ノ谢谢阅读!!!

下一篇文章见!!!

0 人点赞