CPU 100%问题的查找

2021-08-06 14:57:45 浏览数 (3)

小木在对代码进行测试的时候,发现进程占用了100%的单核CPU资源。并且发现在另一个环境,这个进程占用了12%的CPU资源,因为在这个环境中是8核的CPU。而此时这个进程还并没有处理任何的数据,也就是说会有一个线程就占用一个CPU核的资源。

对于这个问题研究的方法可以使用两个工具去进行查看:Process Explorer和Windbg。

使用Process Exporer查找占用CPU资源的线程

小木采用了一个8核的CPU作为测试环境,这样可以有额外的CPU资源来运行我们的工具。 第一步 在Process Explorer中设置进程的Symbol Path, 选择菜单Options->Configure Symbols...,然后根据你的符号文件PDB的位置设置相应的路径。

第二步 在Process Explorer中选中要检查的进程,右键选择属性,查看线程状态,发现线程17708占用了11.9%的CPU资源。

第三步 双击高CPU的线程,可以看到线程的函数调用栈,然后便可以定位导致CPU消耗过高的代码了,比如这个样例程序:

代码语言:javascript复制
#include <windows.h>

void HighCPU()
{
  int iCount = 0;
  while (true)
  {
    iCount  ;
  }
}

int main()
{
  HighCPU();
  return 0;
}

这个方法比较直观,也比较方便,可以处理很多的高CPU场景。但是还有两个问题:

  1. 如果是云产品,自己的服务器倒是好处理。但有可能这个产品是在客户的机器上运行,处于安全考虑PDB文件一般不会拷贝到客户机器上。
  2. 只能看到函数调用栈,并不能查看更多的信息,比如当前线程处理的数据。很多时候,High CPU的问题是由于特定的数据/样例造成的。

用Windbg查找CPU消耗过高问题

为了解决上一章末尾提出的两个问题,比如在客户环境对进程产生Dump。 在Windbg中设置要Symbol,加载Dump文件。 第一步 使用!runaway命令查看线程的用户态和内核态占用cpu的时间。找到耗时比较长的线程,比如这里的0号线程0x452c

代码语言:javascript复制
0:003> !runaway 3
 User Mode Time
  Thread       Time
   0:452c      0 days 1:06:12.375
   3:5bc0      0 days 0:00:00.000
   2:4e6c      0 days 0:00:00.000
   1:64a4      0 days 0:00:00.000
 Kernel Mode Time
  Thread       Time
   0:452c      0 days 0:00:00.437
   3:5bc0      0 days 0:00:00.000
   2:4e6c      0 days 0:00:00.000
   1:64a4      0 days 0:00:00.000

第二步 切换到消耗CPU的线程~0s 第三步 查看线程的函数调用栈,找到消耗CPU的函数。

代码语言:javascript复制
0:000> k
 # Child-SP          RetAddr           Call Site
00 000000dd`4f2ffdf8 00007ff7`8a0d1019 HighCPU!HighCPU 0x2 
01 000000dd`4f2ffe00 00007ff7`8a0d1244 HighCPU!main 0x9 
02 (Inline Function) --------`-------- HighCPU!invoke_main 0x22 
03 000000dd`4f2ffe30 00007ffc`a23f4034 HighCPU!__scrt_common_main_seh 0x10c 
04 000000dd`4f2ffe70 00007ffc`a4da3691 KERNEL32!BaseThreadInitThunk 0x14
05 000000dd`4f2ffea0 00000000`00000000 ntdll!RtlUserThreadStart 0x21

第四步 上一章末尾提到的一个问题如果是特定的数据/样例导致的High CPU,那么得通过函数处理的数据查看,然后对导出的数据进行问题重现和研究。这个根据自己的代码实现,去进行查看。

0 人点赞