VMProtect虚拟机保护分析入门

2022-09-07 10:18:15 浏览数 (1)

大家好,又见面了,我是你们的朋友全栈君。

开始

以前在逆向分析的时候,遇见VMP的代码就束手无策,只能跳过。最近在分析的时候又遇见vmp,准备研究一下。我这次遇见的VMP用查壳工具看是VMProtect(1.60-2.05)[-]。所以本次选用的壳版本是VMP1.8

VMP介绍

VMP全称VMProtect,号称目前软件保护最扣一道防线。为了防止逆向分析人员对软件的逆向分析,VMP最主要的是对指定关键代码进行虚拟化,同时再加一些乱序跳转和大量的废指令,反调试,内存保护,导入表保护,使逆向分析人员无法分析执行的代码,经过VMP虚拟机的代码被膨胀好多倍。本次学习只研究VMP最关键和最难的部分:虚拟化

初步对比

我在visual stdio里写了下面代码,并对加壳时TestVmpFunc函数选择虚拟化。本都得使用的调试器是x64dbg

代码语言:javascript复制
#include <iostream>

_declspec(naked) void TestVmpFunc()
{
    __asm
    {
        mov eax,0x100
        mov ebx,0x1000
        add eax,ebx
        retn
    }
}
int main()
{
    //下面这是特征码,用于在调试器里定位自己的这段代码
    __asm {
        mov eax,eax
        mov eax,eax
    }

    while (true) {
        __asm {
            pushad
            mov eax, TestVmpFunc
            call eax
            popad
        }
        system("pause");
    }
    std::cout << "完成了" << std::endl;
    return 0;
}

用调试器附加观察原来只有四条汇编指令:

被虚拟化后成这样:

代码被虚拟化之后,假如在调试器中单步执行会跳来跳去,一条汇编会变成成百上千条指令,无法判断他在干什么。

基本原理

经过一番查资料,知道本质来讲VMP是一个基于堆栈机的intel指令模拟器,对过编译把原来的intel指令编译成精心设计的一组虚拟指令,然后用自己的一套引擎来解释执行。VMP加壳后,他会将原来的代码进行删除,导致基本完全无法进行还原。

VMP是防止别人逆向分析自己的代码,逆向分析的目的是分析代码,了解代码逻辑和代码的目的,然后加以利用。看样子,目前只能通过对虚拟机引擎的分析,来搞懂虚拟机引擎,然后理清代码流程,达到逆向分析的目的。

自己实现一个简单的虚拟机加深了解

定义寄存器和内存

这里第8个寄存器为指令指针寄存器类似x86的eip

代码语言:javascript复制
uint32_t g_regs[8];//8个寄存器
uint32_t g_mem[1000];//1000个内存空间

这里为了简单,规定每条指令都有三个操作数(哪怕某一条指令用不到三个参数)

指令格式为:OPCODE r,s,t

代码语言:javascript复制
//指令操作数
struct Instruct {
&nbsp;&nbsp;&nbsp; uint32_t opcode;
&nbsp;&nbsp;&nbsp; uint32_t r;
&nbsp;&nbsp;&nbsp; uint32_t s;
&nbsp;&nbsp;&nbsp; uint32_t t;
};

声明OPCode

代码语言:javascript复制
enum OP_CODE  {
    opSTOP,/*停止执行 忽略r,s,t参数*/
    opIN,/*读入一个值放到reg[r]里*/
    opOUT,/*将reg[r]的值输入*/
    opADD,/*regs[r] = regs[s]   regs[t]*/
    

    opLD,//regs[r]=dmem[regs[s]   t]
    opST,//dmem[regs[s]   t] = regs[r]

    opLDA,//regs[r]= regs[s] t
    opLDC,//regs[r]=t
};
代码语言:javascript复制
std::vector<instruct> g_instruct_list;//指令列表

初始化

代码语言:javascript复制
void Init()
{
    memset(g_regs, 0, sizeof(g_regs));
    g_instruct_list.clear();
}

加载代码

代码语言:javascript复制
void LoadCode(const std::string & file_name)
{
    //代码文件为txt文件
    //每行模式为opcode,r,s,t
    //例如:1,0,0,0 
    std::ifstream file(file_name);
    if (!file.is_open()) {
        return;
    }

    auto GetOneInstruct = [&file](Instruct & instruct) {
        char elem; 
        uint32_t values[4] = { 0 };
        bool success = true;
        for (int i = 0; i < 4 ; i  ) {
            file >> values[i];
            if (file.fail()) {
                success = false;
                break;
            }
            if (i < 4 - 1) {
                file >> elem;
            }
        }
        if (!success) {
            return false;
        }
        instruct = { values[0],values[1],values[2],values[3] };
        return true;
    };

    Instruct instruct;
    while (GetOneInstruct(instruct)) {
        g_instruct_list.push_back(instruct);
    }
}

运行指令

代码语言:javascript复制
bool RunInstruct(const Instruct& instruct)
{
    switch (instruct.opcode) {
    case opSTOP:
        return false;
    case opIN:
        Handle_opIN(instruct);
        break;
    case opOUT:
        Handle_opOUT(instruct);
        break;
    case opADD:
        Handle_opADD(instruct);
        break;
    default:
        throw std::logic_error("Invalid Op Code:"   std::to_string(instruct.opcode));
        break;
    }
    return true;
}

void RunCode() {

    while (true) {
        uint32_t eip = g_regs[7];
        if (eip > g_instruct_list.size() - 1) {
            break;
        }
        const Instruct& instruct = g_instruct_list.at(eip);
        if (!RunInstruct(instruct)) {
            break;
        }
        g_regs[7]  ;
    }
}
// handle处理
void Handle_opIN(const Instruct& instruct);
void Handle_opOUT(const Instruct& instruct);
void Handle_opADD(const Instruct& instruct);
void Handle_opLD(const Instruct& instruct);
void Handle_opST(const Instruct& instruct);
void Handle_opLDA(const Instruct& instruct);
void Handle_opLDC(const Instruct& instruct);

测试

代码语言:javascript复制
int main()
{
    Init();
    LoadCode("asm.txt");
    RunCode();

    return -1;
}

初步分析

虚拟机入口

代码语言:javascript复制
00952380 | 68 95514200              | push 425195                                                 |
00952385 | E8 FC220100              | call testvmp.vmp.964686                                     |
push 425195的作用

经过对后面的流程进行分析,得知这里的425195在虚拟机跳转衔接上起到了关键的作用。VMP为了防止逆向分析的一个重要的干扰就是乱序,运行几行汇编就各种jump,VMP使用的jump方法是JXX指令和CALL,RET来进行。

如下代码使用了push和ret组合实现跳转:

代码语言:javascript复制
00963A35 | FF7424 34                | push dword ptr ss:[esp 34]                                  |
00963A39 | C2 3800                  | ret 38                                                      |

上面的这段代码,假如不知道[esp 34]的值,不知道会跳转到哪里。所以静态分析工具例如ida是就无法分析。然而425195这个值充当了一个Key的作用。VMP巧妙的运用这个值来进行实时计算要跳转的地方。

虚拟机初始化

单步进入就会看到虚拟机初始化的代码。

初始化充斥着许多垃圾指令,注意看注释。

代码语言:javascript复制
push 45FFB40D	
mov byte ptr ss:[esp],C0	
call testvmp.vmp.962149	
mov dword ptr ss:[esp 4],edx	
mov byte ptr ss:[esp],22	
pushfd	
mov dword ptr ss:[esp 4],edi	
jmp testvmp.vmp.9633F4	
mov word ptr ss:[esp],cx	
mov dword ptr ss:[esp],eax	
pushad	
jmp testvmp.vmp.9641DB	
pushfd	
mov dword ptr ss:[esp 20],esi	
call <testvmp.vmp.sub_963725>	
mov dword ptr ss:[esp 20],ebx	
mov dword ptr ss:[esp 8],5870296F	
mov dword ptr ss:[esp 1C],eax	
pushfd	
push esi	保存寄存器ESI
pushfd	
pop dword ptr ss:[esp 20]	
push A9CEAE65	
pushad	
push dword ptr ss:[esp 4]	
mov byte ptr ss:[esp],49	
lea esp,dword ptr ss:[esp 48]	弹栈
jmp testvmp.vmp.9636DA	
bt ax,3	
bswap di	
cmc	
and dh,dh	
push ebp	保存寄存器EBP
xadd si,di	
movsx bp,al	
not edi	
push ecx	保存寄存器ECX
ror esi,5	
clc	
push dword ptr ds:[962430]	
inc si	
push 540000	这个值与之前PUSH来的KEY共同计算指令handle下一跳地址
jmp testvmp.vmp.963343	
test cl,F7	
rcr si,cl	
pushad	
mov esi,dword ptr ss:[esp 50]	
sbb ebp,23A52066	
ror di,1	
lea ebp,dword ptr ss:[esp 20]	
sar di,cl	
bsr dx,bp	
inc edi	
sub esp,A0	分配栈空间
shl dh,6	
ror dx,cl	
dec edi	
mov al,dl	
mov edi,esp	VM寄存器指针
push ebx	
call testvmp.vmp.964391	
bswap edx	
add esi,dword ptr ss:[ebp]	重定位
add esp,8	

运行大致逻辑

经过我对刚才加壳的代码进行多次单步执行分析,得到被加虚拟机的代码运行流程如下。

EBP为虚拟机自己的栈顶地址类似x86的esp

EDI为虚拟机寄存器基地址

详细分析

下面对各个关键点通过汇编和数据进行详细分析

ESI的逻辑

代码流是通过ESI来进行的

ESI先来自那个Push进来的Key

代码语言:javascript复制
0096334A | 8B7424 50                | mov esi,dword ptr ss:[esp 50]                               | var_4 进虚拟机push的Key

再加那个540000的偏移

代码语言:javascript复制
00964393 | 0375 00                  | add esi,dword ptr ss:[ebp]                                  | esi = 540000

本次VMP版本ESI是每次累减而不是累加

ESI操作完现在是00965195

每次取的是[esi-1],也就是esi所示的前一个字节

代码语言:javascript复制
0096439B | 8A46 FF                  | mov al,byte ptr ds:[esi-1]                                  | 

al现在就指向这里

每次算完edx(下一跳地址)之后esi还会-1

代码语言:javascript复制
00964785 | 83EE 01                  | sub esi,1                                                   | esi:sub_9650C6 CF
第一条VM指令VMPop Reg

实际上ESI指向的2C是寄存器索引

代码语言:javascript复制
00964241 | 891407                   | mov dword ptr ds:[edi eax],edx                              | Handle eax是root esi指的那个字节

2C/4 = B 所以本次VMP指令就是

VMPop Reg11

从第一条VM指令看Handle跳转代码的逻辑

每次要跳到哪个HANDLE取决于这行汇编代码

代码语言:javascript复制
009643B0 | 8B1485 AD3C9600          | mov edx,dword ptr ds:[eax*4 <sub_963cad>]                   | 这里的EDX决定着后面ret 38 ret到 [963CAD   Index * 4] 540000-1  edx-1 540000

可以看到这里有一个表,那就是963CAD,

这个表里的值是一个偏移。要想跳到实际的HANDLE要把这个值 540000然后再-1

比如,要跳到这个表索引为0的handle就是要跳到[963CAD 0 * 4] 540000-1 = 004246D4 540000-1=009646d3,正好是PopReeg4 handle

乍看这一个表,表里有重复的值,不知道是什么意思。

这个 index刚好就是之前的esi的值。也就是这里

那么说明esi指令的这个地方,有两个用处?

  1. 决定指令流向,因为他代码一个指令的索引
  2. 寄存器索引,因为他也代码了一个寄存器索引

这看起来很诡异,因为esi所指向的这个字节他即充当了操作数寄存器的索引,又充当了本条指令handle的索引。

除非是这样:先把流程弄好,再按排好的流程再填充这个963CAD表。

比如说,本条指定是

VMPop Reg12

则在ESI指向的那块内存里写入12 * 4 = 0x30,然后再在esi指向的内存里写入0x30,然后再在963CAD这个表里的0x30索引的位置写入VMPop 的HANDLE。

第二条VM指令 立即数压栈

第二条指令的时候ESI指向这里

所以索引是0x46

这个指令跳到的handle会读取[esi-4]的一个DWORD。

读的位置也就是这里:

转换成DWORD就是DA94102D,后面又用bswap指令转成了2D1094DA,所以这个立即数实际上是2D1094DA

执行完又将esi前移4字节

由于这个handel有如下代码

代码语言:javascript复制
0096206F | 83ED 04                  | sub ebp,4                                                   |
00963B9E | 8945 00                  | mov dword ptr ss:[ebp],eax                                  | eax是立即数

所以说这个是将立即数压栈的handle

第三条VM指令 加法

所以这个加法的操作是[ebp 4]=[ebp] [ebp 4]

完整逆向VMP结果

VMPop Reg11 VMPushDWORD 2D1094DA VMAdd [EBP 4]=[EBP] [EBP 4] VMPop Reg5 VMPop Reg6 VMPop Reg14 VMPop Reg2 VMPop Reg7 VMPop Reg5 VMPop Reg4 VMPop Reg0 VMPop Reg3 VMPop Reg10 VMPop Reg15 VMPop Reg9 VMPop Reg0 VMPush WORD 0x100 VMPUsh WORD 0x1000 VMPop Reg9 VMPop Reg8 VMPush Reg15 VMPhsh Reg9 VMPush Reg8 VmAdd VMPopReg R13 VMPopReg R12 VMPopReg R10 VmPush Reg3 VmPUsh Reg0 VMPush Reg9 VMPush Reg12 VMPush Reg13 VmPUsh Reg2 VMPush Reg14 VmPUsh Reg3 VmPUsh Reg9

下一步要做的

下一步就是要写脚本对更复杂的代码进行自动解析。</sub_963cad></testvmp.vmp.sub_963725>

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/154687.html原文链接:https://javaforall.cn

0 人点赞