大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说数据结构(15)--哈夫曼树以及哈夫曼编码的实现「建议收藏」,希望能够帮助大家进步!!!
参考书籍:数据结构(C语言版)严蔚敏吴伟民编著清华大学出版社
本文中的代码可从这里下载:https://github.com/qingyujean/data-structure
1.哈夫曼树
代码语言:txt复制假设有n个权值{w1, w2, ..., wn},试构造一棵含有n个叶子结点的二叉树,每个叶子节点带权为wi,则其中带权路径长度WPL最小的二叉树叫做**最优二叉树**或者**哈夫曼树**。
特点:哈夫曼树中没有度为1的结点,故由n0 = n2 1以及m= n0 n1 n2,n1=0可推出m=2*n0-1,即一棵有n个叶子节点的哈夫曼树共有2n-1个节点。
2.哈夫曼编码
代码语言:txt复制通信传送的目标是使总码长尽可能的短。
变长编码的原则:
代码语言:txt复制 1.使用频率高的字符用尽可能短的编码(这样可以减少数据传输量);
代码语言:txt复制 2.任一字符的编码都不能作为另一个字符编码的开始部分(这样就使得在两个字符的编码之间不需要添加分隔符号)。这种编码称为**前缀编码**。
代码语言:txt复制根据每种字符在电文中出现的次数构造哈夫曼树,将哈夫曼树中每个分支结点的左分支标上0,右分支标上1,把从根结点到每个叶子结点的路径上的标号连接起来,作为叶结点所代表的字符的编码。这样得到的编码称为**哈夫曼编码**。
思考:为什么哈夫曼编码符合变长编码的原则?哈夫曼树所构造出的编码的长度是不是最短的?
代码语言:txt复制 哈夫曼树求得编码为最优前缀码的原因: 在构造哈夫曼树的过程中:
代码语言:txt复制1.权值大的在上层,权值小的在下层。满足出现频率高的码长短。
2.树中没有一片叶子是另一叶子的祖先,每片叶子对应的编码就不可能是其它叶子编码的前缀。即上述编码是二进制的前缀码。
代码语言:txt复制 假设每种字符在电文中出现的次数为wi (出现频率即为权值),其码长为li,电文中只有n种字符,则编码后电文总码长为
,而哈夫曼树是WPL最小的二叉树,因此哈夫曼编码的码长最小。
3.哈夫曼编码实例
四种字符以及他们的权值:a:30, b:5, c:10, d:20
第一步:构建哈夫曼树
第二步:为哈夫曼树的每一条边编码
第三步:生成哈夫曼编码表
4.代码实现
4.1哈夫曼树定义
哈夫曼树的存储结构:采用静态三叉链表
代码语言:javascript复制#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#define N 4//带权值的叶子节点数或者是需要编码的字符数
#define M 2*N-1//n个叶子节点构造的哈夫曼树有2n-1个结点
#define MAX 10000
typedef char TElemType;
//静态三叉链表存储结构
typedef struct{
//TElemType data;
unsigned int weight;//权值只能是正数
int parent;
int lchild;
int rchild;
}HTNode;//, *HuffmanTree;
typedef HTNode HuffmanTree[M 1];//0号单元不使用
typedef char * HuffmanCode[N 1];//存储每个字符的哈夫曼编码表,是一个字符指针数组,每个数组元素是指向字符指针的指针
只听到从架构师办公室传来架构君的声音:
满架花云留不住。有谁来对上联或下联?
4.2构造哈夫曼树
代码语言:javascript复制此代码由Java架构师必看网-架构君整理
//构造哈夫曼树
void createHuffmanTree(HuffmanTree &HT, int *w, int n){
if(n <= 1)
return;
//对树赋初值
for(int i = 1; i <= n; i ){//HT前n个分量存储叶子节点,他们均带有权值
HT[i].weight = w[i];
HT[i].lchild = 0;
HT[i].parent = 0;
HT[i].rchild = 0;
}
for(int i=n 1; i <=M; i ){//HT后m-n个分量存储中间结点,最后一个分量显然是整棵树的根节点
HT[i].weight = 0;
HT[i].lchild = 0;
HT[i].parent = 0;
HT[i].rchild = 0;
}
//开始构建哈夫曼树,即创建HT的后m-n个结点的过程,直至创建出根节点。用哈夫曼算法
for(int i = n 1; i <= M; i ){
int s1, s2;
select(HT, i-1, s1, s2);//在HT[1...i-1]里选择parent为0的且权值最小的2结点,其序号分别为s1,s2,parent不为0说明该结点已经参与构造了,故不许再考虑
HT[s1].parent = i;
HT[s2].parent = i;
HT[i].lchild = s1;
HT[i].rchild = s2;
HT[i].weight = HT[s1].weight HT[s2].weight;
}
}
代码语言:javascript复制//在HT[1...k]里选择parent为0的且权值最小的2结点,其序号分别为s1,s2,parent不为0说明该结点已经参与构造了,故不许再考虑
void select(HuffmanTree HT, int k, int &s1, int &s2){
//假设s1对应的权值总是<=s2对应的权值
unsigned int tmp = MAX, tmpi = 0;
for(int i = 1; i <= k; i ){
if(!HT[i].parent){//parent必须为0
if(tmp > HT[i].weight){
tmp = HT[i].weight;//tmp最后为最小的weight
tmpi = i;
}
}
}
s1 = tmpi;
tmp = MAX;
tmpi = 0;
for(int i = 1; i <= k; i ){
if((!HT[i].parent) && i!=s1){//parent为0
if(tmp > HT[i].weight){
tmp = HT[i].weight;
tmpi = i;
}
}
}
s2 = tmpi;
}
打印哈夫曼树
代码语言:javascript复制此代码由Java架构师必看网-架构君整理
//打印哈夫曼满树
void printHuffmanTree(HuffmanTree HT, char ch[]){
printf("n");
printf("data, weight, parent, lchild, rchildn");
for(int i = 1; i <= M; i ){
if(i > N){
printf(" -, ], ], ], ]n", HT[i].weight, HT[i].parent, HT[i].lchild, HT[i].rchild);
}else{
printf(" %c, ], ], ], ]n", ch[i], HT[i].weight, HT[i].parent, HT[i].lchild, HT[i].rchild);
}
}
printf("n");
}
4.3编码
为哈夫曼树的每一条分支编码,并生成哈夫曼编码表HC
代码语言:javascript复制//为每个字符求解哈夫曼编码,从叶子到根逆向求解每个字符的哈夫曼编码
void encodingHuffmanCode(HuffmanTree HT, HuffmanCode &HC){
//char *tmp = (char *)malloc(n * sizeof(char));//将每一个字符对应的编码放在临时工作空间tmp里,每个字符的编码长度不会超过n
char tmp[N];
tmp[N-1] = '