串的朴素模式匹配算法
导读
大家好,很高兴又和大家见面啦!!!
经过前面的内容介绍,相信大家现在已经对串这个数据结构有一定的了解了,并且也能够动手实现串的一些基础操作了。
从今天的内容开始,我们将进入串的重要知识点的学习——模式匹配算法。今天的内容会带领大家认识什么是串的模式匹配,并且能够深入理解最简单的模式匹配算法。不知道大家现在是否开始有些期待了呢?那么我们就直接进入今天的主题吧!!!
一、串的模式匹配
1.1 模式匹配是什么?
要理解串的模式匹配,首先我们就需要知道什么是模式匹配。
匹配我们可以理解为配对,对于字符而言,能够凑成一对的只有相同的字符,因此字符的匹配就是寻找相同的字符。而模式匹配我们可以理解为有一个固定的模版,我们要寻找与模板相同的内容。在字符串中,模式匹配指的就是给定一个字符串,然后在另一个字符串中寻找与这个字符串相同的字符串。
在字符串的基本操作中,串的比较和串的定位都是需要判断两个字符串是否相同,但是我们通常将串的定位操作称为串的模式匹配。在串的定位操作中,我们需要在主串中寻找子串的位置,寻找的这个子串我们将其称为模式串,所以寻找与模式串相匹配的字符串就是串的模式匹配。
1.2 为什么要有模式匹配算法?
现在有朋友就会提出来了,咱们在上一个篇章中不是已经介绍了串的定位操作吗,为什么这里还要介绍呢?
对于这个问题大家可以回想一下,在上一篇基本操作中我们是如何实现串定位的操作的?没想起来的朋友也没关系,这里我帮大家回忆一下。
在上一篇我们实现的堆分配定位操作中,代码主体可以分为两个部分——1.堆分配存储预处理部分;2.定位操作部分。完整代码如下所示:
代码语言:javascript复制//串的定位操作
int Index(HString S, char* T) {
//堆分配存储的预处理部分
if (!T)//判断串T是否为空指针
return -2;//串T为空指针时,无需执行定位操作
int len = StrLength(T);//获取串T的串长
if (len == 0)//判断子串T是否为空串
return -3;//子串T为空串,则无需查找
char* sub = (char*)calloc(len 1, sizeof(char));//为子串申请空间
//定位操作部分
for (int i = 1; i <= S.length; i ) {
//从主串首元素开始寻找与串T长度相同的子串
if (SubString(&sub, S.ch, i, len))
//找到子串后判断子串sub与串T是否相同
if (StrCompare(sub, T) == 0)
return i 1;//相同则返回子串的位序
}
return -1;//当找完串S中的所有子串都未找到,S中不存在与T相等的子串
}
预处理部分主要是为了能够让程序正常运行,而对一些可能产生的问题所做的处理,这里我就不再过多赘述。现在我们主要来看定位操作部分。
我们在进行定位操作时,借助找子串操作,从主串中的首元素开始,依次寻找与串T也就是模式串长度相同的子串;每一次找到的子串,我们都会借助串比较操作来将找到的子串与模式串进行匹配。
这样一看,感觉字符串的模式匹配好像也怎么难呀,这不是只要有找子串操作和串比较操作我们就可以实现了吗?
现在我们就需要思考一下,你能够保证,每次在遇到串的问题时,你都有时间来手搓一份串的基本操作吗?
答案是否定的,很多时候我们遇到的问题可能都仅仅是需要在主串中寻找与模式串相同的字符串,对它在主串中的位置,我们并不需要关注,而且每次都手搓一份串相关的基本操作也是比较麻烦的,因此我们就需要编写一份不需要依靠任何串的基本操作就能实现的模式匹配算法。
今天我们要介绍的就是模式匹配算法中最简单也是最直接的朴素模式匹配算法。下面我们就来谈谈如何实现朴素模式匹配算法。
二、朴素模式匹配算法
朴素模式匹配算法看名字感觉应该不那么好理解,其实说直白一点朴素模式匹配算法就是直接在串定位操作中奖找子串和串比较的部分由原先的调用对应的基本操作改为用代码实现而已。之后就能够直接对模式串与主串进行暴力匹配,因此这种算法又被称为暴力模式匹配算法。
2.1 算法底层逻辑
朴素模式匹配算法的底层逻辑并不难,一句话概括就是先找子串再匹配,如下所示:
从上图中可以看到,在实际的匹配过程,子串并不是与模式串的所有元素进行匹配,因此,朴素匹配模式相比于直接将找子串与串比较改写成代码而言还要简洁一点。我们只需要在主串中一个字符一个字符的与模式串的各个元素进行匹配,匹配相同数量就行,如下所示:
相信大家现在应该就能明白朴素模式匹配算法的底层逻辑了,接下来我们就需要探讨一下如何实现朴素模式匹配算法了;
2.2 算法实现
2.2.1 过程解析
在进行模式匹配时,我们需要完成三个工作:
- 找子串中的元素
- 记录子串的起始位置
- 与模式串进行匹配
在之前的实现中,我们是将这三个工作分开进行,这也就是找子串操作和串比较操作,但是现在我们需要思考的是这些工作能不能同时进行呢?
在前面的演示中我们可以看到,当我们在进行朴素模式匹配时,实际上的操作过程是:
- 找到子串的第一个元素后记录该元素的位置;
- 将找到的子串元素前与模式串中同位序的元素进行匹配;
- 匹配成功则继续寻找下一个元素,匹配失败则继续寻找下一个子串;
下面我们就需要思考如何通过代码来实现这个过程。
2.2.2 思路分析
- 记录子串第一个元素的位置
如果要实现这个功能,我们首先就需要判断子串的第一个元素,这时就会遇到两种情况:
- 子串为空串;
- 子串非空串;
在程序开始运行时,我们在主串中找到的第一个元素肯定是子串的第一个元素,对于子串而言,在开始查找元素之前,我们可以将其视作一个空串;
当后续匹配过程中出现不匹配的情况时,为了记录下一个子串的第一个元素,此时我们则需要将子串清空,这样才能确保下一次记录的元素为下一个子串的第一个元素。
那现在问题来了,我们应该如何查找主串中的元素,以及我们又应该如何记录的子串元素呢?
对于字符串而言,它其实可以看做是一个字符数组,只不过与数组不同的是,对于常量字符串来说,字符串中的元素是无法进行改变的,如下所示:
但是对于常量字符串而言,我们同样也可以通过下标来访问字符串中的元素,如下所示:
因此不管是常量字符串还是由字符数组的形式实现的字符串,串中的元素我们都可以根据它所对应的下标来实现元素的访问。
因此在朴素模式匹配中不管是主串中的元素访问还是模式串中的元素访问,我们都可以借助数组下标来完成。而对于数组而言,下标之间的差值就是两个下标之间的元素个数,因此,我们想要记录主串中找到的子串的内容,我们只需要记录首元素下标和最后一个元素的下标就可以实现。
- 将主串中找到的子串元素与模式串中同位序的元素进行匹配
前面也介绍过,所谓的匹配实际上就是判断两个元素是否相等。对于主串而言,记录子串尾元素下标的变量在每一次查找新的元素时都会与记录模式串元素下标的变量一起同步改变,因此,实际的匹配过程两个相互匹配的对象为子串的尾元素和模式串中同位序的元素进行匹配。
- 匹配成功与匹配失败的处理
当我们在进行匹配成功时,我们则需要在主串和模式串中寻找下一个元素进行匹配,因为我们此时是通过数组下标进行的元素访问,因此在匹配成功时,我们只需要通过改变主串和模式串的元素下标即可。
当我们在匹配失败时,我们则需要寻找下一个子串。这时对于模式串而言,则需要从头开始访问模式串中的元素,因此匹配失败时,模式串的下标需要改为首元素对应的下标;对于主串而言,因为我们是通过记录收尾元素下标而实现的记录查找的子串所对应的元素,因此当我们要查找下一个子串时,我们则需要同时改变记录子串首尾元素的下标。
2.2.3 思路总结
经过前面的分析,现在我们就可以整理出实现朴素模式匹配算法的整体思路了,如下所示:
- 创建三个整型变量如x/y/z,由x记录主串中正在查找的子串的首元素下标,y记录主串中正在查找的子串尾元素下标,z记录模式串中正在进行匹配的元素下标;
- 在匹配的过程中,通过y记录的下标所对应的主串元素与z记录的下标所对应的模式串元素进行匹配:
- 匹配成功:x记录的元素下标不变,同时改变y和z记录的下标并进行下一次匹配;
- 匹配失败:x记录的元素下标改变为下一个子串的首元素下标,y记录下一个子串的尾元素下标,z从模式串的首元素下标开始重新记录;
- 有两种情况可以结束匹配:
- 当主串中找到了与模式串相匹配的子串时,结束匹配;
- 当主串中的子串全部与模式串匹配完时,结束匹配;
为了更好的理解这个算法思路,下面我们来看一下该思路所对应的算法演示:
相信大家看完演示应该对这个匹配过程十分清楚了,接下来我们就可以根据具体的思路来编写对应的代码了。
2.2.4 代码编写
数据类型
在上一篇中我们是通过堆分配存储实现的串的基本操作,为了防止大家的编码思维固化,在今天的算法实现中,我们将通过定长顺序存储的串类型来实现。串对应的数据类型定义如下所示:
代码语言:javascript复制//定长顺序存储
#define MAXSIZE 255//最大串长
typedef struct StackString {
char ch[MAXSIZE];//存储字符的数组
int length;//当前串长
}SString;//重命名后的数据类型名
函数的三要素
在编写算法前,我们先要明确自定义函数的三要素:函数名、函数参数、返回类型。
- 函数名
前面也介绍过,串的定位操作就是串的模式匹配,因此,这里我们同样还是把朴素模式匹配算法的函数名命名为Index
;
- 函数的返回类型
函数的返回类型可以是char*
、int
、bool
……具体的返回类型可以根据自己的需求来进行定义。这里我们是以记录下标的方式实现,所以我们简单一点就以整型为函数的返回类型;
- 函数参数
在朴素模式匹配中,我们需要的主要是两个元素——主串与模式串。因此函数的参数肯定就是主串与模式串这两个参数。
这里我要重点说明的是参数的类型,在王道书上给出的两个参数的参数类型都是定长顺序存储的类型,并且王道书上是仅通过记录串长的整型变量来实现的串,为了使串中的元素下标与串的位序一一对应,王道书上采用的是将数组下标为0的元素空间给舍弃掉。
但是我自己实现的定长顺序存储是以我们熟悉的在字符串末尾增加'