串的抽象数据类型定义
ADT String{数据对象:D={a_i|a_i属于CharacterSet,i=1,2,...,n,n>=0}数据关系:R_1={<a_i-1,a_i>|a_i-1,a_i属于D,1,2,...,n}基本操作:StrAssign(&T,chars)初始条件:chars是字符串常量。操作结果:生成一个其值等于chars的串T。StrCopy(&T,S)初始条件:串S存在。操作结果:由串S复制得到串T。StrEmpty(S)初始条件:串S存在。操作结果:若S为空串,则返回TRUE,否则返回FALSE。StrCompare(S,T)初始条件:串S和T存在。操作结果:若S>T,则返回值>0;若S=T,则返回值=0;若S<T,则返回值<0。StrLength(S)初始条件:串S存在。操作结果:返回S的长度,称为串的长度。ClearString(&S)初始条件:串S存在。操作结果:将S清为空串。Concat(&T,S1,S2)初始条件:串S1和S2存在。操作结果:用T返回由S1和S2联接而成的新串。SubString(&Sub,S,pos,len)初始条件:串S存在,1<=pos<=StrLength(S)且0<=len<=StrLength(S)-pos+1。操作结果:用Sub返回串S第pos个字符起长度为len的字串。Index(S,T,pos)初始条件:串S和T存在,T是非空串,1<=pos<=StrLength(S)。操作结果:若子串S中存在和串T值相同的字串,则返回它在主串S中第pos个字符之后第一次出现的位置;否则函数值为0。Replace(&S,T,V)初始条件:串S,T和V存在,T是非空串。操作结果:用V替主串S中出现的所有与T相等的不重叠的字串。StrInsert(&S,pos,T)初始条件:串S和T存在,1<=pos<=StrLength(S)+1。操作结果:在串S的第pos个字符之前插入串T。StrDelete(&S,pos,len)初始条件:串S存在,1<=pos<=StrLength(S)-len+1。操作结果:从串S中删除第pos个字符其起长度为len的字串。DestroyString(&S)初始条件:串S存在。操作结果:串S被销毁。}ADT String;
串定长顺序存储表示
#include "string.h"#include "stdio.h"#include "stdlib.h"#include "math.h"#include "time.h"#define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define MAXSIZE 40 /* 存储空间初始分配量 */typedef int Status; /* Status是函数的类型,其值是函数结果状态代码,如OK等 */typedef int ElemType; /* ElemType类型根据实际情况而定,这里假设为int */typedef char String[MAXSIZE+1]; /* 0号单元存放串的长度 *//* 生成一个其值等于chars的串T */Status StrAssign(String T,char *chars){int i;if(strlen(chars)>MAXSIZE)return ERROR;else{T[0]=strlen(chars);for(i=1;i<=T[0];i++)T[i]=*(chars+i-1);return OK;}}/* 由串S复制得串T */Status StrCopy(String T,String S){int i;for(i=0;i<=S[0];i++)T[i]=S[i];return OK;}/* 若S为空串,则返回TRUE,否则返回FALSE */Status StrEmpty(String S){if(S[0]==0)return TRUE;elsereturn FALSE;}/* 初始条件: 串S和T存在 *//* 操作结果: 若S>T,则返回值>0;若S=T,则返回值=0;若S<T,则返回值<0 */int StrCompare(String S,String T){int i;for(i=1;i<=S[0]&&i<=T[0];++i)if(S[i]!=T[i])return S[i]-T[i];return S[0]-T[0];}/* 返回串的元素个数 */int StrLength(String S){return S[0];}/* 初始条件:串S存在。操作结果:将S清为空串 */Status ClearString(String S){S[0]=0;/* 令串长为零 */return OK;}/* 用T返回S1和S2联接而成的新串。若未截断,则返回TRUE,否则FALSE */Status Concat(String T,String S1,String S2){int i;if(S1[0]+S2[0]<=MAXSIZE){ /* 未截断 */for(i=1;i<=S1[0];i++)T[i]=S1[i];for(i=1;i<=S2[0];i++)T[S1[0]+i]=S2[i];T[0]=S1[0]+S2[0];return TRUE;}else{ /* 截断S2 */for(i=1;i<=S1[0];i++)T[i]=S1[i];for(i=1;i<=MAXSIZE-S1[0];i++)T[S1[0]+i]=S2[i];T[0]=MAXSIZE;return FALSE;}}/* 用Sub返回串S的第pos个字符起长度为len的子串。 */Status SubString(String Sub,String S,int pos,int len){int i;if(pos<1||pos>S[0]||len<0||len>S[0]-pos+1)return ERROR;for(i=1;i<=len;i++)Sub[i]=S[pos+i-1];Sub[0]=len;return OK;}/* 返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数返回值为0。 *//* 其中,T非空,1≤pos≤StrLength(S)。 */int Index(String S, String T, int pos){int i = pos; /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */int j = 1; /* j用于子串T中当前位置下标值 */while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */{if (S[i] == T[j]) /* 两字母相等则继续 */{++i;++j;}else /* 指针后退重新开始匹配 */{i = i-j+2; /* i退回到上次匹配首位的下一位 */j = 1; /* j退回到子串T的首位 */}}if (j > T[0])return i-T[0];elsereturn 0;}/* T为非空串。若主串S中第pos个字符之后存在与T相等的子串, *//* 则返回第一个这样的子串在S中的位置,否则返回0 */int Index2(String S, String T, int pos){int n,m,i;String sub;if (pos > 0){n = StrLength(S); /* 得到主串S的长度 */m = StrLength(T); /* 得到子串T的长度 */i = pos;while (i <= n-m+1){SubString (sub, S, i, m); /* 取主串中第i个位置长度与T相等的子串给sub */if (StrCompare(sub,T) != 0) /* 如果两串不相等 */++i;else /* 如果两串相等 */return i; /* 则返回i值 */}}return 0; /* 若无子串与T相等,返回0 */}/* 初始条件: 串S和T存在,1≤pos≤StrLength(S)+1 *//* 操作结果: 在串S的第pos个字符之前插入串T。完全插入返回TRUE,部分插入返回FALSE */Status StrInsert(String S,int pos,String T){int i;if(pos<1||pos>S[0]+1)return ERROR;if(S[0]+T[0]<=MAXSIZE){ /* 完全插入 */for(i=S[0];i>=pos;i--)S[i+T[0]]=S[i];for(i=pos;i<pos+T[0];i++)S[i]=T[i-pos+1];S[0]=S[0]+T[0];return TRUE;}else{ /* 部分插入 */for(i=MAXSIZE;i<=pos;i--)S[i]=S[i-T[0]];for(i=pos;i<pos+T[0];i++)S[i]=T[i-pos+1];S[0]=MAXSIZE;return FALSE;}}/* 初始条件: 串S存在,1≤pos≤StrLength(S)-len+1 *//* 操作结果: 从串S中删除第pos个字符起长度为len的子串 */Status StrDelete(String S,int pos,int len){int i;if(pos<1||pos>S[0]-len+1||len<0)return ERROR;for(i=pos+len;i<=S[0];i++)S[i-len]=S[i];S[0]-=len;return OK;}/* 初始条件: 串S,T和V存在,T是非空串(此函数与串的存储结构无关) *//* 操作结果: 用V替换主串S中出现的所有与T相等的不重叠的子串 */Status Replace(String S,String T,String V){int i=1; /* 从串S的第一个字符起查找串T */if(StrEmpty(T)) /* T是空串 */return ERROR;do{i=Index(S,T,i); /* 结果i为从上一个i之后找到的子串T的位置 */if(i) /* 串S中存在串T */{StrDelete(S,i,StrLength(T)); /* 删除该串T */StrInsert(S,i,V); /* 在原串T的位置插入串V */i+=StrLength(V); /* 在插入的串V后面继续查找串T */}}while(i);return OK;}/* 输出字符串T */void StrPrint(String T){int i;for(i=1;i<=T[0];i++)printf("%c",T[i]);printf("\n");}int main(){int i,j;Status k;char s;String t,s1,s2;printf("请输入串s1: ");k=StrAssign(s1,"abcd");if(!k){printf("串长超过MAXSIZE(=%d)\n",MAXSIZE);exit(0);}printf("串长为%d 串空否?%d(1:是 0:否)\n",StrLength(s1),StrEmpty(s1));StrCopy(s2,s1);printf("拷贝s1生成的串为: ");StrPrint(s2);printf("请输入串s2: ");k=StrAssign(s2,"efghijk");if(!k){printf("串长超过MAXSIZE(%d)\n",MAXSIZE);exit(0);}i=StrCompare(s1,s2);if(i<0)s='<';else if(i==0)s='=';elses='>';printf("串s1%c串s2\n",s);k=Concat(t,s1,s2);printf("串s1联接串s2得到的串t为: ");StrPrint(t);if(k==FALSE)printf("串t有截断\n");ClearString(s1);printf("清为空串后,串s1为: ");StrPrint(s1);printf("串长为%d 串空否?%d(1:是 0:否)\n",StrLength(s1),StrEmpty(s1));printf("求串t的子串,请输入子串的起始位置,子串长度: ");i=2;j=3;printf("%d,%d \n",i,j);k=SubString(s2,t,i,j);if(k){printf("子串s2为: ");StrPrint(s2);}printf("从串t的第pos个字符起,删除len个字符,请输入pos,len: ");i=4;j=2;printf("%d,%d \n",i,j);StrDelete(t,i,j);printf("删除后的串t为: ");StrPrint(t);i=StrLength(s2)/2;StrInsert(s2,i,t);printf("在串s2的第%d个字符之前插入串t后,串s2为:\n",i);StrPrint(s2);i=Index(s2,t,1);printf("s2的第%d个字母起和t第一次匹配\n",i);SubString(t,s2,1,1);printf("串t为:");StrPrint(t);Concat(s1,t,t);printf("串s1为:");StrPrint(s1);Replace(s2,t,s1);printf("用串s1取代串s2中和串t相同的不重叠的串后,串s2为: ");StrPrint(s2);return 0;}
输出
请输入串s1: 串长为4 串空否?0(1:是 0:否)拷贝s1生成的串为: abcd请输入串s2: 串s1<串s2串s1联接串s2得到的串t为: abcdefghijk清为空串后,串s1为:串长为0 串空否?1(1:是 0:否)求串t的子串,请输入子串的起始位置,子串长度: 2,3子串s2为: bcd从串t的第pos个字符起,删除len个字符,请输入pos,len: 4,2删除后的串t为: abcfghijk在串s2的第1个字符之前插入串t后,串s2为:abcfghijkbcds2的第1个字母起和t第一次匹配串t为:a串s1为:aa用串s1取代串s2中和串t相同的不重叠的串后,串s2为: aabcfghijkbcd
串的堆分配存储表示
模式匹配KMP
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。
KMP算法之求next数组代码讲解
点击查看【bilibili】
手算next数组
逐步推演
KMP_C代码
#include "string.h"#include "stdio.h"#include "stdlib.h"#include "math.h"#include "time.h"#define OK 1#define ERROR 0#define TRUE 1#define FALSE 0#define MAXSIZE 100 /* 存储空间初始分配量 */typedef int Status;/* Status是函数的类型,其值是函数结果状态代码,如OK等 */typedef int ElemType;/* ElemType类型根据实际情况而定,这里假设为int */typedef char String[MAXSIZE+1];/* 0号单元存放串的长度 *//* 生成一个其值等于chars的串T */Status StrAssign(String T,char *chars){int i;if(strlen(chars)>MAXSIZE)return ERROR;else{T[0]=strlen(chars);for(i=1;i<=T[0];i++)T[i]=*(chars+i-1);return OK;}}Status ClearString(String S){S[0]=0;/* 令串长为零 */return OK;}/* 输出字符串T。 */void StrPrint(String T){int i;for(i=1;i<=T[0];i++)printf("%c",T[i]);printf("\n");}/* 输出Next数组值。 */void NextPrint(int next[],int length){int i;for(i=1;i<=length;i++)printf("%d",next[i]);printf("\n");}/* 返回串的元素个数 */int StrLength(String S){return S[0];}/* 朴素的模式匹配法 */int Index(String S, String T, int pos){int i = pos; /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */int j = 1; /* j用于子串T中当前位置下标值 */while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */{if (S[i] == T[j]) /* 两字母相等则继续 */{++i;++j;}else /* 指针后退重新开始匹配 */{i = i-j+2; /* i退回到上次匹配首位的下一位 */j = 1; /* j退回到子串T的首位 */}}if (j > T[0])return i-T[0];elsereturn 0;}/* 通过计算返回子串T的next数组。 */void get_next(String T, int *next){int i,k;i=1;k=0;next[1]=0;while (i<T[0]) /* 此处T[0]表示串T的长度 */{if(k==0 || T[i]== T[k]){++i;++k;next[i] = k;}elsek= next[k]; /* 若字符不相同,则k值回溯 */}}/* 返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数返回值为0。 *//* T非空,1≤pos≤StrLength(S)。 */int Index_KMP(String S, String T, int pos){int i = pos; /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */int j = 1; /* j用于子串T中当前位置下标值 */int next[255]; /* 定义一next数组 */get_next(T, next); /* 对串T作分析,得到next数组 */while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */{if (j==0 || S[i] == T[j]) /* 两字母相等则继续,与朴素算法增加了j=0判断 */{++i;++j;}else /* 指针后退重新开始匹配 */j = next[j];/* j退回合适的位置,i值不变 */}if (j > T[0])return i-T[0];elsereturn 0;}/* 求模式串T的next函数修正值并存入数组nextval */void get_nextval(String T, int *nextval){int i,k;i=1;k=0;nextval[1]=0;while (i<T[0]) /* 此处T[0]表示串T的长度 */{if(k==0 || T[i]== T[k]) /* T[i]表示后缀的单个字符,T[k]表示前缀的单个字符 */{++i;++k;if (T[i]!=T[k]) /* 若当前字符与前缀字符不同 */nextval[i] = k; /* 则当前的j为nextval在i位置的值 */elsenextval[i] = nextval[k]; /* 如果与前缀字符相同,则将前缀字符的 *//* nextval值赋值给nextval在i位置的值 */}elsek= nextval[k]; /* 若字符不相同,则k值回溯 */}}int Index_KMP1(String S, String T, int pos){int i = pos; /* i用于主串S中当前位置下标值,若pos不为1,则从pos位置开始匹配 */int j = 1; /* j用于子串T中当前位置下标值 */int next[255]; /* 定义一next数组 */get_nextval(T, next); /* 对串T作分析,得到next数组 */while (i <= S[0] && j <= T[0]) /* 若i小于S的长度并且j小于T的长度时,循环继续 */{if (j==0 || S[i] == T[j]) /* 两字母相等则继续,与朴素算法增加了j=0判断 */{++i;++j;}else /* 指针后退重新开始匹配 */j = next[j];/* j退回合适的位置,i值不变 */}if (j > T[0])return i-T[0];elsereturn 0;}int main(){int i,*p;String s1,s2;StrAssign(s1,"abcdex");printf("子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf("Next为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"abcabx");printf("子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf("Next为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"ababaaaba");printf("子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf("Next为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"aaaaaaaab");printf("子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf("Next为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"ababaaaba");printf(" 子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf(" Next为: ");NextPrint(p,StrLength(s1));get_nextval(s1,p);printf("NextVal为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"aaaaaaaab");printf(" 子串为: ");StrPrint(s1);i=StrLength(s1);p=(int*)malloc((i+1)*sizeof(int));get_next(s1,p);printf(" Next为: ");NextPrint(p,StrLength(s1));get_nextval(s1,p);printf("NextVal为: ");NextPrint(p,StrLength(s1));printf("\n");StrAssign(s1,"00000000000000000000000000000000000000000000000001");printf("主串为: ");StrPrint(s1);StrAssign(s2,"0000000001");printf("子串为: ");StrPrint(s2);printf("\n");printf("主串和子串在第%d个字符处首次匹配(朴素模式匹配算法)\n",Index(s1,s2,1));printf("主串和子串在第%d个字符处首次匹配(KMP算法) \n",Index_KMP(s1,s2,1));printf("主串和子串在第%d个字符处首次匹配(KMP改良算法) \n",Index_KMP1(s1,s2,1));return 0;}
输出
子串为: abcdexNext为: 011111子串为: abcabxNext为: 011123子串为: ababaaabaNext为: 011234223子串为: aaaaaaaabNext为: 012345678子串为: ababaaabaNext为: 011234223NextVal为: 010104210子串为: aaaaaaaabNext为: 012345678NextVal为: 000000008主串为: 00000000000000000000000000000000000000000000000001子串为: 0000000001主串和子串在第41个字符处首次匹配(朴素模式匹配算法)主串和子串在第41个字符处首次匹配(KMP算法)主串和子串在第41个字符处首次匹配(KMP改良算法)


