最长公共子串与最长公共子序列之间的关系

Posted haolujun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最长公共子串与最长公共子序列之间的关系相关的知识,希望对你有一定的参考价值。

最近工作中需要写一个算法,而写完这个算法我却发现了一个很有意思的事情。需要的这个算法是这样的:对于A,B两个字符串,找出最多K个公共子串,使得这K个子串长度和最大。一开始想了一些乱七八糟的想法。

错误想法1:比如每次找最长公共子串,找到一个子串后,从A,B两个字符串中删除这个子串,之后在剩下的串中再找最长公共子串,像这样找K次。但是可惜是错误的。

举个反例:

A=KABCDELMABCDEFGNFGHIJK

B=KABCDEFGHIJK

K=2

按照这种方式选取结果为:ABCDEFG+HIJK,总长度为7+4=11,但是最优解为:KABCDE+FGHIJK总长度为6+6=12。

错误想法2:求A与B的最长公共子序列,之后从子序列中挑取最长的K段。很可惜这个也不对。

举个反例:

A=EFGIJABC

B=ABCEFHIJ

K=1

按照这种方式选取,首先求出最长公共子序列EF-IJ,取出其中最长一段长度为2。而最优解为:ABC,长度为3。

那两个看似取巧但是不对的想法被推翻后,也能让我静下心来进行系统性的思考了,正确解法为动态规划。其实动态规划最重要的事情有三件:找问题的状态,找转移方程边界初始化。找对状态就相当于成功了一半,找到转移方程基本问题就算解了,边界初始化可以忽略不计了。而找状态除了靠灵感之外,我最喜欢分解问题,找到问题的最原子的状态,之后搭积木般的组合拼装就OK了。设dp[i][j][k]表示为以A[i],B[j]为第K个公共子串结尾时,所能得到的最大值,其中A[i]为字符串A第i个字符,B[j]为字符串B的第j个字符。在考虑A[i]和B[j]时,如果A[i] = B[j],那么A[i],B[j]可以单独组成第K个串,也可以和A[i-1],B[j-1]组合在一起作为第K个串,则转移方程如下:

dp[i][j][k] = dp[i-1][j-1][k] + 1             (与A[i-1],B[j-1]连在一起)

dp[i][j][k] = max(dp[i‘][j‘][k-1] + 1)      (A[i],B[j]单独成为第K个串)

当单独成串时,需要遍历所有i‘,j‘,如果我们能在计算dp[i][j][k]的时候顺便记录截止到当前选取k个串时的最大值的话,就可以避免遍历。所以最后的状态以及转移方程如下:

dp[i][j][k] = max(dp[i-1][j-1][k] + 1, maxscore[i-1][j-1][k-1] + 1)

maxscore[i][j][k] = max(maxscore[i-1][j][k],maxscore[i][j-1][k], dp[i][j][k])

现在回头看一下这个算法,当K=1的时候就是最长公共子串问题,当K=min(length(A), length(B))的时候就是最长公共子序列问题,想想还是挺有意思是的。
 

以上是关于最长公共子串与最长公共子序列之间的关系的主要内容,如果未能解决你的问题,请参考以下文章

C语言实现最长公共子串与最长公共子序列

最长公共子串与最长公共子序列

最长公共子串和最长公共子序列

最长公共子串和子序列的Python实现,带图示。

动态规划——最长公共子序列与最长公共子串 (含Python实现代码)

算法图解:动态规划之最长公共子串,最长公共子序列