C# - 比较字符串相似度

Posted

技术标签:

【中文标题】C# - 比较字符串相似度【英文标题】:Compare string similarity 【发布时间】:2011-10-20 02:51:33 【问题描述】:

比较 2 个字符串以查看它们的相似程度的最佳方法是什么?

例子:

My String
My String With Extra Words

或者

My String
My Slightly Different String

我正在寻找的是确定每对中的第一个和第二个字符串有多相似。我想对比较进行评分,如果字符串足够相似,我会将它们视为匹配对。

在 C# 中有没有好的方法来做到这一点?

【问题讨论】:

Levenshtein 编辑距离、Soundex 和 Hamming 距离都以不同的方式执行此操作。在找到实现之前,您需要更好地定义指标。 对于遇到这个问题的其他人:考虑github.com/DanHarltey/Fastenshtein 相关:***.com/questions/83777/… 【参考方案1】:
static class LevenshteinDistance

    public static int Compute(string s, string t)
    
        if (string.IsNullOrEmpty(s))
        
            if (string.IsNullOrEmpty(t))
                return 0;
            return t.Length;
        

        if (string.IsNullOrEmpty(t))
        
            return s.Length;
        

        int n = s.Length;
        int m = t.Length;
        int[,] d = new int[n + 1, m + 1];

        // initialize the top and right of the table to 0, 1, 2, ...
        for (int i = 0; i <= n; d[i, 0] = i++);
        for (int j = 1; j <= m; d[0, j] = j++);

        for (int i = 1; i <= n; i++)
        
            for (int j = 1; j <= m; j++)
            
                int cost = (t[j - 1] == s[i - 1]) ? 0 : 1;
                int min1 = d[i - 1, j] + 1;
                int min2 = d[i, j - 1] + 1;
                int min3 = d[i - 1, j - 1] + cost;
                d[i, j] = Math.Min(Math.Min(min1, min2), min3);
            
        
        return d[n, m];
    

【讨论】:

这将是我的答案。 Damereau-Levenshein 距离算法计算将一个字符串转换为另一个字符串所需的字母加法、减法、替换和换位(交换)的数量。分数越低,它们就越相似。 需要注意的是,即使对于中等大小的字符串,这种方法也非常占用内存。有一个简单的修复方法,只需要min(n, m) + 1 额外的内存。 这很好用。幸运的是,我的所有字符串都很短(50 个字符或更少),因此对我来说处理速度非常快。 更快的实现在这里:web.archive.org/web/20120526085419/http://www.merriampark.com/…。我运行的一些测试从 30-50 秒缩短到了 8-10 秒。 @FrankSchwieterman 而不是完整的矩阵,只存储前一个列向量,以及当前列的上一行对应的单个字段,prev(因此 +1)。在给定的行 i 处,向量中从 0-(i-1) 的所有值对应于更新后的值。也就是说,循环中的赋值读取为prev = d[i]; d[i] = Math.Min(…);。值得注意的是,这比您在更新评论中链接到的实现更好【参考方案2】:

如果有人想知道 @FrankSchwieterman 发布的 C# 等价物是什么:

public static int GetDamerauLevenshteinDistance(string s, string t)

    if (string.IsNullOrEmpty(s))
    
        throw new ArgumentNullException(s, "String Cannot Be Null Or Empty");
    

    if (string.IsNullOrEmpty(t))
    
        throw new ArgumentNullException(t, "String Cannot Be Null Or Empty");
    

    int n = s.Length; // length of s
    int m = t.Length; // length of t

    if (n == 0)
    
        return m;
    

    if (m == 0)
    
        return n;
    

    int[] p = new int[n + 1]; //'previous' cost array, horizontally
    int[] d = new int[n + 1]; // cost array, horizontally

    // indexes into strings s and t
    int i; // iterates through s
    int j; // iterates through t

    for (i = 0; i <= n; i++)
    
        p[i] = i;
    

    for (j = 1; j <= m; j++)
    
        char tJ = t[j - 1]; // jth character of t
        d[0] = j;

        for (i = 1; i <= n; i++)
        
            int cost = s[i - 1] == tJ ? 0 : 1; // cost
            // minimum of cell to the left+1, to the top+1, diagonally left and up +cost                
            d[i] = Math.Min(Math.Min(d[i - 1] + 1, p[i] + 1), p[i - 1] + cost);
        

        // copy current distance counts to 'previous row' distance counts
        int[] dPlaceholder = p; //placeholder to assist in swapping p and d
        p = d;
        d = dPlaceholder;
    

    // our last action in the above loop was to switch d and p, so p now 
    // actually has the most recent cost counts
    return p[n];

【讨论】:

我认为 s 或 t 可以为 null 或为空,因为如果两者相同,则差异将是 100% 或无。我也会做一个相等的操作,看看它们在开始时是否相同

以上是关于C# - 比较字符串相似度的主要内容,如果未能解决你的问题,请参考以下文章

C#比较两个字符串的相似度

如何计算 C# 中两个字符串之间的相似度?

Python 连接MongoDB并比较两个字符串相似度的简单示例

Python 比较两个字符串的相似度

如何通过 C# 比较两幅图片的相似度?

如何计算两个文本内容的相似度?