字符串匹配算法中的引用错误

Posted

技术标签:

【中文标题】字符串匹配算法中的引用错误【英文标题】:Reference error in string match algorithm 【发布时间】:2020-07-23 19:46:07 【问题描述】:

我为两个字符串列之间的字符串匹配百分比 (0-1) 创建了 UDF,当我执行以下查询时遇到此错误。我想执行此代码以获取名称匹配算法以显示概率算法从 0-1 的值。我创建了两个函数,并在这个函数中定义了两个字符串列。

CREATE OR REPLACE FUNCTION `rep-ds-us.nboorla.similarity`(name STRING, to_name STRING) RETURNS INT64 LANGUAGE js AS """
/*
 * Data Quality Function - Fuzzy Matching
 * dq_fm_LevenshteinDistance
 * Based off of https://gist.github.com/andrei-m/982927
 * input: Two strings to compare the edit distance of.
 * returns: Integer of the edit distance.
 */
var a = in_a.toLowerCase();
var b = in_b.toLowerCase();
  
if(a.length == 0) return b.length; 
if(b.length == 0) return a.length;
var matrix = [];
// increment along the first column of each row
var i;
for(i = 0; i <= b.length; i++)
  matrix[i] = [i];

// increment each column in the first row
var j;
for(j = 0; j <= a.length; j++)
  matrix[0][j] = j;

// Fill in the rest of the matrix
for(i = 1; i <= b.length; i++)
  for(j = 1; j <= a.length; j++)
    if(b.charAt(i-1) == a.charAt(j-1))
      matrix[i][j] = matrix[i-1][j-1];
     else 
      matrix[i][j] = 
        Math.min(matrix[i-1][j-1] + 1, // substitution
        Math.min(matrix[i][j-1] + 1, // insertion
        matrix[i-1][j] + 1)); // deletion
    
  

return matrix[b.length][a.length];
""";

CREATE OR REPLACE FUNCTION `rep-ds-us.nboorla.conf`(name STRING, to_name STRING) AS (
/*
 * Data Quality Function - Fuzzy Matching
 * dq_fm_ldist_ratio
 * input: Two strings to compare.
 * returns: The Levenshtein similarity ratio.
 */
(LENGTH(name) + LENGTH(to_name) -  `rep-ds-us.nboorla.similarity`(name, to_name)) 
  / (LENGTH(name) + LENGTH(to_name))
);

select t1.name,t2.to_name,`rep-ds-us.nboorla.conf`(t1.name,t2.to_name)
from `rep-ds-us.r4e_mongo.ratings` t1 
 JOIN `rep-ds-us.r4e_mongo.mongo_repbiz_request_reviews` t2 on t2.id=t1.id 
 limit 10

但它给了我以下错误

Query error: ReferenceError: in_a is not defined at UDF$1(STRING, STRING) line 9, columns 8-9 at [52:1]

我错过了什么吗?

【问题讨论】:

【参考方案1】:

它给了我以下错误

查询错误:ReferenceError: in_a 未定义在 UDF$1(STRING, STRING) 第 9 行,第 8-9 列 [52:1] 我错过了什么吗?

您至少应该为您的第一个函数修复签名,如下所示

CREATE OR REPLACE FUNCTION `rep-ds-us.nboorla.similarity`(in_a STRING, in_b STRING) RETURNS INT64 LANGUAGE js AS """

注意;以上回答了您当前的具体问题,可能无法解决与您使用的代码相关的任何未来问题。

【讨论】:

感谢指正!!更改后我再次遇到问题!!!Cannot read property 'toLowerCase' of null at UDF$1(STRING, STRING) line 9, columns 13-14 at [52:1] 只是不要将 null 传递给函数! 你能帮我找到我定义空函数的地方吗 它要么是 t1.name 要么是 t2.to_name - 所以你需要检查各自的表,如果它们对各自的列有 null :o) 同时为了避免这种情况,你可以替换 `rep-ds-us .nboorla.conf`(t1.name,t2.to_name) 和 `rep-ds-us.nboorla.conf`(IFNULL(t1.name, ''),IFNULL(t2.to_name, '')),所以改为传递 null(s) 你将传递空字符串 很高兴它有帮助。下一个问题见:o)

以上是关于字符串匹配算法中的引用错误的主要内容,如果未能解决你的问题,请参考以下文章

字符串匹配算法 - BM算法

数据结构中的字符串章节中的朴素的模式匹配算法中,图片中最好情况的所有成功匹配位置

Java编程实现字符串的模式匹配

正则引擎在数据包匹配中的工程分析

【算法笔记】字符串匹配

JavaScript 字符串替换中的子匹配组引用是不是有分隔符/消歧语法?