0

我们正在尝试在 us-west2 - https://github.com/GoogleCloudPlatform/bigquery-utils/tree/master/udfs/community中使用这些。

在美国,第一个查询处理得很好 在此处输入图像描述

这第二个查询不会运行 在此处输入图像描述

我们的数据集models在 us West 2 中。似乎来自第二个查询编辑器的所有查询都在 us-west 2 中处理,似乎bqutil不存在?bqutil.fn.levenshtein在 us-west2(我们的数据集都存在的地方)中处理时,我们如何找到该函数?

4

1 回答 1

1

要在 BigQuery 表中使用 levenshtein UDF,您需要在数据集所在的位置创建一个 UDF。

您可以参考下面的 UDF 和数据驻留在us-west2位置的屏幕截图。

UDF:

CREATE OR REPLACE FUNCTION
`stackdemo.fn_LevenshteinDistance`(in_a STRING, in_b STRING) RETURNS INT64 LANGUAGE js AS R"""

var a = in_a.toLowerCase();
var b = in_b.toLowerCase();
 if(a.length == 0) return b.length;
if(b.length == 0) return a.length;
var matrix = [];
// increment along the first column of each row
var i;
for(i = 0; i <= b.length; i++){
 matrix[i] = [i];
}
// increment each column in the first row
var j;
for(j = 0; j <= a.length; j++){
 matrix[0][j] = j;
}
// Fill in the rest of the matrix
for(i = 1; i <= b.length; i++){
 for(j = 1; j <= a.length; j++){
   if(b.charAt(i-1) == a.charAt(j-1)){
     matrix[i][j] = matrix[i-1][j-1];
   } else {
     matrix[i][j] =
       Math.min(matrix[i-1][j-1] + 1, // substitution
       Math.min(matrix[i][j-1] + 1, // insertion
       matrix[i-1][j] + 1)); // deletion
   }
 }
}
return matrix[b.length][a.length];
""";

询问 :

SELECT
 source,
 target,
 `stackdemo.fn_LevenshteinDistance`(source, target) distance,
FROM UNNEST([
 STRUCT('analyze' AS source, 'analyse' AS target),
 STRUCT('opossum', 'possum'),
 STRUCT('potatoe', 'potatoe'),
 STRUCT('while', 'whilst'),
 STRUCT('aluminum', 'alumininium'),
 STRUCT('Connecticut', 'CT')
]);

输出 :

在此处输入图像描述

于 2022-02-01T10:24:16.780 回答