问题标签 [stringdist]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

144 问题

0 投票

1 回答

295 浏览

r - RecordLinkage - R 一个向量。不匹配自我

如果我有一个名称向量，请说：

我想使用levenshteinSim或类似来获得此向量中的相似度分数。但是，我不希望它自我评分。例如，"tom" #1对"tom" #3. 并且不要为"tom" #1反对返回分数，"tom" #1所以不要自己得分。

我以前用两个不同的向量a和b. 但是，如果我将它用于相同的向量，那么我会针对我想要避免的"tom" #1情况进行评分。"tom" #1

有没有办法做到这一点？

2017-08-16T15:22:45.923

0 投票

0 回答

295 浏览

r - 基于 R 字符串的企业名称匹配

TL;DR 我想匹配两个不相等的列，其中值包含企业名称，并且我尝试使用 Jaro-Winkler 匹配来接近stringdist 的 amatch，但还不够接近。我想知道 stringi 在这里是否有用 - 我只是不太明白如何使用它，请原谅我是个菜鸟。我不会问其他问题，但我认为我自己无法及时解决。

就上下文而言，一列中有 2079 个企业名称，第二列中有 1878 个企业名称。其中许多包含作为后缀的业务结构 - 即 LLC，Inc.，INC.，Co. 等 - 所以我在进入 R 之前用 excel 将它们修剪掉。名称是手动输入到两列中的，因此有人工输入误差变化。

我使用了这个公式：

我能够得到一些结果，但是由于公司会共享第一个单词或单词/字母的第一个组合-即“A＆A”与“A＆B”，因此许多匹配项被重复。我知道这是基于 JW 公式的工作原理，但我不太清楚如何对其进行足够的修改。

我需要将 b 列中的值与 a 列匹配。可能有重复和列 a。我没有任何特定的相似性规则；我想要与每个值最接近的匹配，以及最少数量的错误重复。

对于初学者，是否有更简单的方法可以在stringi中完成此操作？

请告知，因为我不知道如何最好地解决这个问题。如果需要更多详细信息，我很乐意提供帮助。先感谢您。

r string-matching stringi stringdist jaro-winkler

2017-08-28T13:15:03.593

0 投票

0 回答

99 浏览

r - 近似字符串匹配排除第一个字符

我正在尝试在术语列表 terms1 和 terms2 之间进行近似字符串匹配，其中我想匹配包括拼写错误、不同符号等在内的字符串。我正在使用

我想匹配例如执照和执照，但我不想匹配训练和下雨。所以我想从大约的第一个字符中排除。匹配，因此不考虑删除/替换，但必须在两个字符串中相同。如何做到这一点，或者有没有更好的方法来正确匹配？

任何帮助表示赞赏！

r string-matching stringdist

2017-08-31T09:01:54.103

0 投票

1 回答

115 浏览

r - 使用 r 库 stringdist 进行文本挖掘

我准备了下一个用于匹配两个字符串的算法。

就我而言，这是计算出现次数的正式实现。

但我对这种解决方案并不满意。这就是为什么我想计算第一个结果，例如以下方式：

因此，最终结果将是 9/11 = 82% 匹配

r stringdist

2017-09-07T21:37:54.530

0 投票

0 回答

40 浏览

r - 用户定义的匹配项，用于 R 中的刺距计算

R中的字符串距离计算方法有很多选择{stringdist}（https://cran.r-project.org/web/packages/stringdist/stringdist.pdf），很好奇是否可以包含用户定义的匹配项通过在或距离计算中使用regex或其他方式？如果没有，是否有其他软件包提供这种功能？JaroJaro-Winker

例如：对于字符串"USA Starwar Corporation" (a), "US Starwar Corporation" (b)，"United States Starwar Corporation" (c)当前 Jaro 之间的距离((a),(b)),((b),(c)),((a),(c))分别为0.01449275, 0.2020202, 0.216513。有没有办法在计算中定义"USA"匹配"US"匹配"United States"，因此距离可能是0,0,0？

谢谢！

r function string-matching stringdist

2017-09-13T22:16:37.267

0 投票

1 回答

568 浏览

r - stringdist_join 导致 NA

我正在尝试使用 stringdist 包以进行模糊连接，但遇到了一个我不理解且无法找到答案的问题。我想用“dl”方法加入这两个数据表，它会产生一个 NA，我完全不明白。也许你们中的一个人对此有一个解释。编码：

但是，如果我使用 jaccard 方法，则会有一个匹配项：

希望任何人都可以澄清。

干杯穹顶

r matching fuzzy stringdist fuzzyjoin

2017-09-21T14:41:22.860

0 投票

3 回答

3920 浏览

r - 以百分比计算字符串相似度

给定的函数使用 R 中的“stringdist”包，并告知将一个字符串更改为另一个字符串所需的最小更改。我希望以“%”格式找出一个字符串与另一个字符串的相似程度。请帮助我，谢谢。

r stringdist

2017-09-27T11:14:20.017

0 投票

1 回答

142 浏览

r - 使用 iris 数据集中的两个简单列计算编辑距离

在下面的代码中，我想计算两列文本字符串之间的相似性。为此，我从 iris 中获取前 10 行 "Petal.Length" 列并将其分配给 a1 ，并从 "Sepal.Length" 中获取前 4 行。虹膜中的“长度”列并将其分配给 a2。我的目标是应该使用最后一行中的公式将每个“a2”值与每个 a1 值进行比较，以便我得到一个具有 40 个值的最终向量 percent_calc。

r stringdist record-linkage

2017-12-07T08:57:53.450

0 投票

1 回答

245 浏览

r - 在R中的数据框中显示相应的值

请检查下面的代码，我使用下面的三个变量创建了一个数据框，变量“y123”计算列 a2 与 a1 之间的相似性。变量“y123”给了我总共 16 个值，其中每个 a1 值都与 a2 进行比较。我的需要是，当将特定的“a1”值与特定的“a2”值进行比较时，我希望在“a2”旁边显示相应的“a3”值。所以结果应该是一个数据框，其中列 y123 和第二列，对应的“a3”列出现四次，即 16 个值。谢谢，请帮忙。

我需要一些东西列出这个：

r dplyr stringdist record-linkage

2017-12-07T10:52:03.053

0 投票

1 回答

582 浏览

r - R：通过距离测量校正字符串（stringdistmatrix）

我正在处理需要计算字符串中人名的唯一性的问题，但考虑到可能存在轻微的拼写错误。我的想法是将字符串设置为低于某个阈值（例如 levenshtein 距离低于 2）是相等的。现在我设法计算字符串距离，但没有对我的输入字符串进行任何更改，以使我获得正确数量的唯一名称。

number_of_people 的正确值当然应该是 3。

因为我只对唯一名称的数量感兴趣，所以我不关心“Michael”是否被“Miichael”取代或反之。

r stringr stringdist

2017-12-16T19:30:37.110

1 2 3 4 5 6 7 8 9 10

问题标签 [stringdist]

Reference