问题标签 [stringdist]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RecordLinkage - R 一个向量。不匹配自我
如果我有一个名称向量,请说:
我想使用levenshteinSim
或类似来获得此向量中的相似度分数。但是,我不希望它自我评分。例如,"tom" #1
对"tom" #3
. 并且不要为"tom" #1
反对返回分数,"tom" #1
所以不要自己得分。
我以前用两个不同的向量a
和b
. 但是,如果我将它用于相同的向量,那么我 会针对我想要避免的"tom" #1
情况进行评分 。"tom" #1
有没有办法做到这一点?
r - 基于 R 字符串的企业名称匹配
TL;DR 我想匹配两个不相等的列,其中值包含企业名称,并且我尝试使用 Jaro-Winkler 匹配来接近stringdist 的 amatch,但还不够接近。我想知道 stringi 在这里是否有用 - 我只是不太明白如何使用它,请原谅我是个菜鸟。我不会问其他问题,但我认为我自己无法及时解决。
就上下文而言,一列中有 2079 个企业名称,第二列中有 1878 个企业名称。其中许多包含作为后缀的业务结构 - 即 LLC,Inc.,INC.,Co. 等 - 所以我在进入 R 之前用 excel 将它们修剪掉。名称是手动输入到两列中的,因此有人工输入误差变化。
我使用了这个公式:
我能够得到一些结果,但是由于公司会共享第一个单词或单词/字母的第一个组合-即“A&A”与“A&B”,因此许多匹配项被重复。我知道这是基于 JW 公式的工作原理,但我不太清楚如何对其进行足够的修改。
我需要将 b 列中的值与 a 列匹配。可能有重复和列 a。我没有任何特定的相似性规则;我想要与每个值最接近的匹配,以及最少数量的错误重复。
对于初学者,是否有更简单的方法可以在stringi中完成此操作?
请告知,因为我不知道如何最好地解决这个问题。如果需要更多详细信息,我很乐意提供帮助。先感谢您。
r - 近似字符串匹配排除第一个字符
我正在尝试在术语列表 terms1 和 terms2 之间进行近似字符串匹配,其中我想匹配包括拼写错误、不同符号等在内的字符串。我正在使用
我想匹配例如执照和执照,但我不想匹配训练和下雨。所以我想从大约的第一个字符中排除。匹配,因此不考虑删除/替换,但必须在两个字符串中相同。如何做到这一点,或者有没有更好的方法来正确匹配?
任何帮助表示赞赏!
r - 使用 r 库 stringdist 进行文本挖掘
我准备了下一个用于匹配两个字符串的算法。
就我而言,这是计算出现次数的正式实现。
但我对这种解决方案并不满意。这就是为什么我想计算第一个结果,例如以下方式:
因此,最终结果将是 9/11 = 82% 匹配
r - 用户定义的匹配项,用于 R 中的刺距计算
R中的字符串距离计算方法有很多选择{stringdist}
(https://cran.r-project.org/web/packages/stringdist/stringdist.pdf),很好奇是否可以包含用户定义的匹配项通过在或距离计算中使用regex
或其他方式?如果没有,是否有其他软件包提供这种功能?Jaro
Jaro-Winker
例如:对于字符串"USA Starwar Corporation"
(a)
, "US Starwar Corporation"
(b)
,"United States Starwar Corporation"
(c)
当前 Jaro 之间的距离((a),(b)),((b),(c)),((a),(c))
分别为0.01449275, 0.2020202, 0.216513
。有没有办法在计算中定义"USA"
匹配"US"
匹配"United States"
,因此距离可能是0,0,0
?
谢谢!
r - stringdist_join 导致 NA
我正在尝试使用 stringdist 包以进行模糊连接,但遇到了一个我不理解且无法找到答案的问题。我想用“dl”方法加入这两个数据表,它会产生一个 NA,我完全不明白。也许你们中的一个人对此有一个解释。编码:
但是,如果我使用 jaccard 方法,则会有一个匹配项:
希望任何人都可以澄清。
干杯穹顶
r - 以百分比计算字符串相似度
给定的函数使用 R 中的“stringdist”包,并告知将一个字符串更改为另一个字符串所需的最小更改。我希望以“%”格式找出一个字符串与另一个字符串的相似程度。请帮助我,谢谢。
r - 使用 iris 数据集中的两个简单列计算编辑距离
在下面的代码中,我想计算两列文本字符串之间的相似性。为此,我从 iris 中获取前 10 行 "Petal.Length" 列并将其分配给 a1 ,并从 "Sepal.Length" 中获取前 4 行。虹膜中的“长度”列并将其分配给 a2。我的目标是应该使用最后一行中的公式将每个“a2”值与每个 a1 值进行比较,以便我得到一个具有 40 个值的最终向量 percent_calc。
r - 在R中的数据框中显示相应的值
请检查下面的代码,我使用下面的三个变量创建了一个数据框,变量“y123”计算列 a2 与 a1 之间的相似性。变量“y123”给了我总共 16 个值,其中每个 a1 值都与 a2 进行比较。我的需要是,当将特定的“a1”值与特定的“a2”值进行比较时,我希望在“a2”旁边显示相应的“a3”值。所以结果应该是一个数据框,其中列 y123 和第二列,对应的“a3”列出现四次,即 16 个值。谢谢,请帮忙。
我需要一些东西列出这个:
r - R:通过距离测量校正字符串(stringdistmatrix)
我正在处理需要计算字符串中人名的唯一性的问题,但考虑到可能存在轻微的拼写错误。我的想法是将字符串设置为低于某个阈值(例如 levenshtein 距离低于 2)是相等的。现在我设法计算字符串距离,但没有对我的输入字符串进行任何更改,以使我获得正确数量的唯一名称。
number_of_people 的正确值当然应该是 3。
因为我只对唯一名称的数量感兴趣,所以我不关心“Michael”是否被“Miichael”取代或反之。