r - 如何在 R 中创建发音相似的名称组？

Question

我想根据名称选择的相似程度创建一个组变量。我已经开始使用 stringdist 包来生成距离度量。但我不确定如何使用该输出信息按变量生成组。我看过 hclust 但似乎使用聚类函数你需要知道你最终想要多少个组，我不知道。我开始的代码如下：

name_list <- c("Mary", "Mery", "Mary", "Joe", "Jo", "Joey", "Bob", "Beb", "Paul")

name_dist <- stringdistmatrix(name_list)
name_dist
name_dist2 <- stringdistmatrix(name_list, method="soundex")
name_dist2

我想看到一个包含两列的数据框，看起来像

name = c("Mary", "Mery", "Mary", "Joe", "Jo", "Joey", "Bob", "Beb", "Paul")

name_group = c(1, 1, 1, 2, 2, 2, 3, 3, 4)

根据我使用的距离度量（我在上面建议了两个），这些组可能会略有不同，但我可能会选择其中一个来运行。

基本上，如何在不知道我想要的集群数量的情况下从距离矩阵到组变量？

score 5 · Accepted Answer

您还可以adist(...)在基础 R 中使用来计算 Levenshtein 距离，并以此为基础进行聚类。

n<- c("Mary", "Mery", "Mari", "Joe", "Jo", "Joey", "Bob", "Beb", "Paul")
d <- adist(n)
rownames(d)  <- n
cl <- hclust(as.dist(d))
plot(cl)

score 3 · Accepted Answer

您可以使用这样的聚类分析：

# loading the package
require(stringdist);

# Group selection by class numbers or height 
num.class <- 5;
num.height <-0.5;

# define names 
n <- c("Mary", "Mery", "Mari", "Joe", 
       "Jo", "Joey", "Bob", "Beb", "Paul");

# calculate distances
d <- stringdistmatrix(n, method="soundex");

# cluster the stuff
h <- hclust(d);

# cut the cluster by num classes
m <- cutree(h, k = num.class);

# cut the cluster by height
p <- cutree(h, h = num.height);

# build the resulting frame
df <- data.frame(names = n, 
                 group.class = m, 
                 group.prob = p);

它产生：

df;
   names group.class group.prob
1  Mary         1          1
2  Mery         1          1
3  Mari         1          1
4   Joe         2          2
5    Jo         2          2
6  Joey         2          2
7   Bob         3          3
8   Beb         4          3
9  Paul         5          4

图表为您提供了概述：

plot(h, labels=n);

问候哈克

r - 如何在 R 中创建发音相似的名称组？

2 回答 2

Related

Reference