r - 确定一个共同的模式

Question

是否有（容易）识别两个字符串共享的共同模式的可能性？这里有一个小例子来说明我的意思：

我有两个包含字符串的变量。两者都包括相同的模式（“ABC”）和一些“噪音”。

a <- "xxxxxxxxxxxABCxxxxxxxxxxxx"
b <- "yyyyyyyyyyyyyyyyyyyyyyyABC"

假设我不知道常见模式，我希望 R 找出两个字符串都包含“ABC”。我怎样才能做到这一点？

*编辑

第一个例子可能有点简单化。这是我真实数据中的一个例子。

a <- "DUISBURG-HAMBORNS"
b <- "DUISBURG (-31.7.29)S"

两个字符串都包含我希望函数识别的“DUISBURG”。

*编辑

我采用了评论中发布的链接中提出的解决方案。但我仍然没有我想要的。

library(qualV)
LCS(strsplit(a[1], '')[[1]],strsplit(b[1], '')[[1]])$LCS

[1] "D" "U" "I" "S" "B" "U" "R" "G" "-" " " " " "S"

如果函数正在寻找两个向量的最长公共子序列，为什么它不会在之后停止"D" "U" "I" "S" "B" "U" "R" "G"？.

score 7 · Accepted Answer

包中的函数（在LCSFind common substrings between two character variables中；不是可能的重复项）执行的操作超出了您的需要。它解决了最长公共子序列问题，其中子序列不需要占据原始序列中的连续位置。qualV

你所拥有的是最长公共子串问题，你可以使用这个算法，这里是假设有一个唯一的（就长度而言）最长公共子串的代码：

a <- "WWDUISBURG-HAMBORNS"
b <- "QQQQQQDUISBURG (-31.7.29)S"

A <- strsplit(a, "")[[1]]
B <- strsplit(b, "")[[1]]

L <- matrix(0, length(A), length(B))
ones <- which(outer(A, B, "=="), arr.ind = TRUE)
ones <- ones[order(ones[, 1]), ]
for(i in 1:nrow(ones)) {
  v <- ones[i, , drop = FALSE]
  L[v] <- ifelse(any(v == 1), 1, L[v - 1] + 1)
}
paste0(A[(-max(L) + 1):0 + which(L == max(L), arr.ind = TRUE)[1]], collapse = "")
# [1] "DUISBURG"

r - 确定一个共同的模式

1 回答 1

Related

Reference