2

是否有(容易)识别两个字符串共享的共同模式的可能性?这里有一个小例子来说明我的意思:

我有两个包含字符串的变量。两者都包括相同的模式(“ABC”)和一些“噪音”。

a <- "xxxxxxxxxxxABCxxxxxxxxxxxx"
b <- "yyyyyyyyyyyyyyyyyyyyyyyABC"

假设我不知道常见模式,我希望 R 找出两个字符串都包含“ABC”。我怎样才能做到这一点?

*编辑

第一个例子可能有点简单化。这是我真实数据中的一个例子。

a <- "DUISBURG-HAMBORNS"
b <- "DUISBURG (-31.7.29)S"

两个字符串都包含我希望函数识别的“DUISBURG”。

*编辑

我采用了评论中发布的链接中提出的解决方案。但我仍然没有我想要的。

library(qualV)
LCS(strsplit(a[1], '')[[1]],strsplit(b[1], '')[[1]])$LCS

[1] "D" "U" "I" "S" "B" "U" "R" "G" "-" " " " " "S"

如果函数正在寻找两个向量的最长公共子序列,为什么它不会在 之后停止"D" "U" "I" "S" "B" "U" "R" "G"?.

4

1 回答 1

7

包中的函数(在LCSFind common substrings between two character variables中;不是可能的重复项)执行的操作超出了您的需要。它解决了最长公共子序列问题,其中子序列不需要占据原始序列中的连续位置。qualV

你所拥有的是最长公共子串问题,你可以使用这个算法,这里是假设有一个唯一的(就长度而言)最长公共子串的代码:

a <- "WWDUISBURG-HAMBORNS"
b <- "QQQQQQDUISBURG (-31.7.29)S"

A <- strsplit(a, "")[[1]]
B <- strsplit(b, "")[[1]]

L <- matrix(0, length(A), length(B))
ones <- which(outer(A, B, "=="), arr.ind = TRUE)
ones <- ones[order(ones[, 1]), ]
for(i in 1:nrow(ones)) {
  v <- ones[i, , drop = FALSE]
  L[v] <- ifelse(any(v == 1), 1, L[v - 1] + 1)
}
paste0(A[(-max(L) + 1):0 + which(L == max(L), arr.ind = TRUE)[1]], collapse = "")
# [1] "DUISBURG"
于 2016-02-13T19:22:28.157 回答