r - RWeka NgramTokenizer

Question

我一直在努力使用 RWeka 包，特别是使用 NGramTokenizer 函数来制作二元组。通过搜索互联网，我看到一两个其他用户有同样的问题但没有解决方案（这对我有用）。

下面是一个例子： 2-gram 和 3-gram 而不是 1-gram using RWeka

所以运行：

library(RWeka) 
library(tm)

as.matrix(TermDocumentMatrix(Corpus(VectorSource(c(txt1 = "This is my house",
                                               txt2 = "My house is green"))),
                         list(tokenize = function(x) NGramTokenizer(x, 
                                                                    Weka_control(min=2, 
                                                                                 max=2)),
                              tolower = TRUE)))

我得到：

       Docs
Terms   txt1 txt2
  house    1    1
  this     1    0
  green    0    1

注意没有二元组，只有一元组（房子，这个，绿色）。

我已经在一个 volatile 语料库上尝试了它，它拆分了 tokenizer 函数以及我如何从 DataCamp 课程中学习，但得到了下面的问题。

Error in .jcall("RWekaInterfaces", "[S", "tokenize", .jcast(tokenizer,
:    java.lang.NullPointerException Called from: .jcheck()

我在互联网上看到的其他解决方案运行良好，但仍然产生了像上面这样的一元组。

在 64 位 Windows 操作系统上运行 64 位 Java 1.8 和 R 3.4.3。

我尝试安装旧版本的 RWeka，但是在尝试旧版本的 tm 时，它出现了错误，所以我无法为我工作（在此问题开头链接的 SO 线程中使用了 LukeA 引用的版本）。

score 0 · Accepted Answer

您需要使用 aVCorpus而不是 aCorpus才能使用NGramTokenizer.

因此，如果您将代码更改为：

as.matrix(TermDocumentMatrix(VCorpus(VectorSource(c(txt1 = "This is my house",
                                                    txt2 = "My house is green"))),
                             list(tokenize = function(x) NGramTokenizer(x, 
                                                                        Weka_control(min=2, 
                                                                                     max=2)),
                                  tolower = TRUE)))

它将返回：

          Docs
Terms      1 2
  house is 0 1
  is green 0 1
  is my    1 0
  my house 1 1
  this is  1 0

score 0 · Accepted Answer

这个问题有两个部分，我可能应该更好地表达它。
1）@clemens 解决的 VCorpus 元素 - 仅使用语料库函数将为您提供 unigrams

2）但是，在看到这一点并将该方法应用于我的更大数据集之后，我得到了下面引用的错误：

.jcall("RWekaInterfaces", "[S", "tokenize", .jcast(tokenizer, : java.lang.NullPointerException 中的错误调用自：.jcheck()

我认为这是由于 RWeka、Java 或包版本不兼容问题造成的。然而，在第 1 步看到它运行良好后，我得出结论，它一定是我的数据集。在调查和测试中，我发现了一个单词的答案和空白。在清理完这两个之后，我不再收到错误消息。请注意，即使我的 Weka Control 设置为 min=1，max =2，我仍然必须这样做。

r - RWeka NgramTokenizer

2 回答 2

Related

Reference