“rweka”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

299 浏览

r - R 中的 TextMining - 仅提取 2 克用于少数术语，1 克用于休息

text = c('护士非常乐于助人', '她真的是个宝石','帮助', '没问题', '还不错')

我想为大多数单词提取 1-gram 标记，为极端、no、not 等单词提取 2 gram 标记

例如，当我得到代币时，它们应该如下所示：the,nurse, was,非常有帮助，她，真的，gem，帮助，没问题，还不错

这些是应在术语文档矩阵中显示的术语

感谢您的帮助！！

r tm stringr rweka

2017-05-17T11:32:27.567

0 投票

1 回答

214 浏览

r - 获取 M5P 模型的每个叶子的线性回归模型

我试图弄清楚如何在 R 中的 RWeka 库中的 M5P 方法生成的树的每一叶处获取线性模型作为文本文件的输出，以便我可以编写一个单独的查找计算器程序（比如在 Excel 中用于非R 用户）。

我在用

库（RWeka）
模型 = M5P（响应〜预测器A +预测器B，数据=训练）。

我可以在矩阵中将树输出作为模型 $ 分类器。非常感谢这篇文章

如果我发出命令：

模型

R打印模型$分类器（树结构），然后是每片叶子的LM，我想提取每片叶子的LM系数。

r tree linear-regression rweka

2017-05-23T19:03:45.367

0 投票

0 回答

1124 浏览

r - 在 R tm 文档术语矩阵中提取所有可能的 ngram

我正在使用 R 中的“tm”包来创建术语文档矩阵。然后我使用“RWeka”提取下面代码中指定的三元组

这里的问题是，RWeka 似乎只是遍历术语列表并在每三个单词之后拆分以获得三元组。例如句子：

会被分成

但例如这句话

会被忽略。有没有办法让 RWeka 包含所有三元组，还是有另一种选择？

提前致谢！

r tokenize tm n-gram rweka

2017-05-29T20:05:06.300

0 投票

1 回答

661 浏览

r - 在包更新后在 tm 中查找 n-gram 不起作用

我使用运行良好的 tm 包在 R 中有一些文本挖掘代码。然后，我更新了 R 以及 tm 和 R-Weka 包。现在，代码不起作用，我不知道为什么。

我的原始代码指南来自：https ://gist.github.com/benmarwick/6127413

在这一点上，这段代码（上面链接）和我的代码（下面）都没有给出预期的结果。当我的代码成功执行时（在以前版本的包中），它提供了涉及特定关键字的 n-gram。它还将根据与 n-gram 集中的关键字的距离提供一个有序的单词列表。

具体有两个问题：

每次都会产生错误（可能导致下一个/第二个问题）的一个 tm 功能是 PlainTextDocument。那行代码是：

eventdocs <- tm_map(eventdocs, PlainTextDocument)

下一行代码是：

尝试创建文档文本矩阵 (eventdtm) 时，代码给出了错误：

simple_triplet_matrix(i, j, v, nrow = length(terms), ncol = length(corpus), 中的错误：'i, j' 无效

我已经更新了所有内容，包括 java，但仍然出现此错误。

我注释掉了 PlainTextDocument 代码，因为我使用的文本已经是 .txt 格式，因为我发现有些人说这一步没有必要。当我这样做时，文档文本矩阵就形成了（或者似乎准确地形成了）。但是我想解决这个错误，因为我之前在该行没有执行时遇到了问题。

但是，不管怎样，n-gram 的形成似乎存在问题。第一个街区对我来说是最可疑的。我不确定 NGramTokenizer 是否在做它应该做的事情。

该代码是：

uniques 组词只是感兴趣的关键词，所有其他高频搭配都被删除（此时，我知道代码不起作用）。任何帮助或线索将不胜感激。最初需要很长时间才能使事情正常进行。然后，随着更新，我没有行动了。谢谢你。

r tm rweka

2017-05-31T20:10:01.840

0 投票

1 回答

125 浏览

r - 使用 NGramTokenize 时出错（lapply 问题）

我正在使用 rWeka 包中的 NGramTokenizer。我相信我已经正确安装了所有东西。我正在执行以下代码：

我收到的错误是：

关于如何解决这个问题的任何想法？再次提前感谢。

最好的

维沙尔

r n-gram rweka

2017-06-03T16:55:09.710

0 投票

1 回答

100 浏览

text - 文本分析程序过去可以工作，现在不行

我写了一个如下所示的文件（来自臭名昭著的 Coursera 课程及其他课程），它对我很有帮助。不确定是否有任何改变，但它现在似乎不起作用，我什么也没改变。

似乎不起作用的第一件事是用于删除特殊字符的 for 循环。

接下来，当我把它当成Plan Text Doc时，词云似乎并不想工作。

最后，tokenizer 函数生成相同的图表，本质上是常用的单个单词与编程的 ngram。这意味着每个 ngram 只是生成相同的图表，最常用的单词与 2、3、4 个单词的 ngram 等等......

不确定包更新或 R 更新是否导致此问题。

有什么想法吗？

text rweka

2017-06-06T16:47:58.493

0 投票

0 回答

867 浏览

java - RWeka 神经网络分类器错误

我正在使用 RWeka 包进行机器学习实验，该方法对于 RWeka 给出的其他机器学习算法运行良好，但每当我运行神经网络时，都会出现以下错误：

我收到以下错误：

我已经rJava导入并调用了库，所以我有点困惑

java r rweka

2017-06-17T03:28:31.643

0 投票

1 回答

112 浏览

r - R文本挖掘 - 转换术语文档矩阵

我使用以下方法创建了一个二元组列表：

我正在尝试计算每个二元组出现的文档数量。如果我理解正确，术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中，'0'-不存在。

如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数？

r text-mining tm term-document-matrix rweka

2017-07-07T15:23:57.810

0 投票

1 回答

348 浏览

r - 如何将 WEKA 预处理步骤加载到 R 中？

我在这里使用了 WEKA GUI Java来进行数据的预处理。我现在想在 R 中使用相同的预处理步骤。

比如我想把WEKA GUI的MultiFilter的预处理加载到R中，在RWeka中找不到。

如何将 WEKA 预处理步骤加载到 R？

r weka data-mining rweka

2017-07-17T14:25:15.680

0 投票

1 回答

490 浏览

r - R：获得单项频率而不是二元组

这是我用来创建带有频率列表的二元组的代码：

上述代码的结果是：

相反，我正在寻找显示二元组的结果，如下所示：

上面的代码需要改变什么才能得到上面的输出？

r tm rweka

2017-07-18T20:11:01.220

问题标签 [rweka]

Reference