问题标签 [rweka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
299 浏览

r - R 中的 TextMining - 仅提取 2 克用于少数术语,1 克用于休息

text = c('护士非常乐于助人', '她真的是个宝石','帮助', '没问题', '还不错')

我想为大多数单词提取 1-gram 标记,为极端、no、not 等单词提取 2 gram 标记

例如,当我得到代币时,它们应该如下所示:the,nurse, was,非常有帮助,她,真的,gem,帮助,没问题,还不错

这些是应在术语文档矩阵中显示的术语

感谢您的帮助!!

0 投票
1 回答
214 浏览

r - 获取 M5P 模型的每个叶子的线性回归模型

我试图弄清楚如何在 R 中的 RWeka 库中的 M5P 方法生成的树的每一叶处获取线性模型作为文本文件的输出,以便我可以编写一个单独的查找计算器程序(比如在 Excel 中用于非R 用户)。

我在用

库(RWeka)
模型 = M5P(响应〜预测器A +预测器B,数据=训练)。

我可以在矩阵中将树输出作为模型 $ 分类器。非常感谢这篇文章

如果我发出命令:

模型

R打印模型$分类器(树结构),然后是每片叶子的LM,我想提取每片叶子的LM系数。

0 投票
0 回答
1124 浏览

r - 在 R tm 文档术语矩阵中提取所有可能的 ngram

我正在使用 R 中的“tm”包来创建术语文档矩阵。然后我使用“RWeka”提取下面代码中指定的三元组

这里的问题是,RWeka 似乎只是遍历术语列表并在每三个单词之后拆分以获得三元组。例如句子:

会被分成

但例如这句话

会被忽略。有没有办法让 RWeka 包含所有三元组,还是有另一种选择?

提前致谢!

0 投票
1 回答
661 浏览

r - 在包更新后在 tm 中查找 n-gram 不起作用

我使用运行良好的 tm 包在 R 中有一些文本挖掘代码。然后,我更新了 R 以及 tm 和 R-Weka 包。现在,代码不起作用,我不知道为什么。

我的原始代码指南来自:https ://gist.github.com/benmarwick/6127413

在这一点上,这段代码(上面链接)和我的代码(下面)都没有给出预期的结果。当我的代码成功执行时(在以前版本的包中),它提供了涉及特定关键字的 n-gram。它还将根据与 n-gram 集中的关键字的距离提供一个有序的单词列表。

具体有两个问题:

  1. 每次都会产生错误(可能导致下一个/第二个问题)的一个 tm 功能是 PlainTextDocument。那行代码是:

eventdocs <- tm_map(eventdocs, PlainTextDocument)

下一行代码是:

尝试创建文档文本矩阵 (eventdtm) 时,代码给出了错误:

simple_triplet_matrix(i, j, v, nrow = length(terms), ncol = length(corpus), 中的错误:'i, j' 无效

我已经更新了所有内容,包括 java,但仍然出现此错误。

我注释掉了 PlainTextDocument 代码,因为我使用的文本已经是 .txt 格式,因为我发现有些人说这一步没有必要。当我这样做时,文档文本矩阵就形成了(或者似乎准确地形成了)。但是我想解决这个错误,因为我之前在该行没有执行时遇到了问题。

  1. 但是,不管怎样,n-gram 的形成似乎存在问题。第一个街区对我来说是最可疑的。我不确定 NGramTokenizer 是否在做它应该做的事情。

该代码是:

uniques 组词只是感兴趣的关键词,所有其他高频搭配都被删除(此时,我知道代码不起作用)。任何帮助或线索将不胜感激。最初需要很长时间才能使事情正常进行。然后,随着更新,我没有行动了。谢谢你。

0 投票
1 回答
125 浏览

r - 使用 NGramTokenize 时出错(lapply 问题)

我正在使用 rWeka 包中的 NGramTokenizer。我相信我已经正确安装了所有东西。我正在执行以下代码:

我收到的错误是:

关于如何解决这个问题的任何想法?再次提前感谢。

最好的

维沙尔

0 投票
1 回答
100 浏览

text - 文本分析程序过去可以工作,现在不行

我写了一个如下所示的文件(来自臭名昭著的 Coursera 课程及其他课程),它对我很有帮助。不确定是否有任何改变,但它现在似乎不起作用,我什么也没改变。

似乎不起作用的第一件事是用于删除特殊字符的 for 循环。

接下来,当我把它当成Plan Text Doc时,词云似乎并不想工作。

最后,tokenizer 函数生成相同的图表,本质上是常用的单个单词与编程的 ngram。这意味着每个 ngram 只是生成相同的图表,最常用的单词与 2、3、4 个单词的 ngram 等等......

不确定包更新或 R 更新是否导致此问题。

有什么想法吗?

0 投票
0 回答
867 浏览

java - RWeka 神经网络分类器错误

我正在使用 RWeka 包进行机器学习实验,该方法对于 RWeka 给出的其他机器学习算法运行良好,但每当我运行神经网络时,都会出现以下错误:

我收到以下错误:

我已经rJava导入并调用了库,所以我有点困惑

0 投票
1 回答
112 浏览

r - R文本挖掘 - 转换术语文档矩阵

我使用以下方法创建了一个二元组列表:

我正在尝试计算每个二元组出现的文档数量。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中,'0'-不存在。

如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数?

0 投票
1 回答
348 浏览

r - 如何将 WEKA 预处理步骤加载到 R 中?

我在这里使用了 WEKA GUI Java进行数据的预处理。我现在想在 R 中使用相同的预处理步骤。

比如我想把WEKA GUI的MultiFilter的预处理加载到R中,在RWeka中找不到。

如何将 WEKA 预处理步骤加载到 R?

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
1 回答
490 浏览

r - R:获得单项频率而不是二元组

这是我用来创建带有频率列表的二元组的代码:

上述代码的结果是:

相反,我正在寻找显示二元组的结果,如下所示:

上面的代码需要改变什么才能得到上面的输出?