问题标签 [rweka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R 中的 TextMining - 仅提取 2 克用于少数术语,1 克用于休息
text = c('护士非常乐于助人', '她真的是个宝石','帮助', '没问题', '还不错')
我想为大多数单词提取 1-gram 标记,为极端、no、not 等单词提取 2 gram 标记
例如,当我得到代币时,它们应该如下所示:the,nurse, was,非常有帮助,她,真的,gem,帮助,没问题,还不错
这些是应在术语文档矩阵中显示的术语
感谢您的帮助!!
r - 获取 M5P 模型的每个叶子的线性回归模型
我试图弄清楚如何在 R 中的 RWeka 库中的 M5P 方法生成的树的每一叶处获取线性模型作为文本文件的输出,以便我可以编写一个单独的查找计算器程序(比如在 Excel 中用于非R 用户)。
我在用
库(RWeka)
模型 = M5P(响应〜预测器A +预测器B,数据=训练)。
我可以在矩阵中将树输出作为模型 $ 分类器。非常感谢这篇文章
如果我发出命令:
模型
R打印模型$分类器(树结构),然后是每片叶子的LM,我想提取每片叶子的LM系数。
r - 在 R tm 文档术语矩阵中提取所有可能的 ngram
我正在使用 R 中的“tm”包来创建术语文档矩阵。然后我使用“RWeka”提取下面代码中指定的三元组
这里的问题是,RWeka 似乎只是遍历术语列表并在每三个单词之后拆分以获得三元组。例如句子:
会被分成
但例如这句话
会被忽略。有没有办法让 RWeka 包含所有三元组,还是有另一种选择?
提前致谢!
r - 在包更新后在 tm 中查找 n-gram 不起作用
我使用运行良好的 tm 包在 R 中有一些文本挖掘代码。然后,我更新了 R 以及 tm 和 R-Weka 包。现在,代码不起作用,我不知道为什么。
我的原始代码指南来自:https ://gist.github.com/benmarwick/6127413
在这一点上,这段代码(上面链接)和我的代码(下面)都没有给出预期的结果。当我的代码成功执行时(在以前版本的包中),它提供了涉及特定关键字的 n-gram。它还将根据与 n-gram 集中的关键字的距离提供一个有序的单词列表。
具体有两个问题:
- 每次都会产生错误(可能导致下一个/第二个问题)的一个 tm 功能是 PlainTextDocument。那行代码是:
eventdocs <- tm_map(eventdocs, PlainTextDocument)
下一行代码是:
尝试创建文档文本矩阵 (eventdtm) 时,代码给出了错误:
simple_triplet_matrix(i, j, v, nrow = length(terms), ncol = length(corpus), 中的错误:'i, j' 无效
我已经更新了所有内容,包括 java,但仍然出现此错误。
我注释掉了 PlainTextDocument 代码,因为我使用的文本已经是 .txt 格式,因为我发现有些人说这一步没有必要。当我这样做时,文档文本矩阵就形成了(或者似乎准确地形成了)。但是我想解决这个错误,因为我之前在该行没有执行时遇到了问题。
- 但是,不管怎样,n-gram 的形成似乎存在问题。第一个街区对我来说是最可疑的。我不确定 NGramTokenizer 是否在做它应该做的事情。
该代码是:
uniques 组词只是感兴趣的关键词,所有其他高频搭配都被删除(此时,我知道代码不起作用)。任何帮助或线索将不胜感激。最初需要很长时间才能使事情正常进行。然后,随着更新,我没有行动了。谢谢你。
r - 使用 NGramTokenize 时出错(lapply 问题)
我正在使用 rWeka 包中的 NGramTokenizer。我相信我已经正确安装了所有东西。我正在执行以下代码:
我收到的错误是:
关于如何解决这个问题的任何想法?再次提前感谢。
最好的
维沙尔
text - 文本分析程序过去可以工作,现在不行
我写了一个如下所示的文件(来自臭名昭著的 Coursera 课程及其他课程),它对我很有帮助。不确定是否有任何改变,但它现在似乎不起作用,我什么也没改变。
似乎不起作用的第一件事是用于删除特殊字符的 for 循环。
接下来,当我把它当成Plan Text Doc时,词云似乎并不想工作。
最后,tokenizer 函数生成相同的图表,本质上是常用的单个单词与编程的 ngram。这意味着每个 ngram 只是生成相同的图表,最常用的单词与 2、3、4 个单词的 ngram 等等......
不确定包更新或 R 更新是否导致此问题。
有什么想法吗?
java - RWeka 神经网络分类器错误
我正在使用 RWeka 包进行机器学习实验,该方法对于 RWeka 给出的其他机器学习算法运行良好,但每当我运行神经网络时,都会出现以下错误:
我收到以下错误:
我已经rJava
导入并调用了库,所以我有点困惑
r - R文本挖掘 - 转换术语文档矩阵
我使用以下方法创建了一个二元组列表:
我正在尝试计算每个二元组出现的文档数量。如果我理解正确,术语文档矩阵将给出每个二元组在文档中出现的次数。但我只需要'1'-存在于文档中,'0'-不存在。
如何将术语文档矩阵转换为数据框或矩阵以获得这样的计数?
r - 如何将 WEKA 预处理步骤加载到 R 中?
我在这里使用了 WEKA GUI Java来进行数据的预处理。我现在想在 R 中使用相同的预处理步骤。
比如我想把WEKA GUI的MultiFilter的预处理加载到R中,在RWeka中找不到。
如何将 WEKA 预处理步骤加载到 R?
r - R:获得单项频率而不是二元组
这是我用来创建带有频率列表的二元组的代码:
上述代码的结果是:
相反,我正在寻找显示二元组的结果,如下所示:
上面的代码需要改变什么才能得到上面的输出?