问题标签 [rweka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
945 浏览

r - 与手动参数设置相比,R caret train() 在 J48 上表现不佳

我需要使用 RWeka 的实现 ( )优化 C4.5 算法在我的流失数据集上的准确性。J48()因此,我使用train()caret 包的功能来帮助我确定最佳参数设置(对于MC)。我试图通过手动运行J48()由 确定的参数来验证结果train()。结果令人惊讶,因为手动运行的结果要好得多

这就提出了以下问题:

  • 手动执行时哪些参数可能不同J48()
  • 如何获得train()与手动参数设置相似或更好的结果的功能?
  • 或者我在这里完全错过了什么?

我正在运行以下代码:

使用包 caret 中的 train() 确定具有 J48 的最佳 C4.5 模型:

使用完整数据集“response_nochar”训练模型:

返回预测精度为 0.6055 的 rtrain$finalmodel(以及大小为 3 且有 2 个叶子的树):

大约有。50 种组合,准确度为 0.6055,范围从最终模型的给定值到 (M=325, C=0.1)(中间有一个例外)。

使用 J48 手动尝试参数值:

计算模型:

使用测试数据集进行预测:

模型预测精度为 0.655(以及大小为 25 的树,有 13 个叶子)。


PS:我使用的数据集包含 10000 条记录,目标变量的分布是 50:50。

0 投票
1 回答
72 浏览

algorithm - 如何在 rweka-InfoGainAttributeEval 中定义

有没有人可以告诉我如何在 rweka 中定义公式?

A<- InfoGainAttributeEval(公式 ~ . , data = TrainDataLSVT,na.action=NULL )

TrainDataLSVT 中有 310 个特征。

0 投票
0 回答
311 浏览

r - RWeka M5P 型号。如何手动重现结果?

我想澄清我对训练有素的 M5P 模型结果的理解。我训练了一个 M5P 模型,它给了我一棵树,然后是 4 个线性模型。

为了确保我理解工作原理,我尝试使用决策树和引用的 LM 模型手动复制结果,但结果不如预期。

我使用树来确定要使用哪个 LM 模型,并按照 LM 模型中所述执行操作,结果不一样。这正常吗?

我使用的数据集:

这是我用来训练模型的公式:

这是添加预测列后的结果数据集:

这是我用来尝试复制模型结果的代码,它基本上是 Visual Basic 中 M5P 模型的硬编码版本。

有人可以向我解释这应该如何工作吗?

非常感谢。

0 投票
1 回答
975 浏览

java - 在 R (Ubuntu 16.04) 中安装 RWeka 的问题

我想安装需要 RWeka 的 Fselector 包,但是在安装 RWeka 时,它通过我出现以下错误:

我搜索了大约相同的内容并使用 jdk 进行了一些修改,更新了 bashrc 中 jdk/bin 的路径,但没有任何效果。

任何人都可以在这方面帮助我。

提前致谢

更新 1:@Nanov,我按照步骤操作,但仍然收到相同的错误,我有 openjdk 8 并更新了 bashrc 中的路径,当我使用“sudo R CMD javareconf”时,我得到以下信息:

0 投票
0 回答
103 浏览

r - R:用缺失值写 arff

我正在 R 上构建一个数据框,并希望将其导出为 ARFF 格式。为此,我使用了 RWeka 库中的 write.arff() 函数。但是,在处理缺失值 (?) 时,输出如下:

@attribute atomic_comp_c {'?',3014,3212,3226,3234,3236,3238,3}

代替:

@attribute atomic_comp_c 数字

有谁知道如何将数据框正确导出为 ARFF 格式?

提前致谢

0 投票
2 回答
157 浏览

r - 从 RWeka SMOreg 模型中提取权重

我正在使用很棒的 RWeka 包来适应 Weka 中实现的 SMOreg 模型。虽然一切正常,但我在从拟合模型中提取权重时遇到了一些问题。

作为所有 Weka 分类器对象,我的模型有一个很好的打印方法,可以显示所有特征及其相对权重。但是,我无法以任何方式提取这些权重。

您可以通过运行以下代码来亲自查看:

现在,如果您简单地调用模型

您会看到它打印了模型中使用的所有特征及其相对权重。我想以向量的形式访问这些权重,或者更好的是,以 2 列的形式访问这些权重,其中一列包含特征名称,另一列包含权重。

我正在使用 RStudio 版本 1.0.153、R 3.4.2 Short Summer 和 RWeka 0.4-35 开发 Windows 7 x64 系统。

有人知道该怎么做吗?

0 投票
0 回答
296 浏览

weka - 如何将此数据更改为适当的格式以在 WEKA 中进行关联规则挖掘?

这就是数据在给定文件中的存储方式。给出了8个属性。我需要在 WEKA 中使用 Apriori 算法完成关联规则挖掘。

例如,如果购买了第 1 项和第 2 项 --> 还购买了第 4 项或其他合理的东西。

这就是数据在给定文件中的存储方式。 给出了8个属性。

我尝试了什么:

将文件转换为 .arff 格式并加载到 weka。转动名义上的所有属性并运行算法 Apriori。但是生成的规则很奇怪。

结果就是这样来的。它没有适当的信息。没有像我想要的那样的规则,它实际上定义了用户将购买什么或任何东西。

即这里生成的规则对我来说没有任何信息,没有关于哪个项目将与什么一起购买的关系/规则。

结果就是这样来的。 它没有适当的信息。 没有规则,它实际上定义了用户将购买什么或任何东西。

我应该如何预处理这些数据以很好地格式化它,或者如果我犯了任何其他错误,我将不胜感激。

0 投票
2 回答
3607 浏览

r - 以闪亮的方式运行 R 代码时 utf8towcs 中出现无效输入错误

当我运行该应用程序时,我收到以下错误。

由于 blogs.txt 文件中的情绪等,我试图将数据隐藏如下。

并且还使用如下图标功能,

创建语料库并清理数据

不过,我得到了这个问题。

请在这方面提供帮助。

会话信息:

=====================

R 版本 3.4.2 (2017-09-28)

平台:x86_64-w64-mingw32/x64(64位)

运行于:Windows 7 x64(内部版本 7601)Service Pack 1

矩阵产品:默认

语言环境:

[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252

[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C

[5] LC_TIME=English_United States.1252

附加的基础包:

[1] stats graphics grDevices utils datasets methods base

其他附加包:

[1] stringr_1.2.0 shiny_1.0.5 slam_0.1-40 ggplot2_2.2.1 RWeka_0.4-35 tm_0.7-1 NLP_0.1-11

[8] 字符串i_1.1.5

通过命名空间加载(未附加):

[1] Rcpp_0.12.13 magrittr_1.5 RWekajars_3.9.1-4 munsell_0.4.3 colorspace_1.3-2

[6] xtable_1.8-2 R6_2.2.2 rlang_0.1.4 plyr_1.8.4 tools_3.4.2

[11]parallel_3.4.2 grid_3.4.2 gtable_0.2.0 htmltools_0.3.6 yaml_2.1.14

[16]lazyeval_0.2.1 digest_0.6.12 tibble_1.3.4 rJava_0.9-9 rsconnect_0.8.5

[21] mime_0.5 compiler_3.4.2 scales_0.5.0 jsonlite_1.5 httpuv_1.3.5

0 投票
2 回答
1889 浏览

r - RWeka NgramTokenizer

我一直在努力使用 RWeka 包,特别是使用 NGramTokenizer 函数来制作二元组。通过搜索互联网,我看到一两个其他用户有同样的问题但没有解决方案(这对我有用)。

下面是一个例子: 2-gram 和 3-gram 而不是 1-gram using RWeka

所以运行:

我得到:

  • 注意没有二元组,只有一元组(房子,这个,绿色)。

我已经在一个 volatile 语料库上尝试了它,它拆分了 tokenizer 函数以及我如何从 DataCamp 课程中学习,但得到了下面的问题。

我在互联网上看到的其他解决方案运行良好,但仍然产生了像上面这样的一元组。

在 64 位 Windows 操作系统上运行 64 位 Java 1.8 和 R 3.4.3。

我尝试安装旧版本的 RWeka,但是在尝试旧版本的 tm 时,它出现了错误,所以我无法为我工作(在此问题开头链接的 SO 线程中使用了 LukeA 引用的版本)。

0 投票
1 回答
1154 浏览

python - 如何找到节点的马尔可夫毯?

我想使用马尔科夫毯算法进行特征选择。我想知道 java/weka 或 python 中是否有任何 API 可以找到 markov 毯子。

考虑我有一个数据集。数据集有多个变量和一个目标变量。我想找到目标变量的马尔可夫毯。

任何信息,将不胜感激