0 投票

0 回答

945 浏览

r - 与手动参数设置相比，R caret train() 在 J48 上表现不佳

我需要使用 RWeka 的实现 ( )优化 C4.5 算法在我的流失数据集上的准确性。J48()因此，我使用train()caret 包的功能来帮助我确定最佳参数设置（对于M和C）。我试图通过手动运行J48()由确定的参数来验证结果train()。结果令人惊讶，因为手动运行的结果要好得多。

这就提出了以下问题：

手动执行时哪些参数可能不同J48()？
如何获得train()与手动参数设置相似或更好的结果的功能？
或者我在这里完全错过了什么？

我正在运行以下代码：

使用包 caret 中的 train() 确定具有 J48 的最佳 C4.5 模型：

使用完整数据集“response_nochar”训练模型：

返回预测精度为 0.6055 的 rtrain$finalmodel（以及大小为 3 且有 2 个叶子的树）：

大约有。50 种组合，准确度为 0.6055，范围从最终模型的给定值到 (M=325, C=0.1)（中间有一个例外）。

使用 J48 手动尝试参数值：

计算模型：

使用测试数据集进行预测：

模型预测精度为 0.655（以及大小为 25 的树，有 13 个叶子）。

PS：我使用的数据集包含 10000 条记录，目标变量的分布是 50:50。

2017-07-25T20:33:36.890

0 投票

1 回答

72 浏览

algorithm - 如何在 rweka-InfoGainAttributeEval 中定义

有没有人可以告诉我如何在 rweka 中定义公式？

A<- InfoGainAttributeEval(公式 ~ . , data = TrainDataLSVT,na.action=NULL )

TrainDataLSVT 中有 310 个特征。

algorithm machine-learning decision-tree rweka

2017-08-18T08:17:58.943

0 投票

0 回答

311 浏览

r - RWeka M5P 型号。如何手动重现结果？

我想澄清我对训练有素的 M5P 模型结果的理解。我训练了一个 M5P 模型，它给了我一棵树，然后是 4 个线性模型。

为了确保我理解工作原理，我尝试使用决策树和引用的 LM 模型手动复制结果，但结果不如预期。

我使用树来确定要使用哪个 LM 模型，并按照 LM 模型中所述执行操作，结果不一样。这正常吗？

我使用的数据集：

这是我用来训练模型的公式：

这是添加预测列后的结果数据集：

这是我用来尝试复制模型结果的代码，它基本上是 Visual Basic 中 M5P 模型的硬编码版本。

有人可以向我解释这应该如何工作吗？

非常感谢。

r linear-regression rweka

2017-08-22T14:27:26.047

0 投票

1 回答

975 浏览

java - 在 R (Ubuntu 16.04) 中安装 RWeka 的问题

我想安装需要 RWeka 的 Fselector 包，但是在安装 RWeka 时，它通过我出现以下错误：

我搜索了大约相同的内容并使用 jdk 进行了一些修改，更新了 bashrc 中 jdk/bin 的路径，但没有任何效果。

任何人都可以在这方面帮助我。

提前致谢

更新 1：@Nanov，我按照步骤操作，但仍然收到相同的错误，我有 openjdk 8 并更新了 bashrc 中的路径，当我使用“sudo R CMD javareconf”时，我得到以下信息：

java r ubuntu rweka

2017-08-23T12:18:21.410

0 投票

0 回答

103 浏览

r - R：用缺失值写 arff

我正在 R 上构建一个数据框，并希望将其导出为 ARFF 格式。为此，我使用了 RWeka 库中的 write.arff() 函数。但是，在处理缺失值 (?) 时，输出如下：

@attribute atomic_comp_c {'?',3014,3212,3226,3234,3236,3238,3}

代替：

@attribute atomic_comp_c 数字

有谁知道如何将数据框正确导出为 ARFF 格式？

提前致谢

r weka arff rweka

2017-09-12T08:50:54.893

0 投票

2 回答

157 浏览

r - 从 RWeka SMOreg 模型中提取权重

我正在使用很棒的 RWeka 包来适应 Weka 中实现的 SMOreg 模型。虽然一切正常，但我在从拟合模型中提取权重时遇到了一些问题。

作为所有 Weka 分类器对象，我的模型有一个很好的打印方法，可以显示所有特征及其相对权重。但是，我无法以任何方式提取这些权重。

您可以通过运行以下代码来亲自查看：

现在，如果您简单地调用模型

您会看到它打印了模型中使用的所有特征及其相对权重。我想以向量的形式访问这些权重，或者更好的是，以 2 列的形式访问这些权重，其中一列包含特征名称，另一列包含权重。

我正在使用 RStudio 版本 1.0.153、R 3.4.2 Short Summer 和 RWeka 0.4-35 开发 Windows 7 x64 系统。

有人知道该怎么做吗？

r svm weka rweka

2017-11-08T10:31:51.620

0 投票

0 回答

296 浏览

weka - 如何将此数据更改为适当的格式以在 WEKA 中进行关联规则挖掘？

这就是数据在给定文件中的存储方式。给出了8个属性。我需要在 WEKA 中使用 Apriori 算法完成关联规则挖掘。

例如，如果购买了第 1 项和第 2 项 --> 还购买了第 4 项或其他合理的东西。

这就是数据在给定文件中的存储方式。给出了8个属性。

我尝试了什么：

将文件转换为 .arff 格式并加载到 weka。转动名义上的所有属性并运行算法 Apriori。但是生成的规则很奇怪。

结果就是这样来的。它没有适当的信息。没有像我想要的那样的规则，它实际上定义了用户将购买什么或任何东西。

即这里生成的规则对我来说没有任何信息，没有关于哪个项目将与什么一起购买的关系/规则。

结果就是这样来的。它没有适当的信息。没有规则，它实际上定义了用户将购买什么或任何东西。

我应该如何预处理这些数据以很好地格式化它，或者如果我犯了任何其他错误，我将不胜感激。

weka rweka

user6829603

2017-11-08T16:55:58.583

0 投票

2 回答

3607 浏览

r - 以闪亮的方式运行 R 代码时 utf8towcs 中出现无效输入错误

当我运行该应用程序时，我收到以下错误。

由于 blogs.txt 文件中的情绪等，我试图将数据隐藏如下。

并且还使用如下图标功能，

创建语料库并清理数据

不过，我得到了这个问题。

请在这方面提供帮助。

会话信息：

=====================

R 版本 3.4.2 (2017-09-28)

平台：x86_64-w64-mingw32/x64（64位）

运行于：Windows 7 x64（内部版本 7601）Service Pack 1

矩阵产品：默认

语言环境：

[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252

[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C

[5] LC_TIME=English_United States.1252

附加的基础包：

[1] stats graphics grDevices utils datasets methods base

其他附加包：

[1] stringr_1.2.0 shiny_1.0.5 slam_0.1-40 ggplot2_2.2.1 RWeka_0.4-35 tm_0.7-1 NLP_0.1-11

[8] 字符串i_1.1.5

通过命名空间加载（未附加）：

[1] Rcpp_0.12.13 magrittr_1.5 RWekajars_3.9.1-4 munsell_0.4.3 colorspace_1.3-2

[6] xtable_1.8-2 R6_2.2.2 rlang_0.1.4 plyr_1.8.4 tools_3.4.2

[11]parallel_3.4.2 grid_3.4.2 gtable_0.2.0 htmltools_0.3.6 yaml_2.1.14

[16]lazyeval_0.2.1 digest_0.6.12 tibble_1.3.4 rJava_0.9-9 rsconnect_0.8.5

[21] mime_0.5 compiler_3.4.2 scales_0.5.0 jsonlite_1.5 httpuv_1.3.5

r tm rweka

2017-11-20T06:04:34.353

0 投票

2 回答

1889 浏览

r - RWeka NgramTokenizer

我一直在努力使用 RWeka 包，特别是使用 NGramTokenizer 函数来制作二元组。通过搜索互联网，我看到一两个其他用户有同样的问题但没有解决方案（这对我有用）。

下面是一个例子： 2-gram 和 3-gram 而不是 1-gram using RWeka

所以运行：

我得到：

注意没有二元组，只有一元组（房子，这个，绿色）。

我已经在一个 volatile 语料库上尝试了它，它拆分了 tokenizer 函数以及我如何从 DataCamp 课程中学习，但得到了下面的问题。

我在互联网上看到的其他解决方案运行良好，但仍然产生了像上面这样的一元组。

在 64 位 Windows 操作系统上运行 64 位 Java 1.8 和 R 3.4.3。

我尝试安装旧版本的 RWeka，但是在尝试旧版本的 tm 时，它出现了错误，所以我无法为我工作（在此问题开头链接的 SO 线程中使用了 LukeA 引用的版本）。

r rweka

2018-02-08T06:27:20.190

0 投票

1 回答

1154 浏览

python - 如何找到节点的马尔可夫毯？

我想使用马尔科夫毯算法进行特征选择。我想知道 java/weka 或 python 中是否有任何 API 可以找到 markov 毯子。

考虑我有一个数据集。数据集有多个变量和一个目标变量。我想找到目标变量的马尔可夫毯。

任何信息，将不胜感激

python weka markov rweka markov-models

2018-02-28T20:37:00.537

问题标签 [rweka]

这就提出了以下问题：

我正在运行以下代码：

创建语料库并清理数据

Reference