问题标签 [rweka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 与手动参数设置相比,R caret train() 在 J48 上表现不佳
我需要使用 RWeka 的实现 ( )优化 C4.5 算法在我的流失数据集上的准确性。J48()
因此,我使用train()
caret 包的功能来帮助我确定最佳参数设置(对于M和C)。我试图通过手动运行J48()
由 确定的参数来验证结果train()
。结果令人惊讶,因为手动运行的结果要好得多。
这就提出了以下问题:
- 手动执行时哪些参数可能不同
J48()
? - 如何获得
train()
与手动参数设置相似或更好的结果的功能? - 或者我在这里完全错过了什么?
我正在运行以下代码:
使用包 caret 中的 train() 确定具有 J48 的最佳 C4.5 模型:
使用完整数据集“response_nochar”训练模型:
返回预测精度为 0.6055 的 rtrain$finalmodel(以及大小为 3 且有 2 个叶子的树):
大约有。50 种组合,准确度为 0.6055,范围从最终模型的给定值到 (M=325, C=0.1)(中间有一个例外)。
使用 J48 手动尝试参数值:
计算模型:
使用测试数据集进行预测:
模型预测精度为 0.655(以及大小为 25 的树,有 13 个叶子)。
PS:我使用的数据集包含 10000 条记录,目标变量的分布是 50:50。
algorithm - 如何在 rweka-InfoGainAttributeEval 中定义
有没有人可以告诉我如何在 rweka 中定义公式?
A<- InfoGainAttributeEval(公式 ~ . , data = TrainDataLSVT,na.action=NULL )
TrainDataLSVT 中有 310 个特征。
r - RWeka M5P 型号。如何手动重现结果?
我想澄清我对训练有素的 M5P 模型结果的理解。我训练了一个 M5P 模型,它给了我一棵树,然后是 4 个线性模型。
为了确保我理解工作原理,我尝试使用决策树和引用的 LM 模型手动复制结果,但结果不如预期。
我使用树来确定要使用哪个 LM 模型,并按照 LM 模型中所述执行操作,结果不一样。这正常吗?
我使用的数据集:
这是我用来训练模型的公式:
这是添加预测列后的结果数据集:
这是我用来尝试复制模型结果的代码,它基本上是 Visual Basic 中 M5P 模型的硬编码版本。
有人可以向我解释这应该如何工作吗?
非常感谢。
java - 在 R (Ubuntu 16.04) 中安装 RWeka 的问题
我想安装需要 RWeka 的 Fselector 包,但是在安装 RWeka 时,它通过我出现以下错误:
我搜索了大约相同的内容并使用 jdk 进行了一些修改,更新了 bashrc 中 jdk/bin 的路径,但没有任何效果。
任何人都可以在这方面帮助我。
提前致谢
更新 1:@Nanov,我按照步骤操作,但仍然收到相同的错误,我有 openjdk 8 并更新了 bashrc 中的路径,当我使用“sudo R CMD javareconf”时,我得到以下信息:
r - R:用缺失值写 arff
我正在 R 上构建一个数据框,并希望将其导出为 ARFF 格式。为此,我使用了 RWeka 库中的 write.arff() 函数。但是,在处理缺失值 (?) 时,输出如下:
@attribute atomic_comp_c {'?',3014,3212,3226,3234,3236,3238,3}
代替:
@attribute atomic_comp_c 数字
有谁知道如何将数据框正确导出为 ARFF 格式?
提前致谢
r - 从 RWeka SMOreg 模型中提取权重
我正在使用很棒的 RWeka 包来适应 Weka 中实现的 SMOreg 模型。虽然一切正常,但我在从拟合模型中提取权重时遇到了一些问题。
作为所有 Weka 分类器对象,我的模型有一个很好的打印方法,可以显示所有特征及其相对权重。但是,我无法以任何方式提取这些权重。
您可以通过运行以下代码来亲自查看:
现在,如果您简单地调用模型
您会看到它打印了模型中使用的所有特征及其相对权重。我想以向量的形式访问这些权重,或者更好的是,以 2 列的形式访问这些权重,其中一列包含特征名称,另一列包含权重。
我正在使用 RStudio 版本 1.0.153、R 3.4.2 Short Summer 和 RWeka 0.4-35 开发 Windows 7 x64 系统。
有人知道该怎么做吗?
weka - 如何将此数据更改为适当的格式以在 WEKA 中进行关联规则挖掘?
这就是数据在给定文件中的存储方式。给出了8个属性。我需要在 WEKA 中使用 Apriori 算法完成关联规则挖掘。
例如,如果购买了第 1 项和第 2 项 --> 还购买了第 4 项或其他合理的东西。
我尝试了什么:
将文件转换为 .arff 格式并加载到 weka。转动名义上的所有属性并运行算法 Apriori。但是生成的规则很奇怪。
结果就是这样来的。它没有适当的信息。没有像我想要的那样的规则,它实际上定义了用户将购买什么或任何东西。
即这里生成的规则对我来说没有任何信息,没有关于哪个项目将与什么一起购买的关系/规则。
我应该如何预处理这些数据以很好地格式化它,或者如果我犯了任何其他错误,我将不胜感激。
r - 以闪亮的方式运行 R 代码时 utf8towcs 中出现无效输入错误
当我运行该应用程序时,我收到以下错误。
由于 blogs.txt 文件中的情绪等,我试图将数据隐藏如下。
并且还使用如下图标功能,
创建语料库并清理数据
不过,我得到了这个问题。
请在这方面提供帮助。
会话信息:
=====================
R 版本 3.4.2 (2017-09-28)
平台:x86_64-w64-mingw32/x64(64位)
运行于:Windows 7 x64(内部版本 7601)Service Pack 1
矩阵产品:默认
语言环境:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
附加的基础包:
[1] stats graphics grDevices utils datasets methods base
其他附加包:
[1] stringr_1.2.0 shiny_1.0.5 slam_0.1-40 ggplot2_2.2.1 RWeka_0.4-35 tm_0.7-1 NLP_0.1-11
[8] 字符串i_1.1.5
通过命名空间加载(未附加):
[1] Rcpp_0.12.13 magrittr_1.5 RWekajars_3.9.1-4 munsell_0.4.3 colorspace_1.3-2
[6] xtable_1.8-2 R6_2.2.2 rlang_0.1.4 plyr_1.8.4 tools_3.4.2
[11]parallel_3.4.2 grid_3.4.2 gtable_0.2.0 htmltools_0.3.6 yaml_2.1.14
[16]lazyeval_0.2.1 digest_0.6.12 tibble_1.3.4 rJava_0.9-9 rsconnect_0.8.5
[21] mime_0.5 compiler_3.4.2 scales_0.5.0 jsonlite_1.5 httpuv_1.3.5
r - RWeka NgramTokenizer
我一直在努力使用 RWeka 包,特别是使用 NGramTokenizer 函数来制作二元组。通过搜索互联网,我看到一两个其他用户有同样的问题但没有解决方案(这对我有用)。
下面是一个例子: 2-gram 和 3-gram 而不是 1-gram using RWeka
所以运行:
我得到:
- 注意没有二元组,只有一元组(房子,这个,绿色)。
我已经在一个 volatile 语料库上尝试了它,它拆分了 tokenizer 函数以及我如何从 DataCamp 课程中学习,但得到了下面的问题。
我在互联网上看到的其他解决方案运行良好,但仍然产生了像上面这样的一元组。
在 64 位 Windows 操作系统上运行 64 位 Java 1.8 和 R 3.4.3。
我尝试安装旧版本的 RWeka,但是在尝试旧版本的 tm 时,它出现了错误,所以我无法为我工作(在此问题开头链接的 SO 线程中使用了 LukeA 引用的版本)。
python - 如何找到节点的马尔可夫毯?
我想使用马尔科夫毯算法进行特征选择。我想知道 java/weka 或 python 中是否有任何 API 可以找到 markov 毯子。
考虑我有一个数据集。数据集有多个变量和一个目标变量。我想找到目标变量的马尔可夫毯。
任何信息,将不胜感激