问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1659 浏览

machine-learning - 为什么 PCA 会降低 Logistic 回归的性能?

我对 50000 X 370 维度的数据进行二元分类问题的 Logistic 回归。我得到了大约 90% 的准确率。但是当我对数据进行 PCA + Logistic 时,我的准确率降低到 10%,看到这个结果我感到非常震惊. 谁能解释可能出了什么问题?

0 投票
1 回答
1602 浏览

scala - Spark:覆盖库方法

我想对 scala 代码进行一些修改,spark.ml.classification.LogisticRegression而不必重建整个 Spark。因为我们可以将 jar 文件附加到 spark-submit 或 pySpark 的执行中。是否可以编译LogisticRegression.java并覆盖 Spark 的默认方法的修改副本,或者至少创建新方法?谢谢。

0 投票
0 回答
367 浏览

mysql - 无法通过 RODBC 包连接到 R 中 Redshift 上的数据库

我正在尝试使用以下语法在 r 中连接到 Redshift 上的 A DB(我使用的是 Mac):

并得到以下错误。

警告信息:

1:在 RODBC::odbcDriverConnect("DSN=xxxxaddresss.redshift.amazonaws.com:5439;UID=xxxx;PWD=xxxx") 中:[RODBC] 错误:状态 IM012,代码 0,消息 [unixODBC][驱动程序管理器] DRIVER 关键字语法错误

2:在 RODBC::odbcDriverConnect("DSN=xxxxaddresss.redshift.amazonaws.com:5439;UID=xxxx;PWD=xxxx") 中:

ODBC 连接失败

问题的原因是什么?

0 投票
2 回答
2108 浏览

mysql - 使用 RJDBC 在 R 中创建 JDBC 驱动程序

我正在尝试使用以下代码在 R 中创建 JDBC 驱动程序:我已经将目录设置为 .jar 文件夹所在的位置

我收到以下错误:

会有什么问题?

0 投票
0 回答
394 浏览

r - 在 dyplyr 中使用函数 tbl() 创建表引用

当我尝试使用函数创建表引用时,我已经成功建立了与数据库的连接tbl()。这是我使用的代码:

表示连接建立成功。

但是,在运行以下代码创建表引用后,会发生另一个错误:

这是错误:

)

原因是什么,我该如何解决?

0 投票
1 回答
742 浏览

machine-learning - 预测用户意图

我是机器学习/数据科学的新手。这是我想要实现的目标:

给定来自过去网站访问者的以下数据: 1. 网站旅程:访问的网址和顺序 2. 网站上留下的任何评论

预测当前访问网站的用户的意图(使用他们到目前为止的旅程图): 1. 给出他们接下来可能访问的 URL 列表,可能性百分比 2. 来自过去用户评论的关键字与当前用户的旅程唯一匹配

我不确定什么是开始解决这个问题的好/简单的方法。

0 投票
2 回答
44 浏览

r - 在R中每一行的每个特定字符之前添加一个字符

我有一个 .csv 文件,不幸的是,其中一列包含一个包含逗号的字典,例如:

如何在 R 中的每个 { 之前和每个 } 之后放置一个 "?然后我可以在使用 read.csv 或 read.csv2 或 read.table 时将 " 设置为引号

0 投票
1 回答
674 浏览

python - scikit-learn:支持向量机。精度和/或准确度?

我试图弄清楚我使用的代码是计算精度还是准确性,或者两者兼而有之。由于我只有一点统计学背景(用另一种语言),我不太了解涵盖该主题的维基百科文章]( https://en.wikipedia.org/wiki/Accuracy_and_precision )。

具体来说,我使用以下 Python 代码:

from sklearn import svm, cross_validation clf = svm.SVC(kernel=kernel, C=C) scores = cross_validation.cross_val_score(clf, FeatureMatrix, np.squeeze(LabelMatrix), cv=d_inds)

scikit-learn函数的文档可以在这里找到:

0 投票
1 回答
40 浏览

machine-learning - 为使用聚类准备数据

数据集:我得到了单个客户每天使用产品的分钟数,并试图对这些数据进行聚类以找到常见的使用模式。

我的问题:我如何格式化数据,例如,一年使用率高的高级用户与我结束数据之前只能使用设备一个月的不同高级用户看起来相同收藏?

到目前为止,我已经将每个客户变成了一个数组,其中每个单元格是当天使用的分钟数。该数组从用户第一次使用产品时开始,到用户第一年使用后结束。对于聚类模型,单元格中的所有条目必须是双精度值(例如使用 200.0 分钟)。我考虑过将数据收集最后一天之后的所有单元格/天数设置为 -1.0 或 NULL。这些都是有效的方法吗?如果不是,你会建议什么?

0 投票
0 回答
154 浏览

git - 构建jupyter笔记本共享平台的最佳选择是什么

我必须建立一个“开放科学平台”,工程师可以在其中构建和共享他们的脚本和 jupyter notebook。(和版本控制)一个很好的例子可能是 kaggle 网站。有数据,人们分叉这个数据来制作脚本。人们可以从网站上共享、投票和运行 jupyter notebook。

显然,我没有找到适合小时需求的开源平台。

然后,我想有一些建议来建立我们自己的平台。通过一些研究,我注意到 3 个解决方案: - 启动 form fork gogs 开源项目。(git 托管)并直接修改源代码以满足我们的需求。- 采取像 wordpress 或其他解决方案这样的解决方案。在其中构建“协作”部分,并尝试使用 webhook 和 gogs 来保持版本控制。 - 我刚刚发现的最后一个,使用“开放科学框架”项目制作。

感谢您的回答!