问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
823 浏览

algorithm - 聚类名义数据

我正在尝试将聚类算法应用于我的数据集。我的数据集是电影,一些属性是名义上的。例如:

我可以应用类似于 K-means 的东西吗?K-means 适用于距离,例如,如果我将“戏剧”标记为 0,将“恐怖”标记为 1,将“喜剧”标记为 2,将“动画”标记为 3——那么我实际上要说的是,例如“戏剧”与“恐怖”的关系比“喜剧”更密切(对于这个例子,它可能在某种程度上接近现实,但对于一般情况,很难将单词标记为数字并保持真实的比率。任何已知的解决这个问题的算法?

0 投票
4 回答
91 浏览

python - 在列表理解的元组中进行计算

我是列表理解的新手,我想用元组做一些事情。所以这就是问题所在:

给定两个向量l1l2,我希望将它们组合成元组。然后我想在将它们全部相加之前将它们相乘。

因此,例如,如果我有l1 = [1,2,3]and l2 = [4,5,6],我想将它们与 zip 功能结合到[(1,4),(2,5),(3,6)].

在此之后,我想将元组相乘并加 1。会[(1*4)+1,(2*5)+1,(3*5)+1][4,11,16]

在那之后,我想总结一下4+11+16应该给出 31 的列表。

我以前学tuple(map(operator.add, a, b))过哪个可以加起来元组。但是因为现在我需要再做一次计算,所以我不知道如何开始。如果它可以用列表理解在一行中完成,那就太好了。有人有想法吗?

0 投票
2 回答
337 浏览

r - R sparkTable 格式 - 中心文本

我正在使用 R 包“sparkTable”在 Markdown 中为 PDF 报告创建一些表格。我有我想要的表格和图表,但我似乎没有看到任何用于格式化表格内文本的规定。在 kable 和 pander 之类的东西上,您可以格式化文本的位置,只是似乎看不到使用 sparkTable 的方法。也许有一些 LaTeX 方法可以做到这一点。如果有人有任何想法,我会很感激。谢谢!

0 投票
1 回答
523 浏览

matlab - 散点图颜色阈值

我正在尝试编写一个脚本,将一些显微镜数据中的荧光强度绘制为散点图,并根据响应大于一定量的细胞对这些数据进行阈值化,并将这些数据CFPMAX绘制为绿色,而将这些数据绘制为绿色,而未绘制为红色的细胞。当我尝试绘制此图时,我无法真正为点分配正确的颜色,它们最终变成蓝色和红色。我需要为图像中的每个单元分配 4 个值(每个荧光通道 3 个值和一个值以确定它是否响应(绿色或红色)。因此我想知道是否可以分配正确的颜色到矩阵的第 4 列,或者如果我一起做错了。我在下面附上了我的代码。

0 投票
2 回答
214 浏览

python - python pandas和matplotlib安装冲突

我正在使用 Mac OSX Yosemite 10.10.5,我正在尝试在笔记本电脑上使用 python 练习数据科学。我在 virtualenv 上使用 python 3.5.1 但是当我安装 pandas 和 matplotlib 时,它们似乎在尝试导入时都存在冲突。两者都有相同的错误,输出为:

0 投票
6 回答
121234 浏览

python - 在 Keras 中拟合模型时,批量大小和 epoch 数应该有多大?

我正在训练 970 个样本并验证 243 个样本。

在 Keras 中拟合模型以优化 val_acc 时,批量大小和 epoch 数应该有多大?是否有任何基于数据输入大小的经验法则?

0 投票
1 回答
506 浏览

python - 如何在 Keras 中记录有关模型预期性能的数据?

我构建了一个脚本,将我的最佳模型保存到文件系统中,并且我希望它还将有关模型预期性能的数据记录到不同的文本文件中。

当前代码:

我目前将我最好的模型保存为 HDF5 文件。有没有办法使用 Keras 在不同的文本文件中记录保存在 HDF5 文件中的最佳模型的性能?

编辑:有没有办法在这里使用它http://keras.io/callbacks/

0 投票
2 回答
5536 浏览

python - Python Machine Learning/Data Science Project Structure

I'm looking for information on how should a Python Machine Learning project be organized. For Python usual projects there is Cookiecutter and for R ProjectTemplate.

This is my current folder structure, but I'm mixing Jupyter Notebooks with actual Python code and it does not seems very clear.

I work in the scripts folder and currently adding all the functions in files under my_module, but that leads to errors loading data(relative/absolute paths) and other problems.

I could not find proper best practices or good examples on this topic besides this kaggle competition solution and some Notebooks that have all the functions condensed at the start of such Notebook.

0 投票
0 回答
89 浏览

machine-learning - 我可以对以时间(年)和经纬度作为预测变量的数据使用梯度提升算法吗?

我有一个包含 2005-2014 年每周天气信息、产量、纬度和经度的数据。我想根据这些数据预测 2015 年的产量。我打算使用梯度提升算法,但我不确定这是否是正确的方法,因为我也在考虑位置(经纬度)和年份作为预测因子。我想保留不同年份的数据,以便捕捉不同年份的天气变化

0 投票
5 回答
245994 浏览

python - 如何在 Keras 中从 HDF5 文件加载模型?

如何在 Keras 中从 HDF5 文件加载模型?

我尝试了什么:

上述代码成功地将最佳模型保存到名为 weights.hdf5 的文件中。然后我想做的是加载该模型。下面的代码显示了我是如何尝试这样做的:

这是我得到的错误: