“data-science”的相关标签问题

0 投票

1 回答

65 浏览

r - 在 R 脚本上编码而不是使用它的函数会更好吗？

我想问在 r 脚本中使用循环函数而不是使用它的库 cran 更好吗？就像，我可以编写规范化函数，但我应该为此使用缩放函数吗？

我是数据科学的新手。

r data-science

2016-02-19T17:00:33.927

0 投票

1 回答

5687 浏览

label - 获取torch中1000维输出张量中特定索引的ImageNet标签

对于带有猫图像的 ResNet 模型的 Facebook 实现，我有前向传递的输出张量。那是一个具有分类概率的 1000 维张量。使用torch.topk我可以获得输出张量中的前 5 个概率及其索引。现在我想查看那些最可能的索引的人类可读标签。

我在网上搜索了标签列表（显然也称为 sysnets），只发现了这个：http: //image-net.org/challenges/LSVRC/2015/browse-synsets

我使用行号作为标签索引将这些标签放在一个文件中，当我使用两个不同的猫图像运行网络时，我得到“螺丝刀”作为两者的最高猜测。如果我按字母顺序对标签文件进行排序，我会得到两者的“电影”。

这似乎是将索引转换为标签的问题，对吧？所以......问题是： 如何正确地将网络输出张量中的索引映射到 Imagenet 标签？

2016-02-20T20:56:13.223

0 投票

2 回答

8471 浏览

python - 使用 python pandas 对大型 csv 文件进行汇总统计

假设我有 10gb 的 csv 文件，我想使用 DataFrame describe 方法获取文件的摘要统计信息。

在这种情况下，首先我需要为所有 10gb csv 数据创建一个 DataFrame。

这是否意味着所有 10gb 都将被加载到内存中并计算统计信息？

python csv pandas dataframe data-science

2016-02-23T06:35:29.917

0 投票

1 回答

108 浏览

machine-learning - holts-winter 中季节性组件的初始化

进行预测。我想知道我们如何初始化季节性分量我们有等式

现在说我的 m 值为 365（因为我的数据是一年中 365 天的每日数据）。为了确定 t=1 的季节性分量，我需要时间 t = -365 的季节性分量的值。同样，我需要 t=-364、t=-363 等的季节性分量。如何预先确定这些值...

machine-learning statistics prediction forecasting data-science

2016-02-24T05:32:06.547

0 投票

3 回答

404 浏览

machine-learning - “朴素”贝叶斯在机器学习中意味着什么？

“朴素”贝叶斯在机器学习中意味着什么？

machine-learning naivebayes data-science

2016-02-26T17:35:20.693

0 投票

1 回答

3061 浏览

python - 用于科学 3D 绘图的 Mayavi 替代方案

我需要绘制一个在3D 网格中构造的标量场，如下所示：

我想在 Python 中这样做，因为我用这种语言模拟了许多数据集，并且我希望能够在我对模拟参数执行敏感度时快速可视化它们。

Mayavi 似乎为科学 3D 绘图提供了相当标准的例程。然而，当涉及到在出版物中传达这些图时，非常基本的图自定义不可用，例如轴上的主要和次要刻度。此外，那些受支持的非常基本的功能迄今为止甚至无法正常工作（例如，请参阅字体大小错误和此处的示例）。

Python中是否有任何体面且易于使用的科学3D绘图库？我曾尝试学习 vtk，但网站示例似乎已过时（例如无法运行的体积渲染示例，我尝试编辑多行代码以使其在没有运气的情况下运行），其他人似乎同意缺少文档。

通过体面的科学绘图库，我的意思是：

允许自定义轴、标签、标题等中的字体。
可以编辑轴刻度间距（至少带有主要刻度）。
可以添加颜色条
有文档。

python numpy data-science vtk mayavi

2016-02-29T21:24:28.593

0 投票

1 回答

180 浏览

apache-spark - Spark 线性回归特征哈希

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的特征提取部分之后，我有点不清楚我应该如何散列这些特征。一个示例记录是：

我尝试了几种散列技术（例如 MurmurHash），但它们似乎都获得了垃圾权重（例如 NAN、PositiveInfinity 等）或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功散列标记的特征？

apache-spark machine-learning pyspark data-science apache-spark-ml

2016-03-01T00:50:52.630

0 投票

2 回答

3196 浏览

python - 数据科学的灵丹妙药

我最近开始使用 Elixir，一些模式让我想起了 Python，它广泛用于数据科学项目。例如列表推导或匿名函数。

考虑到 Elixir 的高性能以及运行多个进程和处理异步任务的能力，我觉得它非常适合数据科学项目。

我错过了一点吗？有人有这方面的经验吗？

python elixir data-science

2016-03-01T14:25:52.840

0 投票

2 回答

45 浏览

hadoop - Apache PIG 入门，需要脚本方面的帮助

我昨天开始使用 Pig 来获得工作机会，我以前从未使用过它，并且必须为下周生产一些东西。我还没有设法安装它，但正在努力......

同时，我尝试学习使用 Pig Latin，并制作了一些东西，但我无法测试它。

我正在使用的数据格式为 user_name|Country|movie|director，每次用户观看电影时，文件中都会有一个新条目，一个文件代表 1 天。

我想做的是创建一个“用户资料”，说明用户的前 5 部电影、前 5 名导演以及用户每天观看的电影数量。

我编码的内容：

我的代码有什么明显的错误吗？我走的好吗？我正在尝试将此代码嵌入到 python 中（我已经编写了 python 部分）。

另外，有没有一种简单的方法来测试我的代码？（我写了一些 txt 文件来测试，但我很难在我的电脑上安装 hadoop 和 pig（我有 Windows 7）。

非常感谢您的帮助！

hadoop apache-pig data-science

2016-03-03T17:13:38.747

0 投票

1 回答

49 浏览

java - 对文本进行分类

我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件，例如conference,summit等convention。这是我为它准备的初步算法：

我发现了以下（查看末尾）令牌，如果它们在页面的内容中（我使用第三方库从 HTML 中查找内容），那么我将其标记为事件。当然，这并不止于此。我为每个令牌分配权重，权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如，如果我conference在内容中找到，它会更有信心告诉我这是一个事件，而不是registration- 这也可能经常出现在其他类型的文章中。

所以，我计算每篇文章的分数如下：总和（内容中令牌的频率*其权重）。然后如果这个分数是> EVENT_THRESHOLD那么我将文章标记为事件。这种方法的问题是：如果我得到，假设出现 20 次“事件”（信心不足，即权重低），分数会跳跃并打破EVENT_THRESHOLD并将文章标记为事件。有没有更好的方法来实现这一点？我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(

活动代币：

java algorithm machine-learning data-science

2016-03-08T18:14:16.323

问题标签 [data-science]

Reference