问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
65 浏览

r - 在 R 脚本上编码而不是使用它的函数会更好吗?

我想问在 r 脚本中使用循环函数而不是使用它的库 cran 更好吗?就像,我可以编写规范化函数,但我应该为此使用缩放函数吗?

我是数据科学的新手。

0 投票
1 回答
5687 浏览

label - 获取torch中1000维输出张量中特定索引的ImageNet标签

对于带有猫图像的 ResNet 模型的 Facebook 实现,我有前向传递的输出张量。那是一个具有分类概率的 1000 维张量。使用torch.topk我可以获得输出张量中的前 5 个概率及其索引。现在我想查看那些最可能的索引的人类可读标签。

我在网上搜索了标签列表(显然也称为 sysnets),只发现了这个:http: //image-net.org/challenges/LSVRC/2015/browse-synsets

我使用行号作为标签索引将这些标签放在一个文件中,当我使用两个不同的猫图像运行网络时,我得到“螺丝刀”作为两者的最高猜测。如果我按字母顺序对标签文件进行排序,我会得到两者的“电影”。

这似乎是将索引转换为标签的问题,对吧?所以......问题是: 如何正确地将网络输出张量中的索引映射到 Imagenet 标签?

0 投票
2 回答
8471 浏览

python - 使用 python pandas 对大型 csv 文件进行汇总统计

假设我有 10gb 的 csv 文件,我想使用 DataFrame describe 方法获取文件的摘要统计信息。

在这种情况下,首先我需要为所有 10gb csv 数据创建一个 DataFrame。

这是否意味着所有 10gb 都将被加载到内存中并计算统计信息?

0 投票
1 回答
108 浏览

machine-learning - holts-winter 中季节性组件的初始化

进行预测。我想知道我们如何初始化季节性分量我们有等式

现在说我的 m 值为 365(因为我的数据是一年中 365 天的每日数据)。为了确定 t=1 的季节性分量,我需要时间 t = -365 的季节性分量的值。同样,我需要 t=-364、t=-363 等的季节性分量。如何预先确定这些值...

0 投票
3 回答
404 浏览

machine-learning - “朴素”贝叶斯在机器学习中意味着什么?

“朴素”贝叶斯在机器学习中意味着什么?

0 投票
1 回答
3061 浏览

python - 用于科学 3D 绘图的 Mayavi 替代方案

我需要绘制一个在3D 网格中构造的标量场,如下所示:

在此处输入图像描述

我想在 Python 中这样做,因为我用这种语言模拟了许多数据集,并且我希望能够在我对模拟参数执行敏感度时快速可视化它们。

Mayavi 似乎为科学 3D 绘图提供了相当标准的例程。然而,当涉及到在出版物中传达这些图时,非常基本的图自定义不可用,例如轴上的主要和次要刻度。此外,那些受支持的非常基本的功能迄今为止甚至无法正常工作(例如,请参阅字体大小错误此处的示例)。

Python中是否有任何体面且易于使用的科学3D绘图库?我曾尝试学习 vtk,但网站示例似乎已过时(例如无法运行的体积渲染示例,我尝试编辑多行代码以使其在没有运气的情况下运行),其他人似乎同意缺少文档。

通过体面的科学绘图库,我的意思是:

  • 允许自定义轴、标签、标题等中的字体。
  • 可以编辑轴刻度间距(至少带有主要刻度)。
  • 可以添加颜色条
  • 有文档。
0 投票
1 回答
180 浏览

apache-spark - Spark 线性回归特征哈希

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的特征提取部分之后,我有点不清楚我应该如何散列这些特征。一个示例记录是:

我尝试了几种散列技术(例如 MurmurHash),但它们似乎都获得了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功散列标记的特征?

0 投票
2 回答
3196 浏览

python - 数据科学的灵丹妙药

我最近开始使用 Elixir,一些模式让我想起了 Python,它广泛用于数据科学项目。例如列表推导或匿名函数。

考虑到 Elixir 的高性能以及运行多个进程和处理异步任务的能力,我觉得它非常适合数据科学项目。

我错过了一点吗?有人有这方面的经验吗?

0 投票
2 回答
45 浏览

hadoop - Apache PIG 入门,需要脚本方面的帮助

我昨天开始使用 Pig 来获得工作机会,我以前从未使用过它,并且必须为下周生产一些东西。我还没有设法安装它,但正在努力......

同时,我尝试学习使用 Pig Latin,并制作了一些东西,但我无法测试它。

我正在使用的数据格式为 user_name|Country|movie|director,每次用户观看电影时,文件中都会有一个新条目,一个文件代表 1 天。

我想做的是创建一个“用户资料”,说明用户的前 5 部电影、前 5 名导演以及用户每天观看的电影数量。

我编码的内容:

我的代码有什么明显的错误吗?我走的好吗?我正在尝试将此代码嵌入到 python 中(我已经编写了 python 部分)。

另外,有没有一种简单的方法来测试我的代码?(我写了一些 txt 文件来测试,但我很难在我的电脑上安装 hadoop 和 pig(我有 Windows 7)。

非常感谢您的帮助 !

0 投票
1 回答
49 浏览

java - 对文本进行分类

我正在尝试确定给定的 URL 是否是任何类型的事件。事件是指事件,例如conference,summitconvention。这是我为它准备的初步算法:

我发现了以下(查看末尾)令牌,如果它们在页面的内容中(我使用第三方库从 HTML 中查找内容),那么我将其标记为事件。当然,这并不止于此。我为每个令牌分配权重,权重表示 - 这个令牌可以说明给定 url 是一个事件的强度。例如,如果我conference在内容中找到,它会更有信心告诉我这是一个事件,而不是registration- 这也可能经常出现在其他类型的文章中。

所以,我计算每篇文章的分数如下:总和(内容中令牌的频率*其权重)。然后如果这个分数是> EVENT_THRESHOLD那么我将文章标记为事件。这种方法的问题是:如果我得到,假设出现 20 次“事件”(信心不足,即权重低),分数会跳跃并打破EVENT_THRESHOLD并将文章标记为事件。有没有更好的方法来实现这一点?我希望我不会重新发明轮子。谢谢。PS我不是数据科学人:(

活动代币: