问题标签 [data-science]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
519 浏览

python - Python:从二维列表创建频率表

从格式如下的数据开始:

我想用它的频率来表示每个值:

对于 1D 列表,我找到了许多解决此问题的方法,但它们似乎不适用于 2D。

0 投票
0 回答
79 浏览

python - 在python中为kmeans查找k

所以我有一个包含 130000 个点的数据集,格式为 (x,y)。我的最终目标是使用 kmeans 对这些数据进行聚类。但是为了应用它,我需要找到传递给 kmeans 算法的最佳集群数量。我应该如何在 python 中应用 Gap Statistics 或 Levene 的测试来实现这一点?

0 投票
1 回答
1367 浏览

python - python中的文本内容分析器

我在 python 中创建了一个文本内容分析器,用于分析来自文件的输入和输出

  1. 总字数
  2. 唯一词的计数
  3. 句子数

这是代码:

我现在正在尝试计算单词的平均句子长度,找到经常使用的短语(使用超过 3 次的 3 个或更多单词的短语),并按频率降序排列使用的单词列表。有人可以帮忙吗?

0 投票
2 回答
1791 浏览

python - 循环遍历 Pandas Dataframe 以制作虚拟变量(1 或 0 输入)的有效方法

我正在学习数据科学,并想为我的数据集制作虚拟变量。

我有一个具有“产品类别”列的数据框,该列是匹配类别的列表,类似于 ["Category1", "Category2".."CategoryN"]

我知道 Pandas 有很好的功能,可以自动生成虚拟变量(pandas.get_dummies),但在这种情况下,我不能使用它,我猜(?)。

我知道如何遍历每一行以将 1 附加到每列的匹配元素。我目前的代码是这样的:

但是,上面的代码效率不高,我不能使用它,因为我有超过 100,000 行。我想以某种方式对整个数组进行操作,但我不知道该怎么做。

有人可以帮忙吗?

0 投票
1 回答
1078 浏览

hadoop - cloudera管理器打不开

我是大数据和hadoop的新手,我用hello world内容制作了一个名为test的文件,我想在尝试这个时将它上传到文件浏览器中,它给了我一个错误我试图通过在这个网站上搜索答案来解决它,我发现问题出在集群“cloudera manager”中,当我尝试打开它时,它会给我一条消息,强烈建议使用 10 公羊,但如果你想强制打开,请使用命令强制“我的电脑是 6 克公羊,当下载系统 推荐 8 g ram bus 我给虚拟机 5,5 g ram,我在使用系统时很灵活,所以问题是什么,我如何强制启动 cloudera 管理器?

0 投票
2 回答
13214 浏览

python - 如何在 TensorFlow 的 MNIST 示例中获得预测的类标签?

我是神经网络的新手,并为初学者浏览了 MNIST 示例。

我目前正在尝试在 Kaggle 的另一个没有测试标签的数据集上使用这个示例。

如果我在没有相应标签的测试数据集上运行模型,因此无法像 MNIST 示例中那样计算准确度,我希望能够看到预测。是否有可能以某种方式访问​​观察结果及其预测标签并很好地打印出来?

0 投票
0 回答
218 浏览

r - 如何构建一个计算语言 R 中余弦相似度的函数?

下面是我的代码。我只能比较 2 个向量,现在我想构建一个函数

我有一个像上面一样的 266 行和 7 列的矩阵。第一列是我的产品 ID,其他列是产品的最终标签。如果我想拥有自己的函数并提供 2 个输入,则一个是确定的标签向量(如 c("HDa","2Pb","2","BxU","BuQ","Bve"))和其他是产品 id(ios)。结果,我想在与产品 id 向量最相似的前 8 个产品中查看真假(1 或 0)。

谁能给我一个线索,让我知道我应该怎么做才能解决我的问题?

0 投票
0 回答
115 浏览

r - 如何编写自己的函数来计算矩阵中每一行的余弦相似度作为语言 R 中给定的 2 个参数?

下面是我的代码。我只能比较 2 个向量,现在我想构建一个函数。

这是我矩阵的一部分,有 266 行和 6 列

我有一个像上面一样的 266 行和 7 列的矩阵。第一列是我的产品 ID,其他列是产品的最终标签。如果我想拥有自己的函数并提供 2 个输入,则一个是确定的标签向量(如 c("HDa","2Pb","2","BxU","BuQ","Bve"))和其他是产品 id(ios)。结果,我想在与产品 id 的向量最相似的前 8 个产品中查看真或假(1 或 0)。如果前 8 个产品包含作为参数给出的产品 id,则为真,否则为假

谁能解释如何解决我的问题?

0 投票
0 回答
502 浏览

hadoop - 无法将文件上传到cloudera中的hue中的文件浏览器

我是大数据和 hadoop 的新手,我用 hello world 内容制作了一个名为 test 的文件,我想在尝试这个时将它上传到文件浏览器中,它给了我一个错误,提示“找不到数据节点检查集群运行状况”我试过通过在本网站上搜索答案来解决它,我发现问题出在集群“cloudera manger”中,当我尝试打开它时,它给了我一条强烈建议使用 10 Rams 但如果你想强制打开使用的消息命令强制“我的电脑是 6 克内存,下载系统时建议使用 8 克内存总线,我给虚拟机 5.5 克内存,我在使用系统时很灵活,所以有什么问题,怎么办?我强制启动 cloudera 管理器?这是屏幕截图

0 投票
1 回答
220 浏览

machine-learning - 如何在 TensorFlow 中表示线性数据

我正在尝试在 TensorFlow 中对一些类似示波器的数据进行建模——具有持续时间、强度等的线性能量脉冲流——但在其他方面执行非常相似的分类任务,我无法弄清楚如何最好地表示它在 TensorFlow 中。

这些教程是针对图像分类的,框架似乎是围绕 4d 张量构建的,我无法弄清楚如何表示我相对简单的数据。

具体来说,我试图弄清楚以下几点:

1)如果我有一串 100 个脉冲和 4 条关于它们的信息,那相当于 4x100 图像还是 100x4 图像?或者也许是一个 100x1 的图像,有 4 个“通道”?张量如何折叠/展开尚不清楚。

2) 最大池化如何转化为这个低维空间?比如,我如何确保我在脉冲之间汇集而不是仅仅在一个通道内,或者其他一些无意义的模式?如何计算和使用“步幅”没有得到很好的解释。

有没有人尝试在 TensorFlow 中模拟类似的数据?