“data-science”的相关标签问题

0 投票

1 回答

519 浏览

python - Python：从二维列表创建频率表

从格式如下的数据开始：

我想用它的频率来表示每个值：

对于 1D 列表，我找到了许多解决此问题的方法，但它们似乎不适用于 2D。

2015-11-11T19:51:46.170

0 投票

0 回答

79 浏览

python - 在python中为kmeans查找k

所以我有一个包含 130000 个点的数据集，格式为 (x,y)。我的最终目标是使用 kmeans 对这些数据进行聚类。但是为了应用它，我需要找到传递给 kmeans 算法的最佳集群数量。我应该如何在 python 中应用 Gap Statistics 或 Levene 的测试来实现这一点？

python machine-learning cluster-analysis k-means data-science

2015-11-19T19:50:34.650

0 投票

1 回答

1367 浏览

python - python中的文本内容分析器

我在 python 中创建了一个文本内容分析器，用于分析来自文件的输入和输出

总字数
唯一词的计数
句子数

这是代码：

我现在正在尝试计算单词的平均句子长度，找到经常使用的短语（使用超过 3 次的 3 个或更多单词的短语），并按频率降序排列使用的单词列表。有人可以帮忙吗？

python statistics data-science

2015-11-28T20:24:05.847

0 投票

2 回答

1791 浏览

python - 循环遍历 Pandas Dataframe 以制作虚拟变量（1 或 0 输入）的有效方法

我正在学习数据科学，并想为我的数据集制作虚拟变量。

我有一个具有“产品类别”列的数据框，该列是匹配类别的列表，类似于 ["Category1", "Category2".."CategoryN"]

我知道 Pandas 有很好的功能，可以自动生成虚拟变量（pandas.get_dummies），但在这种情况下，我不能使用它，我猜（？）。

我知道如何遍历每一行以将 1 附加到每列的匹配元素。我目前的代码是这样的：

但是，上面的代码效率不高，我不能使用它，因为我有超过 100,000 行。我想以某种方式对整个数组进行操作，但我不知道该怎么做。

有人可以帮忙吗？

python numpy pandas array-broadcasting data-science

2015-11-28T23:29:35.220

0 投票

1 回答

1078 浏览

我是大数据和hadoop的新手，我用hello world内容制作了一个名为test的文件，我想在尝试这个时将它上传到文件浏览器中，它给了我一个错误我试图通过在这个网站上搜索答案来解决它，我发现问题出在集群“cloudera manager”中，当我尝试打开它时，它会给我一条消息，强烈建议使用 10 公羊，但如果你想强制打开，请使用命令强制“我的电脑是 6 克公羊，当下载系统推荐 8 g ram bus 我给虚拟机 5,5 g ram，我在使用系统时很灵活，所以问题是什么，我如何强制启动 cloudera 管理器？

hadoop bigdata data-science cloudera-manager

2015-12-02T04:52:44.703

0 投票

2 回答

13214 浏览

python - 如何在 TensorFlow 的 MNIST 示例中获得预测的类标签？

我是神经网络的新手，并为初学者浏览了 MNIST 示例。

我目前正在尝试在 Kaggle 的另一个没有测试标签的数据集上使用这个示例。

如果我在没有相应标签的测试数据集上运行模型，因此无法像 MNIST 示例中那样计算准确度，我希望能够看到预测。是否有可能以某种方式访问观察结果及其预测标签并很好地打印出来？

python machine-learning neural-network tensorflow data-science

2015-12-03T07:42:20.507

0 投票

0 回答

218 浏览

r - 如何构建一个计算语言 R 中余弦相似度的函数？

下面是我的代码。我只能比较 2 个向量，现在我想构建一个函数

我有一个像上面一样的 266 行和 7 列的矩阵。第一列是我的产品 ID，其他列是产品的最终标签。如果我想拥有自己的函数并提供 2 个输入，则一个是确定的标签向量（如 c("HDa","2Pb","2","BxU","BuQ","Bve")）和其他是产品 id(ios)。结果，我想在与产品 id 向量最相似的前 8 个产品中查看真假（1 或 0）。

谁能给我一个线索，让我知道我应该怎么做才能解决我的问题？

r machine-learning cosine-similarity data-science

2015-12-03T10:02:11.773

0 投票

0 回答

115 浏览

r - 如何编写自己的函数来计算矩阵中每一行的余弦相似度作为语言 R 中给定的 2 个参数？

下面是我的代码。我只能比较 2 个向量，现在我想构建一个函数。

这是我矩阵的一部分，有 266 行和 6 列

我有一个像上面一样的 266 行和 7 列的矩阵。第一列是我的产品 ID，其他列是产品的最终标签。如果我想拥有自己的函数并提供 2 个输入，则一个是确定的标签向量（如 c("HDa","2Pb","2","BxU","BuQ","Bve")）和其他是产品 id(ios)。结果，我想在与产品 id 的向量最相似的前 8 个产品中查看真或假（1 或 0）。如果前 8 个产品包含作为参数给出的产品 id，则为真，否则为假

谁能解释如何解决我的问题？

r machine-learning statistics text-mining data-science

Ozgur Alptekın

2015-12-04T16:26:03.663

0 投票

0 回答

502 浏览

hadoop - 无法将文件上传到cloudera中的hue中的文件浏览器

我是大数据和 hadoop 的新手，我用 hello world 内容制作了一个名为 test 的文件，我想在尝试这个时将它上传到文件浏览器中，它给了我一个错误，提示“找不到数据节点检查集群运行状况”我试过通过在本网站上搜索答案来解决它，我发现问题出在集群“cloudera manger”中，当我尝试打开它时，它给了我一条强烈建议使用 10 Rams 但如果你想强制打开使用的消息命令强制“我的电脑是 6 克内存，下载系统时建议使用 8 克内存总线，我给虚拟机 5.5 克内存，我在使用系统时很灵活，所以有什么问题，怎么办？我强制启动 cloudera 管理器？这是屏幕截图

hadoop bigdata data-science

2015-12-05T16:52:15.697

0 投票

1 回答

220 浏览

machine-learning - 如何在 TensorFlow 中表示线性数据

我正在尝试在 TensorFlow 中对一些类似示波器的数据进行建模——具有持续时间、强度等的线性能量脉冲流——但在其他方面执行非常相似的分类任务，我无法弄清楚如何最好地表示它在 TensorFlow 中。

这些教程是针对图像分类的，框架似乎是围绕 4d 张量构建的，我无法弄清楚如何表示我相对简单的数据。

具体来说，我试图弄清楚以下几点：

1）如果我有一串 100 个脉冲和 4 条关于它们的信息，那相当于 4x100 图像还是 100x4 图像？或者也许是一个 100x1 的图像，有 4 个“通道”？张量如何折叠/展开尚不清楚。

2) 最大池化如何转化为这个低维空间？比如，我如何确保我在脉冲之间汇集而不是仅仅在一个通道内，或者其他一些无意义的模式？如何计算和使用“步幅”没有得到很好的解释。

有没有人尝试在 TensorFlow 中模拟类似的数据？

machine-learning tensorflow data-science

2015-12-07T04:11:42.487

问题标签 [data-science]

python - Python：从二维列表创建频率表

python - 在python中为kmeans查找k

python - python中的文本内容分析器

python - 循环遍历 Pandas Dataframe 以制作虚拟变量（1 或 0 输入）的有效方法

hadoop - cloudera管理器打不开

python - 如何在 TensorFlow 的 MNIST 示例中获得预测的类标签？

r - 如何构建一个计算语言 R 中余弦相似度的函数？

r - 如何编写自己的函数来计算矩阵中每一行的余弦相似度作为语言 R 中给定的 2 个参数？

hadoop - 无法将文件上传到cloudera中的hue中的文件浏览器

machine-learning - 如何在 TensorFlow 中表示线性数据

问题标签 [data-science]

Reference