“probability-distribution”的相关标签问题

0 投票

2 回答

205 浏览

python - 如何以编程方式获取 scipy 中的参数名称和值

有没有办法获得分布的参数？我知道几乎每个发行版都有“loc”和“scale”，但它们之间存在差异，例如 alpha 有“a”，beta 有“a”、“b”。

我想做的是以编程方式打印（在拟合分布后）参数、值的键值对。

但我不想为每个可能的分发编写打印例程。

2017-11-23T07:42:02.777

0 投票

1 回答

1410 浏览

neural-network - 如何在多类分类任务中校准神经网络输出层的阈值？

假设我们有一个包含 3 个类的多类分类任务：

{芝士蛋糕、冰淇淋、苹果派}

鉴于我们有一个训练有素的神经网络，可以对随机厨师更喜欢的三种甜点中的哪一种进行分类。另外，假设输出层由 3 个激活了 softmax 的神经元组成，每个神经元代表喜欢相应甜点的概率。

例如，这种网络的可能输出可能是：

输出(chef_1) = { P(芝士蛋糕) = 0.3; P（冰淇淋）= 0.1；P(苹果派) = 0.6; }

输出(chef_2) = { P(芝士蛋糕) = 0.2; P（冰淇淋）= 0.1；P(苹果派) = 0.7; }

输出（厨师_3）= { P（芝士蛋糕）= 0.1；P（冰淇淋）= 0.1；P(苹果派) = 0.8; }

在这种情况下，所有实例（chef_1、chef_2 和 chef_3）都可能更喜欢 Apple Pie，但信心不同（例如，chef_3 比 chef_1 更喜欢 Apple Pie，因为网络概率输出分别为 0.8 和 0.6）

假设我们有一个包含 1000 位厨师的新数据集，并且我们想要计算他们最喜欢的甜点的分布，我们只需对 1000 位厨师中的每一位进行分类，并根据最大概率的神经元确定他最喜欢的甜点。

我们还希望通过丢弃最大预测概率低于 0.6 的厨师来提高预测准确性。让我们假设 1000 人中有 200 人以这样的概率被预测，我们将它们丢弃。

在这种情况下，如果一种甜点比另一种更容易预测，我们可能会偏向 800 位厨师（预测的概率高于 0.6）的分布。

例如，如果类的平均预测概率是：

平均P（芝士蛋糕）= 0.9

平均 P（冰淇淋）= 0.5

平均P（苹果派）= 0.8

并且我们丢弃了预测概率低于 0.6 的厨师，在被丢弃的 200 位厨师中，可能有更多的厨师更喜欢冰淇淋，这将导致其他 800 位厨师的分布有偏差。

在这个很长的介绍之后（我很高兴你还在阅读），我的问题是：

我们是否需要为每个班级设置不同的阈值？（例如，在 Cheesecake 预测中丢弃概率低于 X 的实例，在 Ice Cream 预测中丢弃概率低于 Y 的实例，以及在 Apple Pie 预测中丢弃概率低于 Z 的实例）。
如果是，我如何在不影响我的 1000 个厨师数据集的整体分布的情况下校准阈值（即丢弃低概率预测以提高准确性，同时保留原始数据集的分布）。

我尝试使用每个类别的平均预测概率作为阈值，但我不能保证它不会影响分布（因为这些阈值可能会过度拟合测试集而不是 1000 名厨师数据集）。

2017-11-29T13:03:57.773

0 投票

1 回答

78 浏览

performance - 如何生成随机“足够”的随机整数？

我正在尝试解决 Project Euler 中的第280 个问题，为此我编写了以下模拟；

并将输出重定向到 *.txt 文件，并使用以下倍频程代码找到步数的预期值；

但是，即使我两次运行完全相同的代码，我也会得到不同的结果，正如您从上面的结果中看到的那样。（请注意，我已经尝试使用不同的 srand(..) 输入，原因我将解释） .

我认为这样做的原因是因为我如何为蚂蚁的随机方向生成一个介于 1-4 之间的随机整数，因为据我所知，这个实验的概率分布应该是相同的，只要我重复实验大量时间（在这种特殊情况下为 5000000 次）。

所以我的第一个问题是我如何生成随机整数的方法真的有问题吗？如果是这样，我们如何克服这个问题，我的意思是我们如何生成足够随机的整数，以便当我们多次重复相同的实验时，它们之间的期望值小于我得到的这些结果？

performance random probability probability-density probability-distribution

2017-12-01T10:19:36.520

0 投票

1 回答

249 浏览

java-8 - 使用java 8的文件中两个单词的概率分布

我需要包含两个单词的行数。为此我编写了以下代码：输入文件包含1000 lines和 about 4,000 words，大约需要 4 个小时。有没有图书馆Java可以更快地做到这一点？我可以使用Appache Lucene或Stanford Core NLP减少运行时间来实现此代码吗？

java-8 lucene stanford-nlp probability-distribution

2017-12-13T07:24:44.310

0 投票

3 回答

1391 浏览