问题标签 [probability-distribution]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
205 浏览

python - 如何以编程方式获取 scipy 中的参数名称和值

有没有办法获得分布的参数?我知道几乎每个发行版都有“loc”和“scale”,但它们之间存在差异,例如 alpha 有“a”,beta 有“a”、“b”。

我想做的是以编程方式打印(在拟合分布后)参数、值的键值对。

但我不想为每个可能的分发编写打印例程。

0 投票
1 回答
1410 浏览

neural-network - 如何在多类分类任务中校准神经网络输出层的阈值?

假设我们有一个包含 3 个类的多类分类任务

{芝士蛋糕、冰淇淋、苹果派}

鉴于我们有一个训练有素的神经网络,可以对随机厨师更喜欢的三种甜点中的哪一种进行分类。另外,假设输出层由 3 个激活了 softmax 的神经元组成,每个神经元代表喜欢相应甜点的概率

例如,这种网络的可能输出可能是:

输出(chef_1) = { P(芝士蛋糕) = 0.3; P(冰淇淋)= 0.1;P(苹果派) = 0.6; }

输出(chef_2) = { P(芝士蛋糕) = 0.2; P(冰淇淋)= 0.1;P(苹果派) = 0.7; }

输出(厨师_3)= { P(芝士蛋糕)= 0.1;P(冰淇淋)= 0.1;P(苹果派) = 0.8; }

在这种情况下,所有实例(chef_1、chef_2 和 chef_3)都可能更喜欢 Apple Pie,但信心不同(例如,chef_3 比 chef_1 更喜欢 Apple Pie,因为网络概率输出分别为 0.8 和 0.6)

假设我们有一个包含 1000 位厨师的新数据集,并且我们想要计算他们最喜欢的甜点的分布,我们只需对 1000 位厨师中的每一位进行分类,并根据最大概率的神经元确定他最喜欢的甜点。

我们还希望通过丢弃最大预测概率低于 0.6 的厨师来提高预测准确性。让我们假设 1000 人中有 200 人以这样的概率被预测,我们将它们丢弃。

在这种情况下,如果一种甜点比另一种更容易预测,我们可能会偏向 800 位厨师(预测的概率高于 0.6)的分布。

例如,如果类的平均预测概率是:

平均P(芝士蛋糕)= 0.9

平均 P(冰淇淋)= 0.5

平均P(苹果派)= 0.8

并且我们丢弃了预测概率低于 0.6 的厨师,在被丢弃的 200 位厨师中,可能有更多的厨师更喜欢冰淇淋,这将导致其他 800 位厨师的分布有偏差。

在这个很长的介绍之后(我很高兴你还在阅读),我的问题是:

  1. 我们是否需要为每个班级设置不同的阈值?(例如,在 Cheesecake 预测中丢弃概率低于 X 的实例,在 Ice Cream 预测中丢弃概率低于 Y 的实例,以及在 Apple Pie 预测中丢弃概率低于 Z 的实例)。

  2. 如果是,我如何在不影响我的 1000 个厨师数据集的整体分布的情况下校准阈值(即丢弃低概率预测以提高准确性,同时保留原始数据集的分布)。

我尝试使用每个类别的平均预测概率作为阈值,但我不能保证它不会影响分布(因为这些阈值可能会过度拟合测试集而不是 1000 名厨师数据集)。

有什么建议或相关论文吗?

0 投票
1 回答
78 浏览

performance - 如何生成随机“足够”的随机整数?

我正在尝试解决 Project Euler 中的第280 个问题,为此我编写了以下模拟;

并将输出重定向到 *.txt 文件,并使用以下倍频程代码找到步数的预期值;

但是,即使我两次运行完全相同的代码,我也会得到不同的结果,正如您从上面的结果中看到的那样。(请注意,我已经尝试使用不同的 srand(..) 输入,原因我将解释) .

我认为这样做的原因是因为我如何为蚂蚁的随机方向生成一个介于 1-4 之间的随机整数,因为据我所知,这个实验的概率分布应该是相同的,只要我重复实验大量时间(在这种特殊情况下为 5000000 次)。

所以我的第一个问题是我如何生成随机整数的方法真的有问题吗?如果是这样,我们如何克服这个问题,我的意思是我们如何生成足够随机的整数,以便当我们多次重复相同的实验时,它们之间的期望值小于我得到的这些结果?

0 投票
1 回答
249 浏览

java-8 - 使用java 8的文件中两个单词的概率分布

我需要包含两个单词的行数。为此我编写了以下代码: 输入文件包含1000 lines和 about 4,000 words,大约需要 4 个小时。有没有图书馆Java可以更快地做到这一点?我可以使用Appache LuceneStanford Core NLP减少运行时间来实现此代码吗?

0 投票
3 回答
1391 浏览

matlab - Matlab:从定制的概率密度函数生成随机数

我有一个数据集,其中包含 1977-1983 年 1 月份的 3 小时降水量(见附件)。但是,我想根据这些数据生成 1984-1990 年期间的降水数据。因此,我想知道是否可以创建一个自定义的降水量概率密度函数(1977-1983),并由此生成所需时期(1984-1990)的随机数(降水数据)。

这在 Matlab 中是否可行,有人可以帮助我吗?

提前致谢!

点击查看数据示例

0 投票
2 回答
126 浏览

r - 如何在 R 的 GEV 分布中找到给定值的累积概率?

我已将我的数据拟合到 GEV 分布,我想知道如何找到 P(x<=40) 的概率。谢谢你的帮助。

0 投票
2 回答
11789 浏览

python - 如何使用python将对数概率转换为0到1值之间的简单概率

我正在使用高斯混合模型进行说话人识别。我使用此代码来预测每个语音剪辑的扬声器。

它给了我这样的输出:

这里的分数函数给了我每个说话者的对数概率。现在我想确定阈值,因为我需要将这些对数概率值转换为简单的概率值(在 0 到 1 之间)。我怎样才能做到这一点?我正在使用python软件。

0 投票
1 回答
2338 浏览

r - dnorm 是如何工作的?

我对统计和 R 非常陌生。也许这是一个非常微不足道的问题,但我并不真正了解它是如何工作的。

假设我使用dnorm(5, 0, 2.5). 这意味着什么?

我看到一些资源,他们告诉这个函数计算密度曲线中点的高度。

现在我又读到一个数字在连续分布中的确切概率为 0。所以,我的问题是,如果我能找出某个值的高度或概率,那它怎么会是 0?

我知道我混淆了一些概念。但我无法找到我错在哪里。如果您能抽出时间让我理解这一点,那就太好了。提前致谢。

0 投票
2 回答
406 浏览

bayesian - 为 DNA 比对序列创建序列徽标

如何为对齐的 DNA 序列创建序列徽标?对于 Kevin Murphy 书中的给定序列(第 2 章,图 2.5),我正在使用这个wiki_link导出徽标,但没有得到预期的结果。

DNA序列:

  1. atagccggtacggca
  2. ttagctgcaaccgca
  3. tcagccactagagca
  4. ataaccgcgaccgca
  5. ttagccgctaaggta
  6. taagcctcgtacgta
  7. ttagccgttacggcc
  8. attccggtacagta
  9. atagcaggtaccgaa
  10. acatccgtgacggaa
0 投票
1 回答
848 浏览

python - 带有 csv 文件的正态分布 PDF R 和 Python

此代码在 R .... 我知道我们只使用列 2:3 。所以我理解代码,这是我的情节。

在此处输入图像描述

现在我用 Python 做了,我知道有很多库可以用于 pdf,我做到了

我的做法很糟糕,我知道。我真的提高了我在 python 方面的技能。

............

在此处输入图像描述

这部分只是 R 代码的前 5 行:/。所以现在,我使用了 pdf 的库并让我成为了一个 norm-pdf 来比较两者。………………

这是这段代码的图表(norm-pdf) 在此处输入图像描述

所以我尝试做的就像R中的第一张图一样。或者它不能用于R中的定义pdf是Python中的库吗?!