c++ - C++ 中 numpy.random.choice 的等效函数

Question

我需要您的帮助来解决以下问题：

c++/opencv 中是否有等效于以下代码的函数：

np.random.choice(len(vec), samples, p=probabilities[:,0], replace=True)

提前致谢。

score 8 · Accepted Answer

好吧，让我们看看：（numpy.random.choice(a, size=None, replace=True, p=None) 看我的评论，我猜你混淆了一些函数的参数。）

对于输入a，您使用的是一组样本。作为您想要的输出大小len(vec)，您希望进行替换采样并具有自定义的非均匀分布。

首先使用随机分布生成索引数组，然后使用索引数组生成选定元素的数组可能就足够了。

C++ 提供了生成非均匀分布数的帮助，是std::discrete_distribution

例子：

#include <random>
#include <vector>
#include <algorithm>
#include <iostream>

int main()
{
    auto const samples = { 1, 2, 3, 4, 5, 6 }; // deducts to std::initializer_list<int>
    auto const probabilities = { 0.1, 0.2, 0.1, 0.5, 0.0, 1.0 }; // deducts to std::initializer_list<double>
    if (samples.size() < probabilities.size()) {
        std::cerr << "If there are more probabilities then samples, you will get out-of-bounds indices = UB!\n";
        return -1;
    }

    // generate non-uniform distribution (default result_type is int)
    std::discrete_distribution const distribution{probabilities};
    // note, for std::vector or std::array of probabilities, use
    // std::discrete_distribution distribution(cbegin(probabilities), cend(probabilities));

    int const outputSize = 10;

    std::vector<decltype(distribution)::result_type> indices;
    indices.reserve(outputSize); // reserve to prevent reallocation
    // use a generator lambda to draw random indices based on distribution
    std::generate_n(back_inserter(indices), outputSize,
        [distribution = std::move(distribution), // could also capture by reference (&) or construct in the capture list
         generator = std::default_random_engine{}  //pseudo random. Fixed seed! Always same output.
        ]() mutable { // mutable required for generator
            return distribution(generator);
        });

    std::cout << "Indices: ";
    for(auto const index : indices) std::cout << index << " ";
    std::cout << '\n';

    // just a trick to get the underlying type of samples. Works for std::initializer list, std::vector and std::array
    std::vector<decltype(samples)::value_type> output;
    output.reserve(outputSize); // reserve to prevent reallocation
    std::transform(cbegin(indices), cend(indices),
        back_inserter(output),
        [&samples](auto const index) {
            return *std::next(cbegin(samples), index);
            // note, for std::vector or std::array of samples, you can use
            // return samples[index];
        });

    std::cout << "Output samples: ";
    for(auto const sample : output) std::cout << sample << " ";
    std::cout << '\n';
}

在godbolt.org上

编辑：链接似乎建议执行带替换的std::default_random_engine采样。

score 4 · Accepted Answer

似乎您正在寻找从离散随机分布中采样

该页面上的示例相当具有示范性：

// discrete_distribution
#include <iostream>
#include <random>

int main()
{
  const int nrolls = 10000; // number of experiments
  const int nstars = 100;   // maximum number of stars to distribute

  std::default_random_engine generator;
  std::discrete_distribution<int> distribution {2,2,1,1,2,2,1,1,2,2};

  int p[10]={};

  for (int i=0; i<nrolls; ++i) {
    int number = distribution(generator);
    ++p[number];
  }

  std::cout << "a discrete_distribution:" << std::endl;
  for (int i=0; i<10; ++i)
    std::cout << i << ": " << std::string(p[i]*nstars/nrolls,'*') << std::endl;

  return 0;
}

score 2 · Accepted Answer

我不认为有一个功能可以免费为您提供。你可能需要自己写。

关于如何编写这样一个函数的一些提示：

让我们说你有一个vector<float>存储你的概率。首先使用std::partial_sum这个向量来获得元素的累积概率。
然后，对于每个样本，生成一个介于 0 和 1 之间的随机浮点数。我们称之为random_value。迭代累积概率向量，直到找到大于的值random_value。此时的索引是您的示例索引。获取向量中此索引处的值samples，将其存储在某处并重复。

c++ - C++ 中 numpy.random.choice 的等效函数

3 回答 3

Related

Reference