python - 如何处理stan中的缺失数据？

Question

我是 stan 的新手，我正在实施概率矩阵分解模型。

给定一个用户项目评分矩阵：

                       item
 user     1    3   NA   4     5    NA
          2    0    3   NA    1     5
          1    1    NA  NA    NA    0
          ....

我应该如何表示块中的可观察数据和data块中用于预测的缺失数据parameter？

先感谢您！

编辑：

现在我正在实现如下模型：

pmf_code = """
data {

int<lower=0> K; //number of factors
int<lower=0> N; //number of user
int<lower=0> M; //number of item
int<lower=0> D; //number of observation
int<lower=0> D_new; //number of pridictor 
int<lower=0, upper=N> ii[D]; //item 
int<lower=0, upper=M> jj[D]; //user
int<lower=0, upper=N> ii_new[D_new]; // item
int<lower=0, upper=N> jj_new[D_new]; // user
real<lower=0, upper=5> r[D]; //rating
real<lower=0, upper=5> r_new[D_new]; //pridict rating

}

parameters {
row_vector[K] i[M]; // item profile
row_vector[K] u[N]; // user profile
real<lower=0> alpha;
real<lower=0> alpha_i;
real<lower=0> alpha_u;

}
transformed parameters {
matrix[N,M] I; // indicator variable
I <- rep_matrix(0, N, M);
for (d in 1:D){
    I[ii[d]][jj[d]] <- 1;
}
}
model {
for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

for (n in 1: N){
    u[n] ~ normal(0,(1/alpha_u) * I);
}
for (m in 1:M){
    i[m] ~ normal(0,(1/alpha_i) * I);
}
}
generated_quantities{
for (d in 1:D_new){
    r_new[d] <- normal(u[jj_new[d]]' * i[ii_new[d]], 1/alpha);
}
}
"""

但No matches for: real ~ normal(matrix, real)在这行代码中出现错误：

for (d in 1:D){
    r[d] ~ normal(u[jj[d]]' * i[ii[d]], 1/alpha);
}

但是jj[d]应该是一个整数，表示的 id user。并且 u[ int] 应该是一个row_vectorhask因子，所以i[ii[d]]. 他们的产品应该是一个单一的真实价值，为什么斯坦说它是一个matrix？

score 8 · Accepted Answer

Stan 手册中有一章介绍了如何处理丢失或稀疏的数据。在这种情况下，它缺少数据。你想要做的是把它放在长形式（R的重塑包称为融化形式）：

  int<lower=0> I;               // number of items
  int<lower=0> J;               // number of users
  int N;                        // number of observations
  int<lower=1, upper=I> ii[N];  // item 
  int<lower=1, upper=J> jj[N];  // user
  int<lower=0, upper=5> y[N];   // rating

然后，对于每个观察n，您都有用户jj[n]将评级分配y[n]给 item ii[n]。

手册回归部分的 IRT 模型中有一个示例。但是你有一个序数结果，这有点棘手。你可以做某种直接的序数逻辑，可能是分层的，或者你可以尝试做一个因子模型之类的东西（比如每个人都用于 Netflix 的部分 SVD）。手册中还有因子模型的示例 --- 您可以使用这些模型为序数回归生成线性预测器。

然后，如果您想预测item和 usery[m]的一些新组合，您可以在生成的数量块中将其作为后验预测量。你可以通过抽样或期望来做到这一点；在潜在离散参数一章的变化点模型和关于预测的回归一章中有一个例子。ij

score 1 · Accepted Answer

Stan 既没有缺失的数据符号，也没有估计离散未知数的能力，所以你提出的建议几乎是不可能的，也不是学习 Stan 的一个很好的切入点。这在 Stan 用户手册中有说明。

原则上，您可以传入非缺失数据和一个二维整数数组，如果某个用户缺少该项目，则该数组为 0，如果该用户观察到该项目，则该数组为 1。然后你需要为每个用户和项目声明一个潜在效用，如果观察到数据点，将它们限制在正确的两个切点之间，并调整你用来获得潜在效用的转换的导数的绝对值切点。如果数据点丢失，则相应的潜在效用不受约束。这本质上是 Gibbs 采样器使用的数据增强方法，尽管 Stan 不是 Gibbs 采样器。然后，您为潜在实用程序指定您的模型（将错误的规模限制为 1）并希望获得最好的结果。很可能会有很多不同的过渡，adapt_delta非常接近 1 来消除它们。

我们最接近这种方法的例子是多元概率模型，但这是针对二元结果的更简单情况。

python - 如何处理stan中的缺失数据？

2 回答 2

Related

Reference