1

我有一列有 15000 个数组。请在 15000 条中找到 2 条此类记录的样本。我想为 Genres_relevant 下的值创建假人。

user Genres_relevant    
 1         [2.0]
 2     [3.0,2.0,1.0]

代码:

from sklearn.preprocessing import MultiLabelBinarizer
df=pd.DataFrame(users_list['Genres_relevant'])
mlb = MultiLabelBinarizer()
pd.DataFrame(mlb.fit_transform(df),columns=mlb.classes_, index=df.index)

预期产出

   1.0  2.0  3.0
1   0    1    0
2   1    1    1

错误:传递值的形状是 (12, 1),索引暗示 (12, 15000)

4

1 回答 1

1
pd.DataFrame(mlb.fit_transform(df['Genres_relevant']), columns=mlb.classes_, 
         index=df.index)

拟合时不要传入完整的数据框,而是传入列。

于 2019-04-24T11:45:12.503 回答