按照此处的 scikit-learn 教程,如果我们有一个Pandas.DataFrame名为 的列colors,我们如何创建一个循环来遍历 DataFrame 的所有列(或包含所需列的列表),以便所有分类变量(例如变量colors可以有值blue, red, purple) 将被len(colors)虚拟变量列数colors#blue, colors#red, colors#purple?
刚刚学了python,所以我会用一些伪代码来写我的想法。
尝试(伪代码)
cols_to_process = ['colors']
# Create new columns for dummy variables
// if listings.keyname in cols_to_process:
// unique_values = list of unique values in listings[col]
// listings = listings.join(unique_values, axis=1)
# Populate dummy variable columns
# Remove old columns that have dummy variable columns created