get_dummies 是利用pandas实现one hot encode的方式。官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
以以下数据集为例:
1、写入数据
import pandas as pd
from pathlib import Path
# 获取目标文件下的所有文件列表
file_path = Path('/Users/xujun/Desktop/Alice_20201112164834.csv')
df = pd.read_csv(file_path)
print(df)
2、已ICU进行分组生成one hot encode
df_div_group = pd.get_dummies(df, columns=['ICU'], prefix='group')
print(df_div_group)
3、假如是已某两列生成one hot encode
import pandas as pd
df = pd.DataFrame([
['green' , 'A'],
['red' , 'B'],
['blue' , 'A']])
df.columns = ['color', 'group']
print(df)
df = pd.get_dummies(df)
print(df)
4、将指定列进行get_dummies 后合并到元数据中
import pandas as pd
df = pd.DataFrame([
['green' , 'A'],
['red' , 'B'],
['blue' , 'A']])
df.columns = ['color', 'group']
print(df)
df = df.join(pd.get_dummies(df.color))
print(df)
原创文章(本站视频密码:66668888),作者:xujunzju,如若转载,请注明出处:https://zyicu.cn/?p=11722