범주형변수
-
8. 판다스를 활용한 원핫인코딩(One hot encoding)Data & ML & AI/Pandas & Scikit-Learn 2022. 6. 10. 01:14
기본적으로 모델학습에 범주형 변수를 활용하기 위해서는 수치화 하는 과정이 필요합니다. 가장 쉬운 방법은 미국=1, ... 일본=81, 한국=82...와 같은 방식으로 코드를 부여하는 것입니다. 하지만 당연하게도 이 수치를 그대로 활용하면 문제가 발생할 수 밖에 없습니다. (미국 + 일본 = 한국)이 되어버리는건 너무나도 이상하죠. 이를 가장 손쉽게 해결하는 방법은 원핫인코딩(one-hot-encoding)입니다. 통계적인 관점에서는 더미변수(dummy variable)를 생성하는 것입니다. sklearn의 데이터셋인 house_prices 데이터셋의 일부를 활용해 실습해보겠습니다. import pandas as pd from sklearn.datasets import fetch_openml housing..