본문 바로가기
ADP로ML정리

2-3. 데이터 전처리 - 범주형 변수 처리

by hits_gold 2024. 2. 14.
반응형

 범주형 변수는 질적 변수라고도 하며 그 자체로 수학적 의미를 가지지 않기 때문에 처리가 필요하다.

 

더미변수(One-Hot-Encoding)

 더미변수는 범주형 변수의 범주 각각을 열로 변경하고, 원본 컬럼의 값이 해당 범주에 속하는지 여부에 따라 1 혹은 0으로 채운 변수이다.

from sklearn.datasets import load_iris
iris_load = load_iris()
iris = pd.DataFrame(iris_load.data, columns = iris_load.feature_names)
iris['Class'] = load_iris().target
iris['Class'] = iris['Class'].map({0:'Setosa', 1:'Versicolour', 2:'Virginica'})

# iris class는 분류를 위한 target이지만, 예시로써 범주형 변수로 생각하고 사용해보았다.

iris_dummy = pd.get_dummies(iris, columns = ['Class'])
iris_dummy

반응형