반응형
범주형 변수는 질적 변수라고도 하며 그 자체로 수학적 의미를 가지지 않기 때문에 처리가 필요하다.
더미변수(One-Hot-Encoding)
더미변수는 범주형 변수의 범주 각각을 열로 변경하고, 원본 컬럼의 값이 해당 범주에 속하는지 여부에 따라 1 혹은 0으로 채운 변수이다.
from sklearn.datasets import load_iris
iris_load = load_iris()
iris = pd.DataFrame(iris_load.data, columns = iris_load.feature_names)
iris['Class'] = load_iris().target
iris['Class'] = iris['Class'].map({0:'Setosa', 1:'Versicolour', 2:'Virginica'})
# iris class는 분류를 위한 target이지만, 예시로써 범주형 변수로 생각하고 사용해보았다.
iris_dummy = pd.get_dummies(iris, columns = ['Class'])
iris_dummy
반응형
'ADP로ML정리' 카테고리의 다른 글
2-5. 데이터 전처리 - 차원축소 (0) | 2024.02.14 |
---|---|
2-4. 데이터 전처리 - 데이터 분할 및 스케일링 (1) | 2024.02.14 |
2-2. 데이터 전처리 - 이상치 처리 (0) | 2024.02.14 |
2-1. 데이터 전처리 - 결측값 처리 (1) | 2024.02.13 |
1. EDA / 시각화 (0) | 2024.01.30 |