본문 바로가기
AI_basic/ML

[ML] 데이터 전처리 - 원-핫 인코딩(pd.get_dummies)

by hits_gold 2021. 7. 21.
반응형

머신러닝을 위한 전처리의 기본사항

  1. 결측값이 허용되지 않는다

  2. 문자열 값을 입력 값으로 허용하지 않는다. (카테고리형, 텍스트형)

 

 

원 - 핫 인코딩이란?

  원 - 핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식입니다. 피처값이 카테고리형일 경우, 인코딩을 통해 숫자형으로 바꾸어 줄 수 있습니다.

 

타이타닉 예제 데이터를 통해 알아보겠습니다.

예시를 보기 위해 카테고리 값을 골라내고, 전체 데이터프레임에서 카테고리형과 숫자형 피처가 섞여있을 때 pd.get_dummies()를 적용하면 어떻게 작용하는지 알아보기위해 숫자형 피처도 하나 선정 후 적용시켜 보겠습니다.

 

숫자형 피처가 섞여있을 경우에도 카테고리형에만 적용되는 것을 알 수 있습니다.

반응형