반응형
머신러닝을 위한 전처리의 기본사항
1. 결측값이 허용되지 않는다
2. 문자열 값을 입력 값으로 허용하지 않는다. (카테고리형, 텍스트형)
원 - 핫 인코딩이란?
원 - 핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식입니다. 피처값이 카테고리형일 경우, 인코딩을 통해 숫자형으로 바꾸어 줄 수 있습니다.
타이타닉 예제 데이터를 통해 알아보겠습니다.
예시를 보기 위해 카테고리 값을 골라내고, 전체 데이터프레임에서 카테고리형과 숫자형 피처가 섞여있을 때 pd.get_dummies()를 적용하면 어떻게 작용하는지 알아보기위해 숫자형 피처도 하나 선정 후 적용시켜 보겠습니다.
숫자형 피처가 섞여있을 경우에도 카테고리형에만 적용되는 것을 알 수 있습니다.
반응형
'AI_basic > ML' 카테고리의 다른 글
[ML] 지도학습/분류 랜덤 포레스트(RandomForest) (0) | 2021.07.23 |
---|---|
[ML] 앙상블 학습의 종류 (0) | 2021.07.22 |
[ML] GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 같이 (0) | 2021.07.21 |
[ML] 지도학습/분류 결정트리 Decision Tree (0) | 2021.07.13 |
[ML] 분류모델의 성능 평가 지표 Part3. F1_score, ROC_curve and AUC (0) | 2021.07.07 |