[ML] 데이터 전처리 - SMOTE 오버 샘플링

AI_basic/ML

hits_gold 2021. 7. 24. 15:05

언더샘플링

- 많은 레이블을 가진 데이터 세트를 적은 레이블을 가진 데이터 세트 수준으로 감소시킴

오버샘플링

- 적은 레이블을 가진 데이터 세트를 많은 레이블을 가진 데이터 세트 수준으로 증식시킴

* 오버 샘플링 방식이 예측 성능상 더 유리한 경우가 많아 주로 사용됨

SMOTE은 적은 데이터 세트에 있는 개별 데이터들의 K 최근접 이웃을 찾아서 이 데이터와 K개의 이웃들의 차이를 일정 값으로 만들어서 기존 데이터와 약간 차이가 나는 새로운 데이터들을 생성하는 방식입니다.

SMOTE을 구현한 대표적인 파이썬 패키지인 imbalanced-learn은 아나콘다 프롬프트를 관리자 권한으로 실행하고 위와 같은 명령어를 입력하면 자동으로 설치를 진행합니다.

학습 데이터와 테스트 데이터를 나누었을 때

결정 레이블 비율이 위와 같이 불균형하게 나왔습니다.

SMOTE 패키지 적용 결과, 더 많은 수를 가진 결정 레이블의 수에 적은 레이블 수가 증식되어 1:1비율로 오버 샘플링되었습니다.