반응형
언더 샘플링과 오버 샘플링
언더샘플링
- 많은 레이블을 가진 데이터 세트를 적은 레이블을 가진 데이터 세트 수준으로 감소시킴
오버샘플링
- 적은 레이블을 가진 데이터 세트를 많은 레이블을 가진 데이터 세트 수준으로 증식시킴
* 오버 샘플링 방식이 예측 성능상 더 유리한 경우가 많아 주로 사용됨
SMOTE(Synthetic Minority Over-sampling Technique)
SMOTE은 적은 데이터 세트에 있는 개별 데이터들의 K 최근접 이웃을 찾아서 이 데이터와 K개의 이웃들의 차이를 일정 값으로 만들어서 기존 데이터와 약간 차이가 나는 새로운 데이터들을 생성하는 방식입니다.
SMOTE을 구현한 대표적인 파이썬 패키지인 imbalanced-learn은 아나콘다 프롬프트를 관리자 권한으로 실행하고 위와 같은 명령어를 입력하면 자동으로 설치를 진행합니다.
캐글 신용카드 사기 검출 데이터로 오버 샘플링 해보기
학습 데이터와 테스트 데이터를 나누었을 때
결정 레이블 비율이 위와 같이 불균형하게 나왔습니다.
SMOTE 패키지 적용 결과, 더 많은 수를 가진 결정 레이블의 수에 적은 레이블 수가 증식되어 1:1비율로 오버 샘플링되었습니다.
반응형
'AI_basic > ML' 카테고리의 다른 글
[ML] 지도학습/회귀 회귀 평가 지표 Part.1 (0) | 2021.09.24 |
---|---|
[ML] 비지도학습 / 군집화 / K-means (0) | 2021.07.30 |
[ML] 지도학습/분류 GBM(Gradient Boosting Machine) (0) | 2021.07.23 |
[ML] 지도학습/분류 랜덤 포레스트(RandomForest) (0) | 2021.07.23 |
[ML] 앙상블 학습의 종류 (0) | 2021.07.22 |