본문 바로가기

SMOTE2

2-6. 데이터 전처리 - 데이터 불균형 문제 해결 분류 문제에 있어서 데이터에 불균형이 있다면 소수의 이상 데이터를 분류해내는 문제에서 정확도를 높이기 쉽지 않다. 이 때 소수의 범주 데이터의 수를 늘리는 오버샘플링과 상대적으로 많은 데이터의 일부만 사용하는 언더 샘플링을 사용해 보완할 수 있다. 1. 언더 샘플링 언더 샘플링을 사용하면 데이터 불균형으로 인한 문제는 피할 수 있지만 전체 데이터의 수가 줄어들어 학습 성능을 떨어뜨릴 수 있다. ## RandomUnderSampling import numpy as np import pandas as pd from sklearn.datasets import make_classification from collections import Counter from imblearn.under_sampling impo.. 2024. 2. 15.
[ML] 데이터 전처리 - SMOTE 오버 샘플링 언더 샘플링과 오버 샘플링 언더샘플링 - 많은 레이블을 가진 데이터 세트를 적은 레이블을 가진 데이터 세트 수준으로 감소시킴 오버샘플링 - 적은 레이블을 가진 데이터 세트를 많은 레이블을 가진 데이터 세트 수준으로 증식시킴 * 오버 샘플링 방식이 예측 성능상 더 유리한 경우가 많아 주로 사용됨 SMOTE(Synthetic Minority Over-sampling Technique) SMOTE은 적은 데이터 세트에 있는 개별 데이터들의 K 최근접 이웃을 찾아서 이 데이터와 K개의 이웃들의 차이를 일정 값으로 만들어서 기존 데이터와 약간 차이가 나는 새로운 데이터들을 생성하는 방식입니다. SMOTE을 구현한 대표적인 파이썬 패키지인 imbalanced-learn은 아나콘다 프롬프트를 관리자 권한으로 실행하고.. 2021. 7. 24.