Undersampling1 2-6. 데이터 전처리 - 데이터 불균형 문제 해결 분류 문제에 있어서 데이터에 불균형이 있다면 소수의 이상 데이터를 분류해내는 문제에서 정확도를 높이기 쉽지 않다. 이 때 소수의 범주 데이터의 수를 늘리는 오버샘플링과 상대적으로 많은 데이터의 일부만 사용하는 언더 샘플링을 사용해 보완할 수 있다. 1. 언더 샘플링 언더 샘플링을 사용하면 데이터 불균형으로 인한 문제는 피할 수 있지만 전체 데이터의 수가 줄어들어 학습 성능을 떨어뜨릴 수 있다. ## RandomUnderSampling import numpy as np import pandas as pd from sklearn.datasets import make_classification from collections import Counter from imblearn.under_sampling impo.. 2024. 2. 15. 이전 1 다음