Imputation1 2-1. 데이터 전처리 - 결측값 처리 1. 결측값의 종류 Missing completely at random(MCAR) - 완전 무작위 결측 결측값의 발생이 다른 변수와 상관 없는 경우 Mssing at random(MAR) - 무작위 결측 결측값 발생이 특정 변수와 관련 있으나 얻고자 하는 결과와 상관 없는 경우 Not missing at random(NMAR) - 비무작위 결측 결측값 발생이 다른 변수와 상관 있는 경우 2. 결측치 처리 종류 단순 치환, 행제거/열제거 같은 경우 간단해서 코드는 skip 1. 냅두기 - 일부 ML은 결측치를 고려해서 학습해서 파라미터 설정 잘 하면 됨. 2. 행or열 제거 - 특정 열의 결측값이 50%이상이면 변수를 제거 - 50%미만의 경우 제거, 치환, imputation library사용 - 하지.. 2024. 2. 13. 이전 1 다음