본문 바로가기

ADP로ML정리12

2-2. 데이터 전처리 - 이상치 처리 이상치는 측정의 변동성이나 실험의 오류, 측정 장비의 이상 등의 이유로 발생할 수 있다. 결측값을 대체했을 때의 값이 이상치로 확인될 수 있기 때문에 결측값 처리 이후 이상치에 대한 처리를 진행한다.(이상치를 결측값으로 만든 후, 다른 결측값들과 같이 처리하는 방법도 있다) IQR IQR은 Box Plot의 이상치 결정 방법을 그대로 사용하는 것인데, 3분위수를 Q3, 1분위수를 Q1이라 할 때 Q3-Q1를 IQR이라고 하고, Q3 + 1.5*IQR보다 크거나 Q1 - 1.5*IQR보다 작을 때 이상치로 간주한다. 여기서 IQR에 곱해지는 상수(1.5)는 조절해서 쓴다(나는) import pandas as pd import numpy as np from sklearn.datasets import load.. 2024. 2. 14.
2-1. 데이터 전처리 - 결측값 처리 1. 결측값의 종류 Missing completely at random(MCAR) - 완전 무작위 결측 결측값의 발생이 다른 변수와 상관 없는 경우 Mssing at random(MAR) - 무작위 결측 결측값 발생이 특정 변수와 관련 있으나 얻고자 하는 결과와 상관 없는 경우 Not missing at random(NMAR) - 비무작위 결측 결측값 발생이 다른 변수와 상관 있는 경우 2. 결측치 처리 종류 단순 치환, 행제거/열제거 같은 경우 간단해서 코드는 skip 1. 냅두기 - 일부 ML은 결측치를 고려해서 학습해서 파라미터 설정 잘 하면 됨. 2. 행or열 제거 - 특정 열의 결측값이 50%이상이면 변수를 제거 - 50%미만의 경우 제거, 치환, imputation library사용 - 하지.. 2024. 2. 13.
1. EDA / 시각화 EDA(Exploratory Data Analysis, 탐색적 데이터 분석)이란, 모델링에 앞서 데이터를 살피는 모든 과정을 의미한다. EDA는 데이터 분석의 가장 첫 번째 단계로, 다음과 같은 일을 진행한다. 데이터의 특징과 데이터에 내재된 관계를 알아내기 위해 그래프와 통계적 분석 방법을 활용해 데이터를 탐구한다. 분석하고자 하는 자료들의 유형과 범위, 수준을 확인하고 단독/여러 변수를 사용해 그 분포와 의미를 고찰한다. 분석 목적을 달성하기 위한 알고리즘을 결정하기 전 데이터를 전처리하는 방법과 적합한 알고리즘을 결정하기 위한 자료로 사용된다. 또한, 다음과 같은 네 가지 주제로 구분된다. 저항성의 강조 : 이상치 등 부분적 변동에 대한 민감성 확인 잔차 계산 : 관찰 값들이 주 경향에서 벗어난 정.. 2024. 1. 30.