주성분 분석1 2-5. 데이터 전처리 - 차원축소 보통 데이터셋은 여러 개의 설명변수를 가지고 있다. 데이터셋의 크기가 충분히 클 때 변수의 증가는 새로운 패턴을 발견하며 데이터셋을 더 정밀하게 설명할 수 있는 수단이 된다. 하지만 설명변수가 많아질 수록 좋은 것은 아니다. 오히려 알고리즘의 성능이 저하되는 현상이 생길 수 있다. 이러한 현상을 차원의 저주라고 한다. 차원의 저주 각 데이터(행)을 설명하는 변수가 늘어날 수록, 데이터 간의 거리가 멀어져 각 차원 별로 같은 영역의 자료를 갖고 있지만 전체 영역에서 설명할 수 있는 데이터의 비율은 즐어드는 'Sparsity'현상이 발생한다. 위 그림에서 오른쪽으로 갈 수록 차원이 하나씩 더 늘어난다. 각 차원축이 설명변수이므로, 차원이 늘어날 수록 데이터 간의 거리가 벌어지고 빈 공간이 증가한다. 이렇게 .. 2024. 2. 14. 이전 1 다음