본문 바로가기
AI_basic/ML

[ML] 비지도학습 / 군집화 / K-means

by hits_gold 2021. 7. 30.
반응형

K-평균은 군집화에서 일반적으로 사용되는 알고리즘입니다. K-평균은 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법입니다.

위 사진처럼 임의의 점에서 가까운 점들을 군집화하고 그 군집의 중심점을 찾아 그 중심점에 가까운 점들을 다시 군집화하는 순서를 거쳐 중심점을 이동했는데 데이터의 중심점 소속 변경이 없어질 때 군집화를 종료합니다.

 

K-평균의 장점

  1. 일반적인 군집화에서 가장 많이 사용된다

  2. 알고리즘이 쉽고 간결하다

K-평균의 단점

  1. 군집화 정확도가 떨어진다. (PCA적용)

  2. 반복횟수가 많을 경우 수행시간이 느리다.

  3. 군집 개수 설정을 가이드하기 어렵다.

 

사이킷런 K-평균 주요 파라미터

    1. n_cluster : 군집의 개수, 즉 군집 중심점의 개수를 의미합니다.

    2. init : 초기 군집 중심점 좌표를 설정할 방식을 의미합니다. 보통 k_means++방식으로 최초 설정합니다.

    3. max_iter : 최대 반복 횟수이며, 이 횟수 이전에 중심점 이동이 없으면 종료합니다.

 

사이킷런 K_평균 주요 속성

    1. labels_ : 군집 중심점 레이블

    2. cluster_centers : 각 군집 중심점의 좌표

 

 

K-평균 예제

 

붓꽃 품종데이터를 준비합니다.

 

 

3개의 군집 중심점(군집 개수), k-means++로 초기 중심점 좌표설정, 최대 반복 횟수 300으로 설정해주었고, labels_ 속성을 통해 군집 레이블을 도출하였습니다.

 

pca를 사용하여 두 개의 피쳐를 만들고, 이 속성에 따라 군집화가 잘 되었나 확인해보겠습니다.

 

 

 

반응형