K-평균은 군집화에서 일반적으로 사용되는 알고리즘입니다. K-평균은 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법입니다.
위 사진처럼 임의의 점에서 가까운 점들을 군집화하고 그 군집의 중심점을 찾아 그 중심점에 가까운 점들을 다시 군집화하는 순서를 거쳐 중심점을 이동했는데 데이터의 중심점 소속 변경이 없어질 때 군집화를 종료합니다.
K-평균의 장점
1. 일반적인 군집화에서 가장 많이 사용된다
2. 알고리즘이 쉽고 간결하다
K-평균의 단점
1. 군집화 정확도가 떨어진다. (PCA적용)
2. 반복횟수가 많을 경우 수행시간이 느리다.
3. 군집 개수 설정을 가이드하기 어렵다.
사이킷런 K-평균 주요 파라미터
1. n_cluster : 군집의 개수, 즉 군집 중심점의 개수를 의미합니다.
2. init : 초기 군집 중심점 좌표를 설정할 방식을 의미합니다. 보통 k_means++방식으로 최초 설정합니다.
3. max_iter : 최대 반복 횟수이며, 이 횟수 이전에 중심점 이동이 없으면 종료합니다.
사이킷런 K_평균 주요 속성
1. labels_ : 군집 중심점 레이블
2. cluster_centers : 각 군집 중심점의 좌표
K-평균 예제
붓꽃 품종데이터를 준비합니다.
3개의 군집 중심점(군집 개수), k-means++로 초기 중심점 좌표설정, 최대 반복 횟수 300으로 설정해주었고, labels_ 속성을 통해 군집 레이블을 도출하였습니다.
pca를 사용하여 두 개의 피쳐를 만들고, 이 속성에 따라 군집화가 잘 되었나 확인해보겠습니다.
'AI_basic > ML' 카테고리의 다른 글
[ML] 지도학습/회귀 회귀 평가 지표 Part.2 (0) | 2021.09.24 |
---|---|
[ML] 지도학습/회귀 회귀 평가 지표 Part.1 (0) | 2021.09.24 |
[ML] 데이터 전처리 - SMOTE 오버 샘플링 (0) | 2021.07.24 |
[ML] 지도학습/분류 GBM(Gradient Boosting Machine) (0) | 2021.07.23 |
[ML] 지도학습/분류 랜덤 포레스트(RandomForest) (0) | 2021.07.23 |