[ML] 비지도학습 / 군집화 / K-means

K-평균은 군집화에서 일반적으로 사용되는 알고리즘입니다. K-평균은 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법입니다.

위 사진처럼 임의의 점에서 가까운 점들을 군집화하고 그 군집의 중심점을 찾아 그 중심점에 가까운 점들을 다시 군집화하는 순서를 거쳐 중심점을 이동했는데 데이터의 중심점 소속 변경이 없어질 때 군집화를 종료합니다.

1. 일반적인 군집화에서 가장 많이 사용된다

2. 알고리즘이 쉽고 간결하다

1. 군집화 정확도가 떨어진다. (PCA적용)

2. 반복횟수가 많을 경우 수행시간이 느리다.

3. 군집 개수 설정을 가이드하기 어렵다.

1. n_cluster : 군집의 개수, 즉 군집 중심점의 개수를 의미합니다.

2. init : 초기 군집 중심점 좌표를 설정할 방식을 의미합니다. 보통 k_means++방식으로 최초 설정합니다.

3. max_iter : 최대 반복 횟수이며, 이 횟수 이전에 중심점 이동이 없으면 종료합니다.

1. labels_ : 군집 중심점 레이블

2. cluster_centers : 각 군집 중심점의 좌표

붓꽃 품종데이터를 준비합니다.

3개의 군집 중심점(군집 개수), k-means++로 초기 중심점 좌표설정, 최대 반복 횟수 300으로 설정해주었고, labels_ 속성을 통해 군집 레이블을 도출하였습니다.

pca를 사용하여 두 개의 피쳐를 만들고, 이 속성에 따라 군집화가 잘 되었나 확인해보겠습니다.

[ML] 지도학습/회귀 회귀 평가 지표 Part.2 (1)	2021.09.24
[ML] 지도학습/회귀 회귀 평가 지표 Part.1 (1)	2021.09.24
[ML] 데이터 전처리 - SMOTE 오버 샘플링 (0)	2021.07.24
[ML] 지도학습/분류 GBM(Gradient Boosting Machine) (0)	2021.07.23
[ML] 지도학습/분류 랜덤 포레스트(RandomForest) (0)	2021.07.23

Fill my null