비지도학습 3

[군집화] #3. 군집평가

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 군집평가 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하기 어렵다 실루엣 분석 다른 군집간은 비슷한 정도의 여유 거리가 있고, 동일 군집 데이터끼리는 가까운지 분석 실루엣 계수를 기반으로 하며 실루엣 계수는 개별 데이터가 가지는 군집화 지표이다. 실루엣 계수는 다음과 같이 표현할 수 있다. s(i) = (b(i)−a(i)) / max(a(i),b(i)) a(i): i번째 데이터에서 자신이 속한 군집내의 다른 데이터까지의 거리들의 평균 b(i): i번째 데이터에서 가장 가까운 타 군집내의 다른 데이터까지의 거리들의 평균 b(i)−a(i) : 두 군집 간 거리가 얼마나 떨어져 있는가 / max(a(i),b(i..

머신러닝 2022.07.15

[군집화] #2. 군집 시각화 (PCA, 군집 가상데이터 생성, K-means)

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 군집 시각화 (iris) 2차원 평면상에서 iris 데이터의 속성 4개를 모두 표현하는 것이 적합하지 않아 PCA를 이용해 4개의 속성을 2개로 차원 축소한 후 시각화. from sklearn.decomposition import PCA pca = PCA(n_components = 2) pca_transformed = pca.fit_transform(iris.data) pca_transformed irisdf['pca_x'] = pca_transformed[:, 0] #x좌표 irisdf['pca_y'] = pca_transformed[:, 1] #y좌표 irisdf # 클러스터별 인덱스 추출 marker0 = ir..

머신러닝 2022.07.15

[군집화] #1. K-means 알고리즘

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 군집화 비지도학습의 대표적인 기술로 x에대한 레이블이 지정 되어있지 않은 데이터를 그룹핑하는 분석 알고리즘 데이터들의 특성을 고려해 비슷한 특성을 가진 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 중심점을 찾는 것 이상탐지에 사용됨 K-means k-means 클러스터링은 데이터를 k개의 클러스터(cluster, 무리)로 분류 1) 사용자로부터 입력받은 k의 값에 따라, 임의로 클러스터 중심(centroid) k개를 설정해준다. 2) k개의 클러스터 중심으로부터 모든 데이터가 얼마나 떨어져 있는지 계산한 후에, 가장 가까운 클러스터 중심을 각 데이터의 클러스터로 정해준다. 3) 각 클러스터에 속하..

머신러닝 2022.03.22