파이썬 머신러닝 완벽 가이드 4

[군집화] #6. DBSCAN

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 DBSCAN 대표적인 밀도 기반 군집화 알고리즘이다. 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적 분포를 가진 데이터에도 군집화를 잘 수행한다. (K-means, 평균이동, GMM으로는 군집화 힘든 데이터) DBSCAN 주요 파라미터 입실론 주변 영역(epsilon): 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 최소 데이터 개수(min points): 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 갯수 DBSCAN 데이터 포인트 핵심 포인트(core point): 주변 영역 내에 최소 데이터 갯수 이상의 타 데이터를 가지고 있는 경우 이웃 포인트(neighb..

머신러닝 2022.07.19

[군집화] #4. 평균이동

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 평균 이동 평균 이동(Mean Shift)는 K-Means와 유사하게 중심을 군집의 중심으로 지속적으로 움직이며 군집화한다. 두 방법의 차이점은 중심을 이동하는 방법이다. K-Means: 중심에 소속된 데이터의 평균 거리 중심으로 이동한다. 평균 이동: 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동한다. 과정 평균 이동은 KDE(Kernerl Density Estimation)를 이용해서 확률 밀도 함수를 구한다. 데이터가 집중적으로 모여있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정한다. 이러한 방식을 전체 데이터에 반복적으로 적용하면서 데이터의 군집 중심점을 찾는다. KDE(커널 밀도 추정) ..

머신러닝 2022.07.19

[군집화] #3. 군집평가

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 군집평가 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하기 어렵다 실루엣 분석 다른 군집간은 비슷한 정도의 여유 거리가 있고, 동일 군집 데이터끼리는 가까운지 분석 실루엣 계수를 기반으로 하며 실루엣 계수는 개별 데이터가 가지는 군집화 지표이다. 실루엣 계수는 다음과 같이 표현할 수 있다. s(i) = (b(i)−a(i)) / max(a(i),b(i)) a(i): i번째 데이터에서 자신이 속한 군집내의 다른 데이터까지의 거리들의 평균 b(i): i번째 데이터에서 가장 가까운 타 군집내의 다른 데이터까지의 거리들의 평균 b(i)−a(i) : 두 군집 간 거리가 얼마나 떨어져 있는가 / max(a(i),b(i..

머신러닝 2022.07.15

[군집화] #2. 군집 시각화 (PCA, 군집 가상데이터 생성, K-means)

* "파이썬 머신러닝 완벽 가이드" 서적, 여러 개인 블로그들을 참고한 개인 공부용입니다 군집 시각화 (iris) 2차원 평면상에서 iris 데이터의 속성 4개를 모두 표현하는 것이 적합하지 않아 PCA를 이용해 4개의 속성을 2개로 차원 축소한 후 시각화. from sklearn.decomposition import PCA pca = PCA(n_components = 2) pca_transformed = pca.fit_transform(iris.data) pca_transformed irisdf['pca_x'] = pca_transformed[:, 0] #x좌표 irisdf['pca_y'] = pca_transformed[:, 1] #y좌표 irisdf # 클러스터별 인덱스 추출 marker0 = ir..

머신러닝 2022.07.15