scikit-learn3 [Python/ML] Agglomerative Hierarchical Clustering (계층적 군집화) 안녕하세요, 원주 기술코치 박성호입니다. 오늘은 K-MEANS에 이어 계층적 군집화, Agglomerative Hierarchical Clustering에 대해서 글을 쓰게 되었네요. 바로 들어가보도록 하죠! □ Agglomerative Hierarchical Clustering(계층적 군집화) 개념 계층적 군집화는 말 그대로 데이터 하나하나를 계층에 따라 순차적으로 클러스터링 하는 기법입니다. 이 알고리즘은 각 데이터가 모두 나눠져있는 상태에서, 작은 단위로부터 클러스터링을 시작하여 모든 데이터를 묶을 때까지 반복하여 군집화를 진행합니다. 다음과 같이 12개의 index가 부여된 데이터가 있다고 가정하고, # 군집할 데이터 생성 from sklearn.dataset import make_blobs X,.. 2023. 1. 28. [Python/ML] K-MEANS Clustering 안녕하세요, '데 박' 입니다. 이 글은 군집화(Clustering)에서 핫하게 자주 쓰인다는 K-Means 군집화에 대한 글입니다. import mglearn mglearn.plots.plot_kmeans_algorithm() □ K-MEANS 개념 주어진 데이터를 K개의 클러스터 중심(Cluster centroid)을 찾아서 데이터를 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작합니다. 1. [Input data] : 데이터 입력 2. [Initialization] : 삼각형은 클러스터 중심이고 원은 데이터 포인트, 클러스터는 색으로 구분하고, 3개의 클러스터를 찾도록 지정했으니 알고리즘이 클러스터 중심으로 삼을 데이터 포인트 3개를 무작위로 초기화 3. [Assign.. 2023. 1. 27. [Python/ML] K-NN (K-Nearest Neighbors) 안녕하십니까, '데 박' 입니다. 비전공자들도 쉽게 시작할 수 있는 머신러닝 알고리즘인 K-Nearest Neighbors(K-NN)에 대해 공부해보도록 하겠습니다. □ K-NN이란 K-NN알고리즘은 분류와 회귀, 모두에서 쓰일 수 있는 간단한 머신러닝 알고리즘입니다. 왜냐하면 K-NN의 모델링 과정은 훈련데이터셋을 그냥 저장하는 것이 과정의 전부입니다. K-NN은 새로운 데이터 포인트에 대해 예측할 땐 알고리즘이 훈련 데이터셋에서 가장 가까운 데이터 포인트, 즉 "최근접 이웃" 을 찾습니다. SVM은 훈련 데이터를 기반으로 최대 마진을 찾고 결정 경계(Decision Boundary)를 만들어, 이 결정 경계를 통해 테스트 데이터를 분류합니다. 따라서 SVM과 비교하여 K-NN은 사전 모델링이 필요.. 2023. 1. 10. 이전 1 다음