python4 [Python/ML] Agglomerative Hierarchical Clustering (계층적 군집화) 안녕하세요, 원주 기술코치 박성호입니다. 오늘은 K-MEANS에 이어 계층적 군집화, Agglomerative Hierarchical Clustering에 대해서 글을 쓰게 되었네요. 바로 들어가보도록 하죠! □ Agglomerative Hierarchical Clustering(계층적 군집화) 개념 계층적 군집화는 말 그대로 데이터 하나하나를 계층에 따라 순차적으로 클러스터링 하는 기법입니다. 이 알고리즘은 각 데이터가 모두 나눠져있는 상태에서, 작은 단위로부터 클러스터링을 시작하여 모든 데이터를 묶을 때까지 반복하여 군집화를 진행합니다. 다음과 같이 12개의 index가 부여된 데이터가 있다고 가정하고, # 군집할 데이터 생성 from sklearn.dataset import make_blobs X,.. 2023. 1. 28. [Python/ML] K-NN (K-Nearest Neighbors) 안녕하십니까, '데 박' 입니다. 비전공자들도 쉽게 시작할 수 있는 머신러닝 알고리즘인 K-Nearest Neighbors(K-NN)에 대해 공부해보도록 하겠습니다. □ K-NN이란 K-NN알고리즘은 분류와 회귀, 모두에서 쓰일 수 있는 간단한 머신러닝 알고리즘입니다. 왜냐하면 K-NN의 모델링 과정은 훈련데이터셋을 그냥 저장하는 것이 과정의 전부입니다. K-NN은 새로운 데이터 포인트에 대해 예측할 땐 알고리즘이 훈련 데이터셋에서 가장 가까운 데이터 포인트, 즉 "최근접 이웃" 을 찾습니다. SVM은 훈련 데이터를 기반으로 최대 마진을 찾고 결정 경계(Decision Boundary)를 만들어, 이 결정 경계를 통해 테스트 데이터를 분류합니다. 따라서 SVM과 비교하여 K-NN은 사전 모델링이 필요.. 2023. 1. 10. [Python/ML] SVM (Support Vector Machine) 안녕하세요, 데 박입니다. 오늘은 머신러닝을 배운다면 꼭 알아야할 머신러닝 모델, SVM (Support Vector Machine)에 대해서 공부해보도록 하겠습니다. □ SVM (Support Vector Machine) SVM은 매우강력한 선형, 비선형 분류, 회귀 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 모델입니다. 머신러닝에서 인기있는 모델에 속하고 SVM은 특히 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합합니다. 또한 이 글에서는 선형, 비선형 분류를 다루었으니 이 점 참고해주시길 바라겠습니다. □ 라지마진분류 from sklearn.svm import SVC from sklearn import datasets iris = datasets.load_iris().. 2023. 1. 4. [Python/ML] Random Forest (랜덤 포레스트) 안녕하십니까 데 박 입니다!! 저번 Decision Tree 기술자료에 이어 Random Forest 기술자료를 업로드합니다^^ □ 앙상블 학습과 랜덤포레스트 의사결정나무가 "하나의 거대한 나무" 라고 한다면, 랜덤포레스트는 보다 "작은 나무로 이루어진 숲" 이라고 이해하면 됩니다! 무작위로 선택된 수천명의 사람에게 복잡한 질문을 하고 대답을 모은다고 가정합니다, 많은 경우 이렇게 모은 답이 전문가의 답보다 낫습니다. 이를 대중의 지혜라고 합니다. 이와 비슷하게 일련의 예측기 (분류, 회귀 모델)로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있을 것입니다 이를 '앙상블(ensemble)' 이라고 합니다! 앙상블 방법의 예를 들면 훈련 세트로부터 무작위로 각기 다른 서브셋을.. 2022. 12. 10. 이전 1 다음