2024/08/20 2

비지도학습 K-Means Clustering 군집화

머신러닝의 비지도 학습과 K-Means에 대해서 학습하였다. 비지도학습데이터의 '유사성'을 기반으로 레이블링해서 답(y)를 지정하는 작업정답이 없는 문제이기 때문에 주관적인 판단이 개입된다.ex) 고객 특성에 따른 그룹화 (헤비 vs 일반)K-Means Clustering 이론1. K개의 군집 수 설정2. 임의의 중심점 선정3. 해당 중심점과 거리가 가까운 데이터를 그룹화4. 데이터 그룹의 무게중심으로 중심점 이동5. 중심점을 이동했기 때문에 다시 거리가 가까운 데이터 그룹화6. 위 3~5 과정을 계속 반복 위 그림에선 K 군집 수를 3으로 설정하였다. 장점일반적이고 적용하기 쉽다.단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어진다.반복 횟수가 많을 수록 시간이 느려진다.몇 개..

TIL/머신러닝 2024.08.20

의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘

의사결정나무 (Decision Tree, DT)의사결정규칙을 나무 구조로 나타내어, 전체 자료를 n개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 1. 루트노드 root node : DT 시작점, 1차 분류조건2. 리프노드 leaf node : 루트로부터 파생된 노드3. 분류기준 criteria : 루트노드에서의 분류조건, 아래 예시에서는 여성0 남성1로 인코딩 후 0.5 기준으로 분류4. 불순도 impurity : gini 계수로 측정 (0-1), 낮을수록 분류가 잘 된 것, 리프로 갈수록 낮아짐.                                0 = 완벽한 순도 = 모든 샘플이 하나의 클래스                                1 = 완벽한 불순도 = 노드 샘플이 균..

TIL/머신러닝 2024.08.20