문제5) K-means Clustering과 DBSCAN(Density-Based Spatial Clustering of Application with Noise)개념,구성요소, 장/단점
답)
1. 중심기반 군집화 K-평균 알고리즘(K-Means)
구분
|
공식
|
설명
|
개념
|
|
|
개념도
|
|
|
구성
요소 |
K 값
|
클러스팅하여 묶을 클러스터의 개수
|
Centroid
|
클러스터링을 할 중심 값
|
|
장점
|
짧은 계산 시간
|
간단한 알고리즘에 빠른 연산 가능
|
탐색적 방법
|
탐색적 방법을 사용하여 대용량 데이터에 적합
|
|
데이터 다양화
|
다양한 데이터의 적용 가능
|
|
가중치, 거리 정의
|
적절한 가중치와 거리의 정의가 필요
|
|
단점
|
초기 클러스터링 수
|
초기 클러스터링 수 결정의 어려움
|
결과 해석
|
사전에 주어진 목적이 없어 결과 해석이 어려움
|
|
|
2. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)
구분
|
공식
|
설명
|
개념
|
|
|
개념도
|
|
|
구성
요소 |
Core Point
|
거리 e(Epsilon)이내에 데이터가 m개 이상 존재하여 한의 군
집으로 인정되는 데이터 집합 |
Border Point
|
군집의 중심이 되는 core point는 되지 못하지만, core point로 하는 군집에는 속하는 데이터
|
|
Connected
|
core point 와 core point가 반경내에 겹칠 경우 연결되 있다
고 보고 하나의 군집으로 정의 |
|
Noise Point
|
어떤 점의 중심으로도 조건을 만족시키지 못하는 데이터
|
|
장점
|
클러스터 개수 미정의
|
클러스터 개수 정의 없이 클러스터 진행
|
밀도 기반 클러스터링
|
데이터들의 밀도를 계산해서 클러스터링 진행
|
|
비선형 경계 클러스터링
|
비선형 경계에 있는 클러스터링 가능
|
|
단점
|
데이터 순서 영향
|
데이터 사용 순서에 따라 클러스터링 차이가 있음
|
차원의 저주
|
고차원 데이터에 대한 적절한 엡실론을 찾기 어려움
|
|
밀도 높은 탐색 저하
|
고차원에서 밀도가 높은 지역을 찾기 어려움
|
|
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥
'정보관리기술 > 인공지능' 카테고리의 다른 글
머신러닝 최적화 알고리즘 (Optimization Algorithm) 유형 및 장단점 / ① (24) | 2024.03.24 |
---|---|
머신러닝(Machin Learning)과 딥러닝(Deep Learning) /① (22) | 2024.03.23 |
음성데이터 마이닝 (23) | 2024.03.18 |
데이터 마이닝(Data Mining) (28) | 2024.03.17 |
인공지능 윤리 (29) | 2024.03.17 |