정보관리기술/인공지능

인공지능 학습 / ①

아이티신비 2024. 3. 23. 09:00

문제5) K-means Clustering과 DBSCAN(Density-Based Spatial Clustering of Application with Noise)개념,구성요소, 장/단점

답)

 

 

1. 중심기반 군집화 K-평균 알고리즘(K-Means)

 
구분
공식
설명
개념
  • n개의 데이터를 K개의 군집으로 분류하기 위해 거리 기반으로 반복적으로 계산해 나가는Clustering 알고리즘
개념도
 
구성
요소
K 값
클러스팅하여 묶을 클러스터의 개수
Centroid
클러스터링을 할 중심 값
장점
짧은 계산 시간
간단한 알고리즘에 빠른 연산 가능
탐색적 방법
탐색적 방법을 사용하여 대용량 데이터에 적합
데이터 다양화
다양한 데이터의 적용 가능
가중치, 거리 정의
적절한 가중치와 거리의 정의가 필요
단점
초기 클러스터링 수
초기 클러스터링 수 결정의 어려움
결과 해석
사전에 주어진 목적이 없어 결과 해석이 어려움
  • k-means의 노이즈(outlier)에 민감한 단점을 보완한 K-medoid, DBSCAN 알고리즘이 있음

 

 

2. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)

 
구분
공식
설명
개념
  • 임의의 클러스터 중심을 이동시키며 중심으로부터 정해진 반경 거리 내에 최소 데이터 포
  • 인트 개수를 확인하며 밀도 기반으로 군집화를 수행하는 알고리즘
개념도
구성
요소
Core Point
거리 e(Epsilon)이내에 데이터가 m개 이상 존재하여 한의 군
집으로 인정되는 데이터 집합
Border Point
군집의 중심이 되는 core point는 되지 못하지만, core point로 하는 군집에는 속하는 데이터
Connected
core point 와 core point가 반경내에 겹칠 경우 연결되 있다
고 보고 하나의 군집으로 정의
Noise Point
어떤 점의 중심으로도 조건을 만족시키지 못하는 데이터
장점
클러스터 개수 미정의
클러스터 개수 정의 없이 클러스터 진행
밀도 기반 클러스터링
데이터들의 밀도를 계산해서 클러스터링 진행
비선형 경계 클러스터링
비선형 경계에 있는 클러스터링 가능
단점
데이터 순서 영향
데이터 사용 순서에 따라 클러스터링 차이가 있음
차원의 저주
고차원 데이터에 대한 적절한 엡실론을 찾기 어려움
밀도 높은 탐색 저하
고차원에서 밀도가 높은 지역을 찾기 어려움
  • Epsilon(Eps), minPts 초기 파라미터 값에 따라서 군집 및 속도 성능이 크게 차이남
 

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥