정보관리기술/데이터베이스

군집분석(Cluster Analysis) / ①

아이티신비 2024. 2. 28. 09:30

문제 5) 군집분석(Cluster Analysis)

답)

 

1. 개체집합 내 유사성 분석, 군집분석의 개요

가. 군집분석(Cluster Analysis)의 개념

 
개념도
정의
  • 군집내 객체간 유사성과 군집간 상이성상이성(이질성이질성)을 규명하기 위해 관측치 또는 개체를 의미 있는 몇 개의 부분 집단으로 나누는 비지도 학습 기반의 분석기법분석기법
  • 군집분석이란 비슷한 내용을 묶고 다른 내용과는 멀리하는 것

 

나. 군집분석(Cluster Analysis) 의 특징

 
탐색적
주어진 자료의 사전정보 없이 의미 있는 자료구조 탐색
데이터
거리가 정의된 다양한 형태의 데이터에 적용 가능
유사도
물리적 거리가 가까운 항목들은 동일 집단으로 묶임
  • 비지도학습 기반으로기반으로, 유사도 측정을 통하여 군집을 형성함형성함

 

2. 군집분석(Cluster Analysis)의 거리 및 유사도 척도

가. 군집분석(Cluster Analysis)의 거리 척도

 
구분
측정
설명
유클라디안 거리
좌표상에서 데이터들 간의 직선거리를 의미 함함
맨하튼 거리
절대값을 합산하는 방식이며방식이며, 초록색은 유클리드 거리이며 나머지는 모두 맨하튼 거리임거리임
마할라 노비스 거리
변수의 분산과 상관성을 고려한 거리 측정 방법으로 변수 간의 상관관계가 있을때 유용함유용함
  • 거리 척도는 측정 값이 작을 수록 비슷하다는 것을 의미함

나. 군집분석(Cluster Analysis)의 유사도 척도

 
구분
측정
설명
코사인유사도
좌표상에서 데이터들 간의 Cosine값
자카드유사도
집합간의 교집합 크기를 이용해서 유사도를 측정하는 방법


  • 유사도 척도는 값이 클수록 비슷한 것을 의미함의미함

 

3. 군집분석(Cluster Analysis) 알고리즘

 
구분
설명
특징
K-means
  • K개 평균값평균값(중심점중심점) 이용한 군집
  • 좌표기반 군집분석
  • 대용량 데이터 처리
  • K값 명시적 지정
  • 아웃라이어 민감
  • 구형분포 부적절
DBSCAN
  • 개체들의 밀도를 계산하여 군집
  • 클러스터 형성 반복
  • 다양한 분포가능
  • 범위범위(epsilon), 최소개체수최소개체수(minPts)
GMM
  • 가우시안 분포의 조합을 가정
  • 각 분포에 속할 확률 높은 데이터끼기 군집형성
  • 분산이 일정하지 않은 유형도 가능
  • 계산량 많음
계층 클러스터링
  • 분포나 평균측정 불가시 사용
  • 유사도 높은 개체순으로 계층구조
  • 반복적 유사도 계산
  • 데이터의 중복, 크기를 고려하여 군집분석 알고리즘을 선택함

 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥