기술용어/데이터베이스

K-means

아이티신비 2024. 6. 8. 09:30

각각의 군집 데이터 대표 값으로 전체 데이터 특성을 파악하는 클러스터 탐지 K-means

정의
  • 전체 데이터를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 분석법
  • 모집단 또는 범주에 대한 사전 정보가 없는 경우 주어진 관측 값들 사이의 거리 또는 유사성을 이용하는 분석법
  • 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 데이터 집단의 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법
군집화
  • N개의 관찰치를 대상으로 p개의 변수를 측정했을 때 관측한 p개의 변수 값을 이용하여 N개의 관찰치 사이의 유사성 또는 비 유사성의 정도를 측정하여 관찰자를 가까운 순서대로 군집화 함
활용
  • 군집분석은 속성이 비슷한 잠재 고객들끼리 그룹화 하여 시장을 세분화 하는 방법에 자주 활용
특징
  • 탐색적인 기법 : 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조를 찾아 낼 수 있음
  • 다영한 형태의 데이터 적용가능 : 거리만 잘 정의되면 모든 종류의 자료에 적용할 수 있음
  • 분석자의 의존 : 자료의 사전 정보 없이 자료를 파악하는 방법으로 분석자의 주관에 겨로가가 달라짐
  • 분석방법 용이 : 분석방법의 적용이 쉬움
  • 가중치 및 거리 : 가중치와 거리의 정의가 어려움
  • 결과해석 : 결과의 해석이 어려움
  • 초기 준급 K 결정 : 초기 군집수 K의 결정이 어려움
클러스터
분석기법
  • 각 개체간의 유사도(similarity) 혹은 비유사도(dissimilarity)를 기반으로 서로 유사한 개체를 동일한 그룹에 할당하여 분석하는 기법
거리
  • 군집분석에서는 관측 값들이 서로 얼마나 유사한지 또는 유사하지 않은지를 측정할 수 있는 척도가 필요
  • 거리는 값이 작을수록 두 관찰치가 서로 유사한 것을 의미
  • 유사성은 값이 클수록 두 관찰치가 서로 유사함을 의미
계층적 군집분석
  • 가까운 관측 값들끼리 묶는 병합(agglomeration)과 먼 관측 값들을 나누어가는 분할(division)에 의해 전체 군집들간 구조적 관계를 분석하는 기법
고려사항
  • 표준화 - 군집분석은 자료사이의 거리를 이용하여 수행되기 때문에 자료의 단위가 결과에 큰 영향을 미침
  • 표준화 : 각 변수의 관측값에서 평균을 빼고 표준편차로 나누는 것
  • 표준화 된 자료는 모든 변수가 평균이 0이고 표준편차가 1
  • 가중치 - 각 변수의 중요도가 다를 경우 가중치를 이용하여 각 변수의 중요도를 조절
  • 가중치는 대부분의 경우 단위변환(표준화)를 수행한 후 부여
  • 가중치에 대한 군집의 영향을 평가 하기 위하여는 여러 가지의 가중치에 대하여 군집분석의 결과를 비교
활용방안
  • 시장과 고객 분석, 패턴인식, 공간데이터 분석, Text Mining 등
  • 최근에는 패턴인식, 음성인식의 기본 알고리즘으로 활용
  • 데이터가 불규칙하고 내부 특징이 알려지지 않은 분류 초기 단계에 적합.


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥

'기술용어 > 데이터베이스' 카테고리의 다른 글

데이터베이스 보안  (0) 2024.06.10
데이터 마이닝(Data Mining)  (0) 2024.06.10
OLAP(OnLine Analyical Processing)  (0) 2024.06.09
MDM(Master Date Management)  (0) 2024.06.09
2PC(Phase Commit)  (1) 2024.06.08