정보관리기술/인공지능

데이터 마이닝(Data Mining)

아이티신비 2024. 3. 17. 09:30

문제1) 데이터 마이닝 기법 중 아래 기법에 대하여 설명하시오.

가. K-means Clustering

나. DBSCAN(Density Based Spatial Clustering of Applications with Noise)

다. SVM(Support Vector Machine)

 

답)

 

1. 중심기반 군집화 K-평균 알고리즘(K-Means)

가. 중심기반 군집화 K-평균 알고리즘(K-Means)의 개념

 
정의
n개의 데이터를 K개의 군집으로 분류하기 위해 거리 기반으로 반복적으로 계산해 나가는
Clustering 알고리즘
개념도

 

나. K-평균 알고리즘(K-Means)의 구성 요소와 절차

 
항목
세부 항목
설명
구성요소
K 값
클러스팅하여 묶을 클러스터의 개수
Centroid
클러스터링을 할 중심 값
수행절차
K 값 지정
파라미터 값으로 k개의 클러스터 개수를 지정
Centroid 지정
초기 평균값은 데이터 오브젝트
Centroid 거리 측정
각 데이터들은 거리측정을 통해 가장 가까운 Centroid 결정
데이터 그룹핑
최소 거리에 있는 Centroid 기준으로 그룹핑
Centroid 조정
k 개의 클러스터 중심점을 기준으로 Centroid 조정
종료
Centroid 가 더이상 변경되지 않는 경우 알고리즘 조정
  • k-means의 노이즈(outlier)에 민감한 단점을 보완한 K-medoid, DBSCAN 알고리즘이 있음

 

다. K-평균 군집의 특징

 
특징
설명
비지도 학습
  • 유클리디안 거리를 측정하며, 중심점과의 거리를 최소화하는 작업을 반복함 으로써 분류하는 머신러닝의 비지도 학습 기법
좌표 기반 분석
  • 개체들을 좌표 상의 점으로 표현한 후 각 점들의 거리를 기반으로 군집을 묶는 방법
  • 거리 계산에 기반하므로 모든 변수가 연속적이어야 함
대용량 데이터 처리
  • 분산 처리에 유리한 알고리즘. 계층적 군집보다 많은 양의 데이터 처리 가능
  • k개의 시스템으로 분산하여 계산 가능하고 계산량이 많지 않아 대용량 데이터에 대한 군집 분석에 유리
다양한 데이터
특징 파악 유리
  • 전체 데이터를 유형별로 분류 가능
  • 각 유형을 분류할 때 사용한 k개의 중심점을 해당 유형의 대푯값으로 선정가능
탐욕(Greedy)
알고리즘
  • 군집의 단계마다 중심으로부터 오차제곱합을 최소화하는 방향으로 군집 형성
  • 안정된 군집은 보장하나 전체적으로 최적이라는 것은 보장 못함
장점
  • 알고리즘이 단순하며 빠르게 수행됨
  • 데이터에 대한 사전 정보가 필요하지 않으며, 사전에 특정 변수에 대한 역할 정의가 필요하지 않아 분석 방법 적응이 쉬움
단점
  • 초기 클러스터의 수를 결정하는데 어려움이 있음
  • 초기 설정 클러스터의 수가 적합하지 않으면 결과가 좋지 못함
  • 잡음이나 이상값의 영향을 많이 받음
  • U-형태의 군집이 존재할 경우 성능 저하
  • K를 크게 설정하면 클러스터의 동질성이 향상되나 데이터에 과적합 될 가능성이 높음
  • 클러스터 내의 차이를 최소화하고 클러스터 간의 차이를 최대화할 수 있는 k 값을 선정함

 

2. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)

가. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN) 개념

 
정의
임의의 클러스터 중심을 이동시키며 중심으로부터 정해진 반경 거리 내에 최소 데이터 포
인트 개수를 확인하며 밀도 기반으로 군집화를 수행하는 알고리즘
개념도

 

나. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)의 구성 요소와 동작 방식

 
항목
세부항목
설명
구성요소
Core Point
  • 거리 e(Epsilon)이내에 데이터가 m개 이상 존재하여 한의 군집으로 인정되는 데이터 집합
Border Point
  • 군집의 중심이 되는 core point는 되지 못하지만, core point로 하는 군집에는 속하는 데이터
Connected
  • core point 와 core point가 반경내에 겹칠 경우 연결되어있다고 보고 하나의 군집으로 정의
Noise Point
  • 어떤 점의 중심으로도 조건을 만족시키지 못하는 데이터
동작방식
① Epsilon 설정
  • 두 인스턴스 최대 허용 거리
  • 이 거리 이내에 있는 인스턴스는 neighbor로 분류
② minPts 설정
  • 군집을 형성하기 위해 Epsilon 내에 포함되어야 하는 인스턴스의 최소 개수
  • 낮은 minPts 값은 많은 noise point를 생성
③ Core point 분류
  • Epsilon 내에 minPts만큼의 neighbor가 포함된 포인트
  • 군집(cluster)를 형성하는 포인트
④ Border Point 분류
  • Epsilon 내에 minPts만큼의 neighbor가 포함되지 않는 포인트지만, 군집에는 포함되는 포인트
  • 군집의 경계 형성하는 포인트
  • Epsilon(Eps), minPts 초기 파라미터 값에 따라서 군집 및 속도 성능이 크게 차이남

 

3. 여백을 최대화하는 통계적 분석 기법, SVM(Support Vector Machine)

가. SVM(Support Vector Machine)의 개념

 

정의
  • 데이터가 사상 된 공간에서 경계선과 가장 근접한 데이터(Support Vector)간의 거리가 가장 큰 경계를 식별하는 알고리즘(MMH: Maximum Margin Hyper plane)
  • 여백(Margin)을 최대화하여 일반화 능력의 극대화하여 결정 직선을 찾는 두 범주를 갖는 객체들을 분류하는 방법
목적
  • 주어진 많은 데이터들을 가능한 멀리 두 개의 집단으로 분리시키는 최적의 초평면(hyperplane)을 Training data에서 두 클래스의 어떤 Point로부터도 최대한 멀리 떨어져있는 Decision boundary 확보

 

나. SVM의 구성요소 및 수행절차

 
구분
핵심기술
설명
구성요소
Support Vector
  • 학습 데이터 중 분류 경계에 가장 가까운 곳에 위치한 데이터
Margin
  • 학습 데이터 중 분류 경계에 가장 가까운 데이터와 분류 경계 간 거리
초평면
(hyperplane)
커널기법
(Kernel trick)
수행절차
데이터 전처리
  • 데이터를 원하는 형태로 가공하는 과정
변수 선택
  • 중요한 변수(독립변수)를 찾는 과정
  • 너무 많은 독립변수는 정확도에 악영향
  • 적절한 변수 활용 통한 정확도, 계산속도, 모형 해석 능력 향상
통계적 분류
  • 종속변수 예측 및 종속변수에 영향을 미치는 독립변수를 찾는 과정
  • 기존 분류기는 오류율을 최소화하는 방법인 반면, SVM은 여백 Margin을 최대화하여 일반화 능력을 극대화

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥