정보관리기술/인공지능

데이터 마이닝(Data Mining)

아이티신비 2024. 3. 17. 09:30

문제1) 데이터 마이닝 기법 중 아래 기법에 대하여 설명하시오.

가. K-means Clustering

나. DBSCAN(Density Based Spatial Clustering of Applications with Noise)

다. SVM(Support Vector Machine)

답)

1. 중심기반 군집화 K-평균 알고리즘(K-Means)

가. 중심기반 군집화 K-평균 알고리즘(K-Means)의 개념

정의	n개의 데이터를 K개의 군집으로 분류하기 위해 거리 기반으로 반복적으로 계산해 나가는 Clustering 알고리즘
개념도

나. K-평균 알고리즘(K-Means)의 구성 요소와 절차

항목	세부 항목	설명
구성요소	K 값	클러스팅하여 묶을 클러스터의 개수
구성요소	Centroid	클러스터링을 할 중심 값
수행절차	K 값 지정	파라미터 값으로 k개의 클러스터 개수를 지정
	Centroid 지정	초기 평균값은 데이터 오브젝트
	Centroid 거리 측정	각 데이터들은 거리측정을 통해 가장 가까운 Centroid 결정
	데이터 그룹핑	최소 거리에 있는 Centroid 기준으로 그룹핑
	Centroid 조정	k 개의 클러스터 중심점을 기준으로 Centroid 조정
	종료	Centroid 가 더이상 변경되지 않는 경우 알고리즘 조정
k-means의 노이즈(outlier)에 민감한 단점을 보완한 K-medoid, DBSCAN 알고리즘이 있음

다. K-평균 군집의 특징

특징	설명
비지도 학습	유클리디안 거리를 측정하며, 중심점과의 거리를 최소화하는 작업을 반복함 으로써 분류하는 머신러닝의 비지도 학습 기법
좌표 기반 분석	개체들을 좌표 상의 점으로 표현한 후 각 점들의 거리를 기반으로 군집을 묶는 방법 거리 계산에 기반하므로 모든 변수가 연속적이어야 함
대용량 데이터 처리	분산 처리에 유리한 알고리즘. 계층적 군집보다 많은 양의 데이터 처리 가능 k개의 시스템으로 분산하여 계산 가능하고 계산량이 많지 않아 대용량 데이터에 대한 군집 분석에 유리
다양한 데이터 특징 파악 유리	전체 데이터를 유형별로 분류 가능 각 유형을 분류할 때 사용한 k개의 중심점을 해당 유형의 대푯값으로 선정가능
탐욕(Greedy) 알고리즘	군집의 단계마다 중심으로부터 오차제곱합을 최소화하는 방향으로 군집 형성 안정된 군집은 보장하나 전체적으로 최적이라는 것은 보장 못함
장점	알고리즘이 단순하며 빠르게 수행됨 데이터에 대한 사전 정보가 필요하지 않으며, 사전에 특정 변수에 대한 역할 정의가 필요하지 않아 분석 방법 적응이 쉬움
단점	초기 클러스터의 수를 결정하는데 어려움이 있음 초기 설정 클러스터의 수가 적합하지 않으면 결과가 좋지 못함 잡음이나 이상값의 영향을 많이 받음 U-형태의 군집이 존재할 경우 성능 저하
K를 크게 설정하면 클러스터의 동질성이 향상되나 데이터에 과적합 될 가능성이 높음 클러스터 내의 차이를 최소화하고 클러스터 간의 차이를 최대화할 수 있는 k 값을 선정함

2. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)

가. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN) 개념

정의	임의의 클러스터 중심을 이동시키며 중심으로부터 정해진 반경 거리 내에 최소 데이터 포 인트 개수를 확인하며 밀도 기반으로 군집화를 수행하는 알고리즘
개념도

나. 밀도기반 군집화 밀도기반 클러스터링(DBSCAN)의 구성 요소와 동작 방식

항목	세부항목	설명
구성요소	Core Point	거리 e(Epsilon)이내에 데이터가 m개 이상 존재하여 한의 군집으로 인정되는 데이터 집합
	Border Point	군집의 중심이 되는 core point는 되지 못하지만, core point로 하는 군집에는 속하는 데이터
	Connected	core point 와 core point가 반경내에 겹칠 경우 연결되어있다고 보고 하나의 군집으로 정의
	Noise Point	어떤 점의 중심으로도 조건을 만족시키지 못하는 데이터
동작방식	① Epsilon 설정	두 인스턴스 최대 허용 거리 이 거리 이내에 있는 인스턴스는 neighbor로 분류
	② minPts 설정	군집을 형성하기 위해 Epsilon 내에 포함되어야 하는 인스턴스의 최소 개수 낮은 minPts 값은 많은 noise point를 생성
	③ Core point 분류	Epsilon 내에 minPts만큼의 neighbor가 포함된 포인트 군집(cluster)를 형성하는 포인트
	④ Border Point 분류	Epsilon 내에 minPts만큼의 neighbor가 포함되지 않는 포인트지만, 군집에는 포함되는 포인트 군집의 경계 형성하는 포인트
Epsilon(Eps), minPts 초기 파라미터 값에 따라서 군집 및 속도 성능이 크게 차이남

3. 여백을 최대화하는 통계적 분석 기법, SVM(Support Vector Machine)

가. SVM(Support Vector Machine)의 개념


정의	데이터가 사상 된 공간에서 경계선과 가장 근접한 데이터(Support Vector)간의 거리가 가장 큰 경계를 식별하는 알고리즘(MMH: Maximum Margin Hyper plane) 여백(Margin)을 최대화하여 일반화 능력의 극대화하여 결정 직선을 찾는 두 범주를 갖는 객체들을 분류하는 방법
목적	주어진 많은 데이터들을 가능한 멀리 두 개의 집단으로 분리시키는 최적의 초평면(hyperplane)을 Training data에서 두 클래스의 어떤 Point로부터도 최대한 멀리 떨어져있는 Decision boundary 확보

나. SVM의 구성요소 및 수행절차

구분	핵심기술	설명
구성요소	Support Vector	학습 데이터 중 분류 경계에 가장 가까운 곳에 위치한 데이터
	Margin	학습 데이터 중 분류 경계에 가장 가까운 데이터와 분류 경계 간 거리
	초평면 (hyperplane)
	커널기법 (Kernel trick)
수행절차	데이터 전처리	데이터를 원하는 형태로 가공하는 과정
	변수 선택	중요한 변수(독립변수)를 찾는 과정 너무 많은 독립변수는 정확도에 악영향 적절한 변수 활용 통한 정확도, 계산속도, 모형 해석 능력 향상
	통계적 분류	종속변수 예측 및 종속변수에 영향을 미치는 독립변수를 찾는 과정
기존 분류기는 오류율을 최소화하는 방법인 반면, SVM은 여백 Margin을 최대화하여 일반화 능력을 극대화

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥

'정보관리기술 > 인공지능' 카테고리의 다른 글

인공지능 학습 / ① (24)	2024.03.23
음성데이터 마이닝 (23)	2024.03.18
인공지능 윤리 (29)	2024.03.17
인공지능(AI) 개인정보보호 자율점검표 (39)	2024.03.16
인공지능 학습용 데이터 품질관리 가이드라인 (36)	2024.03.16

현재글데이터 마이닝(Data Mining)

IT 기술의 모든 것

250x250

PMO, ISP, ISMP, 제15회, 전문가, 소프트웨어공학, 기출문제, 감리 및 사업관리, PMP, 제16회, 시스템구조, PMI, 제14회, 인증, PMBOK, 보안, 정보시스템감리사, 데이터베이스, 트래픽, 제24회,

Today :
Yesterday :

IT신비

데이터 마이닝(Data Mining)