정보관리기술/인공지능

의사결정나무(Decision Tree)

아이티신비 2024. 3. 25. 09:00

문제1) 머신 러닝(Machine Learning)에서 활용되는 의사결정나무(Decision Tree)모델을 설명하시오.

답)

 

1. 스무고개 놀이, 의사결정나무(Decision Tree)모델의 개념

 

 
정의
  • 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법
  • 설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델
구성
요소
root node
의사결정 Tree가 시작되는 노드
child node
하나의 마디로부터 분리되어 나간 2개 이상의 노드
parent node
주어진 마디의 상위 노드
terminal node
더 이상 분기가 되지 않아 자식 마디가 없는 최종 끝의 노드
branch
root node로부터 terminal node까지 연결된 node
depth
root node부터 terminal node 까지의 중간 node 들의 수

 

2. 의무결정나무(Decision Tree) 모델의 절차

 
단계
설명
성장(Tree
Growing)
성장(Tree Growing)
  • 최대 크기의 나무 모형 형성
ASM(Attribute
Selection Measure)
  • 전체 데이터 세트에서 최상의 속성을 탐색
분리 규칙
  • 전체 데이터 세트에서 각 Node에서 적절한 최적의 분리 규칙검색
child node 생성
  • 분리 규칙에 따라 하위 집합을 생성
가치치기(pruning)
  • 최대 크기 나무모형에서 불필요한 가지를 제거하여 부분 나무모형(subtrees)의 집합을 탐색
최적 나무 모형 선택
  • 가지치기의 결과인 나무모형의 집합에서 최적 모형을 선택
  • 검증오차가 가장 작은 의사결정나무를 평가
해석 & 예측
  • 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용

 

3. 의사결정나무(Decision Tree)모델의 분류 기준

가. 의사결정나무(Decision Tree) 모델 기반 예측 모델링

 
분류기준
수식
설명
평균 제곱 오차(MSE,
Mean Squared Error)
  • 모델 예측 값과 실제 값 간의 제곱오차의 평균
  • 부모 노드의 평균 제곱 오차를 가장 많이 감소시키는 설명변수와 분리 값을 기준으로 자식 노드를 생성
  • MSE가 작을수록 오차가 적은 좋은 모델
평균 절대 오차(MAE,
Mean Absolute Error)
 
 
  • 모델 예측 값과 실제 값 간의 절대오차의 평균
  • 부모 노드의 평균 절대오차를 가장 많이 감소시키는 설명변수와 분리 값을 기준으로 자식 노드를 생성
  • MAE가 작을수록 오차가 적은 좋은 모델

 

나. 의사결정나무(Decision Tree) 모델 기반 분류 모델링

 
분류기준
수식
설명
지니 지수
(Gini Index)
  • 불순도 측정 지수
  • 얼마나 다양한 데이터가 잘 섞여 있는지 정도
  • 반대의 순수도는 같은 클래스의 데이터가 얼마나 포함하는지를 의미
엔트로피 지수
(Entropy

Index)
  • 모델 예측 값과 실제 값 간의 절대오차의 평균
  • 부모 노드의 평균 절대오차를 가장 많이 감소시키는 설명변수와 분리 값을 기준으로 자식 노드를 생성
  • MAE가 작을수록 오차가 적은 좋은 모델
  • c: 클래스의 개수, Pj: 전체 데이터 중 특정 클래스가 포함되어 있는 확률
 

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥