정보관리기술/인공지능

과적합(Overfitting) / ①

아이티신비 2024. 3. 29. 09:30

문제 11) 과적합(Overfitting)의 발생 이유와 해결방안

답)

 

 

1. 과잉 학습으로 인한 폐해, 과적합(Overfitting)의 개요

개념도
정의
기계학습 시 관심집단을 대표할 수 있는 패턴이나 관계를 찾아 훈련 데이터 집합 생성하는 과정에서 너무 학습을 많이해서 불필요한 내용까지 학습된 상태

 

2. 과적합의 발생 이유와 해결방안

가. 과적합의 발생 이유

구분
세부
설명
모델 측면
차원의 저주
  • 데이터 샘플링을 높이기 위해 고차원 사용시 모델의 복잡도를증가시키며, 필요한 데이터의 양도 Exponentially하게 증가하며,기존에 사용하던 Metric이 비정상 동작
모델 복잡도
  • 정교한 모델이라도 지나치게 복잡하다면, 단순 1차 방정식 형태의 모델보다 성능이 낮은 경우 발생
Bias-Variance Tradeoff
  • 복잡한 모델은 정교하게 설명할 수 있지만 노이즈에 민감하게반응. (편차 : Bias, 변동 : Variance)
데이터 측면
데이터 불충분
  • 샘플 데이터가 충분하지 못하여 학습 데이터에만 적합
Data Skewness
  • 범주 별 데이터셋 분류가 잘못 되어 데이터의 쏠림 현상 발생
  • 학습 데이터에 대해 과하게 학습하여 실제 데이터에 대한 오차가 증가하는 현상

 

나. 과적합의 해결 방안

구분
핵심기술
설명
모델관련
Dropout
  • 인공신경망 학습 시, 매번 학습과정에서 입력 또는 히든 뉴런을 랜덤하게 일정 퍼센트를 선택함으로써 모형학습을 단순화
Regularization
  • 가중치 산출 과정에서 가중치에 패널티 부여하여 상대적으로 덜 중요한 변수에 가중치를 0 또는 근사 조정하여 모형 복잡도 단순화
특성관련
Feature Extraction
  • 입력변수가 많은 경우 유사한 변수의 속성을 묶어 제2의 파생변수를 만들어 기존변수를 대처함으로써(차원축소) 모형 단순화
Feature Selection
  • 모형학습시 산출되는 변수중요도를 기준으로 상대적으로 중요한변수를 선택하거나 덜 중요한 변수를 제거해서 모형을 단순화
PCA
  • 잡음 제거, 차원 축소
데이터 관점
Cross Validiation
  • Training/Validation/Test Set
추가 데이터 확보
  • 불충분 데이터에 의한 과적합 현상 해결 위한 추가 데이터 확보
  • 데이터 범위 축소, 교차검증, 여러 모델 비교 등을 통한 다양한 관점에서의 과적합 해결 접근

 

 

3. 과적합 방지 이론, 오컴의 면도날

구분
설명
개념
  • 어떤 사실 또는 현상에 대한 설명들 가운데 논리적으로 가장 단순한 것이 진실일 가능성이 높다는 건전한 추론을 위한 방법론
적용방안
  • 복잡한 모델보다는 단순한 모델을 선택(선호)
  • Variable, Feature 선택 시 중요도가 높은 항목을 선별 사용
  • 복잡한 비선형 모델보다는 선형적 모델 사용
사례
  • 타이어에 펑크가 났다
  • 1. 타이어에 못이 박혔기 때문이다.
  • 2. 누군가가 주차장에 들어와 타이어에 구멍을 내고 달아났다.
  • 불필요한 가정을 줄여야 판단 오류 감소 가능성 확보 가능

 

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥