정보관리기술/통계확률

다중공선성 (Multicolinearity) / ①

아이티신비 2024. 5. 13. 09:30

문제 11) 다중공선성 (Multicolinearity)

답)

 

1. 강한 상관관계에 따른 문제, 다중공선성의 개요 가. 다중공선성의 정의

가. 다중공선성의 정의

  • 다중 회귀분석에서 사용된 모형의 일부 독립 변수가 다른 독립 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 현상

 

나. 다중공선성 특징

상관관계
  • 다중회귀분석에서 두개 이상의 독립변수 간에 높은 상관관계
예측력 저하
  • 다중공선성이 높은 모델은 데이터에 대한 예측력이 저하
  • 독립변수간 높은 상관관계로 인하여 모델의 예측력이 저하되는 특징을 가짐

 

2. 다중공선성 개념도 및 상세 설명

가. 다중공선성 개념도

  • 독립변수 간의 상관관계가 강하여 결정계수(R2) 값이 높아 과적합 발생

 

나. 다중공선성의 상세 설명

구분
항목
내용
판단기준
결정계수
  • 피어슨 상관 계수 r^2, 0~1사이에 있으며, 종속변인과 독립 변인 사이에 상관 관계가 높을수록 1에 가까워짐
상관계수
  • 독립변수들간의 상관계수 도출 보통 0.7이상일 경우 상관관계가 높다고 판단
분산팽창요인
  • VIF = 1/1-r 이 값이 10을 넘는다면 보통 다중공선성의 문제가 있다고 판단
해결방법
변수 제거
  • 상관 관계를 가지는 두 변수 중 하나를 제거
주성분 분석(PCA)
  • 주성분 변수는 서로 독립이므로 주성분 변수를 독립변수로 사용하면 문제 발생 소지 감소
다른 모델 사용
  • MSE 최소화 추정 방법을 사용하여 다중공선성문제 해결
  • 다중공선성은 판단기준을 통해 식별 후 해결방법을 통해서 해결
 

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥