정보관리기술/통계확률

통계적 분석 기법

아이티신비 2024. 4. 7. 09:30

문제4) 다음의 분석기법에 대하여 설명하시오.

가. 변수의 차원을 줄이는 다변량회귀분석

나. 변수의 차원을 줄이는 주성분분석

다. 케이스의 차원을 줄이는 다차원척도법

 

답)

 

1. 변수의 차원을 줄이는 다변량회귀분석

구분
설명
회귀모델 분류
다변량 회귀분석
  • 회귀모델 중에서 종속변수가 2개 이상일 때의 회귀 분석 기법
다변량 회귀모형

분석 방법
  • 여러 종속변수를 하나의 벡터로 표시하여 선형 회귀모형에 적합
  • 다변량 분산분석(Multivariate ANOVA, MANOVA) 방법을 사용
  • 일반적인 분산분석(ANOVA)과 마찬가지로 제곱합(sum of squares)을 비교하여 검정하는 형태
  • 다변량 선형회귀분석에서는 종속변수가 하나의 값이 아닌 벡터이므로 제곱합이 행렬의 형태로 나타나게 되고, 따라서 일반적인 분산분석의 F 통계량이 아닌, Pillai-Bartlett trace나 Wilks’ lambda와 같은 다른 통계량을 사용하여 분석
사례를 통한 차원 축소 방법
[R 통계 사례]
> a=lm(cbind(y1,y2,y3)~.,data=rohwer.d)
> anova(a)
Analysis of Variance Table

 

2. 변수의 차원을 줄이는 주성분분석

구분
설명
개념
  • 해당 데이터의 원래 변수들을 선형변환을 통해 ‘주성분’이라고 불리는, 서로 상관되어 있지않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석방법
  • 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료인 다변량 자료 분석 방법 중 하나
개념도
  • 투영했을 때 분산이 큰 벡터를 찾는다.
선형변환
  • 여러 변수들 X = (x1, x2, x3, …, xn)을 다음과 같이 가중결합 시킨 형태
  • P차원의 정보를 선형적 개념에서 1차원으로 축소하는 것
분석 과정
1) 데이터 특성 파악
상관분석을 통한 변수간 상관관계 파악
2) 가중계수 추출
공분산 행렬에 대한 고유값 분해 이용
3) 자원 축소
상관계수 및 상관행렬
4) 보유 주성분 개수 판정
전체변이에 대한 공헌도, 고유값 크기
  • 차원의 저주를 해결하기 위한 방법으로 PCA를 주로 사용한다.

 

 

 

3. 케이스의 차원을 줄이는 다차원척도법

구분
설명
개념
  • 객체간 근접성(Proximity)을 시각화하는 통계기법
  • 군집분석과 같이 개체들을 대상으로 변수들을 측정 후, 개체들 사이의 유사성, 비유사성을 측하여 개체들을 2차원 공간상에 점으로 표현하는 분석법
  • 개체들 사이의 집단화를 시각적으로 표현.
목적
  • 데이터 속에 잠재해 이는 패턴(Pattern), 구조 발견
  • 구조를 소수 차원의 공간에 기하학적으로 표현하여 데이터 축소(Data reduction) 목적
종류
계량적 MDS
(Metric MDS)
  • 데이터가 구간척도나 비율척도인 경우 활용. (전통적인 다차원척도법)
  • N개의 케이스에 대해서 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리행렬을 계산하고, 개체들간의 비유사성 S(거리제곱행렬의 선형함수)를 공간상에 표현
비계량적 MDS
(nonmetric MDS)
  • 데이터가 순서척도인 경우 활용
  • 개체들간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과같도록 변환(monotone transformation)하여 거리를 생성한 후 적용
분석과정
1) 거리 계산
  • 개체들의 거리계산에는 유클리드 거리행렬을 활용
2) 스트레스 값
(Stress Value) 표현
  • 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타냄
3) 공간상에 표현
  • 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로STRESS나 S-STRESS를 사용
4) 최적 모형
  • 최적모형의 적합은 부적합도를 최소로 하는 반복알고리즘을 이용, 이값이 일정 수준 이하가 될 때 최종적으로 적합된 모형으로 제시.
  • (즉, 스트레스값이 가장 적은것이 최적모형)
판단
STRESS값
기준 판단
  • 0 : 완벽, ~0.05 : 매우 좋은, 0.05~0.10 : 만족, 0.10~0.15 : 보통, 0.15~ :나쁨
 

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥