정보시스템 감리 기출해설/데이터베이스 해설

(제 23회) 데이터베이스 / (69)~(70) 해설

아이티신비 2024. 10. 3. 09:00

69. 데이터 웨어하우스가 일반 데이터베이스와 다른 특징에 대한 설명 중 옳지 않은 것은?

 

① 주제 지향적(subject-oriented) 내용 : 일반 데이터베이스가 업무 처리 중심의 데이터로 구성된 반면 데이터 웨어하우스는 의사 결정이 필요한 주제를 중심으로 데이터를 구성한다.

② 통합된(integrated) 내용 : 데이터 웨어하우스는 여러 데이터베이스에서 필요한 데이터를 추출하여 의사 결정에 필요한 분석 및 비교 작업을 지원한다.

③ 시간에 따라 변화하지 않는(time-invariant) 내용 : 일반 데이터베이스는 현재와 과거 데이터를 함께 유지하지만 데이터 웨어하우스는 현재 시점의 데이터만을 유지한다.

④ 비소멸성(nonvolatile) 내용 : 일반 데이터베이스에 저장된 데이터는 삽입, 삭제, 갱신 연산이 자주 발생하지만 데이터 웨어하우스는 검색 작업만 수행되는 읽기 전용의 데이터를 유지한다.

 

▣ 해설

데이터웨어하우스의 특징(주통시비)

→ 시계열적(Time-Variant)

해당 시점의 데이터를 주기적으로 유지

저장시점 Data 를 " 스넵샷" 으로 유지

데이터 간 시간적 관계 및 동향을 분석하기 위해 사용

 

정답 : ③

 

 

70. 의사결정트리(decision tree) 구축 과정에서 어떤 노드 N에 클래스 0인 레코드가 1개, 클래스 1인 레코드가 5개 해당한다고 하자. 이 노드에 대한 불순도(impurity)를 표현하는 Gini 값으로 가장 적절한 것은?

 

① 0.0 ② 0.278

③ 0.5 ④ 0.650

 

▣ 해설

  • Gini 불순도는 분류 트리를 생성하는 데 사용하는 측정 값, 트리 정확도를 보고하는데 사용한 분류 정확도 보다 자세하게 노드당 데이터 배포에 관한 정보를 제공

 

<계산방법>

분류 트리 노드의 불순도는 지정된 노드에 해당하는 모든 레코드의 각 대상 카테고리 수를 사용하여 계산, Gini 불순도 합계는 노드당 모든 대상 카테고리에 개수 비율이 제곱 합계를 한 노드에서 뺀 결과이며 이 결과를 레코드 수와 곱을 함

  • 지니계수는 통계적 분산 정도를 정량화해서 표현한 값, 0과 1사이의 값을 가짐
  • 지니계수가 높을 수록 잘 분류되지 못한 것

 

불순도(impurity)

  • 클래스가 섞이지 않고 분류가 잘 되었을 수록, 불순도가 낮음
  • 반면 클래스가 섞여 있고, 반반인 경우에는, 불순도가 높음
  • 의사결정나무 모델은 이 불순도가 낮아지는 방향으로 학습을 함

 

정답 : ②

 

 





 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥