정보시스템 감리 기출해설/데이터베이스 해설

(제 23회) 데이터베이스 / (73)~(75) 해설

아이티신비 2024. 10. 5. 09:00

73. 다음 표의 거래 정보에 대해서 최소지지도 (minsup)를 0.5로 하여 Apriori 알고리즘을 적용하고자 할 때, 빈발 2-항목집합(frequent 2-itemset) 모두를 옳게 나열한 것은?

 

 

① {A,B}, {A,E}, {B,E}

② {A,F}, {B,F}, {E,F}

③ {A,F}, {A,B}, {A,E}, {B,F}, {E,F}, {B,E}

④ {A,B}, {A,C}, {A,D}, {E,F}, {E,G}, {F,G}

 

▣ Apriori 알고리즘 상세

1) 수행절차

  • 빈도수 집합 탐색 : 대용량 데이터 베이스 내의 단위 트랜잭션에서 빈번하게 발생하는 사건의 유형을 발견
  • 최소 지지도 확인 : 트랜잭션을 대상으로 최소지지도 이상을 만족하는 빈발항목 집합을 발견
  • 후보 집합 생성 : 빈발 항목으로 집합 생성
  • 2~3단계 반복수행 : 새로운 빈발항목집합이 생성되지 않을 때까지 반복 수행
  • 연관규칙 생성 : 발견된 항목 집합내에 포함된 항목들 중에서 최소신뢰도 이상을 만족하는 항목들 간의 연관규칙을 생성하는 단계

 

● Apriori 알고리즘 문제 풀이

1) 단일 항목 기준 지지도 계산 → 최소 지지도 구함(문제 주어짐, 원래는 아래처럼 계산)

→ P(A) = 7/10, P(B) = 5/10, P(C) = 4/10, P(D) = 4/10, P(E) = 7/10, P(F) = (5/10), P(G) = 2/10

2) 두개 항목 기준 지지도 계산 → 최소 지지도(0.5) 이상의 두개 항목 선정

 
P(A,B)
5/10
P(B,C)

P(C,D)

P(D,E)

P(E,F)
3/10
P(F,G)
0
P(A,C)
2/10
P(B,D)

P(C,E)

P(D,F)

P(E,G)
1/10


P(A,D)
2/10
P(B,E)
5/10
P(C,F)

P(D,G)





P(A,E)
5/10
P(B,F)
2/10
P(C,G)







P(A,F)
3/10
P(B,G)









P(A,G)











→ 최소 지지도 0.5보다 큰 두개 항목의 쌓은 {A,B},{A,E}.{B,E}

3) 3개 항목...4개항목...5개항목...6개항목...7개항목... → 최소지지도 이상인 쌍 구함

 

정답 : ①

 

 

 

74. 다음은 스팸(Spam) 메일을 인식하기 위해 구축한 예측모델로부터 얻어진 혼돈행렬(confusion matrix)이다.이 혼돈행렬로부터 구할 수 있는 성능척도 값이 옳지 않은 것은?

 

▣ 해설

분류성능평가지표
계산식
설명(사례)
정확도(Accuracy)
(TP+TN)/(TP+TN+FN+FP)
모델이 입력된 데이터에 대해 얼마나 정확하게 예측 비율
정확률(Precision)
TP/(TP+FP)
모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
재현율(Recall)
TP/(TP+FN)
실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
민감도(Sensitivity)
TP/T
질병이 있는 사람을 양성(질병이 있다고)으로 검출하는 능령
특이도(Specificity)
TN/N
질병이 없는 사람을 음성(질병이 없다고)으로 검출하는 능력
F-스코어
2*{(정확률*재현율)/(정확률+재현율)}
재현율과 정확률의 조화평균, 재현율 또는 정확율이 높다고 해서 성능이 높다고 할 수 없으므로 F-스코어를 계산하여 평가함

① 정밀도(precision) = 45/50 → 정확율 계산 = TP / (TP + FP) = 45 / (45+5) = 45 / 50

② 재현율(Recall) = 45/50 → 재현율 계산 = TP / (TP + FN) = 45 / (45+20) = 45 / 65

③ 특이도(Specificity) = 20/50 → 특이도 계산 = TN / N = 30 / 35

④ 정확도(Accuracy) = 75/100 → 정확도 계산 = (TP + TN) / (TP + TN + FN + FP) = 75 / 100

 

정답 : ③

 

 

 

75. 다음은 분산 데이터베이스에서의 투명성(transparency)에 대한 설명이다. 다음 투명성에 대한 설명 중 에서 가장 적절하지 않은 것은?

 

① 이름부여 투명성(naming transparency)은 분산 데이터베이스가 어떻게 설계되는지와 어느 사이트에서 트랜잭션이 실행되는지를 사용자에게 가려주는 것을 의미한다.

② 분산 투명성(distribution transparency) 또는 네트워크 투명성(network transparency)은 사용자에게 네트워크의 세부 사항과 분산 시스템 내에서 데이터 저장 장소의 위치를 가려주는 것을 의미한다.

③ 위치 투명성(location transparency)은 어떤 작업을 수행하기 위해 사용된 명령은 데이터의 위치와 명령이 입력된 시스템의 위치와 무관해야 함을 의미한다.

④ 중복 투명성(replication transparency)은 높은 가용성, 성능, 신뢰도를 위해 데이터 사본들이 여러 사이트에 중복될 수 있음을 의미하며, 중복된 사본의 존재를 사용자에게 가려준다.

 

▣ 해설

분산 데이터베이스의 투명도(단 위지중장병)

 

  • 단편화 투명성 - 단편화 사본이 어디 사이트에 저장되어 있는지 몰라도
  • 위치 투명성 - 저장소를 명시할 필요가 없음. 물리적 저장소를 몰라도(논리적 접근만 가능하다는 의미)
  • 지역 투명성 - DB 사이의 Mapping 보장
  • 중복 투명성 - 여러 사이트 중복, 알필요 없음
  • 장애 투명성 - 장애와 무관, 트랜잭션의 원자성
  • 병행 투명성 - 통시 수행 시 결과의 일관성 보장

 

이동 (migration) 투명성

이기종(Heterogeneity) 투명성

규모(Scale) 투명성

 

 

정답 : ①

 

 





 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥