정보시스템 감리 기출해설/데이터베이스 해설

(제 25회) 데이터베이스 / (65)~(66) 해설

아이티신비 2025. 2. 1. 09:00

65. <보기>는 트리거(trigger)와 저장 프로시저(stored procedure)의 특성을 설명한 것이다. 저장 프로시저에 해당하는 특성만을 모아놓은 것으로 가장 적절한 것은?

 

 
<보기>
ㄱ. 입력 인자를 받을 수 있고 결과를 돌려줄 수 있다.
ㄴ. 테이블이나 뷰에 할당된다.
ㄷ. INSERT, DELETE, UPDATE 명령 실행시 DBMS에 의하여 수행된다.
ㄹ. 데이터베이스에 저장되어 필요시 컴파일되며 데이터베이스에 부속된다.

 

① ㄱ, ㄴ ② ㄴ, ㄷ

③ ㄱ, ㄹ ④ ㄷ, ㄹ

 

■ 해설

 
<보기>
ㄱ. 입력 인자를 받을 수 있고 결과를 돌려줄 수 있다. 프로시저
ㄴ. 테이블이나 뷰에 할당된다. 트리거
ㄷ. INSERT, DELETE, UPDATE 명령 실행시 DBMS에 의하여 수행된다. 트리거
ㄹ. 데이터베이스에 저장되어 필요시 컴파일되며 데이터베이스에 부속된다. 프로시저
 
구분
프로시저(Procedure)
트리거(Trigger)
문법
CREATE Procedure 문법 사용
Create Trigger 문법 사용
생성
생성하면 소스코드와 실행코드가 생성
생성하면 소스코드와 실행코드가 생성
실행
EXECUTE 명령어로 실행
생성 후 자동으로 실행(INSERT, DELETE, UPDATE 명령 실행 시 DBMS에 의하여 수행)
기능
COMMIT, ROLLBACK 실행 가능
입력, 출력 가능
COMMIT, ROLLBACK 실행 불가능

 

정답 : ③

 

 

 

 

66. 정보검색(information retrieval)을 위한 텍스트 전처리 과정 중 스테밍(stemming) 단계의 결과로 옳은 것은?

 

① 중요한 개념들의 리스트와 각 개념을 기술하는주요 단어들로 구성된다.

② 매우 자주 사용되는 단어들이나 문장 의미에는 거의 기여하지 못한다.

③ 원래 단어의 접두사나 접미사를 잘라낸 후에 얻는 단어이다.

④ 문서 컬렉션에서 80% 이상 등장하는 단어들이다.

 

■ 해설

  • 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업을 말함
 
전치리 과정
설명
Tokenization
(토큰화)
  • 주어진 코퍼스(corpus) 에서 토큰(token) 이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함(보통 의미있는 단위로 토큰을 정의)
Cleaning and Normalization
(정제 및 정규화)
  • 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
  • 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 많듬(대소문자 통합 등)
Stop words removal
  • 불용어 제거, 유용한 정보를 주지 않는 자주 등장하는 단어를 제거함
Lemmatization
(표제어추출)
  • 표제어(기본 사전형 단어) 추출은 단어들로부터 표제어를 찾아가는 과정
  • 문맥정보를 고려하여 어근을 추출
Stemming
(어간추출)
  • 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것을 의미(문맥정보를 고려하지 않음)
  • 어간 추출로, base 형태 또는 root 형태로 변경
  • 접두사와 접미사 제거

 

● 텍스트 전처리 과정

 

텍스트 전처리는 자연어를 컴퓨터가 이해하고 처리할 수 있는 형태로 변환하는 과정이다. 이를 통해 기계는 자연어를 이해하고, 인공지능은 텍스트 데이터를 학습할 수 있게 된다.

 

텍스트 전처리 과정은 Sentence, Tokenization, Cleaning, Stremming, Encoding, Sorting, Padding.Similarity 로 진행된다.

 

  • 토큰화(Tokenization)

- 토큰화는 텍스트를 의미 있는 최소 단위로 분리하는 과정으로, 문장을 단어 또는 형태소와 같은 의미 부여가

가능한 단위로 나누는 작업을 한다. 문장 토큰화는 문장 단위로 의미를 나누는 것을 의미하여, 잘 사용하지

않는다.

 

  • 정제(Cleaning)

- 정체 및 추출 단계에서는 토큰화 된 결과에서 불필요한 정보를 제거하고 중요한 정보를 추출한다. 이를 통해

텍스트 데이터를 정리하고 의미 있는 부분을 강좌한다. 불필요한 구두점이나 불용어(Stop words) 를

제거하고, 단어의 원형을 추출하는 등의 작업을 진행한다

 

 

  • 추출(Sremming)

- 어간(Stem)은 단어의 의미를 담음 핵심 부분을 말하며, 접사(Affix) 는 단어에 추가적인 용법을 부여하는

부분이다. 예를 들어 "runnung : 이라는 단어에서 어간은 "run" 이며, 접사는 "ning" 이다.

 

  • 불필요한 접사 제거

- 추출 작업에서는 단어에서 의미를 가진 어간을 추출하여 원형 단어를 도출하고, 불필요한 접사를 제거한다.

이때, 지워도 의미에 큰 영향을 미치치 않는 부분은 지워진다. 예를 들어 "is", "was" 와 같은 형태소, "s",

"ing", "ness" 와 같은 어미는 의미에 큰 영향을 미치치 않기 때문에 제거될 수 있다.

 

  • 어간 추출(Stemming)

- 어간 추출은 단어에서 접사를 제거하여 단어의 기본 형태를 찾는 과정이다. 예를 들어, "running" 의 어간은

"run" 이다. dlEo, "running" 에서 "~ing" 을 제거하여 어간을 추출한다.

어간 추출은 단어의 의미를 축소하여 처리하므로, 동일한 어간을 가진 단어들은 유사한 의미를 갖게 된다.

대표적인 어간 추출 알고리즘으로는 Porter Algorithm 이 있다.

 

  • 표제어 추출(Lemmatization)

- 표제어 추출은 단어를 그 형태소의 기본 사전 형태로 변환하는 과정이다

어간 추출과 달리 단어의 품사 정보를 보존한다. 예를 들어 "better" 의 표제어는 "good" 이다.

표제어 추출은 더 정확한 결과를 얻을 수 있지만, 어간 추출보다 연산 비용이 높다.

 

  • 불용어(Stopword)

- 불용어는 문장에서 대세로 적용하지 않거나 중요도가 낮은 단어들을 의미한다. 이러한 단어들은 텍스트

처리가 자연어 처리 과정에서 제외하거나 제거함으로써 효율적인 분석을 할 수 있다.

예를 들면 'the', 'is', 'and', 'in' 등이 일반적인 불용어에 해당한다.

 

 

정답 : ③

 

 





 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥