정보관리기술/인공지능

TF-IDF(Term Frequency – Inverse Document Frequency)

아이티신비 2024. 5. 19. 09:00

문제3) 다음과 같이 형태소 분석을 통하여 문서별로 단어의 횟수가 식별되었다. 각 문서의 TF-IDF(Term Frequency – Inverse Document Frequency)를 식별하기 위한 계산 과정과 그 결과를 설명하시오.

(단, Inverse Document Frequency 계산시 log 를 취하여 구하되 Document Frequency 값을 임의로 가공하지 않아야 하며 , 주어진 log 값만을 활용한다.)

 

답)

 

 

1. 단어 중요도 산출, TF-IDF 개요

정의
여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내는 수치
  • DTM에서는 단순하게 단어의 빈도수를 측정하기 때문에, 각 단어의 중요도 자체를 신경 쓰지 않는다는 단점을보완하기 위해 사용

 

2. TF-IDF 구성 및 산출 방법

가. TF-IDF 구성

구성
수식 및 설명
TF (Term Frequency)
IDF (Inverse Document Frequency)
  • DTM 내의 각 단어들마다 중요한 정도를 가중치로 계산하여 문서 내 토픽에 기여도를 측정

 

나. TF-IDF 산출방법

구성
산출방법
수식 및 설명
TF Term Frequency
불린 빈도
로그 스케일 빈도
증가 빈도
DF Document Frequency
단어 문서 출현 빈도
IDF Inverse Document Frequency
역문서 단어 출현 빈도
TF-IDF Term Frequency-Inverse Document Frequency
단어 빈도-역 문서 빈도
  • TF-IDF는 특정 단어의 중요도는 단어가 출현한 횟수에 비례하고, 그 단어가 언급된 모든 문서의 총수에 반비례

 

3. TF-IDF를 식별하기 위한 계산 과정과 그 결과

가. TF-IDF 식별 계산과정

절차
설명
1. TF 파악
2. IDF 계산
3. TF-IDF 도출
  • 모터 및 스티어링휠이 유의미한 TF-IDF 결과를 도출함

 

나. 결과 해석

결과
해석
문서 내 중요도 높은 단어 : 모터 및 스티어링휠
TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단
• 문서 1에서의 중요한 단어 : 모터
• 문서 2, 3에서 중요한 단어 : 스티어링휠
- 문서2에서 스티어링휠을 5번 언급하고 문서 3에서는 스터이링휠을 1번 언급했기 때문에 문서 2에서 스터이링휠의 중요도가 더 높게 판단됨
  • TF-IDF는 문서 간의 단어 중요성 및 유사성을 측정하고 검색 결과를 개선하는 데 사용

 

4. TF-IDF 활용 기술 및 활용 분야

  • 자연어 처리 중 카운팅 기반 기술인 TF-IDF를 통해 컴퓨터가 인간의 언어를 어떻게 이해하는 지 파악하여 컴퓨터와의효율적 의사소통에 기여함


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥