문제3) 다음과 같이 형태소 분석을 통하여 문서별로 단어의 횟수가 식별되었다. 각 문서의 TF-IDF(Term Frequency – Inverse Document Frequency)를 식별하기 위한 계산 과정과 그 결과를 설명하시오.
(단, Inverse Document Frequency 계산시 log 를 취하여 구하되 Document Frequency 값을 임의로 가공하지 않아야 하며 , 주어진 log 값만을 활용한다.)
답)
1. 단어 중요도 산출, TF-IDF 개요
|
|
정의
|
여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내는 수치
|
|
2. TF-IDF 구성 및 산출 방법
가. TF-IDF 구성
구성
|
수식 및 설명
|
TF (Term Frequency)
|
|
IDF (Inverse Document Frequency)
|
|
|
나. TF-IDF 산출방법
구성
|
산출방법
|
수식 및 설명
|
TF Term Frequency
|
불린 빈도
|
|
로그 스케일 빈도
|
||
증가 빈도
|
||
DF Document Frequency
|
단어 문서 출현 빈도
|
|
IDF Inverse Document Frequency
|
역문서 단어 출현 빈도
|
|
TF-IDF Term Frequency-Inverse Document Frequency
|
단어 빈도-역 문서 빈도
|
|
|
3. TF-IDF를 식별하기 위한 계산 과정과 그 결과
가. TF-IDF 식별 계산과정
절차
|
설명
|
1. TF 파악
|
|
2. IDF 계산
|
|
3. TF-IDF 도출
|
|
|
나. 결과 해석
결과
|
해석
|
문서 내 중요도 높은 단어 : 모터 및 스티어링휠
|
TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단
• 문서 1에서의 중요한 단어 : 모터 • 문서 2, 3에서 중요한 단어 : 스티어링휠 - 문서2에서 스티어링휠을 5번 언급하고 문서 3에서는 스터이링휠을 1번 언급했기 때문에 문서 2에서 스터이링휠의 중요도가 더 높게 판단됨 |
|
4. TF-IDF 활용 기술 및 활용 분야
|
|
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥
'정보관리기술 > 인공지능' 카테고리의 다른 글
LangChain 프레임워크 (0) | 2024.05.22 |
---|---|
선형 서포트 벡터 머신의 마진(Margin) 분류 방법 (0) | 2024.05.15 |
베이지안 최적화(Bayesain Optimization) / ① (1) | 2024.05.09 |
기계학습 운영화(MLOps) (24) | 2024.04.03 |
온디바이스 AI(Artificial Intelligence) (22) | 2024.04.03 |