정보관리기술/인공지능

임베딩(Embedding)

아이티신비 2024. 3. 26. 09:00

문제1) 인공지능(AI)을 이용한 자연어 처리 임베딩(Embedding) 기술에 대하여 설명하시오.

답)

 

1. 인공지능을 이용한 자연어 처리 임베딩(Embedding) 기술의 개념

  • 자연어를 기계가 이해할 수 있는 숫자의 집합인 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환

 

2. 자연어 처리 임베딩 기술의 구성 방식

 
처리기술
설명
워드 클라우드
  • 텍스트를 분석하여 사람들의 관심사, 키워드, 개념 등을 파악할 수 있도록 빈도수를단순히 카운트하여 시각화하는 기술
N-gram Model
  • 카운트 기반의 통계적 방법으로 Unigram, Bi-gram, Tri-gram등을 이용. (예) 현재기준 단어 분석시, 현재의 단어만 선택하여 분석할경우 unigram.바로 전 단어까지 선택하여 분석할 경우 Bi-gram, 3단어는 tri-gram 이라고 함
토픽모델링
  • 단어 또는 말뭉치(corpus)로부터 숨겨진 주제를 찾고 키워드별로 주제를 묶어 주는 비지도 학습 및 확률 알고리즘으로, 관심사와 관련된 토픽을 찾아내는 방법
  • 대표적인 기법 : Latent Dirichlet Allocation(LDA, 베이즈이론기반)

 

3. 자연어 처리 임베딩 기술의 유형

가. 통계적 기반 및 뉴럴네트워크 기반의 자연어 처리 임베딩 기술

 
구분
기술
설명
통계적
기반
TDM
(Term-Document Matrix)
  • 단어-문서행렬이라고 부르며 문서에서 등장하는 단어들의 빈도를 행렬로 표현.
  • 수치화된 단어 비교가능하지만, 단어수가 많아질수록 한계
TF-IDF
(Term Frequency-Inverse
Document Frequency)
  • 특정 단어가 문서 내에서 출현하는 빈도(TF)값과 흔한 단어는 문서에서 자주 등장되는 경우가 많아 역빈도(IDF)값을 계산
  • 문서에서 특정 단어가 얼마나 중요한 역할을 하는 것인지를 나타내는 통계적 수치
  • TF-IDF가 높을수록 문서에서 중요도가 높은 단어
One-hot Encoding
  • 문자를 숫자로 표현하는 가장 기본적인 방법
  • 배열을 이용해 해당 단어의 인덱스 값만 1로 표현
  • 쉽게 표현할 수 있는 장점이 있지만, 단어간의 유사도를 파악하기 어려운 단점도 존재
NN 기반
Word2Vec
  • 단어간 유사도를 반영해, 단어를 벡터화할 수 있는 방법
  • 비슷한 분포를 가진 단어는 가까운 벡터로 표현 가능
  • CBOW와 skip-gram 두가지 모델로 분류
BERT
  • 딥러닝 모델을 적용한, 모든 자연어 처리 분야에서 좋은 성능을 보이고 있는 범용 언어 모델

 

 

나. 단어 수준 및 문장 수준의 임베딩 기술

 
구분
기술
설명
단어
수준의
임베딩
Word2Vec
  • CBOW : 특정 단어가 주어졌을 때 앞과 뒤에 붙어있는 단어를 통해 주어진 단어를 유추하는 방법
  • Skip-gram : CBOW와 반대로 중심단어에서 주변단어를 예측하는 방법
FastText
  • 단어를 개별 단어가 아닌 n-gram의 characters(Bag-Of-Characters)를 적용하여 임베딩하므로 하나의 단어를 여러 개로 잘라서 벡터로 계산하는 방식
  • (예) where를 Trigram의 characters로 표현하면 <‘wh’, ‘whe’, ‘her’, ‘ere’, ‘re’>로 FastText를 표현
ELMo
(Embedding from
Language Models)
  • 사전 훈련된 언어 모델(Pre-trained Language Model)을 사용하고, 양방향 언어모델을 적용한 방법(BiLM : Bidirectional Language Model)
문장
수준의
임베딩
BERT
(Bidirectional Encoder
Representations from
Transformer)
  • 사전학습(pre-trained) 모델로서, 특정 과제(task)를 하기 전 사전훈련 임베딩을 실시하므로 기존의 임베딩 기술보다 과제의 성능을 더욱 향상시킬 수 있는 모델
  • 모델링 과정 : Pre-trained(비지도 학습) → 임베딩(Encoder) → 트렌스퍼(Transfer) → Fine-tuning → 목적에 맞는 학습
  • 양방향 모델을 적용하여 문장의 앞과 뒤의 문맥을 고려하여, 이전보다 더 높은 정확도 확보

 

4. 자연어 처리의 발전을 위한 방안

 
정책 측면
효율적이고 정확도가 높은 AI 기반의 솔루션 구현을 위한 적극지원 필요
비즈니스 측면
인터넷과 끊임없이 확장되는 통신, 소비 및 상호 작용 수단으로 브랜딩 및 비즈니스 모델을 재고

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥