정보관리기술/인공지능

음성데이터 마이닝

아이티신비 2024. 3. 18. 09:00

문제1) 음성데이터 마이닝의 정의, 목적, 주요 기술, 활용 가능 분야, 발전 방향에 대하여 기술하시오.

답)

 

1. 음성데이터 마이닝의 정의와 목적

 

 
정의
  • 콜 센터 등의 비정형 데이터인 대량의 음성 데이터를 정련하여 정형 데이터로 변환하고 분류, 군집화, 회귀분석, 이상탐지 등의 기법으로 유의미한 정보를 추출하는 분석기법
  • 음성데이터 마이닝을 음성인식을 통해 텍스트로 변환된 데이터를 수집하여 전처리를 통해 분석을 통해 의미 있는 결과도출을 하는 과정
구성도
목적
빅데이터 중 비정형 데이
터 규모(volume) 증가
  • 빅데이터 환경에서 거의 80% 이상이 비정형 데이터이므로, 빅데이터 분석 시 비정형 데이터 분석 요구 증가
대용량 실시간(velocity) 데
이터 증가
  • 동영상, 실시간 스트리밍 데이터 폭증에 따른 비정형 전용 데이터 분석 필요
다양한(variety) 비정형 유
형 증가
  • IoT, 음성인식, 상황인식 등 지능형 서비스 증가에 따른 다양한 비정형 데이터 분석 요구 증가
  • 다양한 자연어 처리를 위해서는 음성데이터를 이용한 마이닝을 통한 학습 필요

 

2. 음성데이터 마이닝의 주요 기술

가. 음성인식(Speech To Text) 측면의 주요 기술

 
구분
항목
설명
요소기술
EPD
(End-Point
Detection)
음성신호만의 고유한 특성을 처리하기 위해서, 발화 음성의 시작과 끝을
자동으로 검출하는 끝점검출 기술
전처리 기술
음성신호의 주파수 특성을 잡음환경에서도 뚜렷하게 분석 추출하는 기술
후처리 기술
숫자나 영문, 문장부호를 복원하는 기술
인식모델
음향모델
화자의 음성이 어떤 소리인지 분별 능력을 학습하는 모델
발음사전
단어의 다양한 발음패턴을 기억하는 사전
언어모델
단어 간의 관계 또는 문법을 학습하는 모델

 

나. 비정형데이터인 음성데이터의 텍스트 마이닝(Text Mining) 주요 기술

 
주요기술
설명
데이터 수집
뉴스/동영상 공유 플랫폼/콜센테 음성녹취파일/블로그 등 음성 데이터 수집
데이터 전처리
컴퓨터 이해하기 쉽게 텍스트를 변환하는 과정
(오탈자 제거, 불용어 제거, 정제, 정규화)
토근화
단어 단위로 나누는 과정으로 형태소 분석기 사용
(주어진 말뭉치에서 토큰이라는 단위로 나누는 작업)
특징값 추출
중요한 단어를 선별하는 과정
데이터 분석
데이터 마이닝, 머신러닝, 딥러닝 등 분석 모델 이용
(회귀분석, 랜덤포레스트, 선형분석, XGBoost, RNN, GRU 등)

 

 

 

3. 음성데이터 마이닝의 활용 가능 분야

 
분야
설명
범죄 예방
음성데이터를 이용하여 보안과 안전 강화를 목적으로 사람들을 감시
콘텐츠 분석
콘텐츠 내 음성데이터를 이용하여 분류
건강 모니터링
병원에 있는 환자의 건강 상태를 감지, 유아의 호흡 문제 감지
인구 통계 정보
성별, 나이, 감정과 감정, 언어 등을 포함하여 분류
고객의 의견
제품 및 서비스에 대한 고객의 정확하고 정확한 의미를 해석하는 데 도움

 

4. 음성데이터 마이닝의 발전 방향

 
구분
항목
설명
기술
동향
종단형
음성인식
  • 트랜스포머 기반 종단형 음성인식은 현재 SOTA 성능을 내는 최적 모델로 대부분 음성인식 시스템의 기반
비지도 학습
  • 종단형 음성인식의 경우, 학습에 소요되는 데이터가 기존 대비 몇 곱절 이상 필요함에 따라 데이터 증강(Data Augmentation), 자기 지도학습(Selfsupervised) 기반 비지도 학습 등 새로운 방법론 도입 필요
  • BERT 와 유사한 비지도 학습 방식인 Wav2Vec, HuBERT 방식 등 제안
다국어
음성인식
  • 자연어 음성인식 기술의 국제경쟁력 확보의 일환으로 주요 언어 외주변국으로의 다국어 확장이 필요하며 이 경우 low resource 문제 발생
  • 동남아어, 동유럽어, 아랍어권 등 주변국 언어의 경우, 현실적으로대량의 데이터 확보가 매우 어려움
국내외 산업계
현황
인공지능
스피커
대중화
  • 구글, 애플, 마이크로소프트, 아마존 등 글로벌 기업의 인공지능 스피커를 경쟁적으로 출시 및 자사 플랫폼 기반 생태계 구축으로 대중화 추진
개발플랫폼
지원 및
생태계 구축
  • B2B 차원의 인공지능 스피커 생태계 확장을 위한 개발플랫폼 지원
가정 내 AI
허브 전략
  • 인공지능 비서(스피커, 스마트 TV)를 가정내 모든 가전 기기를 연동할 수 있는 AI 허브로 만들려는 가전업체, 포털업체, 통신업체간 주도권 싸움이 치열

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥