정보관리기술/데이터베이스

인공지능 학습용 데이터

아이티신비 2024. 2. 13. 09:00

문제 6) 디지털 뉴딜 데이터 댐 의 핵심인 인공지능 학습용 빅데이터 구축 사업의 성공적 추진을 위한 정책과 데이터 품질에 대한 관심도가 높아지고 있다 . 다음의 내용을 설명하시오

가. 인공지능 학습용 데이터의 특성

나. 데이터 획득·정제 방법과 기준

다. 데이터 라벨링 (Data Labeling) 및 어노테이션 (Annotation) 방식

 

답)

 

 

1. 인공지능 학습용 데이터의 특징

 
구분
설명
정의
  • 머신러닝 , 딥러닝 등 AI 모델 학습을 위해 활용되는 데이터를 총칭
  • 지도학습에 활용되는 라벨링 된 데이터
구성
원천(원본 ) 데이터
  • 원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행 한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
라벨링 데이터
  • 원천데이터에 부여한 참값 ’, 파일형식이나 해상도 등의 속성 , 그리고설명이나 주석 등이 포함된 어노테이션 의 집합
특성
데이터 파일 단위로 관리
  • 크게 텍스트 , 음성 , 이미지 , 동영상 등 주로 비정형데이터가 다수를 차지
  • 데이터의 저장 구조가 인공지능 학습에 필요한 데이터 파일 단위로 관리되는 특성
구축 단계별 품질 요구사항 상이
  • 임무정의 , 획득 , 정제 , 라벨링 등의 각 구축 단계별 로 고려해야 할 품질 요구사항 상이
구축 과정 에서 품질 결정
  • 목적성을 갖는 데이터이기 때문 에 80%~90% 이상이 구축 과정에서품질이 결정
AI 모델의 성능측정 결과로 품질수준 평가
  • 사용자는 AI 학습에 따른 성능이 낮은 경우 , 인공지능 학습용 데이터의 품질 이 낮다고 판단
  • 기존 DB 에 저장되는 데이터와 다른 AI 학습용 데이 터의 특성 을 고려하여 데이터를 획득 및 정제해야 함

 

2. 데이터 획득 및 정제 방법과 기준

가. 데이터 획득·정제 방법

 
구분
방법
세부 방법 설명
데이터
획득
획득 데이터 정의
  • 원시데이터 정의 , 원시데이터 포맷을 보편적으로 통용되는 포맷을 활용 ,원시데이터 획득 규모를 구축 목표치 이상의 데이터를 획득하도록 반영
획득 데이터 분석
  • 원시데이터 획득 관련 이슈사항 도출 , 원시데이터 적합성 검토 , 원시데이터 선정
획득 절차 수립 및 항목 정의
  • 데이터 획득 · 정제 절차 , 데이터 획득 항목 , 획득 데이터 저장 및 관리에 대한사항을 구체적으로 제시
  • 데이터 획득 형태에는 원시 데이터 직접 제작 API, 크롤링 등이 있음
데이터
정제
윈시 데이터 정제 방식
  • 원시 데이터 정제 프로세스와 정제 기준에 대한 사항을 구체적으로 제시
획득 도구 및 정제 도구
  • 도구를 자체 개발 또는 시중의 제작 도구 또는 그와 유사한 역할을 할 수있는 서비스 · 애플리케이션을 활용
획득 / 정제 시 고려사항
  • 개인정보보호 및 보안 , 저작권 , 초상권 등 관련 법 · 제도 에 대한 사항 , 데이터 다양성 확보 , 데이터 편향 방지 및 윤리 준수 , 데이터 획득 시 품질 고려
  • 데이터 구축 목적 , 데이터 유형 , 도메인 특성에 따른 데이터 정제 기준을 수립함
  • 데이터 사용 형태 별로 사용 목적에 적합한 명확한 정제 기준 수 립 필요

 

 

나. 데이터 획득·정제 기준

 
데이터 유형
기준
내용
텍스트 데이터
문장 분리
  • 문장분리 기술을 활용하여 3 줄 요약으로 문장을 분리
  • 분리된 문장은 한 줄씩 개행하여 라벨링 작업자의 작업 효율을 증대
문장구분 오류
  • 오픈소스 문장 분리기 (Koala 와 참여기관이 자체 보유한 한국어 어휘 사전 기반 문장 분리기를 결합하여 99% 이상 정확도를 갖는 문장 분리 수행
오탈자 수정
  • 참여기관이 자체 보유한 한국어 어휘사전을 활용하여 초성 중성 종성간의 관계를 고려하여 오탈자 판단 및 수정
수식어 하이라이트
  • 기 보유하고 있는 통합사전과 추가로 보완할 도메인 사전을 바탕으로 형태소 분석을 통해 품사를 구분함
  • 하이라이팅된 수식어는 라벨링 작업자들이 요약 시 내용을 파악하는데방해되는 수식어를 쉽게 구분할 수 있도록 함
음성 데이터
음량
  • 음량이 너무 크거나 작을 때 허용 범위
발음
  • 화자의 발음이 불분명할 때 허용 범위
소음 및 잡음
  • 음성 이외에 소음 , 잡음이 심할 때 허용 범위
잘림
  • 발화된 문장이 완성되지 않고 끝났을 때 허용 범위
안들림
  • 음성이 들리지 않을 때 허용 범위
개인정보처리
  • 개인정보보호법 위배 여부
저작권
  • 저작권 침해 가능성 여부
촬영 이미지
촬영수단
  • 촬영 수단의 제한여부 (스마트폰 , 카메라 , 캠코더 , 그 밖의 특수장비 등)
객체의
크기 비율
  • 촬영 대상이 이미지 내에서 차지하는 적정크기 또는 크기 제한
촬영대상제한
  • 이미지 내에서 촬영 대상 객체 외 다른 것들이 포함되어도 되는지 여부 , 한 이미지 내에 포함될 수 있는 객체의 개수 제한 최소 , 최대 등
이미지 비율
  • 촬영 시 방향 가로 , 세로 ), 가로세로 비율 (4:3, 16:9 등
화질 및 필터
  • 해상도 제한 여부 , 필터가 적용된 이미지 가능 여부
잘못된 촬영 허용수준
  • 촬영 대상의 초점 안맞음 허용 여부 , 아웃포커싱 사진과 이미지 흔들림 허용 여부 등
개인정보처리
  • 개인정보보호법 위배 여부
저작권
  • 저작권 침해 가능성 여부
스캔
이미지
오탈자 여부
  • 스캔 이미지 내 오탈자 및 발견 시 허용 여부
화질 및 필터
  • 해상도 제한 여부 최소 해상도 , 최대 해상도 등
스캔 품질
  • 이미지 흔들림과 빛 노출 과다의 허용 기준 , 스캔 대상의 잘림 또는 가려짐과 기울어짐 또는 찌그러진 이미지의 허용 여부 등
개인정보처리
  • 개인정보보호법 위배 여부
저작권
  • 저작권 침해 가능성 여부
영상 데이터
획득 배경
  • 데이터 획득 배경에 대한 설명
데이터 획득
  • 목적에 따른 획득 방법 또는 제작 방법 수립 , 촬영전략 및 계획 수립
데이터 정제
  • 데이터 정제를 위한 작업 프로세스
데이터 활용 분야
  • 연구 분야 , 산업 분야
데이터 형태
  • 동영상 비디오 클립 mp4 포맷 또는 이미지 파일 (PNG, JPG), 목적에맞는 획득 데이터 식별 기준에 따른 정보 포함
  • 활용 목적에 따라 품질과 양을 구분해 효율적인 데이터 라벨링 방식 의 적용이 필요

 

 

 

3. 데이터 라벨링 및 어노테이션 방식

가. 데이터 라벨링

 
구분
설명
정의
  • 인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동
식별 분류 체계 및 고려사항
데이터
특성 식별
분류 체계
  • 라벨링 작업 대상 및 범위 정의 , 클래스 정의 및 관리
  • 목적에 필요한 데이터 특성 식별 분류 후 정제 단계에 전달함
  • 식별된 특성을 통해 라벨링에 필요한 라벨링 기준 및 어노테이션 속성항목 작성 , 피쳐링
고려사항
  • 획득 가능성 보안 문제 활용처 데이터 정확성 , 라벨링 비용 등 고려
방법 및 절차
라벨링
작업 방식
결정
  • 라벨링할 정보의 특성에 따라 자동 , 반자동 , 수동 방식을 결정
  • 원천데이터로부터 추출하는 방식이 정형화 되어 있고 자동화할 수 있는 사항인 경우 자동 방법을 고려 하고 기계가 판단하기 어려운 사항은반자동 또는 수동 방식
작업
배분
  • 작업자에게 배분하고 라벨링 결과를 다시 저장하는 파일 저장체계 및프로세스를 정의
라벨링
작업 기준
  • 데이터별 어노테이션 기준 , 라벨링 기준 등을 상세히 기술
라벨링
작업 수행
  • 구축 목적 , 도메인 , 활용 분야를 고려하여 라벨링 절차 및 기준을 수 립
품질
관리
  • 품질 자체 검사 정제 데이터의 품질 검사 및 피드백
완료 후 관리 방법
데이터
관리 기본
사항
  • 목적에 맞는 데이터 어노테이션 기준을 수립하고 데이터 사용 목적에맞게 관리
데이터
저장 관리
  • 원천데이터에 추가된 라벨링 정보를 저장하고 관리하는 기준을 수립
데이터
백업 관리
  • 원천데이터 및 라벨링데이터의 훼손 및 멸실을 방지하기 위해 안전한보관방법 및 백업방안을 마련
데이터
관리 조직
운영 방안
  • 데이터셋 제작 책임자는 품질관리 책임자로서 획득되는 데이터의 품질을 주기적으로 검사 및 관리
  • 주기적인 실무협의체와의 미팅을 통해 데이터 품질에 대한 피드백을 공유하고 논의
  • 외부 검증 기관 통한 품질 관리
도구 선정
라벨링 도구 선정
  • 데이터 구축 목적 달성을 위해 원천데이터 형태 , 구축 목적에 부합 하는 라벨링 도구를 선정
활용 매뉴얼 작성
  • 작업자가 활용할 도구의 사용법에 대한 매뉴얼을 작성
도구 선정 및 개발 시 고려사항
  • 표준적인 어노테이션 및 라벨링 작업 가능 여부 , 표준 파일 포맷 지원여부 등을 고려
  • 다양한 사용 목적이 가 능한 도구를 사전에 선택하거나 오픈소스를 통해 직접 제작하여 사용
  • 데이터 유형 별 라벨링 기능에 따라 데이터 라벨링 시 원천데이터에 주석을 표시하는 작업 인 어노테이션 방식을 적용함

 

나. 어노테이션 방식

데이터 유형
라벨링 기능
어노테이션 방식
텍스트
  • 텍스트 분류 (Text Classification)
  • 클래스 라벨 (단일 , 다중)
  • 개체명 인식(Named Entity Recongnition)
  • 단어 (구문 ) 라벨
  • 관계-의존성 정의(Relation-Dependencies)
  • 단어(구문) 라벨링 및 두 단어 사이의 관계
이미지
  • 이미지 분류(Image Classification)
  • 클래스 라벨(단일, 다중)
  • 객체 인식(Object Recognition)
  • 바운딩 박스(사각형)
  • 폴리곤(다각형)
  • 영역 구분(Segmentation)
  • 픽셀(점)
동영상
  • 동영상 분류(Video Classfication)
  • 클래스 라벨(단일, 다중)
  • 객체 인식(Object Recognition)
  • 바운딩 박스(사각형)
  • 키 포인트(정점)
  • 폴리곤(다각형)
  • 폴리라인(선)
  • 객체 추적(Object Tracking)
  • 클래스 라벨
오디오
  • 오디오 분류(Audio Classfication)
  • 오디오 세그멘테이션(Audio Segmentation)
  • 텍스트 전사
  • 음성인식(음성→텍스트 변환)(Speech to Text)
  • 클래스 라벨
기타
  • 시계열 세그멘테이션(Time-Series Segmentation)
  • HTML 문서 분류(HTML Classfication)
  • 데이터 라벨링 통한 학습데이터셋을 이용하여 사전에 정의된 인공지능 알고리즘을 학습시키고 , 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동을 수행함


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥

 

'정보관리기술 > 데이터베이스' 카테고리의 다른 글

웹 크롤링(Web Crawling)  (25) 2024.02.13
데이터 거버넌스  (27) 2024.02.13
빅데이터분석도구를 선택하는 원칙 / ①  (0) 2024.02.12
데이터 품질관리 지침  (23) 2024.02.12
DA와 DBA  (27) 2024.02.12