문제 6) 디지털 뉴딜 데이터 댐 의 핵심인 인공지능 학습용 빅데이터 구축 사업의 성공적 추진을 위한 정책과 데이터 품질에 대한 관심도가 높아지고 있다 . 다음의 내용을 설명하시오
가. 인공지능 학습용 데이터의 특성
나. 데이터 획득·정제 방법과 기준
다. 데이터 라벨링 (Data Labeling) 및 어노테이션 (Annotation) 방식
답)
1. 인공지능 학습용 데이터의 특징
구분
|
설명
|
정의
|
- 머신러닝 , 딥러닝 등 AI 모델 학습을 위해 활용되는 데이터를 총칭
- 지도학습에 활용되는 라벨링 된 데이터
|
구성
|
원천(원본 ) 데이터
|
- 원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행 한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
|
라벨링 데이터
|
- 원천데이터에 부여한 참값 ’, 파일형식이나 해상도 등의 속성 , 그리고설명이나 주석 등이 포함된 어노테이션 의 집합
|
특성
|
데이터 파일 단위로 관리
|
- 크게 텍스트 , 음성 , 이미지 , 동영상 등 주로 비정형데이터가 다수를 차지
- 데이터의 저장 구조가 인공지능 학습에 필요한 데이터 파일 단위로 관리되는 특성
|
구축 단계별 품질 요구사항 상이
|
- 임무정의 , 획득 , 정제 , 라벨링 등의 각 구축 단계별 로 고려해야 할 품질 요구사항 상이
|
구축 과정 에서 품질 결정
|
- 목적성을 갖는 데이터이기 때문 에 80%~90% 이상이 구축 과정에서품질이 결정
|
AI 모델의 성능측정 결과로 품질수준 평가
|
- 사용자는 AI 학습에 따른 성능이 낮은 경우 , 인공지능 학습용 데이터의 품질 이 낮다고 판단
|
- 기존 DB 에 저장되는 데이터와 다른 AI 학습용 데이 터의 특성 을 고려하여 데이터를 획득 및 정제해야 함
|
2. 데이터 획득 및 정제 방법과 기준
가. 데이터 획득·정제 방법
구분
|
방법
|
세부 방법 설명
|
데이터 획득
|
획득 데이터 정의
|
- 원시데이터 정의 , 원시데이터 포맷을 보편적으로 통용되는 포맷을 활용 ,원시데이터 획득 규모를 구축 목표치 이상의 데이터를 획득하도록 반영
|
획득 데이터 분석
|
- 원시데이터 획득 관련 이슈사항 도출 , 원시데이터 적합성 검토 , 원시데이터 선정
|
획득 절차 수립 및 항목 정의
|
- 데이터 획득 · 정제 절차 , 데이터 획득 항목 , 획득 데이터 저장 및 관리에 대한사항을 구체적으로 제시
- 데이터 획득 형태에는 원시 데이터 직접 제작 API, 크롤링 등이 있음
|
데이터 정제
|
윈시 데이터 정제 방식
|
- 원시 데이터 정제 프로세스와 정제 기준에 대한 사항을 구체적으로 제시
|
획득 도구 및 정제 도구
|
- 도구를 자체 개발 또는 시중의 제작 도구 또는 그와 유사한 역할을 할 수있는 서비스 · 애플리케이션을 활용
|
획득 / 정제 시 고려사항
|
- 개인정보보호 및 보안 , 저작권 , 초상권 등 관련 법 · 제도 에 대한 사항 , 데이터 다양성 확보 , 데이터 편향 방지 및 윤리 준수 , 데이터 획득 시 품질 고려
|
- 데이터 구축 목적 , 데이터 유형 , 도메인 특성에 따른 데이터 정제 기준을 수립함
- 데이터 사용 형태 별로 사용 목적에 적합한 명확한 정제 기준 수 립 필요
|
데이터 유형
|
기준
|
내용
|
텍스트 데이터
|
문장 분리
|
- 문장분리 기술을 활용하여 3 줄 요약으로 문장을 분리
- 분리된 문장은 한 줄씩 개행하여 라벨링 작업자의 작업 효율을 증대
|
문장구분 오류
|
- 오픈소스 문장 분리기 (Koala 와 참여기관이 자체 보유한 한국어 어휘 사전 기반 문장 분리기를 결합하여 99% 이상 정확도를 갖는 문장 분리 수행
|
오탈자 수정
|
- 참여기관이 자체 보유한 한국어 어휘사전을 활용하여 초성 중성 종성간의 관계를 고려하여 오탈자 판단 및 수정
|
수식어 하이라이트
|
- 기 보유하고 있는 통합사전과 추가로 보완할 도메인 사전을 바탕으로 형태소 분석을 통해 품사를 구분함
- 하이라이팅된 수식어는 라벨링 작업자들이 요약 시 내용을 파악하는데방해되는 수식어를 쉽게 구분할 수 있도록 함
|
음성 데이터
|
음량
|
|
발음
|
|
소음 및 잡음
|
- 음성 이외에 소음 , 잡음이 심할 때 허용 범위
|
잘림
|
- 발화된 문장이 완성되지 않고 끝났을 때 허용 범위
|
안들림
|
|
개인정보처리
|
|
저작권
|
|
촬영 이미지
|
촬영수단
|
- 촬영 수단의 제한여부 (스마트폰 , 카메라 , 캠코더 , 그 밖의 특수장비 등)
|
객체의 크기 비율
|
- 촬영 대상이 이미지 내에서 차지하는 적정크기 또는 크기 제한
|
촬영대상제한
|
- 이미지 내에서 촬영 대상 객체 외 다른 것들이 포함되어도 되는지 여부 , 한 이미지 내에 포함될 수 있는 객체의 개수 제한 최소 , 최대 등
|
이미지 비율
|
- 촬영 시 방향 가로 , 세로 ), 가로세로 비율 (4:3, 16:9 등
|
화질 및 필터
|
- 해상도 제한 여부 , 필터가 적용된 이미지 가능 여부
|
잘못된 촬영 허용수준
|
- 촬영 대상의 초점 안맞음 허용 여부 , 아웃포커싱 사진과 이미지 흔들림 허용 여부 등
|
개인정보처리
|
|
저작권
|
|
스캔 이미지
|
오탈자 여부
|
- 스캔 이미지 내 오탈자 및 발견 시 허용 여부
|
화질 및 필터
|
- 해상도 제한 여부 최소 해상도 , 최대 해상도 등
|
스캔 품질
|
- 이미지 흔들림과 빛 노출 과다의 허용 기준 , 스캔 대상의 잘림 또는 가려짐과 기울어짐 또는 찌그러진 이미지의 허용 여부 등
|
개인정보처리
|
|
저작권
|
|
영상 데이터
|
획득 배경
|
|
데이터 획득
|
- 목적에 따른 획득 방법 또는 제작 방법 수립 , 촬영전략 및 계획 수립
|
데이터 정제
|
|
데이터 활용 분야
|
|
데이터 형태
|
- 동영상 비디오 클립 mp4 포맷 또는 이미지 파일 (PNG, JPG), 목적에맞는 획득 데이터 식별 기준에 따른 정보 포함
|
- 활용 목적에 따라 품질과 양을 구분해 효율적인 데이터 라벨링 방식 의 적용이 필요
|
3. 데이터 라벨링 및 어노테이션 방식
가. 데이터 라벨링
구분
|
설명
|
정의
|
- 인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동
|
식별 분류 체계 및 고려사항
|
데이터 특성 식별 분류 체계
|
- 라벨링 작업 대상 및 범위 정의 , 클래스 정의 및 관리
- 목적에 필요한 데이터 특성 식별 분류 후 정제 단계에 전달함
- 식별된 특성을 통해 라벨링에 필요한 라벨링 기준 및 어노테이션 속성항목 작성 , 피쳐링
|
고려사항
|
- 획득 가능성 보안 문제 활용처 데이터 정확성 , 라벨링 비용 등 고려
|
방법 및 절차
|
라벨링 작업 방식 결정
|
- 라벨링할 정보의 특성에 따라 자동 , 반자동 , 수동 방식을 결정
- 원천데이터로부터 추출하는 방식이 정형화 되어 있고 자동화할 수 있는 사항인 경우 자동 방법을 고려 하고 기계가 판단하기 어려운 사항은반자동 또는 수동 방식
|
작업 배분
|
- 작업자에게 배분하고 라벨링 결과를 다시 저장하는 파일 저장체계 및프로세스를 정의
|
라벨링 작업 기준
|
- 데이터별 어노테이션 기준 , 라벨링 기준 등을 상세히 기술
|
라벨링 작업 수행
|
- 구축 목적 , 도메인 , 활용 분야를 고려하여 라벨링 절차 및 기준을 수 립
|
품질 관리
|
- 품질 자체 검사 정제 데이터의 품질 검사 및 피드백
|
완료 후 관리 방법
|
데이터 관리 기본 사항
|
- 목적에 맞는 데이터 어노테이션 기준을 수립하고 데이터 사용 목적에맞게 관리
|
데이터 저장 관리
|
- 원천데이터에 추가된 라벨링 정보를 저장하고 관리하는 기준을 수립
|
데이터 백업 관리
|
- 원천데이터 및 라벨링데이터의 훼손 및 멸실을 방지하기 위해 안전한보관방법 및 백업방안을 마련
|
데이터 관리 조직 운영 방안
|
- 데이터셋 제작 책임자는 품질관리 책임자로서 획득되는 데이터의 품질을 주기적으로 검사 및 관리
- 주기적인 실무협의체와의 미팅을 통해 데이터 품질에 대한 피드백을 공유하고 논의
- 외부 검증 기관 통한 품질 관리
|
도구 선정
|
라벨링 도구 선정
|
- 데이터 구축 목적 달성을 위해 원천데이터 형태 , 구축 목적에 부합 하는 라벨링 도구를 선정
|
활용 매뉴얼 작성
|
- 작업자가 활용할 도구의 사용법에 대한 매뉴얼을 작성
|
도구 선정 및 개발 시 고려사항
|
- 표준적인 어노테이션 및 라벨링 작업 가능 여부 , 표준 파일 포맷 지원여부 등을 고려
- 다양한 사용 목적이 가 능한 도구를 사전에 선택하거나 오픈소스를 통해 직접 제작하여 사용
|
- 데이터 유형 별 라벨링 기능에 따라 데이터 라벨링 시 원천데이터에 주석을 표시하는 작업 인 어노테이션 방식을 적용함
|
데이터 유형
|
라벨링 기능
|
어노테이션 방식
|
텍스트
|
- 텍스트 분류 (Text Classification)
|
|
- 개체명 인식(Named Entity Recongnition)
|
|
- 관계-의존성 정의(Relation-Dependencies)
|
|
이미지
|
- 이미지 분류(Image Classification)
|
|
- 객체 인식(Object Recognition)
|
|
|
|
동영상
|
- 동영상 분류(Video Classfication)
|
|
- 객체 인식(Object Recognition)
|
- 바운딩 박스(사각형)
- 키 포인트(정점)
- 폴리곤(다각형)
- 폴리라인(선)
|
|
|
오디오
|
- 오디오 분류(Audio Classfication)
|
- 오디오 세그멘테이션(Audio Segmentation)
|
|
- 음성인식(음성→텍스트 변환)(Speech to Text)
|
|
기타
|
- 시계열 세그멘테이션(Time-Series Segmentation)
- HTML 문서 분류(HTML Classfication)
|
- 데이터 라벨링 통한 학습데이터셋을 이용하여 사전에 정의된 인공지능 알고리즘을 학습시키고 , 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동을 수행함
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥