정보관리기술/데이터베이스

인공지능 학습용 데이터

아이티신비 2024. 2. 13. 09:00

문제 6) 디지털 뉴딜 데이터 댐 의 핵심인 인공지능 학습용 빅데이터 구축 사업의 성공적 추진을 위한 정책과 데이터 품질에 대한 관심도가 높아지고 있다 . 다음의 내용을 설명하시오

가. 인공지능 학습용 데이터의 특성

나. 데이터 획득·정제 방법과 기준

다. 데이터 라벨링 (Data Labeling) 및 어노테이션 (Annotation) 방식

답)

1. 인공지능 학습용 데이터의 특징

구분	설명
정의	머신러닝 , 딥러닝 등 AI 모델 학습을 위해 활용되는 데이터를 총칭 지도학습에 활용되는 라벨링 된 데이터
구성	원천(원본 ) 데이터	원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행 한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
구성	라벨링 데이터	원천데이터에 부여한 참값 ’, 파일형식이나 해상도 등의 속성 , 그리고설명이나 주석 등이 포함된 어노테이션 의 집합
특성	데이터 파일 단위로 관리	크게 텍스트 , 음성 , 이미지 , 동영상 등 주로 비정형데이터가 다수를 차지 데이터의 저장 구조가 인공지능 학습에 필요한 데이터 파일 단위로 관리되는 특성
	구축 단계별 품질 요구사항 상이	임무정의 , 획득 , 정제 , 라벨링 등의 각 구축 단계별 로 고려해야 할 품질 요구사항 상이
	구축 과정 에서 품질 결정	목적성을 갖는 데이터이기 때문 에 80%~90% 이상이 구축 과정에서품질이 결정
	AI 모델의 성능측정 결과로 품질수준 평가	사용자는 AI 학습에 따른 성능이 낮은 경우 , 인공지능 학습용 데이터의 품질 이 낮다고 판단
기존 DB 에 저장되는 데이터와 다른 AI 학습용 데이 터의 특성 을 고려하여 데이터를 획득 및 정제해야 함

2. 데이터 획득 및 정제 방법과 기준

가. 데이터 획득·정제 방법

구분	방법	세부 방법 설명
데이터 획득	획득 데이터 정의	원시데이터 정의 , 원시데이터 포맷을 보편적으로 통용되는 포맷을 활용 ,원시데이터 획득 규모를 구축 목표치 이상의 데이터를 획득하도록 반영
	획득 데이터 분석	원시데이터 획득 관련 이슈사항 도출 , 원시데이터 적합성 검토 , 원시데이터 선정
	획득 절차 수립 및 항목 정의	데이터 획득 · 정제 절차 , 데이터 획득 항목 , 획득 데이터 저장 및 관리에 대한사항을 구체적으로 제시 데이터 획득 형태에는 원시 데이터 직접 제작 API, 크롤링 등이 있음
데이터 정제	윈시 데이터 정제 방식	원시 데이터 정제 프로세스와 정제 기준에 대한 사항을 구체적으로 제시
	획득 도구 및 정제 도구	도구를 자체 개발 또는 시중의 제작 도구 또는 그와 유사한 역할을 할 수있는 서비스 · 애플리케이션을 활용
	획득 / 정제 시 고려사항	개인정보보호 및 보안 , 저작권 , 초상권 등 관련 법 · 제도 에 대한 사항 , 데이터 다양성 확보 , 데이터 편향 방지 및 윤리 준수 , 데이터 획득 시 품질 고려
데이터 구축 목적 , 데이터 유형 , 도메인 특성에 따른 데이터 정제 기준을 수립함 데이터 사용 형태 별로 사용 목적에 적합한 명확한 정제 기준 수 립 필요

나. 데이터 획득·정제 기준

데이터 유형	기준	내용
텍스트 데이터	문장 분리	문장분리 기술을 활용하여 3 줄 요약으로 문장을 분리 분리된 문장은 한 줄씩 개행하여 라벨링 작업자의 작업 효율을 증대
	문장구분 오류	오픈소스 문장 분리기 (Koala 와 참여기관이 자체 보유한 한국어 어휘 사전 기반 문장 분리기를 결합하여 99% 이상 정확도를 갖는 문장 분리 수행
	오탈자 수정	참여기관이 자체 보유한 한국어 어휘사전을 활용하여 초성 중성 종성간의 관계를 고려하여 오탈자 판단 및 수정
	수식어 하이라이트	기 보유하고 있는 통합사전과 추가로 보완할 도메인 사전을 바탕으로 형태소 분석을 통해 품사를 구분함 하이라이팅된 수식어는 라벨링 작업자들이 요약 시 내용을 파악하는데방해되는 수식어를 쉽게 구분할 수 있도록 함
음성 데이터	음량	음량이 너무 크거나 작을 때 허용 범위
	발음	화자의 발음이 불분명할 때 허용 범위
	소음 및 잡음	음성 이외에 소음 , 잡음이 심할 때 허용 범위
	잘림	발화된 문장이 완성되지 않고 끝났을 때 허용 범위
	안들림	음성이 들리지 않을 때 허용 범위
	개인정보처리	개인정보보호법 위배 여부
	저작권	저작권 침해 가능성 여부
촬영 이미지	촬영수단	촬영 수단의 제한여부 (스마트폰 , 카메라 , 캠코더 , 그 밖의 특수장비 등)
	객체의 크기 비율	촬영 대상이 이미지 내에서 차지하는 적정크기 또는 크기 제한
	촬영대상제한	이미지 내에서 촬영 대상 객체 외 다른 것들이 포함되어도 되는지 여부 , 한 이미지 내에 포함될 수 있는 객체의 개수 제한 최소 , 최대 등
	이미지 비율	촬영 시 방향 가로 , 세로 ), 가로세로 비율 (4:3, 16:9 등
	화질 및 필터	해상도 제한 여부 , 필터가 적용된 이미지 가능 여부
	잘못된 촬영 허용수준	촬영 대상의 초점 안맞음 허용 여부 , 아웃포커싱 사진과 이미지 흔들림 허용 여부 등
	개인정보처리	개인정보보호법 위배 여부
	저작권	저작권 침해 가능성 여부
스캔 이미지	오탈자 여부	스캔 이미지 내 오탈자 및 발견 시 허용 여부
	화질 및 필터	해상도 제한 여부 최소 해상도 , 최대 해상도 등
	스캔 품질	이미지 흔들림과 빛 노출 과다의 허용 기준 , 스캔 대상의 잘림 또는 가려짐과 기울어짐 또는 찌그러진 이미지의 허용 여부 등
	개인정보처리	개인정보보호법 위배 여부
	저작권	저작권 침해 가능성 여부
영상 데이터	획득 배경	데이터 획득 배경에 대한 설명
	데이터 획득	목적에 따른 획득 방법 또는 제작 방법 수립 , 촬영전략 및 계획 수립
	데이터 정제	데이터 정제를 위한 작업 프로세스
	데이터 활용 분야	연구 분야 , 산업 분야
	데이터 형태	동영상 비디오 클립 mp4 포맷 또는 이미지 파일 (PNG, JPG), 목적에맞는 획득 데이터 식별 기준에 따른 정보 포함
활용 목적에 따라 품질과 양을 구분해 효율적인 데이터 라벨링 방식 의 적용이 필요

3. 데이터 라벨링 및 어노테이션 방식

가. 데이터 라벨링

구분	설명
정의	인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동
식별 분류 체계 및 고려사항	데이터 특성 식별 분류 체계	라벨링 작업 대상 및 범위 정의 , 클래스 정의 및 관리 목적에 필요한 데이터 특성 식별 분류 후 정제 단계에 전달함 식별된 특성을 통해 라벨링에 필요한 라벨링 기준 및 어노테이션 속성항목 작성 , 피쳐링
식별 분류 체계 및 고려사항	고려사항	획득 가능성 보안 문제 활용처 데이터 정확성 , 라벨링 비용 등 고려
방법 및 절차	라벨링 작업 방식 결정	라벨링할 정보의 특성에 따라 자동 , 반자동 , 수동 방식을 결정 원천데이터로부터 추출하는 방식이 정형화 되어 있고 자동화할 수 있는 사항인 경우 자동 방법을 고려 하고 기계가 판단하기 어려운 사항은반자동 또는 수동 방식
	작업 배분	작업자에게 배분하고 라벨링 결과를 다시 저장하는 파일 저장체계 및프로세스를 정의
	라벨링 작업 기준	데이터별 어노테이션 기준 , 라벨링 기준 등을 상세히 기술
	라벨링 작업 수행	구축 목적 , 도메인 , 활용 분야를 고려하여 라벨링 절차 및 기준을 수 립
	품질 관리	품질 자체 검사 정제 데이터의 품질 검사 및 피드백
완료 후 관리 방법	데이터 관리 기본 사항	목적에 맞는 데이터 어노테이션 기준을 수립하고 데이터 사용 목적에맞게 관리
	데이터 저장 관리	원천데이터에 추가된 라벨링 정보를 저장하고 관리하는 기준을 수립
	데이터 백업 관리	원천데이터 및 라벨링데이터의 훼손 및 멸실을 방지하기 위해 안전한보관방법 및 백업방안을 마련
	데이터 관리 조직 운영 방안	데이터셋 제작 책임자는 품질관리 책임자로서 획득되는 데이터의 품질을 주기적으로 검사 및 관리 주기적인 실무협의체와의 미팅을 통해 데이터 품질에 대한 피드백을 공유하고 논의 외부 검증 기관 통한 품질 관리
도구 선정	라벨링 도구 선정	데이터 구축 목적 달성을 위해 원천데이터 형태 , 구축 목적에 부합 하는 라벨링 도구를 선정
	활용 매뉴얼 작성	작업자가 활용할 도구의 사용법에 대한 매뉴얼을 작성
	도구 선정 및 개발 시 고려사항	표준적인 어노테이션 및 라벨링 작업 가능 여부 , 표준 파일 포맷 지원여부 등을 고려 다양한 사용 목적이 가 능한 도구를 사전에 선택하거나 오픈소스를 통해 직접 제작하여 사용
데이터 유형 별 라벨링 기능에 따라 데이터 라벨링 시 원천데이터에 주석을 표시하는 작업 인 어노테이션 방식을 적용함

나. 어노테이션 방식

데이터 유형	라벨링 기능	어노테이션 방식
텍스트	텍스트 분류 (Text Classification)	클래스 라벨 (단일 , 다중)
	개체명 인식(Named Entity Recongnition)	단어 (구문 ) 라벨
	관계-의존성 정의(Relation-Dependencies)	단어(구문) 라벨링 및 두 단어 사이의 관계
이미지	이미지 분류(Image Classification)	클래스 라벨(단일, 다중)
	객체 인식(Object Recognition)	바운딩 박스(사각형) 폴리곤(다각형)
	영역 구분(Segmentation)	픽셀(점)
동영상	동영상 분류(Video Classfication)	클래스 라벨(단일, 다중)
	객체 인식(Object Recognition)	바운딩 박스(사각형) 키 포인트(정점) 폴리곤(다각형) 폴리라인(선)
	객체 추적(Object Tracking)	클래스 라벨
오디오	오디오 분류(Audio Classfication)	클래스 라벨
	오디오 세그멘테이션(Audio Segmentation)	텍스트 전사
	음성인식(음성→텍스트 변환)(Speech to Text)	클래스 라벨
기타	시계열 세그멘테이션(Time-Series Segmentation) HTML 문서 분류(HTML Classfication)	클래스 라벨
데이터 라벨링 통한 학습데이터셋을 이용하여 사전에 정의된 인공지능 알고리즘을 학습시키고 , 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동을 수행함

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥

'정보관리기술 > 데이터베이스' 카테고리의 다른 글

웹 크롤링(Web Crawling) (25)	2024.02.13
데이터 거버넌스 (27)	2024.02.13
빅데이터분석도구를 선택하는 원칙 / ① (0)	2024.02.12
데이터 품질관리 지침 (23)	2024.02.12
DA와 DBA (27)	2024.02.12

현재글인공지능 학습용 데이터

IT 기술의 모든 것

250x250

제24회, 제16회, 시스템구조, 제14회, PMI, 인증, PMP, PMO, 전문가, 보안, 데이터베이스, 정보시스템감리사, ISMP, 기출문제, 감리 및 사업관리, 제15회, PMBOK, ISP, 트래픽, 소프트웨어공학,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IT신비

인공지능 학습용 데이터

1. 인공지능 학습용 데이터의 특징

2. 데이터 획득 및 정제 방법과 기준

가. 데이터 획득·정제 방법

나. 데이터 획득·정제 기준

3. 데이터 라벨링 및 어노테이션 방식

가. 데이터 라벨링

나. 어노테이션 방식

'정보관리기술 > 데이터베이스' 카테고리의 다른 글

'정보관리기술/데이터베이스'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

2025. 04
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

인공지능 학습용 데이터

1. 인공지능 학습용 데이터의 특징

2. 데이터 획득 및 정제 방법과 기준

가. 데이터 획득·정제 방법

나. 데이터 획득·정제 기준

3. 데이터 라벨링 및 어노테이션 방식

가. 데이터 라벨링

나. 어노테이션 방식

'정보관리기술 > 데이터베이스' 카테고리의 다른 글

'정보관리기술/데이터베이스'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역