정보관리기술/데이터베이스
인공지능 학습용 데이터
아이티신비
2024. 2. 13. 09:00
문제 6) 디지털 뉴딜 데이터 댐 의 핵심인 인공지능 학습용 빅데이터 구축 사업의 성공적 추진을 위한 정책과 데이터 품질에 대한 관심도가 높아지고 있다 . 다음의 내용을 설명하시오
가. 인공지능 학습용 데이터의 특성
나. 데이터 획득·정제 방법과 기준
다. 데이터 라벨링 (Data Labeling) 및 어노테이션 (Annotation) 방식
답)
1. 인공지능 학습용 데이터의 특징
구분
|
설명
|
|
정의
|
|
|
구성
|
원천(원본 ) 데이터
|
|
라벨링 데이터
|
|
|
특성
|
데이터 파일 단위로 관리
|
|
구축 단계별 품질 요구사항 상이
|
|
|
구축 과정 에서 품질 결정
|
|
|
AI 모델의 성능측정 결과로 품질수준 평가
|
|
|
|
2. 데이터 획득 및 정제 방법과 기준
가. 데이터 획득·정제 방법
구분
|
방법
|
세부 방법 설명
|
데이터
획득 |
획득 데이터 정의
|
|
획득 데이터 분석
|
|
|
획득 절차 수립 및 항목 정의
|
|
|
데이터
정제 |
윈시 데이터 정제 방식
|
|
획득 도구 및 정제 도구
|
|
|
획득 / 정제 시 고려사항
|
|
|
|
나. 데이터 획득·정제 기준
데이터 유형
|
기준
|
내용
|
텍스트 데이터
|
문장 분리
|
|
문장구분 오류
|
|
|
오탈자 수정
|
|
|
수식어 하이라이트
|
|
|
음성 데이터
|
음량
|
|
발음
|
|
|
소음 및 잡음
|
|
|
잘림
|
|
|
안들림
|
|
|
개인정보처리
|
|
|
저작권
|
|
|
촬영 이미지
|
촬영수단
|
|
객체의
크기 비율 |
|
|
촬영대상제한
|
|
|
이미지 비율
|
|
|
화질 및 필터
|
|
|
잘못된 촬영 허용수준
|
|
|
개인정보처리
|
|
|
저작권
|
|
|
스캔
이미지 |
오탈자 여부
|
|
화질 및 필터
|
|
|
스캔 품질
|
|
|
개인정보처리
|
|
|
저작권
|
|
|
영상 데이터
|
획득 배경
|
|
데이터 획득
|
|
|
데이터 정제
|
|
|
데이터 활용 분야
|
|
|
데이터 형태
|
|
|
|
3. 데이터 라벨링 및 어노테이션 방식
가. 데이터 라벨링
구분
|
설명
|
|
정의
|
|
|
식별 분류 체계 및 고려사항
|
데이터
특성 식별 분류 체계 |
|
고려사항
|
|
|
방법 및 절차
|
라벨링
작업 방식 결정 |
|
작업
배분 |
|
|
라벨링
작업 기준 |
|
|
라벨링
작업 수행 |
|
|
품질
관리 |
|
|
완료 후 관리 방법
|
데이터
관리 기본 사항 |
|
데이터
저장 관리 |
|
|
데이터
백업 관리 |
|
|
데이터
관리 조직 운영 방안 |
|
|
도구 선정
|
라벨링 도구 선정
|
|
활용 매뉴얼 작성
|
|
|
도구 선정 및 개발 시 고려사항
|
|
|
|
나. 어노테이션 방식
데이터 유형
|
라벨링 기능
|
어노테이션 방식
|
텍스트
|
|
|
|
|
|
|
|
|
이미지
|
|
|
|
|
|
|
|
|
동영상
|
|
|
|
|
|
|
|
|
오디오
|
|
|
|
|
|
|
|
|
기타
|
|
|
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥