정보관리기술/인공지능

인공지능 학습용 데이터 품질관리 가이드라인

아이티신비 2024. 3. 16. 09:00

문제2) 인공지능(AI, Artificial Intelligence) 학습용 데이터 품질의 중요성이 대두됨에 따라, ‘인공지능 학습용 데이터 품질관리 가이드라인 v2.0(한국지능정보사회진흥원)’이 발표 되었다. 인공지능 학습용 데이터 품질관리에 대한 아래 사항을 설명하시오.

가. 인공지능 학습용 데이터 품질관리 개념 및 필요성

나. 인공지능 학습용 데이터 품질관리 모델, 품질관리 단계별 수행방안

다. 인공지능 학습용 데이터 품질관리 지표

 

답)

 

 

1. 인공지능 학습용 데이터 품질관리 개념 및 필요성

가. 인공지능 학습용 데이터 품질관리 개념

 

 
정의
  • 인공지능 학습용 데이터 품질을 확보하는 데 필요한 조직, 절차, 품질기준, 품질관리 방법이나 활동등을 정의하여 점검하고 조치하는 일련의 활동
v2.0 특징
  • [품질관리개요] 크라우드 소싱 기반의 작업자 관리 항목 신규 추가 (작업자 선발/운영/관리)
  • [품질관리지표] 학습 모델 항목 신규 추가
  • [품질관리프레임워크] 프레임워크 항목 신규 추가
  • 과학기술정보통신부와 한국지능정보사회진흥원에서 ‘인공지능 학습용 데이터 품질관리 가이드라인’ 개발

 

나. 인인공지능 학습용 데이터 품질관리 필요성

 
구축사업 수행기관의
사업이해도 제고 필요
  • AI 데이터 구축사업에 대한 이해나 경험이 부족한 수행기관들의 경우 품질 관
  • 리 역량이 낮음
인공지능 학습용 데이터
품질관리체계 미흡
  • 실무 차원의 안내서나 길라잡이 역할의 문서가 미흡
인공지능 학습용 데이터
품질이슈 지속 제기
  • AI 학습용 데이터 구축사업을 통해 민간에 개방한 결과 AI 학습용 데이터 품질
  • 이 낮다는 수요자의 의견 제기

 

2. 인공지능 학습용 데이터 품질관리 모델, 품질관리 단계별 수행방안

가. 인공지능 학습용 데이터 품질관리 모델

 
  • AI 학습용 데이터 구축과정에서 확보된 품질이 학습데이터 전체를 품질을 결정함

 

나. 인공지능 학습용 데이터 품질관리 단계별 수행방안

단계
수행방안
상세설명
계획
임무 정의
  • 구축 데이터의 품질 요구사항을 명확히 정의
구축 계획 수립
  • 품질관리를 체계적으로 수행하기 위한 ‘품질관리계획서’를 수립
구축
프로젝트 개요 및
운영
  • 학습용 데이터를 목적에 맞도록 구체적으로 정의를 해야하고, 정의에 부합하는 원시데이터를 확보할 수 있도록 요구사항을 상세히 분석을 진행
  • 일정관리를 통해 진척상황을 모니터링하고 통제하며 이해당사자 간의 원활한 의사소통을 도모
  • 데이터 수집/정제/가공에 사용되는 저작도구의 정보와 상세 스펙을 제시
  • ‘데이터 분야’, ‘데이터 유형’, ‘프로젝트 일정관리’, ‘툴킷(Tolkit) 적합성’ 단계별 수행
프로세스 상태
관리
  • 수행기관의 품질관리 조직이 자체적인 품질검사 활동을 수행
  • ‘데이터 수집’, ‘데이터 정제’, ‘데이터 라벨링’, ‘데이터 학습’ 단계별 수행
작업자 수준 관리
  • 작업자에 대한 교육과 운영 방안을 확보하는 크라우드소싱 기반의 데이터구축 프로젝트 활동
  • ‘정확도’, ‘성실도’, ‘작업 속도’의 단계별 수행
  • ‘정확도’에서는 데이터의 정확도 제고를 위해 작업자의 데이터 수집/정제/가공 시 발생하는 하자에 대해서는 그에 적합한 보수 체계를 제시해야함
  • ‘성실도’는 수행기관이 작업자와 신속・원활한 의사소통이 가능할 수 있는 체계를 확보하고 운영
  • ‘작업 속도’는 일정 기한(WBS, work-breakdown structure) 내에 작업이 완료될 수 있도록 적절한 ‘작업 속도’로 설계
프로젝트 품질
관리
  • ‘구축공정 품질’, ‘구축 데이터 품질’, ‘인공지능 학습 모델’로 단계별 수행
  • ‘프로세스/상태 관리’에서 발생한 원천데이터 및 가공데이터를 인공지능 학습모델에 적용 가능한 수준으로 확보하기 위한 품질 관리 활동
  • 수집, 정제, 가공, 검수 단계별로 요구하는 품질 체크리스트를 작성하여,데이터의 품질을 확보가 필요
운영 및 활동
데이터 품질
진단 및개선관리
  • 민간에 개방하는 학습용 데이터셋을 운영 단계에서 지속적으로 점검・개선하는 활동
품질오류
신고관리
  • 사용자로부터 접수된 인공지능 학습용 데이터의 오류 접수 및 처리 활동에 대해 수행기관의 적극적인 유지보수 활동
  • AI 학습용 데이터의 특성을 파악하여 적합한 품질관리 체계 확보 필요

 

 

3. 인공지능 학습용 데이터 품질관리 지표

구분
지표
상세설명
구축
공정
준비성
  • 인공지능 학습용 데이터 품질관리를 위해 기본적으로 관리해야 하는 정책,규정 (저작권, 초상권, 개인정보보호 및 정보보호 등에 대한 검토 결과를 포함), 조직, 절차 등을 마련하고, 최신의 내용으로 충실하게 관리되는지를 검사하는 지표
완전성
  • 인공지능 학습용 데이터를 구축함에 있어 물리적인 구조를 갖추고, 정의한 데이터 형식 및 입력값 범위에 맞게 데이터가 저장되도록 설계・구축되었는지를 검사하는 지표
유용성
  • 발주기관(수요자)의 요구사항이 충분히 반영되었는지, 임무정의에 적합한 인공 지능 학습용 데이터의 범위와 상세화 정도를 충족시키는지를 검사하는 지표
데이터
적합성
기준 적합성
  • 구축 데이터가 학습용도로서 적합한지 기준을 선정하기 위해, 다양성, 신뢰성, 충분성, 사실성을 측정하는 지표
기술 적합성
  • 구축 데이터가 학습용도로서 적합한지 기술적으로 판단하기 위해, 파일포맷, 해상도, 선명도, 컬러, 크기, 길이, 음질 등을 측정하는 지표
통계적
다양성
  • 데이터의 편향성을 방지하기 위해, 클래스 분포도, 인스턴스 분포도, 문장길이, 어휘개수 등을 측정하는 지표
데이터
정확성
의미 정확성
  • 데이터의 참값(Ground Truth)을 확인하기 위해, 정확도, 정밀도, 재현율을 측정 하는 지표
구분 정확성
  • 어노테이션 데이터를 구성하는 속성 값들과 원래 정의한 데이터 형식 및입력 값 범위와의 일치성을 측정하는 지표
학습모델
알고리즘
적정성
  • 알고리즘을 Task 단위로 구분하여, 수행기관이 제시하는 학습모델의 Task가 적정한지 판단하는 지표
유효성
  • 학습용 데이터로 훈련시키는데 적합한 인공지능 알고리즘의 유효성을측정하는 지표
  • 6가지 지표와 13가지 세부지표로 구성되어 있으며, 심사 기준으로 체크리스트를 만들어 관리

 


 

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥