정보관리기술/인공지능

인공지능 학습용 데이터 품질관리 가이드라인 및 구축

아이티신비 2024. 3. 15. 09:00

문제1) 인공지능 학습용 데이터 허브 구축 과정에서 생성된 학습용 데이터 셋의 품질확보를 위한 주요 활동과 데이터 생애 주기별 품질관리 수행절차에 대하여 설명하시오

답)

 

1. 인공지능 학습용 데이터 품질관리 개념 및 필요성

가. 인공지능 학습용 데이터 품질관리의 개념

 

 

개념
인공지능 학습용 데이터의 ‘구축 과정’, ‘특성’, ‘생애 주기’, ‘품질관리 영역’을 정의하고, 품질을 사
용자 요구에 맞춰 지속적으로 유지하거나 향상시키기 위한 체계적인 관리와 활동
  • 과학기술정보통신부와 한국지능정보사회진흥원에서 ‘인공지능 학습용 데이터 품질관리 가이드라인’ 개발

 

나. 인공지능 학습용 데이터 품질관리의 필요성

 
필요성
설명
구축사업 수행기관의
사업이해도 제고 필요
  • AI 데이터 구축사업에 대한 이해나 경험이 부족한 수행기관들의 경우, 품질관리역량이 낮음
AI 학습용 데이터
품질관리체계 미흡
  • 실무 차원의 안내서나 길라잡이 역할의 문서가 미흡
AI 학습용 데이터 품질
이슈 지속 제기
  • AI 학습용 데이터 구축사업을 통해 민간에 개방한 결과, AI 학습용 데이터 품질이 낮다는 수요자의 의견 제기

 

2. 인공지능 학습용 데이터 품질확보를 위한 주요활동

 
  • AI 학습용 데이터 구축과정에서 확보된 품질이 학습데이터 전체의 품질을 결정함

 

3. 인공지능 학습용 데이터 품질관리 수행절차

 
단계
수행방안
설명
계획
임무 정의
  • 구축 데이터의 품질 요구사항을 명확히 정의
구축 계획 수립
  • 품질관리를 체계적으로 수행하기 위한 ‘품질관리계획서’를 수립
구축
프로젝트 개요・운영
  • 학습용 데이터를 목적에 맞도록 구체적으로 정의를 해야하고, 정의에 부합하는 원시데이터를 확보할 수 있도록 요구사항을 상세히 분석을 진행
  • 일정관리를 통해 진척상황을 모니터링하고 통제하며 이해당사자 간의 원활한 의사소통을 도모
  • 데이터 수집/정제/가공에 사용되는 저작도구의 정보와 상세 스펙을 제시
  • ‘데이터 분야’, ‘데이터 유형’, ‘프로젝트 일정관리’, ‘툴킷(Tolkit) 적합성’ 단계별 수행
프로세스/상태 관리
  • 수행기관의 품질관리 조직이 자체적인 품질검사 활동을 수행
  • ‘데이터 수집’, ‘데이터 정제’, ‘데이터 라벨링’, ‘데이터 학습’ 단계별 수행
작업자 수준 관리
  • 작업자에 대한 교육과 운영 방안을 확보하는 크라우드소싱 기반의 데이터구축 프로젝트 활동
  • ‘정확도’, ‘성실도’, ‘작업 속도’의 단계별 수행
  • ‘정확도’에서는 데이터의 정확도 제고를 위해 작업자의 데이터 수집/정제/가공 시 발생하는 하자에 대해서는 그에 적합한 보수 체계를 제시해야함
  • ‘성실도’는 수행기관이 작업자와 신속・원활한 의사소통이 가능할 수 있는체계를 확보하고 운영
  • ‘작업 속도’는 일정 기한(WBS, work-breakdown structure) 내에 작업이 완료될 수 있도록 적절한 ‘작업 속도’로 설계
프로젝트 품질 관리
  • ‘구축공정 품질’, ‘구축 데이터 품질’, ‘인공지능 학습 모델’로 단계별 수행
  • ‘프로세스/상태 관리’에서 발생한 원천데이터 및 가공데이터를 인공지능
  • 학습모델에 적용 가능한 수준으로 확보하기 위한 품질 관리 활동
  • 수집, 정제, 가공, 검수 단계별로 요구하는 품질 체크리스트를 작성하여,데이터의 품질을 확보가 필요
운영・
활동
데이터 품질진단 및
개선관리
  • 민간에 개방하는 학습용 데이터셋을 운영 단계에서 지속적으로 점검・개선하는 활동
품질오류 신고관리
  • 사용자로부터 접수된 인공지능 학습용 데이터의 오류 접수 및 처리 활동에 대해 수행기관의 적극적인 유지보수 활동
  • AI 학습용 데이터의 특성을 파악하여 적합한 품질관리 체계 확보 필요

공감과 댓글은 아이티신비에게 큰 힘이 됩니다.

블로그 글이 유용하다면 블로그를 구독해주세요.♥