문제4) 최근 인공지능 기술 활용이 증가하면서 다양한 보안 위협이 증가하고 있다. 이와 관련하여 아래 사항들에 대하여 설명하시오.
1) 머신러닝 학습과정에서의 적대적 공격 4가지와 방어기법
2) 생성형 언어모델 기반의 인공지능 기술 활용 시 발생할 수 있는 보안취약점
답)
1. 머신러닝의 적대적 공격 개요
정의
|
러닝의 심층신경망을 이용한 모델에 적대적 교란(Adversarial Perturbation)을 적용하여 오분류 를 발생시키는 공격기술
|
유형
|
|
- 적대적 공격은 AI를 활용하고 있는 다양한 분야에 위협이 되고 있음. 머신러닝 학습 과정에서 악의적인 학습데이터를 주입해 머신러닝 모델을 망가뜨리는 중독 공격(Poisoning attack), 머신러닝 모델의 추론 과정에서 데이터를 교란해 머신러닝을 속이는 회피 공격(Evasion attack), 역공학을 이용해 머신러닝 모델이나 학습 데이터를 탈취하는 모델 추출 공격(Model extraction attack)과 학습 데이터 추출 공격(Inversion attack)이 있음.
|
2. 머신러닝 학습과정에서의 적대적 공격 4가지와 방어기법
가. 머신러닝 학습과정에서의 적대적 공격 4가지 공격 기법 설명
공격 기법
|
설명
|
사례
|
Poisoning attack (중독 공격, 오염 공격)
|
- 의도적으로 악의적인 학습 데이터를 주입해 머신러닝 모델을 망가뜨리는 공격
- 모델 자체를 공격해서 모델에게 영향
- 악의적인 데이터를 최소한으로 주입해 모델의 성능을 크게 떨어뜨리는 것이 공격의 평가 기준이 됨
|
- 마이크로소프트 사의 인공지능 채팅봇 ‘테이’
- 스캐터랩 ‘이루다’
- 의료 기계를 대상으로 한연구 결과에서 대상 장비의 오작동 발생
|
Evasion attack (회피 공격)
|
- 입력 데이터에 최소한의 변조를 가해 머신러닝을 속이는 기법
- 이미지 분류 머신러닝인 경우, 사람의 눈으로는 식별하기 어려운 방식으로 이미지를 변조해 머신러닝 이미지 분류 모델이 착오를 일으키게 만드는 수법
- 적대적 스티커(Adversarial patch)는 쉽게 인쇄해 사용할 수 있고 악의적인 공격인지 쉽게 발견하기 어려워, 악용되는 경우 큰 위험을 가져올 수도 있음
|
- 도로 교통 표지판에 이미지 스티커를 부착해 자율주행 자동차의 표지판 인식 모듈을 교란 (자율주행차가 ‘정지’ 표시를 ‘속도제한’ 표시로 오인식)
|
Inversion attack (전도 공격, 학습 데이터 추출 공격)
|
- 머신러닝 모델에 수많은 쿼리를 던진 후, 산출된 결과값을 분석해 모델 학습을 위해 사용된 데이터를 추출하는 공격
- 데이터 분류를 위한 머신러닝은 주어진 입력에 대한 분류 결과와 신뢰도를 함께 출력하게 되는데, 이때 출력된 결괏값을 분석해 학습 과정에서 주입된 데이터를 복원하는 방식
|
- 얼굴인식 머신러닝 모델의학습을 위해 사용한 얼굴이미지 데이터를 복원 가능
- 머신러닝 모델을 훈련시키는 학습 데이터 안에 군사적으로 중요한 기밀정보나개인정보, 민감정보 등이 포함되어 있는 경우라면, Inversion Attack을 이용한 공격에 의해 유출될 가능성이 존재
|
Model extraction attack (모델 추출 공격)
|
- 머신러닝 모델을 추출하는 공격
- 머신러닝 모델에 쿼리를 계속 던지면서 결과값을 분석하는 방식의 공격
- 유료 머신러닝 모델 서비스(MLaaS: Machine Learning as a Service)를 탈취하거나, Inversion attack, Evasion attack과 같은 2차 공격에 활용하기 위해 사용될 수 있음.
|
- 70초 동안 650번 쿼리만으로도 아마존 머신러닝 모델과 유사한 모델을 만들어내는 것이 가능하다는 연구 결과가 발표
|
- 적대적 공격 기법의 대상과 각각의 특징에 따른 대응 방안이 지속적으로 연구되고 있음.
|
나. 머신러닝 학습과정에서의 적대적 공격 방어기법
|
방어기법
|
설명
|
Defense-GAN
|
- 적대적 생성 신경망(GAN) 알고리즘을 이용하여 적대적 공격 방어
- 적대적 예제(Adversary Example)를 추가 학습 데이터로 활용하는 아이디어로 시작하여 변조된 이미지가 정상적인 이미지로 판단되도록 하는 것이 최종 목표
|
적대적 훈련 (Adversarial training)
|
- 가능한 모든 적대적 사례를 학습 데이터에 포함해 머신러닝을 훈련시키는 방법
- 머신러닝을 훈련시키는 단계에서 예상 가능한 해킹된 데이터를 충분히 입력해머신러닝의 저항성을 기르는 방식
|
결과값 분석 차단
|
- 학습모델의 결과값 분석을 통해 모델을 추론하는 방식의 공격을 차단하기 위해, 학습모델의 결과값이 노출되지 않도록 하거나, 결과값을 분석할 수 없게 변환하는 방식으로 공격을 차단
|
적대적 공격 여부를 탐지
|
- 원래의 모델과 별도로 적대적 공격 여부를 판단하기 위한 모델을 추가한 후,두 모델의 추론 결과를 비교해 두 결과 간에 큰 차이가 발생하는 경우 적대적 공격으로 탐지하는 방식
|
쿼리 횟수 제한
|
- 모델에 반복적인 쿼리를 시도하는 Inversion attack이나 Model extraction attack 을 방어하기 위해서 모델에 대한 쿼리 횟수를 제한하는 방식
- 학습 데이터에 포함된 기밀정보, 민감정보가 노출되지 않도록 암호화 등의 비식별 처리 방식도 연구
|
- 인공지능에 모든 프로세스를 전적으로 의지하는 것보다는 인간의 검증 단계를 통해 데이터가 오염되지 않았는지, 모델이 오작동하고 있는지 등 모니터링하고 점검하는 것이 필요
|
3. 생성형 언어모델 기반의 인공지능 기술 활용 시 발생할 수 있는 보안취약점
보안 취약점
|
보안 취약점 상세
|
설명
|
피싱 메일 및 악성 코드 생성
|
생성형 언어모델의 결과물을 사이버 공격에 활용
|
|
악성코드 생성 테스트
|
- 문서파일을 암호화하여 랜섬웨어 생성
- 국내 유명 포털사이트 사칭하여 계정정보 탈취 악성코드 생성
- CCTV 취약점 분석 및 공격 코드 생성
|
텍스트, 소스코드 빠른 분석 및 지식 습득
|
- 보안 취약점이나 특정 포인트 검색 시간 단축
- 공격 사례, 기법 해킹 활용 정보 습득 가능
|
민감정보 유출과 결과물 오남용
|
무분별한 데이터 입력으로 인한 민감정보 유출 가능성
|
- 생성형 언어모델 서버 저장되는 회사의 기밀 유출
- 입력 데이터의 모델 개선 활용에 따른 보안 위협
|
잘못된 결과물의 생산 및 활용
|
- 잘못된 정보의 오용 및 확산 가능성
- 보안 조치 없는 소스 코드 생성
|
인공지능에 대한 공격
|
인공지능에 대한 고유의 보안 위협 존재
|
- 악의적인 학습데이터 주입, 결과물 품질 저하
- 입력 데이터 변조, 복원, 모델 복제 공격
|
4. 생성형 언어모델 기반의 인공지능 기술 활용 시 발생할 수 있는 보안취약점 대응방안
구분
|
대응방안
|
설명
|
대응
|
악용에 대한 선제적 대응
|
- 이메일 필터링 및 탐지 시스템 개선
- 생성형 언어모델로 생성 가능한 악성코드 지속적 테스트 및 위협수준 분석
- 생성형 언어모델의 결과물 식별 기술 개발
- 새로운 악용 사례의 즉각 대응할 수 있는 기반
|
활용
|
안전한 활용 및 도입 촉진
|
- 대국민 홍보, 교육, 안전 활용지침 마련 배포
- 기업의 생성형 언어모델 안전 도입 부작용 완화, 관련 보안사고 정보 공유, 간담회 개최
|
정책
|
인공지능 보안 정책 마련
|
- 인공지능 보안의 구체적인 방향성 확립
- 인공지능 모델 서비스 전과정 보안 프레임워크 필요
- 사용자의 권리 보호, 잠재적 위협 완화, 역기능 완화 정책 마련 시급
- 선진 국가 공동연구, 전문인력 양성, 국가 인공지능 기반 강화를 위한 노력 필요
|
공감과 댓글은 아이티신비에게 큰 힘이 됩니다.
블로그 글이 유용하다면 블로그를 구독해주세요.♥