Skip to main content

적대적 사례

적대적 사례

  • 머신러닝 모델, 특히 딥러닝 모델이 오류를 범할 수 있는 조작된 입력 데이터
  • 일반적으로 사람의 눈에는 원본 데이터와 거의 구별이 되지 않지만, 모델에 혼란을 줄 수 있는 작은 변화를 주어 생성
  • 모델의 취약성을 보여주며, 이를 이용한 공격을 적대적 공격
  • 이미지 분류, 음성 인식, 자연어 처리 등 다양한 분야에서 모델의 안정성과 견고성에 영향
  • 모델의 출력을 최대한 변화시키는 입력의 변화를 찾아내어, 원본 이미지에 더하여 새로운 이미지를 생성
  • 이렇게 만들어진 이미지는 모델에 혼란을 주어 오분류를 유도

자연어 처리의 공격

  • 주어진 문장에서 질문에 대한 답변을 찾는 종류의 자연어 처리 과제
  • 아래 예시에서 "그가 걷는 이유"에 대한 답은 "운동(exercise)". 그러나 특정한 표현(why how because)을 쓰면 "미국인들을 죽이기 위해서 (to kill American people)"를 답으로 잘못 출력하게 만들 수 있음

이미지 분류의 공격

  • 원 픽셀 공격(One Pixel Attack): 점 하나만 찍어서 다른 그림으로 인식되게 만듦
  • 적대적 패치(Adversarial patch): 그림에 붙이면 다른 그림으로 인식되게 만듦