Vision Transformer
CNN의 한계
- 합성곱 신경망은 이미지의 작은 부분을 처리하고 그 결과를 모아 좀 더 큰 부분을 처리 해나감
- 서로 멀리 떨어진 부분들 사이의 관계를 잘 처리하지 못함
- 서로 멀리 떨어진 feature들을 고려하기 위해서는 큰 필터가 필요 → 계산의 효율성 감소
순환신경망 recurrent neural network
- 자연어 처리에서 흔히 사용하는 구조
- 이전의 입력이 이후의 입력에 처리에 영향
- 먼 거리에 떨어진 입력 간에 정보를 전달하려면 여러 단계를 거쳐야 함
- 사라지는 경사(vanishing gradient) 문제
주의 메커니즘 attention mechanism
- 이전의 입력 중 현재 입력을 처리하는데 필요한 정보를 바로 가져오는 방법
- 현재 단계의 값과 이전 단계의 값을 비교하여 주의 가중치(attention weight)를 계산
- 이전 단계의 값들에 주의 가중치를 적용하여 가중합
- 현재 단계와 유사한 특성을 가지는 이전 단계의 값들을 더 큰 비중으로 반영
- 주의 메커니즘만을 사용한 자연어 처리 모형
- 문장 내에 주의 메커니즘 적용
- 문장 간에도 주의 메커니즘 적용
- Multi-Head Attention
- 모든 단어는 Q, K, V 세 가지 임베딩을 가짐
- Q와 K로 주의 가중치를 계산하여 V에 적용
- 주의 가중치를 다양한 방식으로 계산하여 결합
- 위치 인코딩
- 순환신경망은 처리 과정 자체가 순서대로 이뤄지므로 단어의 순서를 반영
- 트랜스포머 모형은 순서를 다루는 구조가 없음
- 문장에서 단어의 위치를 인코딩하여 단어 임베딩에 더해줌
- 정현파를 이용하여 만들기도 하고, 단어 임베딩과 마찬가지로학습 시킬 수도 있음