언어 모형과 생성형 인공지능

언어 모형 (Language Model, LM)

텍스트 데이터의 통계적 구조와 패턴을 모델링하여 단어, 문장, 문단 등의 등장 확률 분포를 추정하는 기술
다양한 자연어 처리(NLP) 작업의 기반이 됨
주요 종류:
- Causal LM (Autoregressive LM): 이전 단어 시퀀스를 바탕으로 다음 단어를 예측 (예: GPT)
- Masked LM: 문장의 일부 단어를 마스크(mask) 처리하고, 앞뒤 문맥을 바탕으로 마스크된 단어를 예측 (예: BERT)
프롬프트 (Prompt): 언어 모형에게 작업을 지시하거나 원하는 출력을 유도하기 위해 입력하는 텍스트
(이미지 1: Causal LM 예시 - "The best thing about AI is its ability to" 다음 단어 예측 확률)
(이미지 2: Masked LM 예시 - "대한민국의 수도는 [MASK] 입니다." 에서 [MASK] 예측 확률)

n-gram 언어 모형

언어 모형을 만드는 가장 간단한 전통적 방법
텍스트에서 연속된 n개의 단어 (n-gram) 시퀀스의 출현 빈도를 세어 확률을 계산 $P(w_i | w_{i-n+1}, ..., w_{i-1}) \approx \frac{\text{count}(w_{i-n+1}, ..., w_{i-1}, w_i)}{\text{count}(w_{i-n+1}, ..., w_{i-1})}$
단점:
- 문맥 제한: 최대 n-1개의 이전 단어만 고려 가능 (장기 의존성 파악 어려움)
- 희소성 문제 (Sparsity Problem): n이 커질수록 가능한 조합의 수가 폭발적으로 증가하여, 대부분의 n-gram은 학습 데이터에서 관찰되지 않아 확률이 0으로 추정될 수 있음 (Smoothing 기법 필요)
- 메모리 문제 (Storage Problem): 관찰된 모든 n-gram의 빈도를 저장해야 하므로 많은 저장 공간 필요

GPT (Generative Pretrained Transformer)

OpenAI가 개발한 Transformer 아키텍처 기반의 대규모 언어 모형
"Generative Pretrained Transformer" 의 의미:
- Generative (생성적): 학습된 확률 분포를 바탕으로 새로운 텍스트를 생성할 수 있는 언어 모형 (Causal LM 방식)
- Pretrained (사전학습된): 대규모의 비정형 텍스트 데이터로 미리 학습시킨 후, 특정 과제(task)에 맞게 추가 학습(fine-tuning)하여 사용 가능
- Transformer (트랜스포머): Google에서 2017년 발표한 Self-Attention 메커니즘 기반의 딥러닝 모델 구조. 병렬 처리와 장기 의존성 학습에 강점.
발전 과정:
- 2018년 GPT-1 발표
- ...
- 2023년 GPT-4 발표
규모 (파라미터 수):
- GPT-3: 약 1,750억 개
- GPT-4: 약 1조 7,600억 개 (추정치)
(다이어그램: Transformer Decoder 구조 - Masked Multi-Head Self-Attention, Feed Forward, Layer Normalization 등)

언어 모형은 어떻게 텍스트를 생성하는가?

1단계: 다음 토큰(Token) 예측: 현재까지 생성된 텍스트 시퀀스를 바탕으로, 다음에 올 가능성이 있는 모든 토큰들과 그 확률을 예측
- 토큰: 단어보다 작은 단위 (subword)를 사용하기도 함 (예: BPE, WordPiece). 자주 나오는 문자열은 하나의 토큰으로 묶음.
- 예: Al is 다음 토큰 예측 → a(9.7%), the(5.6%), not(3.6%), an(2.5%), also(2.4%), ...
2단계: 디코딩 (Decoding): 예측된 토큰 확률 분포에서 실제 사용할 다음 토큰을 선택하는 방법
- 결정론적 디코딩 (Deterministic Decoding):
  - Greedy Search: 매 단계에서 가장 확률이 높은 토큰을 선택 (예: Al is a ...)
- 확률적 디코딩 (Stochastic Decoding): 예측된 확률 분포에 따라 무작위로 다음 토큰 선택 (다양하고 창의적인 생성 가능)
  - Temperature Sampling: 확률 분포를 조절하여 다양성 제어 (낮으면 Greedy, 높으면 균등)
  - Top-k Sampling: 확률 상위 k개 토큰 중에서만 샘플링
  - Top-p (Nucleus) Sampling: 누적 확률이 p 이상이 되는 최소 개수의 토큰 중에서 샘플링
  - (예: 0~1 난수 추출 → 0.099 추출 → $P(a)=0.097 < 0.099 \le P(a)+P(the)=0.153$ 이므로 'the' 선택 → Al is the ...)

튜링 테스트 (Turing Test)

기계(컴퓨터)가 인간과 유사한 지능적인 행동(생각)을 할 수 있는지 판별하기 위해 앨런 튜링이 1950년에 제안한 테스트
방법:
1. 인간 평가자가 벽(스크린) 너머의 상대방과 텍스트(키보드, 화면)로 자유롭게 대화
2. 상대방은 인간 또는 컴퓨터(AI)
3. 평가자는 대화 후 상대방이 인간인지 컴퓨터인지 판정
판정 기준: 만약 평가자가 상당한 시간 동안 대화한 후에도 컴퓨터와 인간을 구분할 수 없다면 (예: 5분 대화 후 70% 이상 속인다면 - 튜링의 기준), 그 컴퓨터는 생각을 할 수 있다고 간주할 수 있음
(이미지: 평가자, 인간 대화 상대, AI 대화 상대를 연결하는 튜링 테스트 개념도)
(이미지: 앨런 튜링 지폐 도안)

GPT-4.5는 튜링 테스트를 통과 (연구 결과)

2023년 발표된 한 연구(Jones and Bergen, 2023)에서 GPT-4(모델 버전 표기 오타 가능성, 혹은 GPT-4.5가 비공개 모델일 수 있음)를 포함한 여러 언어 모델로 튜링 테스트 실험 진행
결과: GPT-4.5 모델은 인간 평가자를 상당히 높은 비율로 속여, 연구자들은 해당 모델이 튜링 테스트를 통과했다고 주장
(그래프: 다양한 AI 모델(ELIZA, LLAMA, GPT 등)과 인간의 튜링 테스트 승률(Win Rate) 및 평가자의 확신도(Confidence) 비교. GPT-4.5-PERSONA 모델이 높은 승률을 보임)

튜링 테스트의 문제점 및 한계

"생각하는 능력" 자체를 측정하는 테스트로서는 문제점 지적:
- 생각은 하지만 언어 표현을 못하는 경우 (예: 영유아, 실어증 환자)는 테스트 불가
- 언어적 표현은 잘하지만 실제로는 생각하지 않는 경우 (예: 중국어 방 논증, 정교한 챗봇)를 걸러내기 어려움
"인간처럼 대화하는 능력" (자연어 생성 능력) 테스트로는 유효: 현대 LLM의 성능 평가 지표 중 하나로 활용 가능
튜링의 기준(5분 대화, 70% 정답률)은 현대 기준으로 너무 낮음:
- 짧은 시간의 대화에서는 피상적인 속임수가 통하기 쉬움
- 1966년 개발된 초기의 간단한 규칙 기반 챗봇 ELIZA조차 단시간 대화에서는 일부 사람들에게 실제 사람과 대화하는 듯한 인상을 줌
- 1991년 PC Therapist 챗봇은 50%의 평가자를 속임 (Loebner Prize)
즉, 튜링 테스트 통과가 반드시 진정한 의미의 '생각'이나 '이해'를 의미하지는 않음

벤치마크의 빠른 포화

인공지능 성능을 측정하기 위해 사용되는 다양한 벤치마크(benchmark) 데이터셋 및 과제들이 개발됨 (예: MNIST, ImageNet, SQuAD, GLUE, MMLU, MATH)
그래프는 여러 AI 벤치마크에서 시간이 지남에 따라 AI 모델의 성능(인간 수준 대비 정규화)이 빠르게 향상되어 인간 수준에 도달하거나 넘어서는(포화되는) 경향을 보여줌
이는 AI 기술, 특히 대규모 언어 모델(LLM)의 급속한 발전을 시사
벤치마크가 포화되면, 모델 간의 성능 차이를 변별하기 어려워지고 새로운, 더 어려운 벤치마크의 필요성이 대두됨
(그래프: 다양한 AI 벤치마크 이름과 해당 벤치마크에서 AI 성능이 인간 수준(0%)에 도달하는 시점을 보여주는 시계열 그래프)

언어 모형 (Language Model, LM)​

n-gram 언어 모형​

GPT (Generative Pretrained Transformer)​

언어 모형은 어떻게 텍스트를 생성하는가?​

튜링 테스트 (Turing Test)​

GPT-4.5는 튜링 테스트를 통과 (연구 결과)​

튜링 테스트의 문제점 및 한계​

벤치마크의 빠른 포화​

언어 모형 (Language Model, LM)

n-gram 언어 모형

GPT (Generative Pretrained Transformer)

언어 모형은 어떻게 텍스트를 생성하는가?

튜링 테스트 (Turing Test)

GPT-4.5는 튜링 테스트를 통과 (연구 결과)

튜링 테스트의 문제점 및 한계

벤치마크의 빠른 포화