LLM(Large Language Model)이란?
- 거대 언어 모델 (LLM): 방대한 텍스트 데이터로 학습, 인간과 유사한 텍스트 생성 및 이해 능력 보유 모델
- 기본 개념: 입력된 텍스트(프롬프트)를 바탕으로 다음 단어를 예측하는 방식으로 작동
- 작동 원리 간략 소개: 트랜스포머(Transformer) 아키텍처 기반, 어텐션(Attention) 메커니즘 활용
- 예시: ChatGPT (OpenAI), Gemini (Google) 등
- 발전 과정: 규칙 기반 -> 통계 기반 -> 뉴럴 네트워크 -> 트랜스포머 기반 LLM 순으로 발전
- 현재 AI 기술 수준: 자연어 이해, 생성, 번역, 요약 등 다양한 영역에서 높은 성능 시현
- 코딩 분야 활용 가능성:
- 코드 생성 및 자동 완성
- 코드 설명 및 문서화
- 디버깅 보조
- 프로토타이핑 가속화
ChatGPT의 학습 과정
언어 모형
- 인터넷 등에서 대량의 텍스트를 수집
- 문장을 토큰으로 분할 → 토큰 번호로 바꿈
- 번호들의 열을 입력으로 받아 다음에 나올 토큰의 번호를 예측하는 함수의 파라미터를 추정
- 파라미터: 함수의 구체적 모양을 결정짓는 값
- 예: 직선의 방정식 y = ax + b에서 a가 달라지면 직선의 기울기가 달라짐
- 문장을 생성할 때는 예측된 확률에 따라 토큰을 무작위 추출
- 의도대로 동작하지 않는 문제가 있음(예: 블로그 글 써줘 → 내일 할게요)
미세 조정
- 주어진 프롬프트에 대해 사람이 모범답안을 작성
- 프롬프트와 모범답안으로 언어 모형의 파라미터를 미세 조정
- 좀 더 의도대로 행동하기는 하지만 완벽하지는 않음
보상 모형
- 미세조정된 GPT로 동일한 프롬프트에 답변을 여러 번 생성