A Survey of Large Language Models
Abstract
- 1950년에 튜링 테스트(Turing Test)가 제안된 이후, 기계가 인간의 언어기능을 이해하는 기술을 연구해 왔다.
- 참고) 기계의 지능이 인간의 지능과 비슷한지 또 구분할 수 있는 지를 판별하고자 하는 테스트
원래는 이미테이션 게임(Imitation game)으로 불렀고 기계 즉, 컴퓨터가 인간처럼 대화할 수 있다면, 인간처럼 사고할 수 있다는 생각이 깔려 있다.
- 참고) 기계의 지능이 인간의 지능과 비슷한지 또 구분할 수 있는 지를 판별하고자 하는 테스트
- 지난 20여년간 인간의 언어를 이해하고 생성하는 연구의 주된 방향은 언어 모델링(Language Modeling)이었다.
- 통계적 언어모델(statistical language model)에서 신경망 기반 언어모델(neural language model)로 발전했다.
- 최근에는 대규모의 말뭉치(corpora)에서 학습한 트랜스포머(Transformer)모델인 사전 학습된 언어 모델(pre-trained language models, 이하 PLMs)이 다양한 자연어 처리(NLP)분야에서 뛰어난 문제 해결 능력을 보여주고 있다.
- 모델의 크기(매개변수 수 등)를 증가시키면(model scaling) 일반적으로 모델 해결 능력이 향상되는 양상을 보였다.
- 하지만 계속해서 더 많은 파라미터를 사용할 때의 효과와 비용에 관한 연구가 진행되고 있다.
- 흥미롭게도, 매개변수 수준이 일정 기준을 넘기면 확장된 언어 모델은 분명한 성능 향상 뿐만 아니라,
- (상대적으로) 작은 규모의 언어모델(예. BERT)에서는 찾을 수 없는 문제 해결 능력이 나타나게 된다. (예. in-context learning)
- 이렇게 수십조 개 이상의 매개변수를 갖는 언어모델을 기존의 PLM과 구분하여 대규모 언어모델(Large Language Model, 이하 LLM)으로 부른다.
- LLM에 관한 연구는 LLM 기반의 강력한 AI 챗봇인 ChatGPT가 발표되면서 크게 확장되었다.
- 이 논문에서는 LLM의 최근 발전 양상을 리뷰한다.
- 특히, 네 가지 중요한 측면인 (1)pre-training, (2) adaptation tuning, (3) utilization, (4) capacity evaluation 에 집중한다.
1. Introduction
언어의 한계는 세계의 한계다. - 루드비히 비트겐슈타인(Ludwig Wittgenstein)
- 언어 모델링(이하 LM)는 기계의 언어 지능을 발전시키는 주요한 접근방식으로서
- 문장 또는 단어의 나열의 생성 확률(generative likelihood of word sequence)을 모델링 하는 목표를 가진다.
- 이를 통해 다음에 나올 또는 중간에 빠진 토큰을 예측하려고 한다.
- 참고) 이처럼 언어모델의 학습 방식 또는 추론(예측)방식에 따라 auto-regressive와 auto-encoding 모델로 구분되기도 한다.
- LM의 발전 단계를 구분 하면 다음 네 가지 주요 단계로 나눌 수 있다. (SLM -> NLM -> PLM -> LLM)
- (1) SLM(Statistical Language Models) : 통계적 언어 모델
- 1990년대에 부각된 통계적인 학습에 기초하고 있다.
- 마르코프 가정(Markov assumption)에 기반한 예측으로서, 가장 최근의 맥락으로부터 다음 단어를 예측한다.
- 따라서 고정된 컨텍스트 길이 n로부터 n-gram 언어 모델로 부르며, bigram, trigram이 이에 속한다.
- 정보 검색(Information retrieval, IR) 분야와 자연어처리(NLP) 분야의 성능 향상에 널리 사용되었다.
- 그러나 지수적으로 증가하는 전이(transition) 확률 때문에 고차원 언어모델의 정확성 향상이 어려운 차원의 저주 문제가 큰 어려움 이었다.
- 데이터 희소 문제를 완화시키는 back-off estimation, Good-Turing estimation 전략이 도입되기도 했다.
- (2) NLM(Neural Language Models)
- 신경망으로 나열된 단어의 확률 분포를 예측한다. 주로 RNN(Recurrent neural network)가 사용되었다.
- 분산 표현(distributed representation) 개념이 도입되어, 예측할 단어는 주변 단어 벡터의 분포(distributed word vectors)로부터 영향을 받게 된다.
- 단어나 문장의 특성(=표현 representations)을 효과적으로 학습할 수 있다는 생각에서 다양한 NLP 작업을 해결할 수 있는 통합된 신경망을 찾는 방식으로 연구가 진행되었다.
- 단순하며 가벼운 신경망인 word2vec은 매우 효과적이었다.
- 언어모델을 표현 학습(representation learning)을 위한 모델로 보기 시작하면서, NLP 분야에 큰 영향을 미쳤다.
- 참고) 단어 및 문장을 압축된 수치 표현으로 나타낸 임베딩(embedding)
- (3) PLM(Pre-trained Language Models)
- 고정된 표현이 아니라 문맥을 반영한(context-aware) 단어 표현을 학습하는 ELMO
- 양방향 LSTM(bidirectional LSTM, biLSTM)으로 사전 훈련된 후, 구체적인 하위 작업에 대해 fine-tuning한다.
- 레이블이 없는 대규모 말뭉치에서 특별히 설계된 사전 훈련 작업에서 학습된 양방항 언어모델인 BERT
- self-attention을 사용하며 매우 병렬화된 연산이 가능한 Transformer 아키텍쳐를 기반으로 하였다.
- 이처럼 문맥을 인식하는 사전 훈련 단어 표현은 일반적인 목적으로 사용될 수 있는 의미 특성(general-purpose semantic features)으로 효과적이었기 때문에, NLP 작업들의 성능을 크게 향상 시켰다.
- 이로부터 "pre-training"과 이어지는 "fine-tuning" 학습 패러다임이 후속 연구들에 광범위하게 적용되었다.
- 아키텍쳐의 형태가 다르거나(GPT-2, BART), 사전 훈련 방식을 향상하는 연구들이었다.
- 고정된 표현이 아니라 문맥을 반영한(context-aware) 단어 표현을 학습하는 ELMO
- (4) LLM(Large language models)
- 모델의 크기나 데이터의 규모 측면에서 PLM을 확장하는 것은 하위 작업에서 향상된 모델 성능을 보였다.
- 이에 관해서는 OpenAI에서 2020년 발표한 Scaling Laws for Neural Language Models를 참고한다.
- 유사한 아키텍처와 사전훈련 태스크에서 모델 크기를 변화시켰을 때, 작은 파라미터 수의 PLM에 비하여 놀라운 성능을 보였다.
- ( GPT-3 : 175B, PaLM : 540B ) vs ( BERT : 330M, GPT-2 : 1.5B )
- 예를 들어, in-context learning에서 GPT-3는 few-shot task를 잘 수행했지만, GPT-2는 그러지 못했다.
- 참고) 문맥 학습(in-context learning)은 프롬프트나 입력에 포함된 정보를 이용해, 태스크를 수행하는 경우를 말한다.
- 이러한 이유에서 큰 규모의(=파라미터 수가 훨씬 많은) PLM을 LLM으로 부르게 되었다.
- 가장 주목할만한 LLM은 ChatGPT로서 GPT모델들을 대화 목적으로 조정한 것이고, ChatGPT가 발표된 이후 LLM에 연관된 논문이 빠르게 증가하였다.
- 모델의 크기나 데이터의 규모 측면에서 PLM을 확장하는 것은 하위 작업에서 향상된 모델 성능을 보였다.
- (1) SLM(Statistical Language Models) : 통계적 언어 모델
- LLM과 PLM의 주요한 차이점은 다음과 같다.
- (1) LLM은 기존의 작은 PLM이 보이지 않은 놀라운 능력을 보여준다.
- 참고) 이처럼 특정 크기 이상의 모델에서 성능이 갑자기 향상되며, 모델 크기에 따른 성능 향상이 선형적이지 않은 것을 emegent ability 라고 한다.
- (2) 사람이 언어모델을 사용하고 발전시키는 방식을 크게 바꿨다.
- 프롬프트 인터페이스를 통해 LLM에 접근할 수 있게 되었다.
- 사람은 LLM이 어떻게 동작하는지 이해해야하며, 해결하려는 작업을 LLM이 이해할 수 있는 방식으로 나타내어야 한다.
- 프롬프트 인터페이스를 통해 LLM에 접근할 수 있게 되었다.
- (3) LLM의 발전에서 연구와 개발/엔지니어링 간의 명확한 경계가 사라졌다.
- 대규모 데이터 처리나 분산 병렬학습 등의 경험이 필요하여서, 엔지니어와 협업이 필수가 되었다.
- (1) LLM은 기존의 작은 PLM이 보이지 않은 놀라운 능력을 보여준다.
- LLM이 가져온 충격과 빠른 연구 발전에도 불구하고, 여전히 탐색되지 않은 어려움이 있다.
- (1) LLM의 우월한 성능에 영향을 주는 핵심 요소에 관한 깊이 있는 연구가 아직 진행되지 못했다.
- (2) 연구 진영에서 LLM을 학습하는 것이 쉽지 않다.
- LLM의 학습에 필요한 연산 자원 요구량이 어마어마하여서, LLM연구는 산업 진영에서 주로 진행되었고 이에 따라 중요한 훈련의 세부 내용들은 대중에 공개되지 않았다.
- (3) 인간의 선호나 중요하게 여기는 가치에 맞게 LLM을 조정하는 것이 어렵다.
2. Overview
2.1. Background for LLMs
- 일반적으로 LLM은 대규모 텍스트 데이터에서 학습된 수천억 이상의 파라미터를 가진 트랜스포머(Transformer) 언어모델을 말한다.
- GPT-3, PaLM, Galactica, LLaMA 등
- Formulation of Scaling Laws for LLMs
- Transformer 아키텍처에 기반한 LLM은 멀티 헤드 어텐션(Multi-head attention) 레이어가 쌓인 심층 신경망이다.
- LLM은 기존 언어모델과 비슷하게 트랜스포머 아키텍쳐를 적용하고, 언어모델링 방식으로 사전 훈련된다.
- 그렇지만 모델의 크기, 사용한 데이터의 양, 총 연산량이 수십배 이상(orders of magnification) 확장되었다.
- 이에 확장 효과(scaling effect)를 특징짓기 위하여 정량적인 분석을 하는 것이 필요하였고, 트랜스포머 언어 모델들에 2가지 대표적인 scaling laws가 있다. : (1) KM scaling law, (2) Chinchilla scaling law
- (1) KM scaling law
- 3가지 주요 요인과 성능과의 지수 관계(power-law)를 설명하기 위하여 제안되었다.
- 모델 크기(N), 데이터셋 크기(D), 훈련 연산의 양(C) --> 모델 성능과 강한 상관관계가 있다.
- 주어진 연산 자원 한계(compute budget) c 하에서 scaling law에 관한 실증적인 공식인 다음과 같다.
- \( L(N) = \left( \frac{N_c}{N} \right)^{\alpha_N} , \alpha_N \sim 0.076, N_c \sim 8.8 \times 10^{13} \)
- \( L(D) = \left( \frac{D_c}{D} \right)^{\alpha_D} , \alpha_D \sim 0.095, D_c \sim 5.4 \times 10^{13} \)
- \( L(C) = \left( \frac{C_c}{C} \right)^{\alpha_C} , \alpha_C \sim 0.050, C_c \sim 3.1 \times 10^{8} \)
- 이 때, \( L(\cdot) \) 은 내트(nat)로 표현한 크로스 엔트로피 손실 함수다.
- 참고) 내트(nat)는 자연상수(e)를 밑으로 하는 정보단위로서, 밑이 2인 정보량 단위인 새년(shanno) 또는 비트(bit)와의 관계는 대략 \( 1 \text{nat} \approx 1.4427 \text{bit} \) 또는 \( 1 \text{bit} \approx 0.6931 \text{nat} \) 다.
- 데이터셋 크기는 22M에서 23B 개의 토큰으로 실험되었고, 모델 크기도 768M에서 1.5B non-embedding 파라미터 사이였다. 하나의 요소를 실험할 때는 다른 두 요소가 병목(bottleneck)이 되지 않도록 하였다.
- 참고) 원 논문에서 이렇게 이름 지어지지 않았기 때문에, OpenAI 공동 1저자 두명의 성(Kaplan, McCandlish)에서 따서 설명하였다.
- (2) Chinchilla scaling law
- Googld DeepMind 팀에서 제안한 또다른 scaling laws로서 연산최적화된(compute-optimal) LLM 훈련에 관한 내용이다.
- 더 넓은 범위의 모델 범위(70M to 16B), 데이터셋 크기(5B to 500B 토큰)에서 실험이 진행되었다.
- \( L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta} \)
- 이 때, \( E = 1.69, A = 406.4, B = 410.7, \alpha = 0.34, \beta = 0.28 \) 이다.
- \( C \approx 6ND \)의 제한 하에서 손실함수 \( L(N, D) \)를 최적화함으로써, 연산 자원 한계(compute budget)를 모델 크기와 데이터셋 크기에 최적 할당하면
- \( N_{opt} (C) = G \left( \frac{C}{6} \right)^a \), \(D_{opt} (C) = G^{-1} \left( \frac{C}{6} \right)^b \)
- 이 때, \( a = \frac{\alpha}{ \alpha + \beta} \), \(b = \frac{\beta}{\alpha + \beta} \) 이며,
- \( G \)는 \( A, B, \alpha, \beta \)에서 계산되는 scaling coefficient 다.
- \( N_{opt} (C) = G \left( \frac{C}{6} \right)^a \), \(D_{opt} (C) = G^{-1} \left( \frac{C}{6} \right)^b \)
- (1) KM scaling law
- 연산 자원 한계(compute budget)이 점점 증가할 때,
- KM scaling law는 데이터셋 보다 모델 크기에 더 많은 자원 할당을 선호하는 반면,
- Chinchilla scaling law는 두 요소가 같은 스케일로 증가해야 한다고 주장한다.
- scaling laws는 훈련 동안에 LLM의 성능 예측이 가능하도록 확장 효과에 대한 직관적인 이해를 제공했다.
- 하지만, 문맥 학습(in-context learning) 같은 몇몇 능력은
- 특정 레벨 이상의 모델 크기에서만 관찰될 수 있었고, 즉 scaling law로는 성능 예측이 불가능했다.
- Emergent Abilities of LLMs
- LLM의 emergent abilities의 정의는 "작은 모델에서는 나타나지 않지만, 오직 대규모 모델에서 나타나는 능력"을 말한다.
- 이로부터 PLM과 LLM의 차이가 두드러진다.
- 특정 레벨에 다다르면 성능이 급격히 증가하는 이런 현상은 물리학에서의 상전이(phase transition)로 비유할 수 있다.
- 참고) emergent ability가 나타나는 기준 크기를 정확하게 재는 것은 어렵다. 작업에 따라 달라질 수 있기 때문이다.
- (1) In-context learning (ICL)
- 언어모델이 자연어로 된 지시나 태스크에 대한 몇몇 설명을 함께 입력받는 상황을 가정할 때,
- 추가적인 훈련이나 가중치 업데이트 없이, 입력 시퀀스를 완성하려는 방식으로 원하는 결과를 생성하게 할 수 있다.
- 참고) 입력 프롬프트를 통해, 구체적 지시만을 제공하거나( zero-shot prompting으로 연결), 작업에 대한 몇몇 예시를 함께 입력하는 것( few-shot prompting) 만으로, 작업 수행 능력이 향상되는 것을 말한다.
- 175B 개의 매개변수를 갖는 GPT-3에서는 강하게 ICL 특성이 나타나는 반면, GPT-1 이나 GPT-2에서는 나타나지 않는다.
- ICL 능력은 시행하려는 하위 작업의 종류에도 영향을 받는데,
- 3자리 수의 덧셈과 뺄셈과 같은 대수 연산(arithmetic) 작업에서는 13B GPT-3에서도 잘 나타나는 반면
- Persian QA 태스크에서는 175B GPT-3도 ICL만으로는 잘 수행하지는 못했다.
- 참고) Persian QA(Question-Answering) : 페르시아어로 된 위키피디아의 내용을 이해하고 질문에 대한 응답을 생성하기 위한 데이터셋과 작업
- (2) Instruction following
- 자연어로 서술된(natural language description) 지시 형식의 다양한 태스크를 혼합하여 fine-tuning함으로써, LLM은 지시(instruction) 형식으로 된 작업을 처음보더라도(unseen task) 잘 수행한다.
- 이러한 fine-tuning 방식을 instruction tuning이라고 한다.
- instruction tuning을 통하여, 명시적이 예시가 없더라도 작업의 지시를 따를 수 있게 되는데, 이처럼 LLM은 향상된 일반화 능력을 가지고 있다.
- instruction-tuned LaMDA-PT(Pre-trained)는 모델의 크기가 68B에 이르면, 처음 보는 작업에 튜닝되지 않은 모델의 성능을 압도했다( 8B 이하의 모델에서는 나타나지 않았다)
- 참고) LaMDA(Language Models for Dialog Applications) : 대화 태스크를 위해 학습된 트랜스포머 계열의 언어모델
- PaLM의 경우 최소한 62B 이상의 크기가 되었을 때, 4가지 평가 벤치마크의 다양한 태스크들에서 일반적으로 잘 동작하였다. (MMLU, BBH, TyDiQA, MGSM)
- instruction-tuned LaMDA-PT(Pre-trained)는 모델의 크기가 68B에 이르면, 처음 보는 작업에 튜닝되지 않은 모델의 성능을 압도했다( 8B 이하의 모델에서는 나타나지 않았다)
- 자연어로 서술된(natural language description) 지시 형식의 다양한 태스크를 혼합하여 fine-tuning함으로써, LLM은 지시(instruction) 형식으로 된 작업을 처음보더라도(unseen task) 잘 수행한다.
- (3) Step-by-step reasoning
- 작은 언어모델에서는 보통 여러 추론 단계를 포함하는 복잡한 작업을 해결하는 것이 어렵다.
- 반면에, LLM에서는 CoT(Chain-of-Thought) 프롬프팅 전략으로 이러한 작업을 해결할 수 있다.
- Chain-of-Thought : 최종 답에 도달하기 위하여중간 추론 단계를 포함하도록 하는 프롬프트 메커니즘의 활용
- 이런 능력은 코드를 훈련시키는 과정에서 획득될 수 있다고 추측되기도 한다.
- 실험적인 연구에서는 일반적인 프롬프트와 비교할 때, 60B 이상 크기의 PaLM, LaMDA 모델류에서 성능 향상이 나타나기 시작했고, 특히 100B 이상의 크기에서는 그 차이가 두드러졌다.
- 한편, 작업의 종류에 따라서도 성능상 이득 정도도 차이를 보였다.
- PaLM에서의 작업별 결과 : \( \text{GSM8K} > \text{MAWPS} > \text{SVAMP} \)
- GSM8K : Grade School Math 8K
- MAWPS : MAth Word ProblemS
- SVAMP : Simple Variations on Arithmetic Math word Problems
- LLM의 emergent abilities의 정의는 "작은 모델에서는 나타나지 않지만, 오직 대규모 모델에서 나타나는 능력"을 말한다.
- Key Techniques for LLMs
- 일반적인(general) 문제를 다룰수 있는, 유능한(capable) 학습자(learner)로서 LLM이 발전하는 데에는 여러가지 중요한 방법이 제안되었다. 그 중 LLM의 성공을 이끈 대표적인 기법들은 다음과 같다.
- Scaling
- 위에서 언급된 바와 같이 [ larger model/data sizes, more training compute ]가 향상된 모델 능력을 이끌어냈다.
- GPT-3와 PaLM의 모델 크기는 각각 175B와 540B다.
- 전체의 연산 비용한계(예산, budget)이 제한되었더라도, 연산 자원을 더 효율적으로(compute-efficient) 할당함으로써 scaling laws를 계속 적용할 수 있었다.
- 학습 토큰 수가 더 많은 Chinchilla 모델의 성능이 모델 크기가 큰 Gopher 모델의 성능을 압도하였다. 이로부터 동일한 연산 비용에서 데이터의 규모를 점점 키우게 되었다.
- 참고) Gopher ( Size - 280B, Training tokens- 300B ), Chinchilla(Size-70B, training tokens- 1.4T)
- 또한 데이터의 품질이 중요한 역할을 하므로 데이터 정제(cleaning) 과정도 신경써야만 한다.
- 위에서 언급된 바와 같이 [ larger model/data sizes, more training compute ]가 향상된 모델 능력을 이끌어냈다.
- Training
- 거대한 파라미터의 수 때문에 LLM을 학습시키는 것은 매우 어렵다.
- 따라서 분산 학습 알고리즘(Distributed training algorithm)이 훈련에 필요하였고, 다양한 학습 전략이 함께 사용되었다.
- 분산학습을 지원하기 위해서 병렬 알고리즘(parallel algorithm)의 실행과 배포를 용이하게 하는 DeepSpeed, Megatron-LM과 같은 최적화 프레임워크들이 발표되었다.
- 참고1) DeepSpeed : Microsoft에서 만든 PyTorch용 오픈소스 딥러닝 최적화 라이브러리
- 참고2) Megatron-LM : Nvidia에서 발표한 트랜스포머 언어 모델의 대규모로 훈련을 위한 방법들
- 최적화를 위한 기술들은 학습 안정성(training stability)나 모델 성능(model performance)을 위해서도 중요하다.
- 예) training loss spike를 극복하기 위한 재시작, 혼합 정밀도(mixed precision) 학습
- GPT-4는 훨씬 작은 모델들을 이용해 대규모 모델의 성능을 안정적으로 예측하는 기초 구조와 최적화 방법 개발을 제안하였다.
- Ability eliciting
- 대규모 말뭉치에서 사전 학습된 LLM은 일반적인 목적의 작업들을 해결할 수 있는 잠재적인 능력을 갖추고 있다.
- 그러나 이런 능력들이 LLM이 특정 작업을 할 때, 명시적으로 드러나지 않을 수도 있다.
- 따라서 그러한 능력들을 이끌어내기 위하여 적절한 작업 지시(task instruction)를 하거나, in-context learning 전략을 설계하는 것이 기술적 관점에서 유용할 수 있다.
- 이미 언급된 CoT(Chain-of-Thought) 프롬프팅은 중간 추론 단계를 포함시킴으로써, 복잡한 추론 작업 해결에 유용하다는 것이 알려졌다.
- 작업에 대한 설명으로 LLM에서 instruction tuning을 했을 경우, 처음 보는(unseen) 작업에서도 일반화가 잘 되었다(improved generalizability)
- 이렇게 잠재적인 LLM을 이끌어내는 것은 LLM의 emergent abilities와 주로 연관되며, 작은 언어모델에서는 관찰되지 않는다.
- Alignment tuning
- LLM이 학습한 대규모 말뭉치에는 품질이 낮은 데이터도 있을 수 있기 때문에, LLM은 인간에게 해롭거나 편향된 대답을 생성할 수 있다.
- 따라서 LLM을 인간의 가치에 맞게 조정(align)하는 과정이 필요하다.
- helpful, honest, harmless
- InstructGPT은 RLHF(Reinforcement Learning with Human Feedback)을 활용하여 이런 목적에 맞도록 하였다.
- 사람의 반응이 레이블링 전략과 함께 설계된 훈련 과정에 포함되도록 한다.
- ChatGPT도 InstructGPT와 유사한 방법으로 개발되어서, 고품질이면서 인간에게 해롭지 않은 답변을 생성할 수 있으며, 모욕하는 질문을 거부할 수 있다.
- Tools manipulation
- LLM 사용 상의 난점
- LLM은 본질적으로 텍스트 생성 태스크를 위해 대규모 말충치에서 학습되었기 때문에, 텍스트가 아닌 형태로 표현되면 잘 동작하지 않는다. (e.g., 수치표현과 계산)
- 또한 사전 훈련된 데이터를 벗어난 최신 정보를 파악하는 것은 불가능하다.
- 이러한 부족한 면을 극복하기 위하여 외부 도구들을 함께 사용하는 방법이 최근에 제안되고 있다.
- 정확한 계산을 위한 계산기(calculator)의 활용
- 알지 못하는 정보를 반환하기 위하여 검색 엔진(search engine) 적용
- ChatGPT가 최근에 외부 플러그인을 적용할 수 있도록 하였고, 이는 LLM의 "눈과 귀"처럼 쓰인다.
- LLM 사용 상의 난점
- 이런 네가지 요소 이외에도 하드웨어의 빠른 발전 등이 LLM 성공에 기여한 바가 크지만, 여기에서는 LLM 연구, 개발 과정에서의 기술적 접근법과 핵심 발견 등을 위주로 서술한다.
2.2. Technical Evolution of GPT-series Models
- ChatGPT는 강력한 GPT 모델에 기반을 두고, 대화 능력을 위해 최적화되었다.
- GPT 모델들의 기저에 있는 원칙은 지식(World knowledge)를 언어 모델링을 통해 decoder-only Transformer 모델로 압축하여 지식의 의미(semantics)를 외우거나 복구하여서 일반적인 태스크(general-purpose task)를 해결할 수 있도록 하는 것이다.
- 참고) Encoder-Decoder 구조로 이루어진 Transformer 모델에서, 어떤 부분을 사용하였는지에 따라 모델을 구분할 수 있다.
- Encoder-only models : 입력의 이해가 필요한 문장 분류, 문장 내 객체 인식 등의 작업에 사용되는 모델. 주위의 컨텍스트를 모두 고려하여 예측하는 모델로서 Auto-encoding 모델이라고도 한다. BERT, ALBERT 등
- Decoder-only models : 텍스트 생성과 같은 생성 태스크에 사용되는 모델. 이전의 컨텍스트로부터 다음에 나올 토큰을 예측하는 모델로서 Auto-regressive 모델이라고도 한다. GPT 모델류
- Encoder-Decoder model : 입력이 필요한 생성 태스크인 번역, 요약 등에 사용된다. Sequence-to-sequence 모델
- 참고) Encoder-Decoder 구조로 이루어진 Transformer 모델에서, 어떤 부분을 사용하였는지에 따라 모델을 구분할 수 있다.
- GPT 모델의 두 가지 핵심 요소는 다음과 같다.
- (1) 다음에 올 단어를 정확하게 예측할 수 있도록 하는 decoder-only Transformer 언어 모델의 학습,
- (2) 언어모델의 규모 확장
- Early Explorations
- Transformer 모델이 출현하면서, OpenAI는 이후 모델의 기반이 되는 초기모델 GPT-1과 GPT-2를 발표하였다.
- GPT-1 (2018)
- 2017년에 Google이 Transformer 모델을 발표하자 OpenAI 팀은 재빠르게 그들의 언어모델이 트랜스포머 아키텍처를 적용하였다. Generative Pre-Training을 축약해서 GPT라는 모델명을 사용하기 시작했고, 2018년에 GPT-1을 발표했다.
- decoder-only 트랜스포머 아키텍쳐에 근간을 두고, unsupervised pretraining과 supervised fine-tuning을 결합한 하이브리드 방식을 적용하였다.
- GPT 시리즈 모델들의 원칙인 다음에 오는 단어를 예측하는 방식이 설정되었다.
- 참고) 이를 auto-regressive 라고 부른다.
- GPT-2
댓글