GPT-4, GPT-3와 비교하여 달라진 점은?

“GPT-3.5는 미국 변호사 시험에서 하위 10%에 해당하는 성적을 기록한 반면, GPT-4는 상위 10%의 성적을 기록했습니다.”

OpenAI의 GPT-4가 2023년 3월 14일에 출시되었습니다. 지난 몇 달간 이슈를 일으켰던 ChatGPT(챗GPT)는 GPT-3.5를 기반으로 작동되었는데요. 이번에 출시된 GPT-4는 멀티모달 대형 모델(MLLM, Multimodal Large Language Model)이여서 큰 이목을 끌고 있습니다. 이번 편에선 GPT-4가 어떤 부문에서 개선 되었는지 크게 7가지로 나눠 설명해 드리겠습니다.

💡아래에서 관심 있는 주제를 클릭하여 해당 본문으로 바로 이동해보세요.

GPT-4란?

개선점 7가지

1. 멀티모달(Multimodal) 모델

6. 안전성

GPT-4란?

GPT-4는 이전 버전인 GPT-3.5보다 10배 더 향상된 모델입니다. GPT-4는 이전 버전보다 맥락을 더 잘 이해하고 뉘앙스를 구별하여 더욱 정확하고 일관된 응답을 얻을 수 있습니다.

1. 멀티모달(Multimodal) 모델

멀티모달(Multimodal) 모델 GPT-4의 이전 버전 대비 가장 큰 개선점은 멀티모달 모델입니다. AI 측면에서 멀티모달(Multimodal)은 사람과 기계가 정보나 의미를 전달하기 위해 음성, 텍스트, 비디오, 이미지와 같은 다양한 형태로 대화하는 환경을 뜻합니다.

기존의 GPT 버전은 텍스트만 입출력이 가능했습니다.

하지만 기존과는 달리 GPT-4는 텍스트와 이미지를 사용자로부터 입력받은 후 텍스트를 출력할 수 있는 멀티모달 모델을 사용하고 있습니다.

GPT-4에게 음식 재료가 찍힌 사진을 제공하고 재료로 어떤 것을 만들 수 있는지 텍스트로 질문하면 GPT-4는 레시피를 텍스트로 제공합니다.

또한 사진을 제공하며 어떤 점이 특이한지 질문하면 GPT-4는 어떠한 점이 특이한지 답변을 제공합니다.

본래 멀티모달은 다양한 모달(데이터 형태)이 입출력에 구애받지 않고 대화하는 환경을 뜻합니다.

정확한 이유는 밝혀지지 않았지만, 현재 GPT-4는 Dall-E와 Stable Diffusion의 이미지 출력 기능은 제공하지 않고 있습니다. 하지만 추후 소리나 영상 등 다른 모달리티(데이터 형태)를 출력하는 것은 시간문제인 것 같습니다.

2. 메모리 성능

OpenAI에 따르면 GPT-4는 최대 32,768개 맥락 토큰 (단어, 형태소 등으로 나눈 자연어 단위)을 받을 수 있습니다. 해당량은 약 64,000개 단어, 그리고 50페이지 정도의 분량입니다.

이는 이전 모델보다 더 많은 분량의 사용자와 나눈 대화를 기억할 수 있다는 의미이며 맥락을 잘 파악하는 언어 능력과 연결됩니다.

3. 언어 능력

GPT-4의 처리 가능 영어단어는 25,000개로 기존의 ChatGPT(챗GPT)보다 약 8배 늘어났습니다. GPT-3.5는 미국 변호사 시험에서 하위 10%에 해당하는 성적을 기록한 반면, GPT-4는 상위 10%의 성적을 기록했습니다.

GPT-4는 독창성 또한 강화되었는데요. 아래는 신데렐라를 단어별로 A-Z 순으로 각 알파벳을 사용하되 중복하지 않고 작문하라 요구하는 입력입니다. GPT-4는 성공적으로 독창성이 요구되는 요청을 해냅니다.

지원하는 언어도 26개 국어로 늘어나며 더 많은 국가에서 사용될 것으로 보입니다.

4. 환각 현상 개선

환각 현상이 어느 정도 개선되었습니다. 환각 현상이란 틀린 답도 맞는 것처럼 대답하는 것을 의미하는데요. 아직 해당 현상이 근절되지 않았지만, 대규모 훈련 데이터 세트, 인간 피드백형 강화학습 (RLHF), 그리고 미세조정을 통해 지속해서 개선될 것으로 보입니다.

5. 문제 해결력

GPT-4는 GPT-3.5의 기능을 넘어 복잡한 수학적, 과학적 문제를 해결할 수 있는 강력한 능력을 보여줍니다. 예를 들어, GPT-4는 이전 모델보다 더 효과적으로 어려운 미적분 문제를 해결하거나 화학 반응을 시뮬레이션할 수 있습니다.

GPT-4는 복잡한 수학적, 과학적 개념을 이해하고 처리하는 능력을 크게 향상했는데요. 복잡한 방정식을 푸는 능력과 미적분, 대수학, 기하학과 같은 다양한 수학적 연산을 수행할 수 있습니다.

게다가, GPT-4는 물리학, 화학, 생물학, 그리고 천문학과 같은 과학 과목들도 다룰 수 있습니다. 실제로 올림피아드의 경우, ChatGPT는 31%에 랭크되었지만 GPT-4는 99%로 상위 1%에 랭크되었습니다.

기술이 계속 발전함에 따라 GPT-4는 문제 해결력을 강화하고 더 넓은 범위의 주제와 작업에 훨씬 더 능숙해질 것으로 예측됩니다.

6. 안전성

도메인별 50명의 전문가 피드백을 바탕으로 진행한 인간 피드백형 강화학습 (RLHF), 보상 모델(RBRMs)을 활용하여 안전성을 높였습니다.

GPT-4는 GPT-3.5보다 허용되지 않는 질문에 대한 요청에 응답할 가능성이 82% 낮아진 대신 민감하지만 답변할 수 있는 질문에 대한 응답 가능성은 29% 증가했습니다. 또한 사실에 입각한 응답을 할 가능성이 40% 더 높아졌다” 발표되었습니다.

7. 조향성

OpenAI는 GPT-4는 ‘성격’을 가지고 있다 밝혔습니다. 조향성(Steerability, 통제 가능 정도)은 필요에 따라 행동을 바꿀 수 있는 능력을 가리키는 개념인데요. 이전엔 고정된 어조나 스타일을 가진 GPT-3.5였지만 GPT-4는 사용자의 필요에 따라 변경 가능합니다.

아래 예시는 사용자가 GPT-4에게 해적의 어조로 말해달라 요청한 사진입니다. AI는 요구를 반영하며 해적의 말투로 재치있게 답변을 합니다.