목차
드디어 GPT-5가 오픈되었네요. 작년부터 나온다 안나온다 하다가 느닥없이 GPT-4.5가 나오곤 했는데요, 드디어 우리나라에도 8월 8일 새벽에 오픈되었습니다. 이번 글에서는 새롭게 등작한 GPT-5가 기존 GPT 버전과 무엇이 다른지 간단하게 정리해 보도록 하겠습니다.

GPT-5 모델 업그레이드
이번 GPT5 모델은 단순한 업그레이드를 넘어, 더 깊게 생각하고, 더 넓게 이해하며, 더 다양한 상황에 대응할 수 있다고 합니다. 이미 23년부터 GPT5에 대한 이야기는 많았는데요, 결국 25년 8월에 런칭되었습니다.
GPT-5, 무엇이 달라졌나?
GPT5의 가장 큰 변화는 통합형 사고 구조라는 것인데요, 이게 뭐냐면, 간단한 질문에는 빠르게 대답을 하고, 복잡한 수학 문제나 법률 해석 같은 분석이 필요한 경우에는 자기가 알아서 추론(Thinking)모드로 전환해서 스스로 논리 추론 등의 과정을 거친 후 대답을 한다는 거예요. 챗GPT 등을 처럼 사용하시는 분이라면 ‘이게 뭐?’ 하실 수 있지만, 좀 사용해 보신 분들은 ‘아! 드디어’ 하실 거예요.
이전 버전에서는 일반 대화용 모델과 복잡한 문제를 풀기 위한 모델이 구분되어 있었죠. 때문에 모델 옵션도 뭔 차이인지도 모르게 이것저것 많았어요. 더불어 도구 옵션도 따로 있었죠. 이것들을 사용자가 자신의 질문이나 목적에 맞게 수동으로 선택해야만 했던 것을 통합하여 자동화했다는 의미에요.
지금은 단 2개 모델만 있어요. GPT-5 플래그십과 GPT-5 Thinking. 프로 모델이 궁금하나, plus 레벨이기에….

뿐만 아니라, 도구 옵션도 변했네요.
기존 모델에서는 없었던 “더 오래 생각하기” 옵션이 추가되었네요. 또, 외부 연결 기능(구글 드라이브, 원드라이브, 쉐어포인트)이 추가되었어요. 뭐 약간 Perplexity를 참고했나? 하는 생각도 됩니다.

GPT-5 vs GPT-4o vs GPT-4.5성능 비교
OpenAI가 공개한 공식 벤치마크 수치로 보면 성능 향상이 확실히 나타나는데요, 그런데, 이런 것들은 매우 깊이 있는 논리가 필요하거나 전문 연구 분야 이외에는 그리 차이를 느낄수 없을 거예요. 뭔가 일반인이 느낄 수 있는 어떤 기준이 있었으면 좋겠는데, 아직 그것을 못 찾겠네요. 때문에 아래 그냥 분야별 벤치마크를 정리합니다.
- 수학(AIME 2025)
- GPT4.5: 약 85%
- GPT4o: 약 88%
- GPT5: 94.6%
- 코딩(SWE-bench Verified)
- GPT4.5: 약 64%
- GPT4o: 약 68%
- GPT5: 74.9%
- 멀티모달 이해(MMMU)
- GPT4.5: 약 73%
- GPT4o: 약 77%
- GPT5: 84.2%
- 사실성(환각 감소율)
- GPT4.5 대비 GPT5: 약 45% 감소
- GPT4o 대비 GPT5: 약 80% 감소(추론 시)
100%가 정답률 100%라는 거에요. 예를 들어 수학 분야의 경우 GPT5가 94.6%로 기존 모델보다 성능이 월등하다는 거죠. 코딩도 그렇고요. 벤치마크 수치만 놓고 보면 상당한 수준으로 성능이 올라왔다고 볼 수 있어요. 특히, 개인적으로 눈에 띄는 부분은 ‘멀티모달 이해’ 부분이에요.
한국어 능력, 어디까지 왔나?
개인적으로 궁금한 부분은 한국어 능력은 향상되었나? 입니다. 이 부분은 사실 한국어 사용자에게는 중요한 부분이기도 한데요, 기존 모델들은 물론 개인적인 생각입니다만, 너무 영어 중심의 사고와 논리 그리고 대답을 위한 한국어로 번역한 듯한 문장이 너무 많았어요. GPT-4o 버전 등장 후 몇 번의 업데이트 과정을 거쳐 한국어 구어체 스타일의 등장으로 그러한 모습은 약간 줄어들기는 했지만, 그럼에도 논리적인 글 작성이나 감성적인 글을 작성하도록 하면 한국인의 감성과 매우 다른 문장으로 답변하곤 했죠.
그래서 이번 GPT5는 좀 더 한국어 친화적으로 능력이 향상되었나 궁금했습니다만, 아직까지 단 몇 시간 사용해본 결과를 ‘별 차이가 없다’ 입니다.
물론, 한계가 있죠.
GPT는 영어 데이터의 비중이 여전히 높다 보니, 한국어 특유의 문학적 뉘앙스나 고전 표현, 정치·역사적 맥락을 세밀하게 반영하는 데는 어려울 거예요. 더구나, 앞선 글 중 토크나이저(Tokenizer) 관련 GPT가 사용하는 토크나이저와 한국어에 맞는 토크나이저가 서로 다르다는 것을 언급한 바와 같이 이미 기반 모델이 다르기 때문에 한국어의 능력은 그다지 변하지 않았을 걸로 예측할 수 있었죠.
실제 성능을 보면 GPT-5는 ‘다국어 모델 중 상위권’ 수준의 한국어 이해 능력을 갖췄습니다.
한국어로 된 질문에 대해 비교적 자연스럽고 정확한 답변을 내놓을 수 있으며, 역사나 지리, 정치, 사회 등 다양한 주제를 다룰 때도 무난하게 대응합니다. 다만, 한국어 특화 모델과 비교하면 상황이 달라집니다.
예를 들어 네이버의 HyperCLOVA X 같은 모델은 한국어 데이터만을 중심으로 학습했기 때문에, 한국 문화나 문학, 지역적 맥락을 이해하는 데 훨씬 강합니다.
즉, GPT-5는 다양한 언어를 섞어 쓰는 환경에서 특히 강점이 있고, 여러 나라 언어를 오가며 정보를 검색하거나 비교하는 작업에는 적합할 있지만, 깊이 있는 한국어 문학 분석이나 고전 해석, 또는 특정 문화권에만 존재하는 뉘앙스 재현에서는 한계가 있는 거죠.
사실 이런 부분에서도 우리나라 자체의 대형 언어 모델(LLM)이 필요한 부분이기도 합니다.
GPT-5 업데이트 요약
항목 | 특징 |
출시 및 접근 | 2025년 8월 7일, 무료 및 유료 사용자에게 제공 |
모델 변형 | ChatGPT (standard/mini/nano), API (gpt-5 외 2종) |
성능 강화 | 코딩, 추론, 작성, 도구 사용 등에서 뛰어남 |
문맥 이해력 | 최대 400K 토큰 지원 |
안정성 | 환각 및 오류율 대폭 감소, 안전성 검사 강화 |
생태계 통합 | MS 제품 및 개발자 도구와 광범위하게 통합 |
- GPT-5 모델 업그레이드, 성능 벤치마크, GPT-4o/4.5 비교
- Corpus(말뭉치) 준비와 데이터 전처리 – 한국어 AI 모델 만들기 #2
- 나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저
- 소형 언어 모델로 한국어 AI 만들기 – 생성형 AI 만들기 #2
- HyperCLOVA의 Tokenizer로 한국어 AI 생성하기 – 생성형 AI 만들기 #1