챗GPT o1과 DeepSeek-R1의 추론 능력 비교 – AI가 가져온 변화 #2

오늘은 지난 번 이야기한 “생성형 AI가 가져온 변화 #1”에 이어서 그 두 번째 이야기로 ChatGPT o1과 DeepSeek-R1에 대해 이야기해 보겠습니다. 이 두 생성형 인공지능 모델의 공통점은 추론 능력을 보유하고 있다고 할 수 있습니다. 물론 다른 여러가지 능력도 있죠. 세부적인 기술적 능력을 분석하기 보다는 일반 사용자 입장에서 어떤 차이가 있는지 살펴보겠습니다.


챗GPT o1과 DeepSeek-R1의 추론 능력

ChatGPT o1의 특징

ChatGPT o1은 OpenAI에서 개발한 최신 모델로, 기존의 ChatGPT를 한 단계 발전시킨 버전입니다. ChatGPT o1의 가장 큰 특징은 ‘맥락 이해 능력’입니다. 이 모델은 긴 대화나 복잡한 상황에서도 전후 맥락을 정확히 파악하고, 그에 맞는 응답을 생성할 수 있습니다.

ChatGPT o1의 가장 큰 특징은 ‘맥락을 이해하는 능력’입니다. 이 모델은 긴 대화나 복잡한 상황에서도 전후 맥락을 정확히 파악하고, 그에 맞는 응답을 생성할 수 있습니다. 마치 오랜 친구와 대화하는 것처럼 자연스러운 대화가 가능하죠. 즉, ChatGPT o1은 사용자와 계속되는 대화에서도 앞선 맥락을 유지한다는 거예요.

또 다른 특징은 다양한 분야에 대한 폭넓은 지식을 학습했다고 합니다. ChatGPT o1은 역사, 과학, 문학, 시사 등 다양한 분야의 방대한 정보를 학습했습니다. 덕분에 거의 모든 주제에 대해 의미 있는 대화를 나눌 수 있죠. 때문에 대규모 언어모델(LLM)의 장점을 최대한 살려, 질문에 즉각적으로 반응하고 다양한 스타일의 응답을 구성해냅니다. 예를 들어, 특정 주제에 대한 설명을 단순하게 축약하거나, 더 깊은 수준으로 파고드는 등 다양한 레벨의 대화를 조율할 수 있죠.


DeepSeek-R1의 특징

DeepSeek-R1은 중국의 AI 기업 딥시크에서 개발한 대규모 언어 모델입니다. 특히 이 모델은 은 다양한 비정형 데이터를 이해하고 관련 정보를 논리적으로 연결하는 데 특화된 모델입니다. 즉 추론 능력에 특화된 모델이라고 합니다.

DeepSeek-R1은 기존의 언어 모델들과는 다르게, 복잡한 추론 과정을 단계별로 나누어 처리할 수 있도록 설계되었습니다. 마치 우리가 어려운 문제를 풀 때 단계를 나누어 차근차근 접근하는 것처럼 말이죠. 이런 구조 덕분에 DeepSeek-R1은 특히 수학 문제 해결이나 논리적 추론이 필요한 작업에서 뛰어난 성능을 보입니다.
또 하나 주목할 만한 점은 DeepSeek-R1의 ‘다중 언어 지원’ 능력입니다. 이 모델은 영어뿐만 아니라 중국어, 일본어 등 다양한 언어로 학습되었습니다. 그러나 역시 중국이라 그런가 한글 글쓰기 능력은 아직 학습이 안되어 있더군요.


추론 능력 비교

뭐, 그런데 말이죠. 사용자 입장에서 위의 내용에 대해 얼마나 공감이 될까요? 본인이 원하는 대답을 받지 못한다면 추론이고 뭐가 무슨 소용이 있겠어요?

우선 모델을 비교해 보려면 설치를 해야 합니다. ChatGPT o1은 상용서비스 모델이므로 openai.com에서 유료 가입하면 이용할 수 있고, DeepSeek-R1의 경우는 다운로드 받아 설치할 수 있습니다. ollama 플랫폼을 이용하여 인공지능 모델 설치 및 실행에 관련해서는 이전 글에서 소개한 바 있으므로 필요하신 분은 본문 아래 링크를 참고해 주세요.

ollama 사이트에서 확인해 보면 DeepSeek-R1 모델 중 가장 용량이 작은 모델은 1.5B 모델이 있네요. 이 모델을 설치해 보겠습니다. 모델 크기가 llama3.2 1b 모델과도 비슷하니 ChatGPT o1은 물론 llama 3.2 1b 모델까지 비교해 보죠.
설치한 후 모델 용량을 확인해 보면 다음 그림과 같습니다. llama3.2 1b 모델 보다 deepseek-r1:1.5b 모델의 사이즈가 더 작습니다. 과연 추론 능력까지 갖추고 있을지 궁금합니다.

DeepSeek-R1설치
딥시크-R1설치


일단, 추론 능력을 확인해 볼 수 있는 질문을 구성해 보겠습니다. DeepSeek-R1의 경우 한글 능력이 없으므로 영문으로 입력해야 합니다. 때문에 논리적인 답변을 얻어봐야 영어 능력이 부족인 인간(글쓴이 본인)이므로 주관적이든 객관적이든 평가 능력이 현저히 떨어지므로, 가능한 정량적인 대답, 즉 정답이 있는 질문으로 구성해 봤습니다.

질문: (이 질문은 정답 도출을 확인하기 위함 합니다.)
  한 기차가 시속 80km로 움직이고 있습니다. 기차가 150km를 이동하는 데 걸리는 시간을 정확히 계산해 보세요.
  영문) A train is moving at a speed of 80 km/h. Calculate the time it takes for the train to travel 150 km.

정답은: 1시간 52분 30초.

먼저, ChatGPT o1에 질문하여 대답을 확인하니, 다음과 같이 정확하게 답변합니다. 특히 눈에 띄는 것은 실제 공식을 제시하고 그에 따라 논리적인 계산을 수행한다는 게 특이한 부분이네요. 물론 ChatGPT o1을 Openai API에서 모델로 사용하면 아래와 다른 답변을 할 수 있을 거예요. 무슨 말인가면, 상용서비스 되고 있는 ChatGPT는 기본적인 GPT 모델에서 사용자에게 적합하도록 미세튜닝이 더해진 서비스라고 생각할 수 있어요. 때문에 조금 더 사용자 입장에서 더 편리하고 더 알기 쉽게 답변하도록 되어 있어서, 아래 튜닝이 되지 않은 딥시크 모델이나 라마 모델과는 다소 차이가 있을 수 있다는 것입니다.

ChatGPT o1과 DeepSeek-R1의 추론 능력-01
ChatGPT o1과 DeepSeek-R1의 추론 능력-01

다음은 DeepSeek-R1에게도 질문합니다. ChatGPT o1처럼 수학공식을 직관적으로 제시하지는 않았지만, 아래와 같이 논리적인 설명과 함께 정확하게 답을 계산해 냈습니다.

ChatGPT o1과 DeepSeek-R1의 추론 능력-02
ChatGPT o1과 딥시크-R1의 추론 능력-02
ChatGPT o1과 DeepSeek-R1의 추론 능력-03
ChatGPT o1과 딥시크-R1의 추론 능력-03

그러면 여기서, 이전에 우리가 다뤄봤던 Meta의 llama 3.2 1B는 과연 위와 같은 질문에 정답을 말할 수 있을까요?

ChatGPT o1과 DeepSeek-R1의 추론 능력-04
ChatGPT o1과 딥시크-R1의 추론 능력-04

동일한 질문에 대해 llama 3.2 1B은 6.66 hours라고 대답하네요. 상당히 비교되는 답변입니다.

DeepSeek-R1에 대한 공식적인 성능비교표를 보면 ChatGPT o1과는 비슷하거나 조금 떨어지는 수준의 능력을 보유한 것으로 발표되어 있는데요, 때문에 위와 같은 간단한 질문으로도 그 내용을 확인할 수 있었습니다. 그러나 DeepSeek-R1의 경우 모델 용량이 거의 llama 3.2 1B의 모델 용량보다 오히려 약간 작지만, 오히려 성능은 더 뛰어나 보입니다.


관련 글 참고





답글 남기기