DeepSeek-R1이 생성형 AI에 미치는 영향. 강화학습만으로 가능?

오늘은 지난 글에 이어서 최근 이슈가 되고 있는 DeepSeek-R1 (딥씨크) 모델에 대해서 기존 생성형 인공지능 AI과 무엇이 다른 것인지, 어떤 특징을 갖고 있는 것인지, 그리고 이러한 차이점이 기존 생성형 인공지능 분야에 어떤 영향을 미칠지 정리해 보겠습니다.


DeepSeek-R1이 생성형 AI에 미치는 영향

DeepSeek는 Github를 통해 모델 다운로드 방법과 API 등 관련 내용을 상세하게 설명하고 있고, DeepSeek_R1.pdf 파일도 공개하고 있습니다. 이 pdf 문건의 핵심 내용을 간략히 요약하자면 다음과 같습니다.

DeepSeek-R1이 생성형 AI에 미치는 영향
DeepSeek-R1이 생성형 AI에 미치는 영향


DeepSeek-R1의 학습 방식

기존의 대규모 언어 모델(LLM)은 지도학습(SFT, Supervised Fine-Tuning) 과정을 필수적으로 포함하여 훈련됩니다. 이는 모델이 인간이 작성한 고품질 데이터를 학습하도록 하여 언어 표현력과 논리적 일관성을 높이는 역할을 합니다. 하지만 DeepSeek-R1은 이러한 전형적인 방식을 따르지 않고 SFT 없이 RL(강화학습, Reinforcement Learning)만으로 reasoning(추론) 능력을 강화하는 접근법을 시도했습니다.

DeepSeek-R1의 학습 과정은 다음과 같이 두 가지 단계로 나뉩니다

  1. DeepSeek-R1-Zero
    • SFT 없이 순수 RL 학습만으로 훈련된 모델
    • RL을 통해 자연스럽게 추론 능력이 향상됨
    • 하지만 읽기 어려운 출력, 언어 혼합 문제가 발생
  2. DeepSeek-R1
    • Cold-start 데이터 및 다단계 훈련을 추가하여 R1-Zero의 문제를 해결
    • SFT는 최소한으로 활용하며, RL을 주된 학습 방법으로 사용
    • 최종적으로 OpenAI o1-1217 모델과 동등한 수준의 reasoning 성능을 확보


상당히 획기적이죠. 저도 파인 튜닝과 관련한 이전 글에서 llama 모델에 한글 학습을 하는데 있어서도 SFT 방식을 적용했던 적이 있습니다. 이러한 딥씨크의 방식은 기존 LLM 학습 과정에서 SFT를 필수적으로 적용하던 방식에서 벗어난 상당히 새로운 접근법이라 할 수 있을 거예요. 하지만, 이러한 방식에 장점만 있을까요? 어떤 문제는 없을까요?


    SFT 없이 RL만으로 학습하는 방식의 장점

    DeepSeek-R1이 SFT 없이 RL만으로 성능을 향상할 수 있었던 이유는 크게 두 가지로 나누어 볼 수 있을 것 같습니다.

    첫째, 이 방식은 학습 지도 데이터(supervised data)에 대한 의존도를 낮출 수 있습니다. 일반적으로 LLM을 학습하려면 대량의 고품질 SFT 데이터가 필요합니다. 이를 수집하고 정제하는 과정에는 막대한 시간과 비용이 소요되죠. 저도 이러한 데이터셋을 직접 만들어보고 싶었으나, 개인적으로 할 수 있는 작업이 아니라 생각되어 AI허브를 소개했었습니다.

    하지만, DeepSeek에서는 RL을 활용하여 이러한 지도 데이터 없이도 자연스럽게 추론 능력을 강화할 수 있음을 주장합니다.


    둘째, RL 방식은 보다 유연한 학습을 가능하게 합니다. SFT 방식은 모델이 특정 패턴을 강제적으로 학습하도록 유도하지만, RL(강화학습)에서는 다양한 접근법을 경험하고 학습할 기회가 주어집니다. 이로 인해 기존 방식보다 창의적이고 복잡한 추론(reasoning)이 가능해집니다.

    또한 사전 학습(Pre-training)과 RL을 결합하면, 지도학습(SFT)을 위한 데이터 정제 및 수집 비용을 절감할 수 있습니다. 이는 곧 학습 비용을 줄이면서도 높은 추론 성능을 달성할 수 있음을 의미하게 됩니다.


    하지만, 그럼에도 약간의 의심스러운 부분도 있기는 한데요, 특히 강화학습은 마치 SFT에서 필요한 데이터셋이 필요없는 것 처럼 생각될 수도 있지만 강화학습에도 데이터셋은 필요합니다.


    SFT 없이 RL만으로 학습하는 방식의 문제점

    하지만 SFT(지도학습)없이 RL만으로 학습하는 방식에는 몇 가지 중요한 한계점이 존재하죠. 가장 큰 문제는 기본적인 지식에 대한 학습량 부족입니다. SFT는 모델이 언어 구조, 논리적 사고법, 도메인에 따라 지식을 익히는 데 중요한 역할을 합니다. RL만으로 학습할 경우, 이러한 요소들이 충분히 학습되지 않아 초기 모델이 비효율적일 가능성이 있습니다.

    실제로 DeepSeek-R1-Zero는 언어 혼합(Language Mixing) 등 이해하기 어려운 엉뚱한 답변을 출력하는 문제를 보였다고 합니다.


    또, RLHF(인간 피드백을 통한 강화 학습, Reinforcement Learning with Human Feedback) 방식은 초기 모델의 품질이 낮으면 제대로 동작하지 않을 가능성이 있습니다. DeepSeek-R1은 Cold-start 데이터를 활용하여 이러한 초기 성능 문제를 완화했다고 하지만, 그럼에도 여전히 RL이 SFT를 완전히 대체할 수 있는 지에 대해서는 의문이 있습니다.


    이 외에도 강화학습 과정에서 발생할 수 있는 Bias(편향) 및 Mode Collapse 문제도 생각해 볼 수 있습니다. RL 보상 모델이 특정 유형의 응답을 선호하면, 모델이 특정 패턴에 과도하게 최적화될 가능성이 있으며, 이로 인해 답변이 반복적이거나 일관된 형태로만 출력될 위험이 있습니다. 또한 RL은 탐색 과정에서 보상 모델을 기반으로 업데이트되기 때문에, 과적합(overfitting) 문제와 학습 안정성 문제도 발생할 수 있죠.


    DeepSeek-R1은 이러한 문제를 어떻게 해결했는가?

    DeepSeek-R1은 앞서 언급한 문제점을 해결하기 위해 아래와 같은 방식들을 적용했습니다.

    1. Cold-start 데이터 활용
      • RL 초기에는 소량의 Long Chain-of-Thought(CoT) 데이터를 활용하여 학습 안정성을 확보.
      • SFT가 아닌, 선별된 추론(reasoning) 데이터만을 활용하여 모델의 초기 상태를 개선.
    2. 다단계 RL 파이프라인
      • RL 단계를 나누어 점진적으로 reasoning 능력을 향상시키는 구조를 채택.
      • 기존의 RLHF 방식과 차별화된 Self-Evolution Process(자기 발전 과정)를 통해 reasoning 능력을 강화.
    3. Rejection Sampling & Supervised Fine-Tuning
      • RL 과정이 수렴한 후, 생성된 데이터를 다시 활용하여 선별된 SFT 데이터(Supervised Fine-Tuning)를 구성.
      • 이를 통해 모델의 언어 표현력을 개선하고, 인간 친화적인 출력을 생성할 수 있도록 함.
    4. Distillation을 통한 모델 최적화
      • DeepSeek-R1의 추론(reasoning) 패턴을 더 작은 모델(1.5B~70B)로 distillation하여, 소규모 모델에서도 높은 추론 성능을 구현.

    pdf 문건에서 “Distillation”이란 단어를 직접 사용하고 있는데, 인공지능 관련 자료를 보다 보면 이 단어를 한국어로 해석할 때 “증류”라고 합니다. 개인적으로 좀 와닿지 않는 해석이 아닐까 싶습니다. “증류”보다는 “추출”이 더 어울리지 않을까 싶습니다.


    그럼에도, SFT 없이 RL만으로 충분한가?

    DeepSeek-R1이 SFT 없이 RL만으로 추론 능력을 강화할 수 있음을 보여준 것은 매우 혁신적인 접근 방법일 거예요. 하지만, 그럼에도 여전히 몇 의문이 남습니다.

    우선, 완전히 SFT를 배제한 것은 아니라는 거예요. DeepSeek-R1조차도 Cold-start 데이터와 rejection sampling을 활용했으므로 어느 정도 지도학습이 적용되었다고 보입니다. 이는 완전히 SFT를 제외하고 오직 RL 방식만을 적용하는 것으로도 충분하다는 것은 확실하지 않다고 생각됩니다.

    또, RLHF의 효과는 보상 모델의 품질에 따라 차이가 크기 때문에 , 보상 모델이 얼마나 정확하게 설계 및 구현되었는지가 중요해 집니다. 잘못된 보상 모델이 적용될 경우, 비효율적이거나 편향된 학습이 발생할 가능성이 있기 때문이죠.

    결론적으로, DeepSeek-R1의 접근 방식은 생성형 인공지능 기술 새로운 가능성을 열었지만, SFT를 완전히 대체할 수 있다고 단정하기에는 이른 단계입니다. 앞으로 RL 기반 모델이 지도 학습 없이도 충분한 일반화 성능을 갖출 수 있을지에 대한 연구가 더욱 필요할 것입니다.

    결론적으로, DeepSeek-R1의 접근 방식이 SFT를 완전히 대체할 수 있다고 단정하기에는 아직 확언할 수는 없을 것 같습니다. 그러나, 생성형 인공지능 기술 분야에서 아직 이렇다할 성과를 보여주지 못하고 있는 우리나라, 또는 이 분야에 관심을 갖고 있는 연구자, 개발자들에게 어떤 힌트를 준 것은 아닐까 생각됩니다.

    답글 남기기