AI Detector로 AI content 판별이 가능할까? 기준과 현실 #1

생성형 인공지능(Generative AI)이 점점 더 자연스러운 문장을 생성하면서, AI Detector 기술도 빠르게 발전하고 있습니다. Openai의 초기 GPT 모델은 특정 조사나 형용사 사용, 문단 구성에서 어떤 특징적인 패턴을 보였지만, 프롬프트 엔지니어링이나 Paraphrasing 기법을 고도화하여 적용하는 등으로 이러한 부분은 많이 사라지고 있습니다.

뿐만 아니라, 최근에는 Grok 3 같은 최신 모델의 등장으로 인간이 작성한 텍스트와 구분하기 어려운 수준이 되었어요. 그러면 이제 이런 고도화된 생성형 인공지능이 생성한 문구나 문서들을 AI Detector는 어떻게 판별하고 검출해 낼 수 있을까요?

AI Detector로 AI content 판별이 가능할까 <출처: detecting-ai>

AI Detector로 AI content 판별 방법과 기준

통계적 분석 (Statistical Analysis)

퍼플렉서티(Perplexity): AI 모델이 문장을 생성할 확률을 수치화한 값으로, AI가 생성한 텍스트는 인간의 글보다 퍼플렉서티가 낮게 나타나는 경향이 있다고 합니다. 하지만 잘 설계된 프롬프트로 이러한 텍스트를 반복적으로 다듬으면 이 차이가 줄어들어 효과가 제한적일 수도 있습니다.
엔트로피(Entropy): 단어 선택이나 문장 구조의 다양성을 분석하는 방법입니다. AI는 학습 데이터 기반으로 통계적 패턴을 따르는 경우가 많아 인간의 불규칙성과 차이를 보일 수 있기 때문이죠. 그러나, Grok 3처럼 대규모 데이터를 학습한 모델은 이 차이를 최소화할 가능성이 있기도 합니다.

언어적 특징과 의미적 일관성 (Linguistic Features & Semantic Coherence)

패턴 분석

생성형 인공지능 모델은 단어 선택이나 문장 구조에서 예측 가능한 경향을 보일 수 있습니다. 예를 들어, 트렌디한 표현을 과도하게 사용하거나, 특정 맥락에서 부자연스러운 전환을 만들어낼 때도 있습니다.

문체의 일관성

인간은 감정 변화나 맥락에 따라 미세한 톤 변화를 보이지만, AI는 지나치게 일관된 톤을 유지하거나, 또는 반대로 감정을 모방하려다 어색한 흐름을 만들어낼 수 있습니다. Grok 3 같은 모델은 한국어에서도 구어체를 잘 표현하기도 하자만, 깊은 문화적 맥락 즉, 예를 들면 한국어 방언이나 세대별 유행어 같은 것들을 완벽히 반영하는 것은 여전히 쉽지 않은 문제입니다.

스타일메트릭스 분석 (Stylometrics)

문체 일관성: 인간은 고유한 문체와 불규칙성을 보이지만, AI는 평균적이고 일관된 문체를 유지하는 경향이 있습니다. 문장 길이, 접속사 사용 빈도, 단어 선택 패턴 등이 지나치게 규칙적이면 AI Detector에 의해 의심되는 원인이 될 수 있겠죠.
문화적 맥락: 앞에서 언급한 문체의 일관성과도 연결되는 부분으로, 한국어처럼 지역 방언(예: 부산 사투리)이나 세대별 표현(예: MZ 용어)이 자연스럽게 녹아들어 가야 할 부분에서, AI가 이를 자연스럽게 섞지 못하면 인공지능이 생성한 문서로 AI Detector가 판단할 수 있습니다.

핑거프린팅 (Fingerprinting)

생성형 인공지능의 초기 시기에 일부 AI 모델은 생성 텍스트에 “워터마크” 같은 숨겨진 패턴을 삽입해 판별을 쉽게 하려는 시도가 있었습니다. 아마 지금도 계속 연구되고 있겠지만 아직 뭔가 결론은 나지 않은 것 같습니다.

하여간 이러한 부분은 인간이 인지하기 어렵지만 알고리즘으로 탐지 가능한 토큰 조합을 사용하는 방식입니다. 하지만 사용자가 텍스트를 재구성하거나 다른 모델로 다시 생성하면 이를 우회할 수 있고, 모든 개발사가 워터마킹을 도입하지 않는다는 점이 문제점 중 하나입니다.

현재 급속하게 발전하고 있는 인공지능 기술은 그 결과물이 인간의 것인지 인공지능의 것인지 구분하는 기준 역시 중요해지고 있습니다. 때문에 오늘 이러한 주제를 설정한 것이기도 합니다. 이때 워터마크 기술의 도입 같은 구분의 기준을 설정하는 것은 그 자체로 의미를 갖습니다.

머신러닝 기반 적대적 탐지 모델 (Adversarial Detection Models)

이는 별도의 AI Detector 모델을 생성하여 AI 텍스트의 특징을 검출하는 방법입니다. 예를 들어, Grok 3가 생성한 텍스트를 판별하기 위해 xAI의 생성형 인공지능이 생성한 모든 데이터를 수집하여 단어 선택이나 문장 구조 패턴을 분석하도록 학습하여 Grok이 생성한 문서에 특화된 판별 모듈(또는 모델)을 구축하는 거예요.

예를 들어, Originality.ai나 detect-ai 같은 도구는 AI 생성 확률을 계산하여 판별하기도 합니다. 개인적으로 이러한 도구들의 정확도에 대해서는 언급할 수는 없을 듯합니다. 왜냐면 무료 버전만 사용해서 그런지는 모르겠지만, 직접 작성한 문구를 인공지능이 생성한 문장으로 판별하기도 하더라고요. 물론 그 반대의 경우도 있고요.

현실적 한계와 Grok 3의 도전

현재까지 개인적으로 사용해 본 생성형 인공지능 중 가장 뛰어난 모델은 DeepSeek-R1과 Grok 3 정도라고 생각되는 데요, 이 둘 중에서도 Grok 3가 가장 우수하지 않나 싶습니다. 물론, 각 인공지능 기업들이 제공한 벤치마크 데이터를 기준으로 말한다면 분명히 다르게 말할 수도 있지만, 직접 사용하는 사용자 입장에서 정성적으로만 생각해 본다면 Grok 3가 단연 으뜸이 아닐까 싶습니다.

이유를 간단히 말하자면, DeepSeek-R1은 아직 한국어가 부족하죠. 한국어 아냐고 물어보면 “김치” 정도만 말합니다. 반면 Grok 3는 일부 한국인 보다 말을 잘합니다. 더구나, 일론 머스크가 추론 모델이라고 강조한 만큼 Grok 3 모델은 논리적인 추론 능력이 있습니다. 때문에 당연히 생성형 인공지능 모델들이 갖고 있는 환각(Hallucination) 문제도 간혹 나타납니다. 하지만, 논리적 추론으로 결과를 도출하는 과정과 속도는 Openai의 GPT-o1보다 분명히 빠르고 정확했습니다. 개인적으로 머스크 같은 인물을 좋아하지는 않지만, Grok 3 는 현재 무료입니다. 무료 서비스임에도 다른 어떤 인공지능 모델보다 우수하다고 생각됩니다.

이러한 Grok 3가 계속해서 다양한 어휘 구사 능력을 발전하게 된다면, 또 그에 따라 생성한 문장은 AI Detector가 어떻게 검출해 낼 수 있을까요? 창과 방패의 싸움이 계속될 것 같습니다.