Corpus(말뭉치) 준비와 데이터 전처리 – 한국어 AI 모델 만들기 #2
오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …
오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
자연어 처리(NLP)는 인간의 언어를 기계가 이해하고 생성하는 기술로, Transformer(트랜스포머) 모델의 등장은 이런 자연어 처리 기술을 매우 고도화할 수 있게 만들었어요.이번 글에서는 Transformer의 이론적 배경, 핵심 구성 요소, Hugging Face 플랫폼과의 …
최근 생성형 인공지능과 관련하여 AI Agent(인공지능 에이전트)라는 단어가 자주 등장하고 있습니다. 이는 사용자의 요청을 받아서 내용을 분석 및 판단하여 스스로 적절한 작업을 수행하는 인공지능이라 할 수 있습니다. 즉, 진정한 개인 …
최근에도 Openai의 GPT를 긴장하게 만드는 새로운 인공지능 모델이 속속 출현하고 있습니다. 오늘은 일론 머스크의 인공지능 스타트업 xAI의 Grok3 모델과 중국의 DeepSeek-R1의 기술적 차이점과 의미를 분석하여 정리해 보겠습니다. DeepSeek-R1과 Grok3의 차이점 …