Corpus(말뭉치) 준비와 데이터 전처리 – 한국어 AI 모델 만들기 #2
오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …
오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
지난 글에서는 한국어 AI를 구축하기 위해서, HyperCLOVA의 토크나이저를 GPT-2 Medium 모델에 이식하는 과정을 정리해 봤어요. 한국어에 특화된 토크나이저를 적용함으로써 한국어 문장 구성에 대한 학습 효과를 높이려는 시도였죠. 오늘은 그 실험 …
이번에는 지난번 OpenAI API와 Gemini API의 차이점에 이어서 실제로 API를 이용하여 Gemini AI 모델이 사용자의 꿈을 해석해 주는 웹앱을 직접 만들어보는 과정을 코드와 함께 소개해 볼게요. Gemini API를 사용한 꿈 …
자연어 처리(NLP)는 인간의 언어를 기계가 이해하고 생성하는 기술로, Transformer(트랜스포머) 모델의 등장은 이런 자연어 처리 기술을 매우 고도화할 수 있게 만들었어요.이번 글에서는 Transformer의 이론적 배경, 핵심 구성 요소, Hugging Face 플랫폼과의 …