나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
지난 글에서는 한국어 AI를 구축하기 위해서, HyperCLOVA의 토크나이저를 GPT-2 Medium 모델에 이식하는 과정을 정리해 봤어요. 한국어에 특화된 토크나이저를 적용함으로써 한국어 문장 구성에 대한 학습 효과를 높이려는 시도였죠. 오늘은 그 실험 …
이번에는 지난번 OpenAI API와 Gemini API의 차이점에 이어서 실제로 API를 이용하여 Gemini AI 모델이 사용자의 꿈을 해석해 주는 웹앱을 직접 만들어보는 과정을 코드와 함께 소개해 볼게요. Gemini API를 사용한 꿈 …
자연어 처리(NLP)는 인간의 언어를 기계가 이해하고 생성하는 기술로, Transformer(트랜스포머) 모델의 등장은 이런 자연어 처리 기술을 매우 고도화할 수 있게 만들었어요.이번 글에서는 Transformer의 이론적 배경, 핵심 구성 요소, Hugging Face 플랫폼과의 …
이번 글은 AI 기업과 산업의 벨류체인과 기업별 역할과 차이점을 분석하고, 그중 최근 새롭게 부각되고 있는 Groq의 역할과 일론 머스크의 행보에 대해 살펴보도록 하겠습니다. AI 기업들의 역할과 차이점 AI 기업은 크게 …