나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
LLM 모델을 실행하는 모듈이라면 Ollama 플랫폼이 유명하죠. 물론, 우리도 여러 차례 다양한 주제로 Ollama를 사용해 보기도 했고요. 최근 들어 LLM 모델을 더 효율적으로 배포하고 활용할 수 있도록 하는 다양한 도구들이 …
오늘은 RAG(검색 증강 생성: Retrieval-Augmented Generation) 기술에 대해 이야기해 보겠습니다. 저희 블로그에서는 Meta의 라마(llama) 모델을 주제로 여러 이야기를 해왔는데요, 항상 아쉬운 것은 라마 모델은 학습된 데이터만을 사용하기 때문에 최근 정보와 …