Tech_issues SentencePiece 토크나이저 정의와 HF 래핑 – 나만의 모델 만들기 #3 오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …
Tech_issues 나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저 오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …