tokenizer - Paul's Media Set

한국어 LLM 모델과 토크나이저 교체에 따른 영향 – 나만의 모델 만들기 #5

오늘은 그동안 기초 모델로 GPT-2 구조를 이용해서 나만의 한국어 LLM 모델을 진행하는 과정 중 한국어 성능 향상에 실패한 원인을 분석 정리해 보도록 하겠습니다. 이전에도 여러 번 삽질을 하기는 했지만, 열악한 …

Tech_issues

Custom model 생성 및 safetensors 저장 방법 – 나만의 모델 만들기 #4

오늘은 드디어 GPT-2 구조를 기반으로 한국어 전용 Custom Model을 생성해 보겠습니다. 지난 글에서 한국어 토크나이저를 직접 제작하고 Hugging face 환경에서 wrapping까지 완료했으므로, 오늘은 그것에 이어서 바로 기초 언어 모델을 생성하는 …

Tech_issues

SentencePiece 토크나이저 정의와 HF 래핑 – 나만의 모델 만들기 #3

오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …

Tech_issues

Corpus(말뭉치) 준비와 데이터 전처리 – 한국어 AI 모델 만들기 #2

오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …

Tech_issues

나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저

오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …

[태그:] tokenizer