내용으로 바로가기
Paul's Media Set
메뉴
  • 홈
  • Tech_issues
  • 견생14년
  • 재테크_light
  • 잡담&info

[태그:] token

Tech_issues

나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저

오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …

소형 언어 모델로 한국어 AI 만들기
Tech_issues

소형 언어 모델로 한국어 AI 만들기 – 생성형 AI 만들기 #2

지난 글에서는 한국어 AI를 구축하기 위해서, HyperCLOVA의 토크나이저를 GPT-2 Medium 모델에 이식하는 과정을 정리해 봤어요. 한국어에 특화된 토크나이저를 적용함으로써 한국어 문장 구성에 대한 학습 효과를 높이려는 시도였죠. 오늘은 그 실험 …

HyperCLOVA의 Tokenizer로 한국어 AI 생성하기
Tech_issues

HyperCLOVA의 Tokenizer로 한국어 AI 생성하기 – 생성형 AI 만들기 #1

그동안 대형 언어 모델, Tokenizer는 물론, AI (인공지능) 기술과 관련하여 다양한 이야기를 해 왔습니다. 이제부터는 지금까지 다뤄본 기술들을 기반으로 실제 나만의 생성형 AI 모델을 만들어 보고자 합니다. 개인 프로젝트다 보니 …

OpenAI API 요금은 어떻게 계산될까
Tech_issues

OpenAI API 요금은 어떻게 계산될까? 토큰 개념과 tiktoken 활용 #1

오늘은 OpenAI API 요금에 대해 좀 이야기해 볼까 해요. 대부분의 LLM 기반 API들이 Token(토큰) 단위로 요금을 매기고 있는데, 이 Token(토큰)이라는 개념이 우리 같은 일반인에겐 좀 낯설잖아요. 그래서 OpenAI API 비용이 …

최신 글

  • 나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저
  • 소형 언어 모델로 한국어 AI 만들기 – 생성형 AI 만들기 #2
  • HyperCLOVA의 Tokenizer로 한국어 AI 생성하기 – 생성형 AI 만들기 #1
  • LoRA와 QLoRA로 VRAM 부담 줄이기 – 미세조정(PEFT) 기술 #1
  • Qwen3-0.6B fine-tuning 단계별 실습 #2-1 한국어 글쓰기 모델 만들기
Paul's Media Set
Paul's Media Set
Copyright © 2025 Paul's Media Set – OnePress 테마 제작자 FameThemes