한국어 LLM 모델과 토크나이저 교체에 따른 영향 – 나만의 모델 만들기 #5
오늘은 그동안 기초 모델로 GPT-2 구조를 이용해서 나만의 한국어 LLM 모델을 진행하는 과정 중 한국어 성능 향상에 실패한 원인을 분석 정리해 보도록 하겠습니다. 이전에도 여러 번 삽질을 하기는 했지만, 열악한 …
Tech 이슈와 트랜드
오늘은 그동안 기초 모델로 GPT-2 구조를 이용해서 나만의 한국어 LLM 모델을 진행하는 과정 중 한국어 성능 향상에 실패한 원인을 분석 정리해 보도록 하겠습니다. 이전에도 여러 번 삽질을 하기는 했지만, 열악한 …
오늘은 드디어 GPT-2 구조를 기반으로 한국어 전용 Custom Model을 생성해 보겠습니다. 지난 글에서 한국어 토크나이저를 직접 제작하고 Hugging face 환경에서 wrapping까지 완료했으므로, 오늘은 그것에 이어서 바로 기초 언어 모델을 생성하는 …
오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …
반복적인 복사/붙여 넣기 작업에 지치셨나요? Gemini CLI와 쉘 스크립트를 활용해 회의록, 이메일 등 비정형 텍스트를 깔끔한 JSON 데이터로 코드 구현 없이 자동 변환하는 방법을 정리해 보겠습니다. 혹시 Gemini CLI 설치가 …
오늘은 ComfyUI 사용법에 대해 간단하게 살펴보겠습니다. 요즘은 너무나 다양한 이미지 생성 AI가 있죠. 너무나도 유명한 미드저니(Midjourney)에서부터 구글이나 OpenAI는 물론 xAI까지 거의 대부분 멀티모달을 지원하는 생성형 AI 서비스 기업에서는 모두 이미지 …