SentencePiece 토크나이저 정의와 HF 래핑 – 나만의 모델 만들기 #3
오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …
오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …
지금까지 라마 파인 튜닝을 위한 모델을 찾았고, 이 모델이 정상 작동하는지 확인하기 위한 방법으로 Ollama 플랫폼으로 생성하여 Docker를 통해 질문과 답변을 받아 보는 방식 등을 확인해 봤습니다. 또, 파인 튜닝에 …
지난 글에서 llama fine tuning을 위한 첫 번째 준비 작업으로 hugging face에서 다운로드한 llama 3.2 1b 모델을 포멧 변경하여 ollama 플랫폼에 맞게 생성하는 것까지 진행해 봤습니다. 오늘은 두 번째 준비 …
오늘부터는 연속하여 llama fine tuning(라마 모델 파인 튜닝)에 대해 이야기해 보려 합니다. 특히 llama fine tuning을 위한 사전 작업과 튜닝 과정을 자세하게 다뤄볼 예정입니다. 지금까지 llama 3.1, llama 3.2를 설치하고 …
데이터셋(dataset) 생성 기술이 중요한 이유를 이해하려면, 생성형 인공지능 모델의 학습 과정부터 생각해 볼 필요가 있습니다. Llama 3.1과 같은 생성형 인공지능 모델은 사람이 주는 데이터를 기반으로 학습하여 언어를 이해하고 생성합니다. 이 …