데이터셋 - Paul's Media Set

SentencePiece 토크나이저 정의와 HF 래핑 – 나만의 모델 만들기 #3

오늘은 오랜만에 다시 “나만의 한국어 AI 만들기”의 3번째 이야기로 SentencePiece 토크나이저를 정의하고 Hugging face 라이브러리로 wrapping하는 방법까지 살펴 보겠습니다. 나만의 AI 만들기 프로젝트는 지난 7월 초에 시작했어요. 오늘이 9월 3일인데, …

Tech_issues

파인 튜닝(llama fine tuning) 방법 #3 – 저사양 PC도 가능한 파인 튜닝

지금까지 라마 파인 튜닝을 위한 모델을 찾았고, 이 모델이 정상 작동하는지 확인하기 위한 방법으로 Ollama 플랫폼으로 생성하여 Docker를 통해 질문과 답변을 받아 보는 방식 등을 확인해 봤습니다. 또, 파인 튜닝에 …

Tech_issues

llama fine tuning 방법 #2 – 목표 설정과 Dataset

지난 글에서 llama fine tuning을 위한 첫 번째 준비 작업으로 hugging face에서 다운로드한 llama 3.2 1b 모델을 포멧 변경하여 ollama 플랫폼에 맞게 생성하는 것까지 진행해 봤습니다. 오늘은 두 번째 준비 …

Tech_issues

llama fine tuning 방법 #1 – gguf 파일 변환과 Ollama 모델 생성

오늘부터는 연속하여 llama fine tuning(라마 모델 파인 튜닝)에 대해 이야기해 보려 합니다. 특히 llama fine tuning을 위한 사전 작업과 튜닝 과정을 자세하게 다뤄볼 예정입니다. 지금까지 llama 3.1, llama 3.2를 설치하고 …

Tech_issues

데이터셋(dataset) 생성으로 Llama 3.1 파인 튜닝하기

데이터셋(dataset) 생성 기술이 중요한 이유를 이해하려면, 생성형 인공지능 모델의 학습 과정부터 생각해 볼 필요가 있습니다. Llama 3.1과 같은 생성형 인공지능 모델은 사람이 주는 데이터를 기반으로 학습하여 언어를 이해하고 생성합니다. 이 …

[태그:] 데이터셋