dataset - Paul's Media Set

Corpus(말뭉치) 준비와 데이터 전처리 – 한국어 AI 모델 만들기 #2

오늘은 나만의 한국어 AI 모델 만들기 두 번째 이야기로, 한국어 학습을 위한 가장 기본적인 Corpus(말뭉치)에 대해 정리하겠습니다. 최근 인공지능(AI)이 사람처럼 글을 쓰고, 질문에 답하고, 번역까지 하는 모습을 자주 보게 됩니다. …

지금까지 라마 파인 튜닝을 위한 모델을 찾았고, 이 모델이 정상 작동하는지 확인하기 위한 방법으로 Ollama 플랫폼으로 생성하여 Docker를 통해 질문과 답변을 받아 보는 방식 등을 확인해 봤습니다. 또, 파인 튜닝에 …

지난 글에서 llama fine tuning을 위한 첫 번째 준비 작업으로 hugging face에서 다운로드한 llama 3.2 1b 모델을 포멧 변경하여 ollama 플랫폼에 맞게 생성하는 것까지 진행해 봤습니다. 오늘은 두 번째 준비 …

데이터셋(dataset) 생성 기술이 중요한 이유를 이해하려면, 생성형 인공지능 모델의 학습 과정부터 생각해 볼 필요가 있습니다. Llama 3.1과 같은 생성형 인공지능 모델은 사람이 주는 데이터를 기반으로 학습하여 언어를 이해하고 생성합니다. 이 …