양자화로 LLM 모델의 경량화 방법 – Quantization #1
이번에는 양자화(Quantization) 기술에 대해 정리해 보겠습니다. 오픈 소스로 공개되는 인공지능 언어 모델이 점점 더 많이 등장하고 있지만, 이러한 모델들은 상당히 고사양일 수록 그 모델 사이즈도 상당히 거대한 경우가 많습니다. 이러한 …
이번에는 양자화(Quantization) 기술에 대해 정리해 보겠습니다. 오픈 소스로 공개되는 인공지능 언어 모델이 점점 더 많이 등장하고 있지만, 이러한 모델들은 상당히 고사양일 수록 그 모델 사이즈도 상당히 거대한 경우가 많습니다. 이러한 …
미국 시간으로 2025년 2월 27일, Openai는 GPT의 최신 모델 GPT-4.5를 발표했습니다. 2023년 GPT-4가 발표된 이후 거의 매년 업그레이드된 모델을 발표하고 있습니다. OpenAI의 GPT-4.5 발표. 왜 지금일까? GPT-4.5, 어떤 변화가 있을까? …
오늘은 RAG(검색 증강 생성: Retrieval-Augmented Generation) 기술에 대해 이야기해 보겠습니다. 저희 블로그에서는 Meta의 라마(llama) 모델을 주제로 여러 이야기를 해왔는데요, 항상 아쉬운 것은 라마 모델은 학습된 데이터만을 사용하기 때문에 최근 정보와 …
드디어 파인튜닝(Fine-Tuning)이 완료되었습니다. 훈련 시작 시 80시간을 예상했으나, 워낙 오래된 PC라 보니 대략 20시간 정도 더 지연된 것 같습니다. 4일내 끝날 줄 알았지만 5일이 걸렸죠. 오늘은 이전 글 “llama fine …
지금까지 라마 파인 튜닝을 위한 모델을 찾았고, 이 모델이 정상 작동하는지 확인하기 위한 방법으로 Ollama 플랫폼으로 생성하여 Docker를 통해 질문과 답변을 받아 보는 방식 등을 확인해 봤습니다. 또, 파인 튜닝에 …