LLM - Paul's Media Set

AI 모델 경량화를 위한 방법

AI 모델 경량화를 위한 방법 – 지식 증류, 양자화, Pruning 비교 #2

오늘은 지난 글에서 다뤘던 지식 증류에 이어서 AI 모델 경량화 방법에 대해 살펴보겠습니다. 생성형 AI 모델의 생성과 성능 향상과 관련한 기술들 만큼이나 모델 경량화 기술 역시 큰 관심을 받고 있습니다. …

지식 증류(Knowledge Distillation)

지식 증류(Knowledge Distillation) – AI 모델 경량화를 위한 방법 #1

오늘부터는 지식 증류(Knowledge Distillation)에 대해서 다뤄보도록 하겠습니다. 지금까지 파인튜닝(Fine-tuning)이나 강화학습(Reinforcement Learning)에 대해 몇 번 다뤄봤지만, 지식 증류에 대해서는 처음 다뤄보게 되겠습니다. 지식 증류(Knowledge Distillation) 최근 대규모 인공지능 모델(Large Language Models, …

llamafile 실행 화면

Llamafile vs. Ollama – LLM 실행과 모델 배포를 위한 최적의 선택 #1

LLM 모델을 실행하는 모듈이라면 Ollama 플랫폼이 유명하죠. 물론, 우리도 여러 차례 다양한 주제로 Ollama를 사용해 보기도 했고요. 최근 들어 LLM 모델을 더 효율적으로 배포하고 활용할 수 있도록 하는 다양한 도구들이 …

양자화로 LLM 모델의 경량화 방법 - Quantization #1

양자화로 LLM 모델의 경량화 방법 – Quantization #1

이번에는 양자화(Quantization) 기술에 대해 정리해 보겠습니다. 오픈 소스로 공개되는 인공지능 언어 모델이 점점 더 많이 등장하고 있지만, 이러한 모델들은 상당히 고사양일 수록 그 모델 사이즈도 상당히 거대한 경우가 많습니다. 이러한 …

openai agents sdk를 이용한 데모-04

OpenAI API로 구현하는 AI Agent, GPT-4o와 Function Tool 활용

최근 생성형 인공지능과 관련하여 AI Agent(인공지능 에이전트)라는 단어가 자주 등장하고 있습니다. 이는 사용자의 요청을 받아서 내용을 분석 및 판단하여 스스로 적절한 작업을 수행하는 인공지능이라 할 수 있습니다. 즉, 진정한 개인 …