Stable Diffusion WebUI Forge 설치 방법, 미드저니와 스테이블디퓨전 비교 #86

오늘은 생성형 ai 도구 중 Stable Diffusion에 대해 이야기 해 보겠습니다. 2024년 새롭게 등장한 stable diffusion webui forge 설치에서부터 현존 이미지 생성 ai 도구 중 가장 인기 있는 미드저니와 비교까지 다뤄보겠습니다.

Stable diffusion (스테이블디퓨전)

stable diffusion의 기술적인 원리와 생성되는 이미지의 퀄리티는 논외로 하더라도, 미드저니와 비교할 때 일반적인 차이는 오픈 소스 여부와 유료 무료가 가장 큰 차이점이라 할 수 있습니다.

stable diffusion은 내 컴퓨터에 설치해서 사용하기 때문에 비용이 없죠. 다만, 내 시스템의 사양에 따라 이미지 생성 속도에 차이가 있습니다. 만일 보유한 컴퓨터가 너무 낮은 사양이라면 이미지 생성 자체가 불가능할 수도 있죠. 때문에 어떤 분들은 구글 코랩에서 유료 결제 후 사용하는 경우도 있습니다.

때문에 내 컴퓨터에서 직접 이미지를 생성할 수 있다는 장점이 없어진다면, 또 필요한 경우 비용이 발생한다면 stable diffusion을 사용하는 것은 불편할 수 있습니다. 오히려 미드저니 같은 유료 서비스를 이용하는 편이 만족할만한 이미지 결과물을 쉽고 편리하게 얻을 수 있는 방법일 거예요.

미드저니의 경우는 아래 가격에 따라 사용하는 조건이 다릅니다.

미드저니 가격표
미드저니 가격표

보통 좌측 두 번째 plan을 사용하게 되는데, 일반인 수준에서는 만족도는 상당히 높습니다. 물론, 상업 용도로 활용하는 전문가의 입장에서는 조금 더 높은 plan이 필요할 수도 있겠지만 말이죠.

이미지 생성 속도는 결제하는 비용에 따라 다르고, 특히 한국 거주하시는 분들의 경우 느끼셨을지 모르지만, 미국 업무 시간대에는 미드저니의 이미지 생성 속도가 현저하게 늦어지는 것을 경험할 수도 있습니다.

하지만, 위 비용처럼 몇 장의 수준 있는 이미지를 얻기 위해 한국 돈으로 몇 만원씩 매달 결제해야 하는 것은 조금 어쩌면 매우 비싸다는 느낌이 듭니다. 가득이나 요즘은 월마다 결제할 것들 투성이인 세상인데 말이죠.

이런 차에 올 초 등장한 Stable Diffusion WebUI Forge는 저 같은 저 사양 컴퓨터를 보유한 사람들에게는 매우 반가운 소식이었습니다.


Stable diffusion WebUI Forge

저는 SD forge (Stable diffusion webui forge)의 가장 큰 장점을 꼽으라면 두 가지를 말하고 싶습니다. 첫 번째는 설치가 쉬워졌다. 두 번째는 속도가 빨라졌다 입니다.

아무리 장점이 많다고 해도 어려운 설치와 높은 성능 요구 사항은 스테이블 디퓨전을 사용하기에 너무나 높은 장벽이었습니다. 그 동안 Comfyui의 등장으로 설치 문제와 속도를 개선했다고 할 수는 있지만, 이번 webui forge 만큼의 의미는 없다고 할 수 있습니다.


설치 방법

SD webui forge는 매우 간단한 두 가지 설치 방법이 있습니다. 먼저, Stable diffusion webui forge github 저장소로 이동합니다.

해당 페이지를 아래로 스크롤해 내려가다 보면 다음과 같이 “Install Forge” 부분을 확인할 수 있습니다. 여기에서 설치 방법으로,

  • ① git repo를 통해 직접 다운로드 후 bat 파일 실행하는 방법과
  • ② 직접 다운로드 후 설치 방법,

을 설명합니다.

Stable Diffusion WebUI Forge 설치 방법
Stable Diffusion WebUI Forge 설치 방법

②을 마우스로 클릭하여 “webui_forge_cu121_torch231.7z”파일을 다운로드합니다. 압축파일을 풀면 폴더 안에 보이는 “update.dat”을 가장 먼저 실행해 줍니다. 이 파일은 해당 애플리케이션을 가장 최신 버전으로 업데이트합니다.

그 후 “run.bat”를 실행하면 필요한 파일을 다운로드 받으며 설치를 진행합니다. 설치가 완료되면 자신의 메인 브라우저로 설정된 브라우저가 실행되어 SD webui forge가 실행됩니다.

Stable Diffusion WebUI Forge 화면
Stable Diffusion WebUI Forge 화면

윈도우에 설치하는 경우는 별 문제 없이 설치될 거예요. 물론 너무 저사양이면 곤란하겠지만, 제가 설치한 컴퓨터 사양은 다음과 같습니다. 이 사양 보다 높다면 문제 없이 설치될 거예요.

프로세서 : AMD Ryzen 3 3300X 4-Core Processor 3.79 GHz
RAM : 16.0GB
그래픽 : NVIDIA GeForce GTX 1650

혹시, 맥북에 설치하신다면 M1 이상은 되어야 할 거예요. 저의 경우 intel 버전에 설치하려고 하니 CUDA 문제가 발생하여 설치를 할 수 없더군요. 아무리 CPU만 사용하도록 설치 옵션을 변경해도 할 수 없더군요.

자, 이제 설치가 끝났으면 이미지를 만들어 볼까요?


User Interface

UI의 메뉴 중 아래 그림과 같이 중요한 몇 개 부분을 설명합니다.

Stable Diffusion WebUI Forge 메뉴 옵션
Stable Diffusion WebUI Forge 메뉴 옵션

UI : “sd”, “xl”, “flux”, “all”이라는 항목들은 각각 다른 모델이나 설정을 선택할 수 있는 옵션을 의미. ②항목에서 선택하는 Checkpoint 종류에 따라 선택하거나 “all”을 선택해서 진행할 수 있습니다.

Checkpoint : 간단하게 말하자면, 특정 시점까지 학습된 상태를 저장한 파일. 학습된 모델에 따라 이미지의 특장점을 보유. 반대로 단점도 보유. 이러한 Checkpoint를 기준으로 이미지를 생성하게 됨.

Diffusion with Low Bits : 모델이 사용하는 수치 연산의 정확도(비트 수)를 조절하는 설정. 모델의 학습 또는 추론 시, 연산 속도를 높이거나 메모리 사용을 줄이기 위해 사용. 특별한 요구 사항이 없으면 “Auto” 옵션을 사용하는 것이 안전.

Prompt : 말 그대로 얻고자 하는 이미지를 묘사하는 부분입니다. 긍정적 묘사 부분과 부정적 묘사 부분이 있는데, 긍정적은 적용되어야 할 요소를 정리하는 부분이고, 부정적 묘사 부분은 제외 혹은 불필요한 부분을 정리해서 기입하는 부분이에요. 이 부분을 명확하게 작성할 수록 원하는 이미지를 얻을 수 있어요. 이 부분을 자연어 처리하는 생성형 ai는 현재까지 Dall-E 만 있습니다. 미드저니나 스테이블 디퓨전은 자연어 처리 방식이 아닌 단어를 분석하는 방식으로 동작한다고 합니다.

Sampling Method : 샘플링 알고리즘을 선택. 이는 결과 이미지의 품질, 생성 속도, 스타일 등에 영향을 미칠 수 있습니다.

예를 들어,

  • “DPM++ SDE”의 경우 확률적 미분 방정식을 사용한 샘플링 방법으로 고품질의 이미지를 생성하는데 사용됩니다.
  • “Euler”는 표준 유러 방식으로, 이미지 생성이 단순하고 효율적입니다. 빠른 생성이 필요할 때 사용됩니다.

schedule type : 샘플링 과정에서 노이즈를 제거하는 스케줄링 방식을 선택하는 옵션입니다. 각 스케줄링 방식은 샘플링 단계별로 노이즈를 얼마나 많이 제거할지를 결정하며, 이는 이미지 품질, 생성 속도, 스타일에 영향을 줄 수 있습니다.

예를 들어,

  • “Automatic”은 자동으로 최적의 스케줄링 방식을 선택합니다. 사용자가 특별히 설정하지 않을 경우, 시스템이 현재 상황에 가장 적합한 방식을 선택합니다.
  • “Karras”는 샘플링 초기에 더 많은 노이즈를 제거하고, 후반으로 갈수록 점차 줄여가는 방식입니다. 이 방식은 고품질의 이미지를 생성하는 데 유리하며, 특히 디테일이 중요한 작업에 적합합니다.

말 그대로 이미지의 해상도를 의미합니다. 바로 위 쪽에 Hires. Fix (High-Resolution Fix) 옵션을 선택하는 경우 처음에는 비교적 저해상도의 이미지를 생성한 후, 이 이미지를 기반으로 업스케일링하여 고해성도 이미지를 만들게 됩니다.

이미지 생성

스테이블 디퓨전을 이용해 생성한 이미지와 미드저니에서 생성한 이미지를 비교해 보기 위해 우선 아래와 같이 미드저니에 적용한 프롬프트를 스테이블 디퓨전에 적용하기 위해 몇 몇 부분을 수정하여 적용합니다.

미드저니 프롬프트

Cinematic, Professional Photography, fantasy, In ancient Europe, a princess, exquisitely adorned, very beautiful face, clear skin, engaged in a fierce battle with the magic against witches flying from the sea to the shore, ultra-realistic, extreme detail, –ar 16:9 –style raw –stylize 350 –v 6

  • 미드저니에서 생성된 이미지
미드저니 생성형 ai 결과 이미지
미드저니 생성형 ai 결과 이미지

Stable diffusion webui forge 프롬프트

(masterpiece, best quality, ultra-detailed), (cinematic shot, professional photography), fantasy, in ancient Europe, a princess, exquisitely adorned, extremely beautiful face, clear skin, engaging in a fierce battle using magic, against witches flying from the sea to the shore, ultra-realistic, highly detailed, water effects, wind blowing, dynamic composition, intense facial expression, intricate jewelry and armor, (16:9 aspect ratio)

  • Stable diffusion webui forge에서 생성된 이미지
Stable Diffusion WebUI Forge 생성 결과 이미지
Stable Diffusion WebUI Forge 생성 결과 이미지

물론, 두 결과물 모두 raw image가 아니라 upscale된 결과물입니다. 또, 원본 이미지의 해상도는 높으나 블로그 포스팅을 위해 720px 사이즈로 줄인 결과물입니다.

어떤 생성형 ai 도구가 좋다고 말할 수는 없을 것입니다. 이미지 자체만을 보면 미드저니의 결과물이 뭔가 더 판타지 케릭터 답고, 배경 효과 역시 더 디테일하게 보입니다. 하지만, 고사양 시스템에서 얻은 미드저니 결과물과 개인 컴퓨터에서 얻은 스테이블 디퓨전의 결과물이라는 조건을 생각해 보면 스테이블 디퓨전의 결과물은 상당히 수준 높은 퀄리티라는 것을 생각해 볼 수 있습니다.

결론은 스테이블 디퓨전 사용시 시스템 사양은 물론 Checkpoint가 가장 중요한 요소가 된다는 것을 확인할 수 있습니다.

답글 남기기