컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다. 이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다. 서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다. Checkpoint + Encorder + VAE 1. 이미지 생성에 필요한 핵심구조 이해 Checkpoint 또는 Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다. Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다. 번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다. VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기. 이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다. VAE Encorder : 실제 이미지 -> latent image VAE Decorder : latent Image -> 실제 이미지 2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계 Stable Diffusion (SDXL), Pony 모델 Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환 해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다. 예) masterpiece, best quality, highly detailed, 1girl, solo, bangs, long hair, slender body,...
AI를 이용하여 이미지를 생성하는 방법은 온라인에서 생성하는 법 또는 내 컴퓨터에서 마음대로 생성하는 방법이 있다. 온라인으로 생성하는 방법은 chatGPT 나 GEMINI 와 같은 AI 서비스 플랫폼에 가입하여 쉽게 만들 수 있는데, 여기서는 내 컴퓨터에서 내 마음대로 오픈 AI 를 이용하여 생성하는 방법을 설명한다. 이미지를 생성하기 위하여 필요한 것은 이미지 생성 UI 가 필요한데 그것을 먼저 설치하고 필요한 AI 모델을 다운 받아 실제로 이미지 생성을 해 본다. Comfyui 설치. Qwen 모델로 생성 1. 이미지 생성용 UI ComfyUI : 가장 많이 쓰이는 고급형 UI 노드 기반 워크플로우 복잡하지만 제어력 최강 SDXL , ControlNet, LoRA, AnimateDiff , Flux, QWEN 등 전부 잘 지원 AUTOMATIC1111 ( Stable Diffusion WebUI ) : 가장 대중적인 UI 웹 브라우저 기반 UI 설치 후 바로 사용하기 쉬움 확장(Extensions) 매우 많음 Fooocus : 초보자 친화형 설정을 거의 안 건드려도 됨 Midjourney 스타일 워크플로우 자동 최적화 중심 본인도 맨처음에 AUTOMATIC1111 을 쓰다고 Comfyui 로 교체하여 지금까지 계속 사용 중이다. 물론 Fooocus 도 사용해 보았지만 , 개인적으로 추천한다면 무조건 처음부터 Comfyui 를 사용하여 이미지를 생성하기를 권한다. 그래서 여기서는 Comfyui 를 설치하고 이미지 생성을 하는 방법을 설명한다. 2. Comfyui 설치 다운로드 : " https://github.com/Comfy-Org/ComfyUI?tab=readme-ov-file#installing " 에 접속하여 압축파일을 다운로드 접속화면 접속화면에서 " Direct Link to downl...