Qwen-Image-Edit은 20B 규모의 Qwen-Image 모델을 기반으로 훈련된 이미지 편집 모델이다. 기존 Qwen-Image 모델이 가지고 있던 고유한 텍스트 렌더링 기능을 편집 작업으로 확장하여, 이미지 편집 분야에서 강력한 성능을 보여준다. QWEN-Image-Edit 를 이용한 결과 기존의 사진이나 이미지들을 편집하는 것은 주로 photoshop 으로 많이 하는데 , 요즈음은 이미지 편집 AI 를 이용하여 간단한 것들을 쉽게 편집하고 있다. 물론 아주 세밀한 작업은 photoshop 툴을 이용하는것이 좋겠지만 여기에 사용되는 다양한 이미지 편집은 Flux-Kontext 나 QWEN-Image-Edit 등을 이용하는 것이 훨씬 편하고 자연스럽다. 1. 사용 Model 다운로드 및 설치 Qwen_Image_Edit-Q5_K_S : 여기서는 이미지 생성 속도를 위하여 gguf 모델을 다운받아 사용하였다. " https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF/tree/main " 에서 적합한 모델을 다운받아 Comfyui 의 models\unet 폴더에 설치한다. qwen_2.5_vl_7b_fp8_scaled : CLIP 모델은 " https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors " 에서 다운로드 하거나 찾기 어려우면 구글에서 검색하여 찾아서 설치하자. qwen_image_vae : VAE 모델 기존 QWEN 모델에서 사용한 것을 그대로 사용한다. Qwen-Image-Edit-Lightning : 이 로라 파일은 적은 스텝으로 이미지를 생성할 수 있기 때문에 이미지 편집 생성 시간을 단축시킬 수 있다. " https:/...
Wan2.2 모델은 알리바바(Alibaba)에서 개발한 오픈소스 AI 비디오 생성 모델이며, 기존 Wan2.1 보다 더 사실적이고 높은 품질의 영상을 만들 수 있다는 점이 가장 큰 특징이다. 주로 text to video 또는 image to video 를 제작하는데 사용되나 Wan2.1 text to video 모델을 이용하여 text to image 를 생성해 보면 Flux1-dev 모델보다 더 높은 품질과 사실적인 이미지를 얻을 수 있다. 물론 모델이 크기 때문에 생성시간이 조금 더 많이 소요되지만, gguf 모델을 이용하면 그래도 1분30초 정도에 생성 할 수 있다. (4070t vram 16G 환경하에서) gguf 모델은 작은 vram 과 적은 스텝으로도 비슷한 품질의 이미지를 얻을 수 있기 때문에 많이 사용하는 모델이다. Wan2.2 모델을 이용하여 생성된 이미지 이미지는 1536x1536 으로 생성된 고품질의 이미지 이다. 확대해 보면 생생한 질감을 느낄 수 있다. 1. Wan2.2-t2v 및 관련 모델 다운로드 wan2.2_t2v_high_noise_14B_Q5_K_S.gguf 와 wan2.2_t2v_low_noise_14B_Q5_K_S.gguf : https://huggingface.co/bullerwins/Wan2.2-T2V-A14B-GGUF/tree/main 에서 다운 받거나 구글에서 검색해도 다운 받을 곳을 찾을 수 있다. Q2 -> Q8 으로 갈수록 파일크기가 커지며 좀 더 좋은 품질의 이미지를 얻을 수 있지만 Q4 이상이면 보통 품질의 차이를 별로 느끼기 어렵기 때문에 여기서는 Q5 모델을 사용 하였다. CLIP Model umt5-xxl-encoder-Q5_K_S : https://huggingface.co/city96/umt5-xxl-encoder-gguf/tree...