Flux는 이미지 생성형 AI 이다.
텍스트를 입력하여 이미지를 만드는 이미지 생성AI 는 미드저니, 스테이블디퓨전, Dall-e 등 이렇게 있는데 거기에 새로운 오픈형 생성AI 모델이 출시 되었다. 독일에 본사를 둔 스타트업 Black Forest Labs 에서 개발하였다. 주로 연구진이 스테이블 디퓨전을 개발한 사람들이 만들었기 때문에 스테이블디퓨전 버전업 정도로 이해가 된다.
Flux로 만든 이미지 |
미드저니 보다 좋다고 여기저기서 말 하길래 직접 다운로드 하여 사용해 본다.
Flux 모델도 comfyui 로 사용 할 수있다고 하니 comfyui 를 이용하여 사용해 본다.
1. Flux 모델 다운로드
Flux 모델은 3가지가 있다.
- Flux.1 [pro] : 상업용 모델로 직접 로컬 컴터에서는 사용이 안되고 지원하는 클라우드서버(fal.ai)를 통해서 사용이 가능하다.
- Flux.1 [dev] : 비 상업용으로 연구 목적을 위하여 사용이 가능하다.
- Flux.1 [schnell] : 개인들이 로컬 컴퓨터로 역시 비 상업용 용도로 사용하는데 속도가 빠르다는 모델이다.
이중에서 Flux.1 [dev] 를 다운로드 한다.
좀 더 빨리 이미지를 생성하고 싶으면 Flux.1 [schnell] 을 다운받아 사용하면 된다.
Hugging Face 에서 다운로드. https://huggingface.co/black-forest-labs/FLUX.1-dev/tree/main
여기서 flux1-dev.safetensors (23.8G) 를 다운로드하여
파일이 상당히 크다.
그리고 VAE 모델 (ae.safetensors - 335MB) 도 다운로드 하여
2. CLIP 모델 다운로드 : https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
clip_l.safetensors (246MB) , t5xxl_fp16.safetensors (9.79 G) , t5xxl_fp8_e4m3fn.safetensors (4.89 G) 3개를 다운받아
3. comfyui 는 가장 최신 버전으로 업데이트
Flux가 출시된 후 그것을 원활히 사용하기 위해 comfyui 도 많은 부분들이 업데이트 되었다. 그래서 flux 를 사용하기 위해서는 comfyui 최신 업데이트가 반드시 필요하다.
4. Flux 용 workflow를 사용하여 실습
이제 아래 workflow 를 다운받아 comfyui 에서 실행 하고 prompt 를 수정하면서 이미지를 만들어 본다.
처음 실행하면 대략 1분이상이 소요된다.
prompt 를 변경하면서 실행해 보니 대략 30 ~ 40초가 소요된다.
스테이블 디퓨전 SDXL 보다 시간은 더 많이 걸린다.
prompt : cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open holding a fancy black forest cake with candles on top in the kitchen of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere
이것으로 만들었는데 prompt 에서 묘사한 대로 잘 만들었다.
케익 든 애니걸 |
Flux 의 가장 큰 장점이 글씨 묘사가 비교적 정확하고 잘 써진다는 것이다. 물론 영어로 만 가능하다. 그래서 글씨를 넣고 한번 만들어 본다.
prompt : a beautiful korean Waman with t-shirt and skirt, lovely pose, text "I love korea" on white board, best quality, photorealism,
I love korea |
얼굴도 사실적인 느낌이 더 많고 , 글씨가 잘 써지고 손 모양이 자연스럽게 잘 묘사된다.
Flux 가 모델의 크기가 커서 스테이블디퓨전 보다 무겁고 시간이 더 걸리지만, 좀 더 사실적인 이미지를 만들고 글자가 정확히 나타나며 특히 손 모양이 많이 자연스럽게 잘 나온다. 그렇다고 미드저니 나 스테이블디퓨전 보다 낫다 라고 속단 하기는 시기상조이고 좀 더 많은 이미지를 만들어 보아야 장단점을 더 알 것 같다.
참고로 Flux.1 [dev] 파일이 커서 무겁고 컴퓨터가 느리고 이미지 생성이 느리면
최신의 좀 더 작은 크기의 모델을 다운받아 사용해 보라. . https://huggingface.co/Kijai/flux-fp8/tree/main
5. Flux 에 대한 결론
Flux는 확실히 오픈소스모델이면서 이미지 품질, text 묘사 능력이나 사람의 손 모양을 만드는데 있어서 높은 점수를 주고 싶다. 추후 업그레이드가 되고 다른 Lora 모델이나 trained 된 checkpoint모델들이 많이 파생한다면 가장 좋은 이미지 생성형AI 로 불릴 수도 있지 않을까 생각이 든다.
댓글
댓글 쓰기