Image 에서 Prompt 를 뽑아내 보자. - Florence2 설치 및 사용

이미지(Image) 를 보고 Prompt 를 추정하는 것은 쉬운 일이 아니다.

특히 영어로 묘사한다는 것은 참 어려운 일이다. 그러나 멋진 이미지를 보면 그것을 Stable Diffusion 이나 Flux 를 이용하여 비슷하게 생성하고 싶을 것이다. 그럼 그런 이미지의 예상되는 Prompt 를 만들어야 하는데 어떻게 이미지로 부터 추출 할 수 있을까? chatGPT 도움을 받을 수도, 아니면 다른 온라인 사이트의 도움을 받을 수 도 있는데 내가 사용해본 결과 그래도 Florence2 를 이용하여 뽐아내는것이 가장 좋은 근접한 이미지의 Prompt 가 나온다.

Florence in Italy

1. Florence2 모델이 무엇인가 ?

Florence2는 마이크로소프트에서 개발한 비전 기반 AI 모델로, 이미지 이해와 생성에 초점을 맞추고 있다. Florence2는 Florence의 업그레이드 버전으로, 멀티모달 AI 시스템을 기반으로 하며, 이미지와 텍스트 데이터를 동시에 처리할 수 있다. 이 모델은 특히 이미지 캡셔닝, 이미지 검색, 이미지 분류 등의 작업에서 탁월한 성능을 보인다. 여기서 우리는 Florence2 모델에게 이미지를 주고 그것을 이해하고 해석해주는 기능을 이용하는 것이다.

2. Florence2 설치

Pinokio 앱을 실행한다. (Pinokio 앱 설치방법은 이전글을 참조)

Pinokio 브라우저

우측 상단 맨 첫번째 Discover 클릭
Florence2 를 찾는다.

Florence2

이것을 클릭하여 다운로드 한다.
Florence2 Install 클릭
여러가지 파일들이 설치되기 때문에 시간이 좀 소요되는데 기다리고 있으면 Pinokio 앱이 알아서 모든 파일들을 설치 해 줄 것이다.
설치가 완료되면 아래와 같은 화면이 나온다.

Florence2 설치된 화면

이 후부터 Florence2 를 사용 할려면 Pinokio 앱을 실행 해 주면 Pinokio 브라우저에 Florence2 가 들어 있기 때문에 클릭만 하면 바로 실행 된다.

3. Florence2 사용법

Florence2 조건 입력

1번항 : 여기에 원하는 이미지를 올리면 된다.
2번항 : 이미지를 해석할 모델을 선택한다. 모델이 클수록 더 자세히 해석을 하기
때문에 가급적 VRAM 용량 한도에서 최대한 대규모 모델을 선택한다. (Microsoft-Florence2-Large 선택)
3번항: 해석 유형인데 여기서는 (More Detailed Caption) 을 선택한다.
4번항 을 클릭하면 이미지를 해석한다.
5번항 에 해석된 Caption 이 나타난다. 이것을 복사하여 Prompt 로 사용하면 된다.

4. 실례

입력한 이미지

결과 Caption(Prompt) : "The image is a digital art piece that appears to be a fantasy landscape. It is a dark and eerie scene with a dark background. The focal point of the image is the silhouette of a tree on the right side, with its branches reaching up towards the sky. The tree is surrounded by pink and purple flowers and leaves. On the left side, there are several butterflies fluttering around, creating a sense of movement and energy. The sky is filled with a rainbow of colors, including pink, orange, yellow, green, blue, and purple. The sun is shining through the trees, casting a warm glow on the scene. The overall effect is one of peacefulness and serenity"
이 Prompt를 가지고 Flux를 이용하여 이미지를 생성해 보았다.

Flux로 생성된 이미지

Stable Diffusion (SDXL) 을 이용하여 생성해 보았다.

SDXL 로 생성된 이미지

5. 결론

Florence2 모델을 이용하여 이미지의 Caption을 추출한 후 그것을 Prompt 로 해서 이미지를 생성해 본 결과 원본 이미지와 유사한 느낌의 이미지를 만들 수 있다는 것을 알 수 있다.

물론 같은 Prompt 일지라도 생성된 이미지 들이 모두 다르듯이 원본 이미지에서 추출한 Prompt 도 그것을 이용하여 생성 할 때 원본과 똑 같을 수는 없는 것이다. 그러나 비슷한 느낌의 원본 이미지를 만들 수 있기 때문에 그것을 토대로 Prompt 를 수정하여 사용한다면 독특한 나만의 이미지를 만들어 낼 수 있다. Stable Diffusion 이나 Flux 등을 이용하여 이미지를 만드는 일이 기존 이미지와 똑같은 이미지를 만들어 내는 일이 아니기 때문에 멋진 이미지를 보고 그것을 만들 수 있는 Prompt 를 예측하는 것 만으로도 Prompt를 공부하고 발전시키는데 많은 도움이 될 것이라고 생각한다.

참고로 Compyui 사용자는 노드 중에서 Florence2 노드가 있기 때문에 그것을 설치하고 사용한 다면 Comfyui 에서 좀 더 쉽게 사용이 가능하다.

이 블로그 검색