이미지 생성형 AI란 무엇인가?

생성형 AI(Generative AI)는 기존의 데이터를 학습하여(딥러닝) 새로운 콘텐츠를 만들어내는 인공지능 기술을 말합니다. 생성형 AI는 예술, 디자인, 음악, 글쓰기 등 다양한 창작 분야에서 새로운 아이디어를 만들어 주고 다양한 발전 가능성을 열고 있습니다.

그중에서 특히 text 나 image 를 입력하여 새로운 image 를 만들어 내는 것을 이미지 생성형 AI 라고 부르며 대표적으로는 Midjourney, Dall-E3, Stable Diffusion과 Flux 등이 있다. 이미지 생성형 AI 모델은 예술과 기술의 경계를 모호하게 만들고 많은 사람들에게 창작과 업무 서포터로써의 새로운 도구로 자리 잡았습니다.

1. 이미지 생성형 AI의 작동 원리

이미지 생성형 모델은 Diffusion Models(확산모델) 이라는 최신 AI 기술을 사용하고 있는데 확산 모델은 노이즈에서 부터 단계별로 노이즈를 제거함으로써 최종적으로 이미지를 복원하는 과정을 통해 이미지를 생성합니다. 처음에는 매우 Random Nose(무작위적인 노이즈)가 있는 상태에서 시작하지만, 점차적으로 노이즈를 제거하며 최종적으로 선명한 이미지를 생성합니다.

더 자세한 사항은 읽어도 뭔 소린지 이해하기가 어려워 이 정도로만 이해하고 사용하면 됩니다.

2. 대표적인 이미지 생성형 AI

모두 텍스트(Prompt)를 입력하여 이미지를 생성하는 방법은 동일하다. 좀 더 응용하면 이미지와 텍스트를 입력하고 새로운 이미지를 만들어 냅니다.

-. MidJourney: 이미지의 품질이 좋고 예술적이고 창의적인 이미지 생성에 특화된 AI 로 개인적으로는 가장 앞서있는 이미지 AI 라고 생각한다. 다만 오픈소스가 아니며 유료로만 사용이 가능하다. 그래서 좀 더 예술적 스타일 선호 시 추천.

-. DALL-E 3: OpenAI에서 개발한 텍스트 프롬프트를 기반으로 사실적이고 디테일한 이미지를 생성한다. 품질도 좋고 무료사용도 가능하지만 아직은 이미지 사이즈가 획일적이고 품질은 약간 부족하다는 생각이다. 상당히 prompt의 지시대로 잘 그려주는 스타일이다. 쉽게 접하고 쉽게 사용해 보기 좋은 모델이다.

-. Stable Diffusion: 오픈소스 모델로 무료사용이 가능하고 품질도 괜찮고 개인이 자유롭게 사용할 수있는 AI지만 고성능의 컴퓨터가 필요하다. 데스크탑 컴퓨터로 200만원 이상정도는 되어야 불편함이 없이 어느정도의 이미지를 만들 수있다. 특히 확장성이 좋아 어느 정도 숙달이 되면 자기가 원하는 품질좋은 이미지를 만들어 낼 수있다. 컴퓨터를 어느정도는 아는 사람들에 권하고 싶다.

-. Flux: 스테이블디퓨전과 유사한 최근에 나온 모델인데 품질은 미드저니와 유사하고 오픈소스 모델도 있어서 개인이 자유롭게 사용하여 이미지를 만들 수있다. 단점은 스테이블디퓨전 보다 모델의 크기가 2배이상이여서 좀 더 고사양의 컴퓨터가 필요하다. 스테이블디퓨전을 먼저 접한 후 Flux를 사용하기를 권한다.

4. 이미지 생성형 AI의 장점과 한계

이미지 생성형 AI의 가장 큰 장점은 인간이 수작업으로 만들어낼 수 없거나 시간이 많이 걸리는 사진이나 이미지들을 빠르게 생성할 수 있다는 것입니다. 이는 창의적인 작업을 지원하고, 새로운 아이디어를 만들어내는데 유용합니다. 또한, AI 모델이 계속해서 발전함에 따라 이미지 생성형 AI는 더 사실적이고 더 품질이 좋은 결과물을 만들어내고 있으며, 이는 미술가, 디자이너, 사진 작가 등 이미지 창작자들에게 새로운 영감을 제공합니다.

하지만 이미지 생성형 AI에는 몇 가지 한계도 존재합니다. 우선, AI가 기존에 존재한 자료로부터 학습한 데이터에 따라 편향된 결과물이 나올 수 있습니다. 또한, 유사한 이미지 스타일이 만들어져 저작권 문제가 발생할 수 있습니다. 이것은 AI가 학습하는 데이터는 종종 기존의 저작권이 있는 작품들도 포함하여 학습을 시키기 때문입니다. 이것은 단지 이미지 생성형AI 의 문제만이 아닌 모든 생성형 AI의 사용에 있어 법적, 윤리적 문제를 반드시 고려하는 것이 중요합니다.

5. 향후 전망

이미지 생성형 AI는 앞으로 더욱 발전할 가능성이 큽니다. 이미지는 거의 예술가 수준에 근접한 상태이며 지금은 동영상 분야로 확대되고 있습니다. 머지않아 생성형 AI 로 만든 멋진 영화가 탄생할 것으로 생각합니다. 그리고 개인 사용자부터 대규모 산업까지 다양한 분야에서 이런 생성형 AI 기반 창작 도구를 활용할 것으로 예상됩니다. Midjourney , Dall-E3 , Stable Diffusion과 Flux 같은 도구들이 더욱 정교해지고 사용자 친화적으로 발전함에 따라 현실과 환상의 경계를 구분하기가 어려워 질 것입니다.

발전의 속도가 예측하기 어려운 속도가 빠르기 때문에 우리도 거기에 적응하기 위해서는 직접 사용을 해보고 함께 하여야 한다고 생각합니다.

두려움을 가지고 접근하지 않는다면 미래에는 AI 를 전혀 모르는 문맹자가 될 수도 있습니다. 우선은 쉬운것 부터 해보는것이 좋을것이고 그것이 바로 이미지를 만드는 AI 들 이라고 생각합니다.

Dall-E3 에서 만든 AI 사진

stable diffusion 에서 만든 AI사진

Flux로 만든 AI 사진

이 블로그 검색