본문 바로가기
카테고리 없음

이미지 생성 모델 AI 프로그램 살펴보기 | #1 DALL-E

by yoohoo 2024. 7. 2.
728x90

인공지능(AI)은 우리의 일상과 예술에 혁신적인 변화를 가져오고 있습니다. 그 중에서도 OpenAI가 개발한 DALL-E는 AI 이미지 생성 분야에서 대표적인 예시라고 생각됩니다.

 

이미지 생성 모델 AI 프로그램 DALL-E

 

 

Chat GPT와 DALL-E

두 모델 모두 OpenAI에서 개발되었으며 트랜스포머(Transformer) 라는 ai 모델 구조를 기반으로 하지만, Chat GPT는 주로 텍스트 기반의 대화를 위한 AI입니다. 사용자의 질문에 답하거나, 글을 작성하거나, 대화에 참여할 수 있습니다. 이 모델은 문장을 이해하고 생성하는 데 특화되어 있습니다. 이에 반해 DALL-E는 텍스트 설명을 바탕으로 창의적이고 독창적인 이미지를 생성하는 AI입니다. 사용자가 입력한 텍스트를 기반으로 그림이나 사진을 만들어 낸 다는 점에서 확실한 차이를 보입니다. 사용자가 Chat GPT와 대화를 나누면서 특정 이미지를 요청하면, Chat GPT는 DALL-E를 호출하여 해당 이미지를 생성할 수 있습니다. DALL-E가 Chat GPT 개념에 속하는 개념이 아닌 독립적이며 보완적인 AI 모델이라고 할 수 있습니다.

 

 

 

DALL-E

DALL-E는 2021년 1월 OpenAI에 의해 처음 공개되었습니다. 이 이름은 초현실주의 화가 살바도르 달리(Salvador Dali)와 픽사의 인기 캐릭터 월-E(WALL-E)에서 영감을 받아 지어졌다고 합니다.

실제로 입력란에 '바나나 이미지 생성해줘' 라고 명령을 내린다면 꽤 괜찮은 이미지를 만들어줍니다.

ai image
dall-e

 

 

 

 

 

 

 

DALL-E는 텍스트 설명을 입력으로 받아들여, 이를 바탕으로 이미지를 생성합니다. 앞선 예시보다 복잡한 명령도 가능합니다. '아보카도 모양의 안락의자'이라는 문장을 입력하면, DALL-E는 해당 설명에 맞는 이미지를 만들어 냅니다. 이 과정은 DALL-E가 사전에 학습한 수백만 개의 텍스트-이미지 을 바탕으로 이루어집니다. DALL-E는 텍스트의 의미와 맥락을 이해하고, 이에 맞는 이미지를 상상하여 생성합니다.

ai image
출처 : DALL-E 공식 페이지

 

 

 

 

 

 

 

DALL-E 1.0 에서 DALL-E 3.0까지

1. DALL-E 1.0 -> DALL-E 2.0

DALL-E 1.0은 2021년 1월에 처음 공개되었습니다. 하지만 생성된 이미지의 해상도가 상대적으로 낮았고, 세부 묘사에서 정확도가 떨어지는 단점이 있었습니다. 특정 상황에서는 입력 텍스트를 제대로 이해하지 못하고 부정확한 이미지를 생성하는 경우도 있었습니다. 2022년 4월, OpenAI는 DALL-E 2.0을 공개했습니다. DALL-E 2.0은 기존 DALL-E 1.0 가 생성했던 이미지의 해상도를 4배 높이고 사실적인 이미지를 만들어 제공해주었습니다. 제공한 이미지를 바탕으로 영역을 확장해 그려주거나, 이미 생성된 이미지 안에 특정 오프젝트를 추가하는 등 다양한 기능 또한 추가되었습니다.

 

image3
DALL-E 1.0 -> DALL-E 2.0

 

 

 

 

 

 

 

2. DALL-E 2.0 -> DALL-E 3.0

2023년 10월, OpenAI는 DALL-E 3.0을 발표합니다. DALL-E 3.0은 이전 버전들의 성과를 바탕으로 더 강력한 이미지 생성 능력과 사용자 편의성을 제공하기 위해 개발되었습니다. GPT-4의 기술을 기반으로 텍스트 이해 능력이 향상되었으며 복잡하고 길어진 텍스트 설명을 더 잘 이해하고,이에 맞는 이미지를 생성할 수 있게 되었습니다. 여기에 추가로 Open AI는 이미지 생성 과정에서 발생할 수 있는 폭력 등의 윤리적 문제와 오용 가능성을 최소화하기 위해 강화된 안전 장치를 도입했다고 설명했습니다.

image4
DALL-E 2.0 -> DALL-E 3.0

 

출처 : https://www.cloudbooklet.com/ai-images/dall-e-2-vs-dall-e-3/

 

 

 

 

DALL-E 가 사용되고 있는 곳

Chat GPT4, Chat GPT4o외에도 마이크로소프트의 검색 엔진인 Bing을 통해 DALL-E을 이용한 이미지를 생성할 수 있습니다.

Bing 또한 한국어가 지원되며 제공된 코인을 차감해 무료로 사용할 수 있습니다.

https://www.bing.com/images/create

 

image5
DALL-E 가 사용되고 있는 곳

 

 

 

 

AI 이미지 저작권  규정

Open AI 에서는 공식적으로 저작권에 대해 다음과 같이 규정하고 있습니다.

'DALL·E 2와 마찬가지로 DALL·E 3으로 생성한 이미지는 귀하가 사용할 수 있으며 이를 재인쇄, 판매 또는 상품화하는 데 당사의 허가가 필요하지 않습니다'

따라서 OpenAI는 DALL-E로 생성된 이미지의 상업적 사용을 허용한다는 것을 알 수 있습니다. 이는 사용자가 생성한 이미지를 재판매, 인쇄, 상품화할 수 있는 권리를 포함하며 무료 크레딧이나 유료 크레딧을 통해 생성된 이미지 모두에 적용됩니다.

 

 

 

 

 

마치며

DALL-E는 AI 이미지 생성 기술의 발전을 상징하는 모델입니다. 3.0까지 업데이트 될수록 프롬포트를 이해하는 능력이 매우 정확해지고 있습니다. 디자인, 광고 등 다양한 산업 분야에서 더욱 혁신적인 변화을 가져올 것이라 기대됩니다.

 

 

 

 

 


 

 

 

[AI 관련 글 더보기]

1. 이미지 생성 모델 AI 프로그램 Stable Diffusion 스테이블 디퓨전

2. 동영상 생성 모델 AI 프로그램 Runway ML

728x90