OpenAI, 새로운 이미지 모델로 인터넷을 뒤흔들다...

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이 영상은 OpenAI의 최신 이미지 생성 모델이 다양한 아트 스타일(애니메이션, Lego, Voxil 등)과 멀티모달 기능을 통해 놀라운 창의적 결과물을 만들어내는 과정을 상세히 보여줍니다. 발표자와 연구진이 실시간 데모를 통해 모델의 이미지 편집, 생성 및 텍스트와 음성 등 다양한 입력을 동시에 처리하는 능력을 설명합니다. 또한, 모델의 느린 처리 속도와 명칭 및 한계와 같은 문제점도 솔직하게 언급하면서 앞으로의 발전 가능성을 강조합니다. 전체적으로 AI 혁신이 창의적 작업과 일상적 디자인 프로세스에 어떠한 변화를 가져올지에 대한 기대감을 전달합니다.

주요 키워드

OpenAI 이미지 생성 멀티모달 네이티브 이미지 디퓨전 모델 인-컨텍스트 학습 실시간 데모 창의적 활용

하이라이트

  • 🚀 다양한 아트 스타일: 애니메이션, South Park, Studio Ghibli, Minecraft, Lego 등 여러 스타일로 이미지를 변환하는 기능을 시연합니다.
  • ⚡ 속도 문제와 개선 필요: 현재 이미지 생성에 몇 분이나 걸리는 등 성능상의 한계가 있어 후속 개선이 요구됨을 언급합니다.
  • 🔑 멀티모달(omni) 기능: 텍스트, 이미지, 음성 등 모든 모달리티를 통합해 입력받고 출력할 수 있는 혁신적인 접근법을 소개합니다.
  • 🌟 창의적 활용 사례: 로고 디자인, 메모 카드, 트레이딩 카드, 기념 동전 등 실제 작업에 적용 가능한 다양한 활용 예시를 보여줍니다.
  • 📌 인-컨텍스트 학습: 예시와 사용자 지정 프롬프트 등을 통해 모델이 더 정교한 결과물을 만드는 과정을 설명합니다.

용어 설명

네이티브 이미지 생성

텍스트 기반 입력뿐만 아니라 이미지 자체를 직접 생성하는 기능을 모델에 통합한 것을 의미하며, 특히 GPT-4와 같은 대형 언어모델에 적용됨.

멀티모달 (Omni 모델)

이미지, 텍스트, 음성 등 다양한 형태의 데이터를 동시에 이해하고 생성할 수 있는 AI 모델을 지칭함.

디퓨전 모델

이미지 생성에 일반적으로 사용되는 알고리즘으로, 잡음을 점진적으로 제거하면서 이미지를 형성하는 방식의 모델.

인-컨텍스트 학습

모델에게 여러 예시를 제공하여 주어진 프롬프트의 맥락에 맞춰 더 정밀하거나 상세한 결과물을 생성하게 하는 기법.

[00:00:00] 소개 및 다양한 이미지 스타일

영상 초반에 OpenAI의 이미지 모델이 다양한 아트 스타일로 이미지를 변환하는 모습을 빠르게 소개함. 애니메이션, Lego, Voxil 등 시각적으로 다채로운 예시들을 통해 모델의 잠재력을 암시함.

OpenAI가 다양한 스타일의 이미지 변환 기능을 선보입니다. 애니메이션, 지브리, 마인크래프트, 레고 등 다양한 스타일로 이미지를 변환할 수 있습니다.
AI 아트가 SNS를 점령하고 있으며, 특히 지브리 스타일의 밈이 인기를 끌고 있습니다. 유명 인물들의 이미지를 다양한 스타일로 재해석한 예시들이 공유되고 있습니다.
ChatGPT의 이미지 생성 기능은 단순한 스타일 변환을 넘어 완전히 새로운 이미지를 만들어낼 수 있습니다. 인포그래픽, 사진 채색, 제품 디자인 등 다양한 용도로 활용 가능합니다.
이 기술로 인해 전문가가 아니어도 이미지 편집, 요소 추가/제거, 투명화 등 다양한 작업이 가능해졌습니다.
[00:02:16] 모델 성능 및 속도 이슈

모델이 이미지 생성에 걸리는 시간이 길어 실제 활용에 제약이 있음을 언급함. 명칭 혼동과 함께 속도 문제 등 현재 단계에서의 한계를 솔직하게 설명함.

OpenAI는 새로운 이미지 생성 기능을 발표하며, 기존의 DALL-E와는 달리 더욱 실용적이고 광범위한 활용이 가능한 기술임을 강조합니다.
OpenAI가 GPT-4 모델에 네이티브 이미지 생성 기능을 추가한다고 발표했습니다.
[00:03:00] 멀티모달 기능과 통합

텍스트, 이미지, 음성 등 여러 모달리티를 한 모델에서 처리하는 방법을 설명함. 이를 통해 사용자가 다양한 입력을 제공하여 더욱 정교한 결과물을 얻을 수 있음을 보여줌.

발표자는 OpenAI의 제품 네이밍에 대해 비판적으로 언급하며, 더 직관적인 이름이 필요하다고 지적했습니다.
이 기능은 창작자, 교육자, 소상공인, 학생들이 AI를 더 쉽게 활용할 수 있게 해줄 것이라고 설명했습니다.
이미 DALL-E, Midjourney 등 많은 이미지 생성 AI가 있어 차별화가 필요함을 강조했습니다.
2년 전 프로젝트 시작 당시의 과학적 호기심에서 시작해 GPT-4에 네이티브 이미지 생성 기능을 성공적으로 통합했다고 설명했습니다.
이 기능은 기존 이미지 생성 AI와 달리 LLM에 내장된 형태로, 텍스트와 이미지를 통합적으로 처리할 수 있는 특징을 가지고 있습니다.
이전 모델은 놀라웠지만 완벽하지 않았고, 특히 속도 면에서 큰 문제가 있었습니다. 한 장의 이미지 생성에 몇 분씩 걸리는 점이 실용성을 크게 제한했습니다.
지난 1년간 모델을 개선하여 더 사용자 친화적으로 만들었으나, 최근 1-2주 사이에 GPT-4가 이미지 생성 기능 추가로 인해 현저히 느려진 문제가 발생했습니다.
[00:07:00] 실생활 예제와 사용자 데모

실제 데모를 통해 로고, 카드, 밈, 메모 등 다양한 디자인 예시와 응용 사례를 시연함. 사용자 맞춤 이미지 생성과 편집 가능성을 강조함.

새로운 이미지 생성 결과물은 배경 블러, 조명, 반사광 등이 완벽하게 구현되었으며, 텍스트도 정확하고 선명하게 표현되었습니다.
ChatGPT는 옴니 모델로서 이미지, 텍스트, 음성 등 다양한 형태의 입출력을 이해하고 처리할 수 있는 능력을 갖추고 있습니다.
음성 기능의 경우 직접 음성을 처리하는 방식과 오디오를 텍스트로 변환하여 처리하는 두 가지 방식이 있습니다.
음성-텍스트 변환 방식과 음성-음성 직접 변환 방식의 차이점을 설명합니다. 직접 변환이 더 효과적이지만 텍스트 변환이 더 안정적이라고 합니다.
이미지나 음성을 텍스트로 변환할 때 발생하는 정보 손실에 대해 설명하며, 톤, 감정, 뉘앑스 등이 손실된다고 강조합니다.
통합 멀티모달 모델의 장점을 설명하며, 사용자에게 더 많은 제어권을 제공하고 다양한 스타일과 컨텍스트를 활용할 수 있다고 합니다.
ChatGPT의 새로운 이미지 기능 출시를 발표하고, 프로 사용자부터 순차적으로 롤아웃이 진행된다고 설명합니다.
생성된 이미지의 세부적인 오류를 지적하고, OpenAI 내부 밈인 'Feel the AGI'를 활용한 이미지 생성을 시도합니다.
OpenAI의 연구진들이 소개되며, 모델이 이제 텍스트나 코드를 넘어 시각적 표현이 가능해졌다고 설명합니다.
상대성 이론을 설명하는 만화 페이지를 생성하는 실험을 시도하며, 모델의 시각적 유머 이해 능력을 테스트합니다.
DALL-E와 유사하게 프롬프트를 확장하여 더 상세한 결과물을 생성하는 과정을 설명하며, 처리 속도는 느리지만 품질이 매우 우수함을 강조합니다.
생성된 만화에서 아인슈타인과 상대성 이론이 완벽하게 표현되었으며, 간단한 물리학 유머도 시도되었습니다.
다음 실험으로 매직 더 개더링 스타일의 카드를 만드는 시연을 준비합니다.
실제 Sora 출시 기념 카드를 보여주며, 한 사용자가 자신의 반려견 '산지'를 카드의 주인공으로 만들고자 합니다.
카드에 모델명, 연도, 능력치, 강아지의 신체 정보 등 세부 사항을 포함시키려 합니다.
[00:15:00] 정밀 이미지 렌더링 및 텍스트 처리

이미지 내 텍스트 렌더링과 세밀한 디테일 표현에 대해 설명함. 정확한 텍스트 출력과 이미지 내 요소의 자연스러운 표현이 돋보임.

AI가 생성한 카드를 검토하며, 텍스트 렌더링과 디자인 품질에 대해 분석합니다.
출시 기념 코인을 제작하고, 여러 참조 이미지를 활용하여 세부적인 디테일을 구현합니다.
닭, 오리, 개, 말이 차례로 타고 있는 복잡한 구도의 이미지를 성공적으로 생성하며 AI의 이해도를 보여줍니다.
AI로 자신의 사진을 애니메이션 스타일로 변환하는 실험을 진행. 과장된 스타일에서 좀 더 자연스러운 스타일로 조정하며 세부 특징들이 잘 반영됨
배경 제거 기능을 테스트했으나 얼굴 처리가 부자연스러웠고, 애니메이션 변환 시도에서는 더 나은 결과를 얻음
강아지 이미지 생성 및 편집 실험. 안경 추가, 표정 변화 등 세부적인 조정이 매우 자연스럽게 구현됨
회사 로고 디자인 실험. 초기 시도에서 텍스트 오류가 있었으나, 창의성을 높이라는 요청으로 더 나은 결과물 도출
OpenAI 블로그의 실제 예시들을 소개하기 시작
이미지 생성의 정확성과 아름다움에 대해 설명하면서, 4컷 만화 스트립에서 달팽이가 자동차 매장을 방문하는 재미있는 장면을 소개합니다.
프리즘 실험을 통한 빛의 스펙트럼을 보여주는 인포그래픽과 이를 워싱턴 스퀘어 파크와 뉴턴의 모습과 결합한 다양한 변형 이미지를 설명합니다.
복잡한 주차 규정 사진에 마녀들을 추가한 창의적인 변형과 메뉴 디자인 등 실용적인 활용 사례를 소개합니다.
AI의 문맥 학습 능력을 설명하며, 전기톱 광고와 건축물 이미지의 스타일 변환 등 다양한 응용 사례를 보여줍니다.
[00:22:00] 한계와 개선점

모델이 겪는 크롭핑, 과도한 환각 현상 및 비라틴 문자 처리 문제 등 한계를 짚어보며 개선의 여지를 설명함. 이러한 문제점에도 불구하고 전반적으로 높은 품질을 유지함을 시연함.

카를 마르크스의 현대적 재해석, 고양이와 호랑이 반영 이미지, 다양한 친구들의 폴라로이드 사진 등 창의적인 이미지 생성 예시를 소개합니다.
2006년 여름 날짜가 찍힌 아날로그 필름 사진처럼 보이는 이미지와 길가에 주차된 차의 야간 사진에 대해 설명합니다.
우주인이 우주정거장에서 은하수를 그리는 장면, 바다를 달리는 말, 버려진 지하철에서 헤엄치는 돌고래 등 다양한 AI 생성 이미지를 소개합니다.
이미지 생성의 제약사항으로 크롭핑 문제, 환각 현상, 다중 개념 결합의 한계 등을 설명합니다.
다국어 텍스트 렌더링, 특히 한글 처리의 한계와 작은 텍스트가 있는 밀도 높은 정보의 편집 정밀도 문제를 지적합니다.
OpenAI가 정말 대단한 걸 만들었습니다. 한번 보세요
제가 가장 좋아하는 썸네일 사진을
이제 애니메이션 스타일로, 매우 과장된 남파크 스타일로
심슨스 스타일은 물론이고
지브리 스튜디오 스타일, 마인크래프트
드로잉 스타일, 고해상도 마인크래프트 스타일로
심지어 레고 스타일로도 만들 수 있습니다
ChatGPT가 생성할 수 있는 이미지들을 보세요
여기 로파이 비트를 3D 복셀
아트 스타일로 만든 것이 있고, 유명한 밈인
빨간 드레스를 입은 여성을 쳐다보는 남자
이미지를 복셀 스타일로 만든 것도 있죠
지브리 AI 아트가 도처에 있고, MCP는 AI 트위터에서
무시당하고 있으며 이제는 모두
지브리 밈에 대해서만 이야기하고 있어요
재미있는 밈들이 모든 스타일로 재창조되고 있습니다
여기 JD 밴스가 있고 또 다른 하나는
제가 가장 좋아하는 것 중 하나인데요
복셀 스타일, 수채화 스타일로 만든 샘 알트만이
장고: 분노의 추적자의 악당으로 표현된 모습이에요
여기 그 유명한 밈의 다른 변형들이 있는데
남자가 빨간 드레스 입은 여자를 쳐다보는
마리오네트 스타일이 있고
고무호스 애니메이션 스타일도 있고
픽사 스타일도 있네요. 이 모든 것들이
정말 놀랍게 잘 나왔어요. 존 나크의 사진을
레고로 변환한 것도 있고
역시나 놀랍게 잘 나왔죠
ChatGPT의 이미지 생성 기능은 단순히 다른 스타일로
이미지를 재창조하는 것뿐만 아니라
완전히 새로운 것들을 놀랍도록
잘 만들어낼 수 있어요. 보세요, 제가
뉴럴 네트워크의 내부가 어떻게 생겼는지에 대한
재미있는 인포그래픽을 만들어달라고 했어요
뉴럴 네트워크의 내부를 보면
입력이 들어오고
가중치와 활성화 함수들이 있고
그리고 출력이 나오는 것을 볼 수 있죠
이 유명한 흑백 사진에 색을 입혔는데
완벽하진 않지만 정말 멋지게 나왔어요
그리고 참고로 이건
바이브 코딩에 대한 위키피디아 페이지처럼 보이지만
사실 ChatGPT에게 만들어달라고 한 이미지예요
여기 Levels IO의
비행 시뮬레이터 스크린샷이 있는데
실제 모습으로 만들어달라고 했더니
이렇게 변환됐어요. 제품 디자인도
할 수 있는데, 정말 멋지게 나왔죠
가능성은 정말 무한해요
갑자기 포토샵 전문가가 아니어도
이미지에서 요소를 제거하거나
요소를 추가하거나
이미지를 투명하게 만들거나
생각할 수 있는 모든 것을
할 수 있게 됐어요. 어제 이것을 출시했는데
라이브 스트림에서 기능을
보여주었어요. 함께
보면서 제 생각을 말씀드리겠습니다
안녕하세요 여러분
오늘 우리가 지금까지 출시한 것들 중
가장 재미있고 멋진 것들 중 하나를 소개합니다
많은 분들이 기다려 오셨죠
오래 기다리게 해드려 죄송합니다만
기다린 만큼 가치 있을 거라고 생각합니다
여러분이 정말 좋아하실 거예요
ChatGPT에 네이티브 이미지 기능을 도입합니다
이미지 생성은 이미 한동안 있었죠
사실 우리가 처음 유명해졌을 때
원조 DALL-E가 그 중 하나였습니다
하지만 이미지 생성은 대부분 새로운 시도에 그쳤고
멋진 아트워크를 만들 수는 있었지만
사람들이 놀라운 것들을 만들어냈음에도
광범위하게 유용하게 사용될 만한
파워를 가지지는 못했습니다
다양한 방면에서 정말 유용하게 쓰이지는 못했어요
오늘 우리가 출시할
것은 GPT-4 모델에 내장된
이미지 생성 기능입니다. 이것은 정말
큰 진전입니다.
잠깐만요. 왜 그들은 이름 짓기를
이렇게 못하는 걸까요? 이제 밈이 될 정도인데,
왜 'GPT-4 모델의 네이티브 이미지 생성'이라고
부르는 걸까요?
전체 인터페이스에 이미지 생성 기능을
추가해서 그냥 '이미지 만들기'라고
하면 되는데, 왜 굳이 GPT-4에서만
사용해야 하고
4.5나 3.5에서는 사용할 수 없는 걸까요?
이건 전혀 말이 안 되죠.
이름이 정말 형편없네요.
정리가 필요해 보입니다.
이것은 우리가 오랫동안
세상에 선보이고 싶었던
기능입니다. 이런 방식의 이미지 생성이
창작자, 교육자, 소상공인,
학생들에게 제공된다면
더 많은 사람들이 AI를 활용해
이전에는 할 수 없었던
새로운 일들을 할 수 있을 것입니다.
직접 보여드리는 게 좋겠네요.
이 프로젝트의 수석 연구원이자
주요 책임자인
게이브를 소개하겠습니다.
그리고 기억하세요, 이미지 생성은
새로운 기술이 아닙니다. 이미 수없이 시도되었죠.
수많은 회사들이
DALL-E, Midjourney,
Leonardo, Ideogram, Stable Diffusion 등
제가 생각지도 못한
수많은 회사들이 있습니다.
그래서 사람들이 사용하도록 하려면
정말 매력적인 것을 제공해야 합니다.
자, 데모를 시작하겠습니다.
데모로 시작하는 이유는
이 데모들이 제 발표 자료로도 사용되기 때문이죠.
꽤 편리합니다.
2년 전 이 프로젝트를 시작했을 때
우리는 과학적 관점에서
궁금했습니다.
GPT-4처럼 강력한 모델에서
네이티브 이미지 생성 지원이
어떤 모습일지에 대해서요.
당시에는 답을 몰랐지만
1년 후 모델 학습이 완료되었을 때
정말 흥미로운 가능성을 발견했습니다.
이것이 중요한 특징인데요,
이는 정말 중요한 차별점입니다.
이것은 언어 모델인 LLM에
내장된 이미지 생성 기능입니다.
이해하기 어려울 수 있는데, 디퓨전 모델일 것 같네요.
사실 저도 확실하지는 않습니다만
GPT-4.0 텍스트 모델과 이미지 모델이
결합된 형태라고 볼 수 있죠.
흥미로운 점은 다른
이미지 생성 모델들은
디퓨전 모델이고
독립적으로 작동하며
텍스트 처리는 하지 않는다는 거죠.
많은 모델들이 이미지를 이해할 수는 있지만
네이티브하게 이미지를 생성하지는 못합니다.
모델이 텍스트 단락을
렌더링할 수 있다는 것을 발견했고
이미지들을 정말 흥미롭고
새로운 방식으로 결합할 수 있었죠.
우리는 이 모델을 가지고
많은 시간을 보냈고, 그 기쁨과
설렘을 느꼈습니다.
GPT-2 이후로
처음 느낀 감정이었죠.
정말 와우 순간이었죠.
하지만 그 모델은 아직 완벽하지 않았어요.
그렇죠?
바로 알 수 있었을 거예요.
속도가 매우 느리다는 것을
그들도 이 점에 대해 언급할 건데요.
제가 테스트해본 결과 엄청나게 느립니다.
한 장의 이미지 생성에
몇 분씩 걸린다는 말씀을 드리는데
이는 실제 활용 가능한 사례를
크게 제한하는 요소가 됩니다.
하지만 정확도와 품질은 정말 놀랍습니다.
곧 보시게 될 텐데요.
제 예시들과 그들의 예시들을
많이 보여드릴 예정이니
조금만 기다려주세요.
라이브 스트림을 보시고
더 많은 예시를 보여드리겠습니다.
때로는 오타도 있었고
신뢰성이 다소 부족했다고 할 수 있죠.
그래서 지난 1년 동안
이 모델을 더 접근하기 쉽고
일반 사용자들이 더 친숙하게
사용할 수 있도록 개선해왔습니다.
보시다시피 이미지가 생성되고 있는데
속도 문제에 대해 말씀드리자면
최근 GPT-4가 특히
거의 사용할 수 없을 정도로 느려졌어요.
지난 1-2주 정도부터인데
아마도 이미지 생성 기능을
기본적으로 추가하면서
완전히 느려진 것 같습니다.
여러분도 최근 GPT-4가 얼마나
느려졌는지 느끼셨나요? 댓글로 알려주세요.
텍스트가 모두 잘 생성되었네요. 오타도 없고요.
이것 좀 보세요.
정말 놀랍지 않나요?
배경의 블러 효과와
카메라에서 멀어질수록
가상의 카메라 시점에서
블러가 강해지는 것도 보이고
조명도 완벽하게 표현되었으며
테이블 위의 반사광도 보이죠.
여기 있는 모든 텍스트도 정확하고 선명하며 실수가 없습니다.
정말 인상적이네요.
우리 모두의 셀카를 찍어볼 텐데
좋은 표정 보여주세요.
이제 ChatGPT에게 이것을
애니메이션 프레임으로 바꿔달라고 할 거예요.
자, 이제 아시겠죠?
제가 이 영상의 썸네일에서
영감을 어디서 얻었는지.
이 경우에는 단순히
텍스트 프롬프트의 맥락뿐만 아니라
이 이미지도 함께 사용해서
우리를 위한 정말 좋은 이미지를
만들어낼 수 있습니다. 이것이 가능한 이유는
옴니 모델로 훈련되었기 때문인데요.
언어뿐만 아니라 이미지, 오디오 등
모든 양식을 입출력할 수 있고
이해하고 생성할 수 있으며
이들을 매끄럽게 처리할 수 있죠.
자, 이것은 정말 중요한 사실입니다.
그가 방금 언급했듯이 GPT-4는
옴니 모델이에요. 이미지, 텍스트, 음성을 입력받아
모두 이해할 수 있고
이미지, 텍스트, 음성을 출력할 수도 있죠.
우리가 방금 얘기했던
최근의 음성 기능 출시에서처럼요.
두 가지 버전의 음성 기능이 있는데
하나는 실제 음성을 입력받아
정확히 이해하고
음성을 출력하는 것이고
다른 하나는 약간 더 오래된 방식으로
오디오를 받아서
이를 텍스트로 변환하고 텍스트 상에서
조작을 수행하는 방식입니다.
텍스트로 프롬프트를 전송하고
텍스트로 응답을 받은 뒤 다시 음성으로 변환하는 거죠
이 방식이 더 안정적이고 신뢰할 수 있다고 하지만
음성 대 음성이 더 나은 방식입니다
여기서 보시는 것처럼
이미지를 직접 이해할 수 있을 때
이미지의 미묘한 뉘앙스를 파악할 수 있죠
단순히 이미지를 설명하는 것과는 달리
텍스트로 변환할 때는
정보의 손실이 발생합니다
음성을 텍스트로 변환할 때도
이해의 손실이 있습니다
목소리의 톤, 강조, 감정 등이
손실되죠. 이미지도 마찬가지입니다
그래서 이런 통합 모델이
정말 강력한 것이죠
우리는 많은 노력을 기울여
음성 모드처럼 유용한 제품을 만들었고
이제는 오디오가 완벽하게 작동하며
이미지도 전반적으로 자연스럽게 작동합니다
이제 우리는 드디어
진정한 통합 멀티모달 모델로
나아가고 있습니다
모든 것을 처리할 수 있는
모델이죠. 그리고 이 경우에는
사용자에게 더 많은 제어권을 줍니다
특정 스타일을 원할 수도 있고
기존 이미지를 사용하거나
디자인 팔레트를 사용할 수도 있죠
이 모든 맥락을
ChatGPT에 제공할 수 있습니다
이 모든 것을 활용해서
원하는 결과물을 만들 수 있죠
더 제어 가능해진 거예요
보시다시피 우리 뒤의 하늘과
식물들이 보이네요. 참고로 이 기능은
오늘부터 ChatGPT에서 사용 가능합니다
이미 롤아웃이 시작되어서
자신의 애니메이션 버전을
만들 수 있습니다
네, 이미 프로 사용자들에게 공개되었고
플러스 사용자들도 곧 사용할 수 있을 겁니다
멋지네요. 무료 사용자들도 사용할 수 있을 거예요
자, 이제 시간을 채우고 있는데
이미지 생성에 시간이 많이 걸리기 때문이에요
이 한 장의 이미지를 생성하는 데
아마도 2분 정도 걸리고 있을 겁니다
심지어 더 오래 걸릴 수도 있죠
제 수염이 보이네요
표정도 잘 잡혔고
손 모양도 완벽하게 표현되었네요
다음은 뭘 해볼까요?
사실 샘의 손 모양은
정확하지 않네요. 실제로는 손등을 보여줬는데
손바닥이 보이도록 바뀌었어요
여기서 보시면 실제로
바뀐 것을 알 수 있죠
작은 실수가 있네요
이걸로 밈을 만들어볼까요?
밈으로 만들어보죠
OpenAI 내부에서 자주 쓰는
밈 중 하나인
'Feel the AGI'를 써볼까요?
AI가 어떻게 해석할지 모르겠지만
한번 시도해보죠. AGI를 느껴봅시다
좀 빨리 감기할게요
결과를 보시죠. 여기 나왔네요
'Feel the AGI'가 밈 폰트로 적혀있네요
좋습니다
이제 다른 팀이 와서
다른 멋진 것들을 보여줄 거예요
안녕하세요, 저는 OpenAI의 연구 과학자 엘라입니다
안녕하세요, 제 이름은 마노이고 엔지니어입니다. 안녕하세요
제 이름은 루이고 OpenAI의 연구 과학자입니다
우리의 모델이 더 강력해지면서
세상에 대한 지식도 더욱 깊어지고 있습니다
하지만 지금까지는 텍스트나
코드로만 자신을 표현할 수 있었죠
이번 릴리스에서 정말 흥미로운 점은
이제 이 모델들이
자신이 알고 있는 것을 시각화하고
시각적인 방식으로 표현할 수 있다는 것입니다
다시 한 번 생각해보면 정말 놀라운데요
옴니모델 접근방식을 통해
이 모델들은 자신을 표현할 수 있게 되었습니다
매우 인간적인 방식으로
원하는 어떤 형태로도 표현이 가능하죠
이것이 옴니모델의
정말 흥미로운 점입니다. 자, 계속 보시죠
제가 시도해볼 프롬프트는 '만화 페이지를 만들어
상대성 이론을 설명하는 망가를 그려주세요
재미있게 만들어보죠' 입니다
모델이 시각적 유머와
단순한 텍스트 유머를 얼마나 잘 이해하나요?
이 프롬프트가 매우 모호하기 때문에
어떤 독특한 결과물이
나올지 보는 것이 흥미로울 것 같아요
모델이 어떤 재미있는 것을 만들어낼지
이것은 정말
모델이 가진 세상에 대한 지식을 활용해서
아마도 프롬프트의 확장된 버전을 작성하고
좋은 이미지를 만들어낼 거예요
하지만 알다시피...
네, 그가 방금 말했듯이
프롬프트의 확장된 버전을 작성한다는 것은
DALL-E와 비슷하게
원래의 매우 광범위한 프롬프트를 가져와서
더 많은 세부 사항을 추가하는 거죠
이는 더 자세한 내용을 얻기 위한
정말 좋은 기술입니다
직접 작성하지 않고도
그리고 보세요, 얼마나 느리게 진행되는지
정말 천천히 진행되고 있네요
이 이미지들은 이전의
이미지 생성보다 훨씬 느리지만
믿을 수 없을 정도로 더 나은 결과를 보여줍니다
우리는 이 기다림이 정말 가치 있다고 생각해요
시간이 지나면서 더 빨라질 수 있을 거예요
하지만 알다시피, 이것은
품질 대비 시간의 비율이
이미 훌륭하다고 생각합니다
네, 영어뿐만 아니라
다른 언어도 사용하고 있네요
전반적으로
우리는 이 모델이
이미지를 생성하는 것뿐만 아니라
자, 한번 살펴보죠
솔직히 이것은 정말 인상적입니다
여기 아인슈타인이 있고, 상대성 이론에 대해
모든 텍스트가 완벽해 보이네요
자, 유머를 한번 보죠
"빨리 움직이나요? 길이가 수축되죠. E=MC², 상대적으로 재미있지 않나요?"
AI가 아직 완벽하게 유머러스하진 않지만
시도는 했네요, 이해는 됩니다만
전반적으로 이미지는 정말 놀랍습니다
좋아요, 다음으로는
매직 더 개더링 스타일의 카드를
자신들의 반려동물로 만들고
능력치도 추가할 수 있다고 하네요
그래서 제가 들고 있는 이 카드는
Sora 론칭 때 받은 것인데
같은 스타일로 새로운 것을 디자인하면
정말 멋질 것 같아요
모든 이미지 생성을 위해서
오늘 아침에 사진을 찍어왔어요
이건 생성된 이미지가 아닙니다.
Sora 출시 때 배포한 실제 카드입니다.
그리고 나서
그는 별도로 자신의 반려견
사진을 올렸고 이걸 사용할 건데
거대한 고양이 왕 대신
제 강아지 산지를
주인공으로 넣고 싶습니다.
이게 제 강아지 사진인데
귀엽죠. 그리고 카드에 넣고 싶은
몇 가지 세부 사항도 포함했어요.
모델명과 연도,
강조하고 싶은 능력치도 있고
산지의 체중과 키도 넣었습니다.
모델이 어떻게 만들어내는지 봅시다.
왜 거대 고양이 왕이 Sora인지는 모르겠지만
이 트레이딩 카드는 전문 디자이너가
디자인한 것 같아요.
우리 모델로 이런 걸
실제로 만들 수 있다면 놀라울 것 같아요.
네, 우리 모델이 텍스트 렌더링에서
많이 발전했다고 생각합니다.
이렇게 자세한 지시사항으로
얼마나 잘 만들어내는지 보면 재미있을 것 같네요.
원본 카드를 볼 수 있을까요?
네, 다시 시간을 채우고 있네요.
너무 느려서 영상을 빨리 감기할게요.
자, 카드가 나왔습니다.
원본 카드를 보면 상단의 텍스트가
솔직히 그렇게 좋아 보이지는 않아요.
이미지 위에 텍스트를 덧붙인 것처럼 보이지만
다른 부분들은 다 잘 나왔어요.
다른 모든 텍스트는
실제 카드에 써있는 것처럼 보이고
여기 생성형 AI 이미지 모델이라고 되어있고
아래의 모든 속성값들도 잘 보이고
텍스트도 잘 나왔어요.
그리고 스카프를 한 강아지 사진도
아주 멋지게 나왔네요. 다음으로
이 출시를 기념하는 코인을 만들 건데
오늘 출시된 참고 이미지들을
실제로 포함시킬 거예요.
여기 카드가 있고, 만화도 있고
기타 등등이요. 자, 영상을
빨리 감기했는데, 실제 코인이 나왔네요.
정말 잘 나왔어요. 올바른 부분이 돌출되어 있고
이 버튼도 실제로 돌출되어 보이고
모든 텍스트가 정확해요.
배경에 있는 작은 스피커도
보이고, 텍스트와
아인슈타인 E=MC² 등도 잘 보이네요.
그녀가 말하길
코인을 뒤집어서
뒷면이 어떨지
상상해볼 수도 있대요. 자, 라이브 스트림은 여기까지하고
몇 가지 예시를 보여드릴게요.
닭이 오리를 타고, 오리는 개를 타고, 개는
말을 타고 있는 모습입니다. 제가 입력한 프롬프트에요.
정말 잘 나왔고 단순히 이미지를
만드는 것을 넘어서서
꽤 복잡한 프롬프트를
정확히 이해했어요. 그리고 제가
초현실적으로 만들어달라고 했더니
이렇게 나왔는데, 정말 환상적이에요.
사실 말에 비해 개가
엄청 큰 개일 것 같고, 그러면
거대한 오리가 되고, 결국
거대한 닭이 되겠지만, 그것 말고는
모든 게 믿을 수 없을 정도로 사실적이에요.
자, 여러분들이 제 썸네일 사진마다
항상 두통이 있는 것처럼 보인다고 생각하시죠?
그래서 그 썸네일 표정을 가지고
애니메이션으로 만들어달라고 했어요.
과장된 애니메이션으로 바뀌었는데요
정말 멋지게 나왔지만
너무 과장되어서
"원본과 더 비슷하게 만들어줘"라고 했어요
그랬더니 이렇게 나왔는데 다시 한번
정말 멋지죠. 제 눈 색깔도 맞고
머리 색도 맞고 수염도 약간 있고
셔츠도 정확하고 속옷도 맞네요
실제로는 단추가 없는데
원본 이미지에서는 그냥 일반 셔츠인데
단추를 추가했네요, 괜찮습니다
여기 제 배경이 있는 다른 사진인데
배경을 제거해달라고 했더니
이렇게 나왔어요
배경은 제거됐지만 제 얼굴이
굉장히 이상해 보이네요. 마치
에어브러시로 처리한 것처럼 보이고
별로 좋아 보이지는 않네요
그래도 배경은 제거됐죠. 그 다음엔
이걸 애니메이션으로 바꿔달라고 했더니 정말 멋지게 나왔어요
이미지 편집이 가능하다는 걸 기억하세요
강아지 이미지를 만들어달라고 했는데
완벽하게 나왔어요. AI가 만든 건지
전혀 알아볼 수가 없을 정도예요
그 다음엔 강아지에게 실제같은 안경을 씌워달라고 했더니
코가 안경 렌즈를 살짝 가리는 게
보이시죠
귀 위치는 좀 더 나았을 수도 있지만
그래도 아주 잘 나왔어요
그리고 이것 좀 보세요
강아지를 무서워 보이게 해달라고 했더니
주름진 코에 이빨을 드러내고
눈도 이제 더 화난 것처럼 보이고
물론 안경도 그대로 있죠
정말 멋지고 아주 쉽게 만들 수 있어요
제 사업체 포워드 퓨처의 로고도
만들어달라고 했는데
텍스트에서 실수를 했어요
가장 쉬운 부분인 '포워드 퓨처'인데
"다른 걸로 가능한 창의적으로 해줘"라고 했더니
이번엔 실수하지 않았어요
여기 포워드 퓨처가 있는데
그렇게 창의적이지는 않아서
"100배 더 창의적으로 해줘"라고 했더니
이렇게 나왔네요. 정말 멋진 것 같아요
발표 블로그에서 보여준
예시들이 얼마나 실제같은지 보세요
그런 의미있는 말들이 있었죠.
정말 정말 뛰어난 성능으로
이미지를 생성하는데 매우 정확했습니다.
여기 만화 스트립을 볼까요? 4컷 만화를 만들어달라고 했는데
테두리에 여백을 넣어서 만들었어요.
작은 달팽이가 고급 자동차 매장 카운터에 있고
판매원이 책상 너머로 몸을 깊게 숙여
달팽이를 바라보고 있는 장면이에요.
원하는 모든 것을 완벽하게 표현했고
모든 텍스트도 아름답고
스타일링도 정말 아름답게 표현됐어요.
멋진 인포그래픽이 필요하다면
이것도 한번 보세요.
프리즘 실험을 보여주는데요, 빛이 들어와서
굴절되어 다양한 색으로 나뉘면서
전체 색상 스펙트럼이 나타나요.
단 하나의 프롬프트만으로
이렇게 멋진 것들을 만들어낼 수 있죠.
이제 이것을 보세요. 방금 본 것과 동일한 내용을
워싱턴 스퀘어 파크의 노트패드에
옮겨놓았는데 정말 인상적이죠.
이번엔 같은 장면에 득의양양한 표정의
젊은 아이작 뉴턴이 프리즘과 함께
테이블에 앉아있네요.
얼굴이 좀 부자연스럽긴 한데
마치 밀랍 인형 같아 보이지만
전체적으로는 아름답게 표현됐어요.
이건 꽤 유명한 사진인데
마녀들이 없는 버전이에요.
이건 매우 복잡한
주차 규정이 있는 상황을 보여주는 사진이었는데
GPT-4가 처음 이미지를 다룰 때
아마도 GPT-4.0이었을 거예요.
"여기 언제 주차할 수 있나요?"라고 물었더니
정확히 파악했었죠.
이제는 여기에 이 규정을 읽고 있는 마녀 둘을 추가했어요.
여기 메뉴 컨셉도 있는데 정말 멋지죠.
다시 한 번 말씀드리지만, 이건 정말 유용해요.
어떤 분야의 전문가이든
레스토랑을 운영하시거나, 썸네일을 만들거나
웹사이트를 만들거나 사진작가라면
이런 미묘한 변화를 줄 수 있고
완전히 새로운 것을 만들 수 있어요.
정말 멋지죠. 문맥 학습도 가능해서
보시다시피 여러 예시를 주면
작은 이미지들이긴 하지만
원하는 스타일의 이미지를 보여주고
그다음에 새로운 버전의
설명을 주면
새로운 이미지를 만들어내는데
거의 동일한 스타일로 만들어냅니다.
여기 파란색 전기톱의
포토리얼리스틱한 이미지가 있는데 꽤 괜찮죠.
이 전기톱으로 할머니가 추수감사절 저녁 식사 테이블에서
칠면조를 자르는 광고를 만들어달라고 했더니
캐치프레이즈까지 넣어서 만들어줬어요.
이 장면을 DSLR로 찍은 사진으로 바꿔달라고 했는데
원본은 오래된 그림이나 스케치였죠.
그런데 보세요, 실제 사진처럼 아름답게 변했어요.
마찬가지로 이 건축물 그림도
사진으로 바꿔달라고 했더니
실제 사진처럼 만들어줬어요.
몇 가지 더 볼까요?
여기 카를 마르크스가 몰 오브 아메리카 주차장을
서둘러 달리는 모습이 있고
길거리 물웅덩이를 들여다보는 고양이가 있는데
반사된 모습은 호랑이네요. 멋지죠.
이것도 좋은 예시인데요.
20대 초반의 다양한 친구들 넷이
허름한 바에서 찍은 폴라로이드
스타일의 자연스러운 사진을 만들어달라고 했어요.
토론토의 어느 토요일
파머스 마켓의 실제 모습을 생성해달라고 했네요.
2006년 여름의 날짜가 새겨져 있어요.
마치 예전 카메라처럼 날짜가
찍혀있는 흐릿한 아날로그 필름 사진이에요.
조용한 밤 길가에 주차된 차의 모습인데,
한번 보시죠.
이건 재미있네요. 고양이는 전혀 실제같지 않지만
다른 부분들은 꽤 실제처럼 보여요.
이것도 보세요. 우주인 한 명이
거대한 우주정거장 안에서 떠다니며
커다란 캔버스에
소용돌이치는 은하수를 그리고 있어요.
여기는 바다를 달리는 말이 있고,
이건 꽤나 사실적인 수중 장면인데
버려진 지하철 차량의 창문으로
돌고래들이 헤엄치고 있어요.
완벽하진 않죠. 한번 제약사항들을
살펴보겠습니다.
먼저 크롭핑 문제가 있는데, 전체 이미지를
볼 수 없어요. 마치 더 있어야 할 것 같은데
없는 것처럼 보입니다. 또한
다른 텍스트 모델처럼
환각 현상도 있어요.
이미지 생성 시 특히 맥락이 부족한
프롬프트에서는 정보를 만들어내기도 합니다. 결합 문제도 있어서
지식 기반에 의존하는 이미지를 생성할 때
10-20개 이상의
서로 다른 개념을 정확하게 표현하는 데
어려움이 있을 수 있어요.
철자가 틀리거나
같은 실수를 반복하기도 하죠.
네, 정확하지 않아요. 정밀한 그래프 표현도
어렵다고 생각됩니다.
다국어 텍스트 렌더링에서
한글도 아직 문제가 있어요.
모델이 라틴어가 아닌 언어를
렌더링하는 데 어려움을 겪고
글자가 부정확하거나 환각 현상이 일어나요.
작은 텍스트가 있는 밀도 높은 정보의
편집 정밀도도 문제죠. 확실히 완벽하진 않지만
정말 멋진 기술이에요.
한번 살펴보시고 사용해보세요.
여러분의 생각도 들려주세요.
이 영상이 마음에 드셨다면
좋아요와 구독 부탁드립니다.
다음 영상에서 만나요.