[00:00]
OpenAI가 정말 대단한 걸 만들었습니다. 한번 보세요
[00:02]
제가 가장 좋아하는 썸네일 사진을
[00:04]
이제 애니메이션 스타일로, 매우 과장된 남파크 스타일로
[00:08]
심슨스 스타일은 물론이고
[00:11]
지브리 스튜디오 스타일, 마인크래프트
[00:14]
드로잉 스타일, 고해상도 마인크래프트 스타일로
[00:17]
심지어 레고 스타일로도 만들 수 있습니다
[00:20]
ChatGPT가 생성할 수 있는 이미지들을 보세요
[00:22]
여기 로파이 비트를 3D 복셀
[00:25]
아트 스타일로 만든 것이 있고, 유명한 밈인
[00:27]
빨간 드레스를 입은 여성을 쳐다보는 남자
[00:29]
이미지를 복셀 스타일로 만든 것도 있죠
[00:33]
지브리 AI 아트가 도처에 있고, MCP는 AI 트위터에서
[00:36]
무시당하고 있으며 이제는 모두
[00:38]
지브리 밈에 대해서만 이야기하고 있어요
[00:41]
재미있는 밈들이 모든 스타일로 재창조되고 있습니다
[00:43]
여기 JD 밴스가 있고 또 다른 하나는
[00:47]
제가 가장 좋아하는 것 중 하나인데요
[00:49]
복셀 스타일, 수채화 스타일로 만든 샘 알트만이
[00:52]
장고: 분노의 추적자의 악당으로 표현된 모습이에요
[00:55]
여기 그 유명한 밈의 다른 변형들이 있는데
[00:58]
남자가 빨간 드레스 입은 여자를 쳐다보는
[00:59]
마리오네트 스타일이 있고
[01:02]
고무호스 애니메이션 스타일도 있고
[01:04]
픽사 스타일도 있네요. 이 모든 것들이
[01:07]
정말 놀랍게 잘 나왔어요. 존 나크의 사진을
[01:09]
레고로 변환한 것도 있고
[01:14]
역시나 놀랍게 잘 나왔죠
[01:16]
ChatGPT의 이미지 생성 기능은 단순히 다른 스타일로
[01:18]
이미지를 재창조하는 것뿐만 아니라
[01:20]
완전히 새로운 것들을 놀랍도록
[01:23]
잘 만들어낼 수 있어요. 보세요, 제가
[01:25]
뉴럴 네트워크의 내부가 어떻게 생겼는지에 대한
[01:27]
재미있는 인포그래픽을 만들어달라고 했어요
[01:29]
뉴럴 네트워크의 내부를 보면
[01:30]
입력이 들어오고
[01:33]
가중치와 활성화 함수들이 있고
[01:35]
그리고 출력이 나오는 것을 볼 수 있죠
[01:38]
이 유명한 흑백 사진에 색을 입혔는데
[01:40]
완벽하진 않지만 정말 멋지게 나왔어요
[01:43]
그리고 참고로 이건
[01:45]
바이브 코딩에 대한 위키피디아 페이지처럼 보이지만
[01:48]
사실 ChatGPT에게 만들어달라고 한 이미지예요
[01:50]
여기 Levels IO의
[01:52]
비행 시뮬레이터 스크린샷이 있는데
[01:54]
실제 모습으로 만들어달라고 했더니
[01:57]
이렇게 변환됐어요. 제품 디자인도
[01:59]
할 수 있는데, 정말 멋지게 나왔죠
[02:00]
가능성은 정말 무한해요
[02:03]
갑자기 포토샵 전문가가 아니어도
[02:05]
이미지에서 요소를 제거하거나
[02:08]
요소를 추가하거나
[02:10]
이미지를 투명하게 만들거나
[02:11]
생각할 수 있는 모든 것을
[02:14]
할 수 있게 됐어요. 어제 이것을 출시했는데
[02:16]
라이브 스트림에서 기능을
[02:18]
보여주었어요. 함께
[02:20]
보면서 제 생각을 말씀드리겠습니다
[02:21]
안녕하세요 여러분
[02:23]
오늘 우리가 지금까지 출시한 것들 중
[02:26]
가장 재미있고 멋진 것들 중 하나를 소개합니다
[02:28]
많은 분들이 기다려 오셨죠
[02:29]
오래 기다리게 해드려 죄송합니다만
[02:31]
기다린 만큼 가치 있을 거라고 생각합니다
[02:32]
여러분이 정말 좋아하실 거예요
[02:34]
ChatGPT에 네이티브 이미지 기능을 도입합니다
[02:36]
이미지 생성은 이미 한동안 있었죠
[02:38]
사실 우리가 처음 유명해졌을 때
[02:40]
원조 DALL-E가 그 중 하나였습니다
[02:42]
하지만 이미지 생성은 대부분 새로운 시도에 그쳤고
[02:44]
멋진 아트워크를 만들 수는 있었지만
[02:46]
사람들이 놀라운 것들을 만들어냈음에도
[02:48]
광범위하게 유용하게 사용될 만한
[02:50]
파워를 가지지는 못했습니다
[02:52]
다양한 방면에서 정말 유용하게 쓰이지는 못했어요
[02:54]
오늘 우리가 출시할
[02:56]
것은 GPT-4 모델에 내장된
[02:58]
이미지 생성 기능입니다. 이것은 정말
[03:00]
큰 진전입니다.
[03:02]
잠깐만요. 왜 그들은 이름 짓기를
[03:05]
이렇게 못하는 걸까요? 이제 밈이 될 정도인데,
[03:07]
왜 'GPT-4 모델의 네이티브 이미지 생성'이라고
[03:09]
부르는 걸까요?
[03:12]
전체 인터페이스에 이미지 생성 기능을
[03:15]
추가해서 그냥 '이미지 만들기'라고
[03:17]
하면 되는데, 왜 굳이 GPT-4에서만
[03:19]
사용해야 하고
[03:21]
4.5나 3.5에서는 사용할 수 없는 걸까요?
[03:24]
이건 전혀 말이 안 되죠.
[03:26]
이름이 정말 형편없네요.
[03:28]
정리가 필요해 보입니다.
[03:30]
이것은 우리가 오랫동안
[03:32]
세상에 선보이고 싶었던
[03:34]
기능입니다. 이런 방식의 이미지 생성이
[03:36]
창작자, 교육자, 소상공인,
[03:39]
학생들에게 제공된다면
[03:41]
더 많은 사람들이 AI를 활용해
[03:42]
이전에는 할 수 없었던
[03:44]
새로운 일들을 할 수 있을 것입니다.
[03:48]
직접 보여드리는 게 좋겠네요.
[03:49]
이 프로젝트의 수석 연구원이자
[03:51]
주요 책임자인
[03:53]
게이브를 소개하겠습니다.
[03:55]
그리고 기억하세요, 이미지 생성은
[03:57]
새로운 기술이 아닙니다. 이미 수없이 시도되었죠.
[04:00]
수많은 회사들이
[04:02]
DALL-E, Midjourney,
[04:04]
Leonardo, Ideogram, Stable Diffusion 등
[04:08]
제가 생각지도 못한
[04:09]
수많은 회사들이 있습니다.
[04:11]
그래서 사람들이 사용하도록 하려면
[04:13]
정말 매력적인 것을 제공해야 합니다.
[04:15]
자, 데모를 시작하겠습니다.
[04:18]
데모로 시작하는 이유는
[04:19]
이 데모들이 제 발표 자료로도 사용되기 때문이죠.
[04:22]
꽤 편리합니다.
[04:26]
2년 전 이 프로젝트를 시작했을 때
[04:29]
우리는 과학적 관점에서
[04:31]
궁금했습니다.
[04:33]
GPT-4처럼 강력한 모델에서
[04:36]
네이티브 이미지 생성 지원이
[04:38]
어떤 모습일지에 대해서요.
[04:40]
당시에는 답을 몰랐지만
[04:42]
1년 후 모델 학습이 완료되었을 때
[04:44]
정말 흥미로운 가능성을 발견했습니다.
[04:47]
이것이 중요한 특징인데요,
[04:49]
이는 정말 중요한 차별점입니다.
[04:51]
이것은 언어 모델인 LLM에
[04:54]
내장된 이미지 생성 기능입니다.
[04:57]
이해하기 어려울 수 있는데, 디퓨전 모델일 것 같네요.
[04:59]
사실 저도 확실하지는 않습니다만
[05:01]
GPT-4.0 텍스트 모델과 이미지 모델이
[05:04]
결합된 형태라고 볼 수 있죠.
[05:07]
흥미로운 점은 다른
[05:09]
이미지 생성 모델들은
[05:11]
디퓨전 모델이고
[05:12]
독립적으로 작동하며
[05:14]
텍스트 처리는 하지 않는다는 거죠.
[05:17]
많은 모델들이 이미지를 이해할 수는 있지만
[05:20]
네이티브하게 이미지를 생성하지는 못합니다.
[05:22]
모델이 텍스트 단락을
[05:24]
렌더링할 수 있다는 것을 발견했고
[05:26]
이미지들을 정말 흥미롭고
[05:28]
새로운 방식으로 결합할 수 있었죠.
[05:30]
우리는 이 모델을 가지고
[05:31]
많은 시간을 보냈고, 그 기쁨과
[05:33]
설렘을 느꼈습니다.
[05:35]
GPT-2 이후로
[05:36]
처음 느낀 감정이었죠.
[05:38]
정말 와우 순간이었죠.
[05:40]
하지만 그 모델은 아직 완벽하지 않았어요.
[05:43]
그렇죠?
[05:44]
바로 알 수 있었을 거예요.
[05:45]
속도가 매우 느리다는 것을
[05:47]
그들도 이 점에 대해 언급할 건데요.
[05:49]
제가 테스트해본 결과 엄청나게 느립니다.
[05:52]
한 장의 이미지 생성에
[05:54]
몇 분씩 걸린다는 말씀을 드리는데
[05:57]
이는 실제 활용 가능한 사례를
[05:59]
크게 제한하는 요소가 됩니다.
[06:01]
하지만 정확도와 품질은 정말 놀랍습니다.
[06:04]
곧 보시게 될 텐데요.
[06:06]
제 예시들과 그들의 예시들을
[06:08]
많이 보여드릴 예정이니
[06:10]
조금만 기다려주세요.
[06:12]
라이브 스트림을 보시고
[06:13]
더 많은 예시를 보여드리겠습니다.
[06:15]
때로는 오타도 있었고
[06:18]
신뢰성이 다소 부족했다고 할 수 있죠.
[06:21]
그래서 지난 1년 동안
[06:24]
이 모델을 더 접근하기 쉽고
[06:27]
일반 사용자들이 더 친숙하게
[06:29]
사용할 수 있도록 개선해왔습니다.
[06:32]
보시다시피 이미지가 생성되고 있는데
[06:35]
속도 문제에 대해 말씀드리자면
[06:38]
최근 GPT-4가 특히
[06:41]
거의 사용할 수 없을 정도로 느려졌어요.
[06:44]
지난 1-2주 정도부터인데
[06:47]
아마도 이미지 생성 기능을
[06:50]
기본적으로 추가하면서
[06:52]
완전히 느려진 것 같습니다.
[06:54]
여러분도 최근 GPT-4가 얼마나
[06:56]
느려졌는지 느끼셨나요? 댓글로 알려주세요.
[07:00]
텍스트가 모두 잘 생성되었네요. 오타도 없고요.
[07:03]
이것 좀 보세요.
[07:05]
정말 놀랍지 않나요?
[07:07]
배경의 블러 효과와
[07:09]
카메라에서 멀어질수록
[07:11]
가상의 카메라 시점에서
[07:14]
블러가 강해지는 것도 보이고
[07:16]
조명도 완벽하게 표현되었으며
[07:19]
테이블 위의 반사광도 보이죠.
[07:22]
여기 있는 모든 텍스트도 정확하고 선명하며 실수가 없습니다.
[07:26]
정말 인상적이네요.
[07:29]
우리 모두의 셀카를 찍어볼 텐데
[07:31]
좋은 표정 보여주세요.
[07:34]
이제 ChatGPT에게 이것을
[07:38]
애니메이션 프레임으로 바꿔달라고 할 거예요.
[07:40]
자, 이제 아시겠죠?
[07:42]
제가 이 영상의 썸네일에서
[07:44]
영감을 어디서 얻었는지.
[07:46]
이 경우에는 단순히
[07:47]
텍스트 프롬프트의 맥락뿐만 아니라
[07:49]
이 이미지도 함께 사용해서
[07:50]
우리를 위한 정말 좋은 이미지를
[07:52]
만들어낼 수 있습니다. 이것이 가능한 이유는
[07:54]
옴니 모델로 훈련되었기 때문인데요.
[07:57]
언어뿐만 아니라 이미지, 오디오 등
[08:00]
모든 양식을 입출력할 수 있고
[08:02]
이해하고 생성할 수 있으며
[08:04]
이들을 매끄럽게 처리할 수 있죠.
[08:06]
자, 이것은 정말 중요한 사실입니다.
[08:08]
그가 방금 언급했듯이 GPT-4는
[08:11]
옴니 모델이에요. 이미지, 텍스트, 음성을 입력받아
[08:15]
모두 이해할 수 있고
[08:18]
이미지, 텍스트, 음성을 출력할 수도 있죠.
[08:21]
우리가 방금 얘기했던
[08:23]
최근의 음성 기능 출시에서처럼요.
[08:25]
두 가지 버전의 음성 기능이 있는데
[08:27]
하나는 실제 음성을 입력받아
[08:30]
정확히 이해하고
[08:31]
음성을 출력하는 것이고
[08:33]
다른 하나는 약간 더 오래된 방식으로
[08:35]
오디오를 받아서
[08:37]
이를 텍스트로 변환하고 텍스트 상에서
[08:40]
조작을 수행하는 방식입니다.
[08:42]
텍스트로 프롬프트를 전송하고
[08:44]
텍스트로 응답을 받은 뒤 다시 음성으로 변환하는 거죠
[08:46]
이 방식이 더 안정적이고 신뢰할 수 있다고 하지만
[08:49]
음성 대 음성이 더 나은 방식입니다
[08:52]
여기서 보시는 것처럼
[08:54]
이미지를 직접 이해할 수 있을 때
[08:56]
이미지의 미묘한 뉘앙스를 파악할 수 있죠
[08:58]
단순히 이미지를 설명하는 것과는 달리
[08:59]
텍스트로 변환할 때는
[09:01]
정보의 손실이 발생합니다
[09:03]
음성을 텍스트로 변환할 때도
[09:04]
이해의 손실이 있습니다
[09:06]
목소리의 톤, 강조, 감정 등이
[09:09]
손실되죠. 이미지도 마찬가지입니다
[09:11]
그래서 이런 통합 모델이
[09:14]
정말 강력한 것이죠
[09:16]
우리는 많은 노력을 기울여
[09:18]
음성 모드처럼 유용한 제품을 만들었고
[09:20]
이제는 오디오가 완벽하게 작동하며
[09:22]
이미지도 전반적으로 자연스럽게 작동합니다
[09:24]
이제 우리는 드디어
[09:26]
진정한 통합 멀티모달 모델로
[09:28]
나아가고 있습니다
[09:29]
모든 것을 처리할 수 있는
[09:31]
모델이죠. 그리고 이 경우에는
[09:34]
사용자에게 더 많은 제어권을 줍니다
[09:35]
특정 스타일을 원할 수도 있고
[09:37]
기존 이미지를 사용하거나
[09:38]
디자인 팔레트를 사용할 수도 있죠
[09:40]
이 모든 맥락을
[09:42]
ChatGPT에 제공할 수 있습니다
[09:44]
이 모든 것을 활용해서
[09:46]
원하는 결과물을 만들 수 있죠
[09:47]
더 제어 가능해진 거예요
[09:50]
보시다시피 우리 뒤의 하늘과
[09:53]
식물들이 보이네요. 참고로 이 기능은
[09:56]
오늘부터 ChatGPT에서 사용 가능합니다
[09:59]
이미 롤아웃이 시작되어서
[10:01]
자신의 애니메이션 버전을
[10:02]
만들 수 있습니다
[10:04]
네, 이미 프로 사용자들에게 공개되었고
[10:06]
플러스 사용자들도 곧 사용할 수 있을 겁니다
[10:08]
멋지네요. 무료 사용자들도 사용할 수 있을 거예요
[10:11]
자, 이제 시간을 채우고 있는데
[10:13]
이미지 생성에 시간이 많이 걸리기 때문이에요
[10:15]
이 한 장의 이미지를 생성하는 데
[10:18]
아마도 2분 정도 걸리고 있을 겁니다
[10:20]
심지어 더 오래 걸릴 수도 있죠
[10:21]
제 수염이 보이네요
[10:23]
표정도 잘 잡혔고
[10:26]
손 모양도 완벽하게 표현되었네요
[10:29]
다음은 뭘 해볼까요?
[10:31]
사실 샘의 손 모양은
[10:34]
정확하지 않네요. 실제로는 손등을 보여줬는데
[10:37]
손바닥이 보이도록 바뀌었어요
[10:40]
여기서 보시면 실제로
[10:42]
바뀐 것을 알 수 있죠
[10:44]
작은 실수가 있네요
[10:46]
이걸로 밈을 만들어볼까요?
[10:49]
밈으로 만들어보죠
[10:51]
OpenAI 내부에서 자주 쓰는
[10:54]
밈 중 하나인
[10:55]
'Feel the AGI'를 써볼까요?
[10:57]
AI가 어떻게 해석할지 모르겠지만
[10:59]
한번 시도해보죠. AGI를 느껴봅시다
[11:01]
좀 빨리 감기할게요
[11:03]
결과를 보시죠. 여기 나왔네요
[11:05]
'Feel the AGI'가 밈 폰트로 적혀있네요
[11:09]
좋습니다
[11:11]
이제 다른 팀이 와서
[11:12]
다른 멋진 것들을 보여줄 거예요
[11:14]
안녕하세요, 저는 OpenAI의 연구 과학자 엘라입니다
[11:17]
안녕하세요, 제 이름은 마노이고 엔지니어입니다. 안녕하세요
[11:20]
제 이름은 루이고 OpenAI의 연구 과학자입니다
[11:23]
우리의 모델이 더 강력해지면서
[11:26]
세상에 대한 지식도 더욱 깊어지고 있습니다
[11:27]
하지만 지금까지는 텍스트나
[11:29]
코드로만 자신을 표현할 수 있었죠
[11:31]
이번 릴리스에서 정말 흥미로운 점은
[11:33]
이제 이 모델들이
[11:35]
자신이 알고 있는 것을 시각화하고
[11:36]
시각적인 방식으로 표현할 수 있다는 것입니다
[11:39]
다시 한 번 생각해보면 정말 놀라운데요
[11:40]
옴니모델 접근방식을 통해
[11:43]
이 모델들은 자신을 표현할 수 있게 되었습니다
[11:45]
매우 인간적인 방식으로
[11:47]
원하는 어떤 형태로도 표현이 가능하죠
[11:49]
이것이 옴니모델의
[11:51]
정말 흥미로운 점입니다. 자, 계속 보시죠
[11:52]
제가 시도해볼 프롬프트는 '만화 페이지를 만들어
[11:55]
상대성 이론을 설명하는 망가를 그려주세요
[11:57]
재미있게 만들어보죠' 입니다
[11:59]
모델이 시각적 유머와
[12:01]
단순한 텍스트 유머를 얼마나 잘 이해하나요?
[12:04]
이 프롬프트가 매우 모호하기 때문에
[12:06]
어떤 독특한 결과물이
[12:09]
나올지 보는 것이 흥미로울 것 같아요
[12:11]
모델이 어떤 재미있는 것을 만들어낼지
[12:13]
이것은 정말
[12:15]
모델이 가진 세상에 대한 지식을 활용해서
[12:17]
아마도 프롬프트의 확장된 버전을 작성하고
[12:19]
좋은 이미지를 만들어낼 거예요
[12:21]
하지만 알다시피...
[12:23]
네, 그가 방금 말했듯이
[12:25]
프롬프트의 확장된 버전을 작성한다는 것은
[12:27]
DALL-E와 비슷하게
[12:29]
원래의 매우 광범위한 프롬프트를 가져와서
[12:32]
더 많은 세부 사항을 추가하는 거죠
[12:35]
이는 더 자세한 내용을 얻기 위한
[12:37]
정말 좋은 기술입니다
[12:39]
직접 작성하지 않고도
[12:40]
그리고 보세요, 얼마나 느리게 진행되는지
[12:43]
정말 천천히 진행되고 있네요
[12:46]
이 이미지들은 이전의
[12:47]
이미지 생성보다 훨씬 느리지만
[12:49]
믿을 수 없을 정도로 더 나은 결과를 보여줍니다
[12:51]
우리는 이 기다림이 정말 가치 있다고 생각해요
[12:53]
시간이 지나면서 더 빨라질 수 있을 거예요
[12:54]
하지만 알다시피, 이것은
[12:58]
품질 대비 시간의 비율이
[13:01]
이미 훌륭하다고 생각합니다
[13:04]
네, 영어뿐만 아니라
[13:07]
다른 언어도 사용하고 있네요
[13:09]
전반적으로
[13:10]
우리는 이 모델이
[13:13]
이미지를 생성하는 것뿐만 아니라
[13:14]
자, 한번 살펴보죠
[13:16]
솔직히 이것은 정말 인상적입니다
[13:20]
여기 아인슈타인이 있고, 상대성 이론에 대해
[13:22]
모든 텍스트가 완벽해 보이네요
[13:26]
자, 유머를 한번 보죠
[13:29]
"빨리 움직이나요? 길이가 수축되죠. E=MC², 상대적으로 재미있지 않나요?"
[13:33]
AI가 아직 완벽하게 유머러스하진 않지만
[13:36]
시도는 했네요, 이해는 됩니다만
[13:39]
전반적으로 이미지는 정말 놀랍습니다
[13:42]
좋아요, 다음으로는
[13:44]
매직 더 개더링 스타일의 카드를
[13:47]
자신들의 반려동물로 만들고
[13:49]
능력치도 추가할 수 있다고 하네요
[13:51]
그래서 제가 들고 있는 이 카드는
[13:53]
Sora 론칭 때 받은 것인데
[13:55]
같은 스타일로 새로운 것을 디자인하면
[13:57]
정말 멋질 것 같아요
[13:59]
모든 이미지 생성을 위해서
[14:02]
오늘 아침에 사진을 찍어왔어요
[14:04]
이건 생성된 이미지가 아닙니다.
[14:07]
Sora 출시 때 배포한 실제 카드입니다.
[14:09]
그리고 나서
[14:12]
그는 별도로 자신의 반려견
[14:14]
사진을 올렸고 이걸 사용할 건데
[14:15]
거대한 고양이 왕 대신
[14:17]
제 강아지 산지를
[14:19]
주인공으로 넣고 싶습니다.
[14:21]
이게 제 강아지 사진인데
[14:24]
귀엽죠. 그리고 카드에 넣고 싶은
[14:28]
몇 가지 세부 사항도 포함했어요.
[14:30]
모델명과 연도,
[14:32]
강조하고 싶은 능력치도 있고
[14:34]
산지의 체중과 키도 넣었습니다.
[14:36]
모델이 어떻게 만들어내는지 봅시다.
[14:39]
왜 거대 고양이 왕이 Sora인지는 모르겠지만
[14:41]
이 트레이딩 카드는 전문 디자이너가
[14:45]
디자인한 것 같아요.
[14:47]
우리 모델로 이런 걸
[14:49]
실제로 만들 수 있다면 놀라울 것 같아요.
[14:51]
네, 우리 모델이 텍스트 렌더링에서
[14:54]
많이 발전했다고 생각합니다.
[14:55]
이렇게 자세한 지시사항으로
[14:58]
얼마나 잘 만들어내는지 보면 재미있을 것 같네요.
[15:01]
원본 카드를 볼 수 있을까요?
[15:04]
네, 다시 시간을 채우고 있네요.
[15:05]
너무 느려서 영상을 빨리 감기할게요.
[15:07]
자, 카드가 나왔습니다.
[15:09]
원본 카드를 보면 상단의 텍스트가
[15:12]
솔직히 그렇게 좋아 보이지는 않아요.
[15:14]
이미지 위에 텍스트를 덧붙인 것처럼 보이지만
[15:17]
다른 부분들은 다 잘 나왔어요.
[15:18]
다른 모든 텍스트는
[15:20]
실제 카드에 써있는 것처럼 보이고
[15:21]
여기 생성형 AI 이미지 모델이라고 되어있고
[15:25]
아래의 모든 속성값들도 잘 보이고
[15:27]
텍스트도 잘 나왔어요.
[15:30]
그리고 스카프를 한 강아지 사진도
[15:33]
아주 멋지게 나왔네요. 다음으로
[15:36]
이 출시를 기념하는 코인을 만들 건데
[15:39]
오늘 출시된 참고 이미지들을
[15:42]
실제로 포함시킬 거예요.
[15:44]
여기 카드가 있고, 만화도 있고
[15:47]
기타 등등이요. 자, 영상을
[15:49]
빨리 감기했는데, 실제 코인이 나왔네요.
[15:53]
정말 잘 나왔어요. 올바른 부분이 돌출되어 있고
[15:55]
이 버튼도 실제로 돌출되어 보이고
[15:57]
모든 텍스트가 정확해요.
[16:01]
배경에 있는 작은 스피커도
[16:03]
보이고, 텍스트와
[16:05]
아인슈타인 E=MC² 등도 잘 보이네요.
[16:09]
그녀가 말하길
[16:10]
코인을 뒤집어서
[16:12]
뒷면이 어떨지
[16:13]
상상해볼 수도 있대요. 자, 라이브 스트림은 여기까지하고
[16:15]
몇 가지 예시를 보여드릴게요.
[16:17]
닭이 오리를 타고, 오리는 개를 타고, 개는
[16:19]
말을 타고 있는 모습입니다. 제가 입력한 프롬프트에요.
[16:22]
정말 잘 나왔고 단순히 이미지를
[16:24]
만드는 것을 넘어서서
[16:27]
꽤 복잡한 프롬프트를
[16:29]
정확히 이해했어요. 그리고 제가
[16:32]
초현실적으로 만들어달라고 했더니
[16:34]
이렇게 나왔는데, 정말 환상적이에요.
[16:37]
사실 말에 비해 개가
[16:40]
엄청 큰 개일 것 같고, 그러면
[16:43]
거대한 오리가 되고, 결국
[16:46]
거대한 닭이 되겠지만, 그것 말고는
[16:47]
모든 게 믿을 수 없을 정도로 사실적이에요.
[16:50]
자, 여러분들이 제 썸네일 사진마다
[16:52]
항상 두통이 있는 것처럼 보인다고 생각하시죠?
[16:55]
그래서 그 썸네일 표정을 가지고
[16:57]
애니메이션으로 만들어달라고 했어요.
[16:58]
과장된 애니메이션으로 바뀌었는데요
[17:00]
정말 멋지게 나왔지만
[17:02]
너무 과장되어서
[17:04]
"원본과 더 비슷하게 만들어줘"라고 했어요
[17:07]
그랬더니 이렇게 나왔는데 다시 한번
[17:09]
정말 멋지죠. 제 눈 색깔도 맞고
[17:11]
머리 색도 맞고 수염도 약간 있고
[17:14]
셔츠도 정확하고 속옷도 맞네요
[17:17]
실제로는 단추가 없는데
[17:19]
원본 이미지에서는 그냥 일반 셔츠인데
[17:21]
단추를 추가했네요, 괜찮습니다
[17:23]
여기 제 배경이 있는 다른 사진인데
[17:25]
배경을 제거해달라고 했더니
[17:27]
이렇게 나왔어요
[17:29]
배경은 제거됐지만 제 얼굴이
[17:32]
굉장히 이상해 보이네요. 마치
[17:35]
에어브러시로 처리한 것처럼 보이고
[17:37]
별로 좋아 보이지는 않네요
[17:39]
그래도 배경은 제거됐죠. 그 다음엔
[17:41]
이걸 애니메이션으로 바꿔달라고 했더니 정말 멋지게 나왔어요
[17:44]
이미지 편집이 가능하다는 걸 기억하세요
[17:45]
강아지 이미지를 만들어달라고 했는데
[17:47]
완벽하게 나왔어요. AI가 만든 건지
[17:49]
전혀 알아볼 수가 없을 정도예요
[17:51]
그 다음엔 강아지에게 실제같은 안경을 씌워달라고 했더니
[17:53]
코가 안경 렌즈를 살짝 가리는 게
[17:56]
보이시죠
[17:58]
귀 위치는 좀 더 나았을 수도 있지만
[18:01]
그래도 아주 잘 나왔어요
[18:02]
그리고 이것 좀 보세요
[18:05]
강아지를 무서워 보이게 해달라고 했더니
[18:07]
주름진 코에 이빨을 드러내고
[18:10]
눈도 이제 더 화난 것처럼 보이고
[18:13]
물론 안경도 그대로 있죠
[18:14]
정말 멋지고 아주 쉽게 만들 수 있어요
[18:18]
제 사업체 포워드 퓨처의 로고도
[18:20]
만들어달라고 했는데
[18:23]
텍스트에서 실수를 했어요
[18:25]
가장 쉬운 부분인 '포워드 퓨처'인데
[18:28]
"다른 걸로 가능한 창의적으로 해줘"라고 했더니
[18:30]
이번엔 실수하지 않았어요
[18:31]
여기 포워드 퓨처가 있는데
[18:33]
그렇게 창의적이지는 않아서
[18:35]
"100배 더 창의적으로 해줘"라고 했더니
[18:37]
이렇게 나왔네요. 정말 멋진 것 같아요
[18:39]
발표 블로그에서 보여준
[18:40]
예시들이 얼마나 실제같은지 보세요
[19:43]
그런 의미있는 말들이 있었죠.
[19:46]
정말 정말 뛰어난 성능으로
[19:49]
이미지를 생성하는데 매우 정확했습니다.
[19:51]
여기 만화 스트립을 볼까요? 4컷 만화를 만들어달라고 했는데
[19:53]
테두리에 여백을 넣어서 만들었어요.
[19:55]
작은 달팽이가 고급 자동차 매장 카운터에 있고
[19:58]
판매원이 책상 너머로 몸을 깊게 숙여
[20:00]
달팽이를 바라보고 있는 장면이에요.
[20:03]
원하는 모든 것을 완벽하게 표현했고
[20:05]
모든 텍스트도 아름답고
[20:08]
스타일링도 정말 아름답게 표현됐어요.
[20:10]
멋진 인포그래픽이 필요하다면
[20:13]
이것도 한번 보세요.
[20:15]
프리즘 실험을 보여주는데요, 빛이 들어와서
[20:17]
굴절되어 다양한 색으로 나뉘면서
[20:19]
전체 색상 스펙트럼이 나타나요.
[20:22]
단 하나의 프롬프트만으로
[20:24]
이렇게 멋진 것들을 만들어낼 수 있죠.
[20:27]
이제 이것을 보세요. 방금 본 것과 동일한 내용을
[20:30]
워싱턴 스퀘어 파크의 노트패드에
[20:33]
옮겨놓았는데 정말 인상적이죠.
[20:36]
이번엔 같은 장면에 득의양양한 표정의
[20:39]
젊은 아이작 뉴턴이 프리즘과 함께
[20:41]
테이블에 앉아있네요.
[20:43]
얼굴이 좀 부자연스럽긴 한데
[20:45]
마치 밀랍 인형 같아 보이지만
[20:47]
전체적으로는 아름답게 표현됐어요.
[20:50]
이건 꽤 유명한 사진인데
[20:51]
마녀들이 없는 버전이에요.
[20:53]
이건 매우 복잡한
[20:55]
주차 규정이 있는 상황을 보여주는 사진이었는데
[20:59]
GPT-4가 처음 이미지를 다룰 때
[21:01]
아마도 GPT-4.0이었을 거예요.
[21:04]
"여기 언제 주차할 수 있나요?"라고 물었더니
[21:05]
정확히 파악했었죠.
[21:07]
이제는 여기에 이 규정을 읽고 있는 마녀 둘을 추가했어요.
[21:10]
여기 메뉴 컨셉도 있는데 정말 멋지죠.
[21:14]
다시 한 번 말씀드리지만, 이건 정말 유용해요.
[21:17]
어떤 분야의 전문가이든
[21:19]
레스토랑을 운영하시거나, 썸네일을 만들거나
[21:21]
웹사이트를 만들거나 사진작가라면
[21:23]
이런 미묘한 변화를 줄 수 있고
[21:26]
완전히 새로운 것을 만들 수 있어요.
[21:27]
정말 멋지죠. 문맥 학습도 가능해서
[21:30]
보시다시피 여러 예시를 주면
[21:32]
작은 이미지들이긴 하지만
[21:34]
원하는 스타일의 이미지를 보여주고
[21:37]
그다음에 새로운 버전의
[21:40]
설명을 주면
[21:41]
새로운 이미지를 만들어내는데
[21:43]
거의 동일한 스타일로 만들어냅니다.
[21:45]
여기 파란색 전기톱의
[21:47]
포토리얼리스틱한 이미지가 있는데 꽤 괜찮죠.
[21:49]
이 전기톱으로 할머니가 추수감사절 저녁 식사 테이블에서
[21:52]
칠면조를 자르는 광고를 만들어달라고 했더니
[21:54]
캐치프레이즈까지 넣어서 만들어줬어요.
[21:56]
이 장면을 DSLR로 찍은 사진으로 바꿔달라고 했는데
[21:59]
원본은 오래된 그림이나 스케치였죠.
[22:02]
그런데 보세요, 실제 사진처럼 아름답게 변했어요.
[22:06]
마찬가지로 이 건축물 그림도
[22:08]
사진으로 바꿔달라고 했더니
[22:10]
실제 사진처럼 만들어줬어요.
[22:12]
몇 가지 더 볼까요?
[22:14]
여기 카를 마르크스가 몰 오브 아메리카 주차장을
[22:17]
서둘러 달리는 모습이 있고
[22:19]
길거리 물웅덩이를 들여다보는 고양이가 있는데
[22:21]
반사된 모습은 호랑이네요. 멋지죠.
[22:22]
이것도 좋은 예시인데요.
[22:26]
20대 초반의 다양한 친구들 넷이
[22:28]
허름한 바에서 찍은 폴라로이드
[22:30]
스타일의 자연스러운 사진을 만들어달라고 했어요.
[22:33]
토론토의 어느 토요일
[22:35]
파머스 마켓의 실제 모습을 생성해달라고 했네요.
[22:37]
2006년 여름의 날짜가 새겨져 있어요.
[22:40]
마치 예전 카메라처럼 날짜가
[22:42]
찍혀있는 흐릿한 아날로그 필름 사진이에요.
[22:45]
조용한 밤 길가에 주차된 차의 모습인데,
[22:48]
한번 보시죠.
[22:50]
이건 재미있네요. 고양이는 전혀 실제같지 않지만
[22:52]
다른 부분들은 꽤 실제처럼 보여요.
[22:54]
이것도 보세요. 우주인 한 명이
[22:56]
거대한 우주정거장 안에서 떠다니며
[22:58]
커다란 캔버스에
[22:59]
소용돌이치는 은하수를 그리고 있어요.
[23:01]
여기는 바다를 달리는 말이 있고,
[23:03]
이건 꽤나 사실적인 수중 장면인데
[23:05]
버려진 지하철 차량의 창문으로
[23:07]
돌고래들이 헤엄치고 있어요.
[23:09]
완벽하진 않죠. 한번 제약사항들을
[23:12]
살펴보겠습니다.
[23:14]
먼저 크롭핑 문제가 있는데, 전체 이미지를
[23:16]
볼 수 없어요. 마치 더 있어야 할 것 같은데
[23:18]
없는 것처럼 보입니다. 또한
[23:20]
다른 텍스트 모델처럼
[23:22]
환각 현상도 있어요.
[23:24]
이미지 생성 시 특히 맥락이 부족한
[23:26]
프롬프트에서는 정보를 만들어내기도 합니다. 결합 문제도 있어서
[23:29]
지식 기반에 의존하는 이미지를 생성할 때
[23:32]
10-20개 이상의
[23:33]
서로 다른 개념을 정확하게 표현하는 데
[23:35]
어려움이 있을 수 있어요.
[23:38]
철자가 틀리거나
[23:40]
같은 실수를 반복하기도 하죠.
[23:44]
네, 정확하지 않아요. 정밀한 그래프 표현도
[23:46]
어렵다고 생각됩니다.
[23:48]
다국어 텍스트 렌더링에서
[23:50]
한글도 아직 문제가 있어요.
[23:52]
모델이 라틴어가 아닌 언어를
[23:54]
렌더링하는 데 어려움을 겪고
[23:57]
글자가 부정확하거나 환각 현상이 일어나요.
[23:59]
작은 텍스트가 있는 밀도 높은 정보의
[24:02]
편집 정밀도도 문제죠. 확실히 완벽하진 않지만
[24:05]
정말 멋진 기술이에요.
[24:08]
한번 살펴보시고 사용해보세요.
[24:09]
여러분의 생각도 들려주세요.
[24:11]
이 영상이 마음에 드셨다면
[24:12]
좋아요와 구독 부탁드립니다.
[24:14]
다음 영상에서 만나요.