[00:00]
아마 여러분은 이 이미지를 기억하실 겁니다.
[00:02]
이것은 GPT-4가 생성한 것으로 알려져 있는데,
[00:05]
약 1년 전 Greg Brockman이 게시했던 것입니다.
[00:08]
그는 이것이 GPT-4로 생성된 이미지라고 했죠.
[00:12]
우리는 아직도 이 기능이 공개되기를 기다리고 있는데,
[00:15]
구글이 방금 네이티브 이미지 생성을 지원하는
[00:18]
제미나이 2.0 플래시를 출시했습니다.
[00:21]
그리고 이것은 제가 본 것 중
[00:23]
가장 놀라운 것 중 하나입니다.
[00:25]
저는 그 정확한 이미지를 가져와서
[00:29]
제미나이 2.0 플래시 실험판에 올렸습니다.
[00:32]
그리고 화이트보드에 있는
[00:34]
모든 텍스트를 포함해서
[00:36]
이미지를 자세히 설명해달라고 했고,
[00:39]
텍스트-투-이미지 생성기에서 사용할 수 있는
[00:42]
정확히 같은 이미지를 만들 수 있는 프롬프트를 요청했습니다.
[00:45]
여기 AI가 제시한 결과를 보여드리겠습니다.
[00:48]
매우 상세한 설명을 제공했는데,
[00:50]
이미지에 있는 텍스트를 인식하는
[00:53]
OCR 기능이 정말 뛰어났습니다.
[00:55]
그리고 이미지에서 추출한 모든 텍스트를 포함한
[00:59]
프롬프트를 제공했습니다.
[01:01]
이 프롬프트를 다시
[01:03]
제미나이 2.0 플래시에 입력했고,
[01:06]
여기 생성된 결과물이 있습니다.
[01:10]
정확히 같은 텍스트가 포함되어 있는데,
[01:13]
'모달리티 간의 전환'이라는 내용과
[01:16]
'하나의 큰 자동회귀 트랜스포머로
[01:19]
텍스트, 픽셀, 사운드를 직접 모델링한다면
[01:22]
장단점은 무엇일까'라는 내용이 있고,
[01:24]
심지어 계산 그래프도 포함되어 있어
[01:27]
정말 인상적입니다.
[01:29]
제가 본 것 중 가장 놀라운 것 중 하나인데,
[01:31]
OpenAI 로고를 넣지 않고
[01:34]
대신 다른 것을 사람의
[01:37]
등 뒤에 넣었다는 점이 특이합니다.
[01:39]
하지만 더 놀라운 점은
[01:42]
텍스트 설명만으로 이미지를 편집할 수 있다는 것입니다.
[01:45]
저는 'T셔츠 뒷면의 로고를
[01:47]
구글 로고로 바꿔줄 수 있나요?'라고 했고
[01:49]
여기 결과물이 나왔습니다.
[01:52]
로고를 변경했지만,
[01:54]
이미지가 약간 수정된 것 같습니다.
[01:56]
텍스트가 이전만큼 정확하지는 않네요.
[01:59]
하지만 이는 앞으로 몇 번의 반복만으로도
[02:04]
어떤 것들이 가능해질지
[02:06]
잘 보여주는 예시입니다.
[02:08]
이제 우리가 할 것은,
[02:11]
같은 프롬프트를 사용해서
[02:12]
더 많은 맥락을 제공하고
[02:14]
이번에는 사람의 등 뒤에
[02:16]
구글 로고를 넣어달라고 요청해서
[02:18]
어떤 결과가 나오는지 보겠습니다.
[02:21]
꽤 좋은 결과물이 나왔네요.
[02:24]
텍스트를 보면 '모달리티 간의 전환,
[02:27]
하나의 큰 자동회귀 트랜스포머로
[02:29]
직접 모델링하면'이라는 내용이 있고
[02:32]
실제로 이 사람의 셔츠 뒷면에
[02:34]
구글 로고가 있는 것을 볼 수 있습니다.
[02:36]
정말 인상적이죠.
[02:38]
이는 텍스트 설명으로 이미지를 생성할 수 있을 뿐만 아니라
[02:42]
텍스트 설명으로
[02:44]
이미지를 편집할 수도 있다는 것을 보여줍니다.
[02:48]
발표 페이지에 많은 예시들이 있지만,
[02:51]
제가 직접 만든 몇 가지 예시를
[02:53]
보여드리겠습니다.
[02:55]
가장 좋은 점은 API를 통해
[02:58]
이 기능을 사용할 수 있고
[03:00]
무료로 이용 가능하다는 것입니다.
[03:04]
다른 예시를 보여드리기 전에,
[03:06]
제미나이 플래시에서 어떻게 사용하는지
[03:08]
보여드리겠습니다. 구글 AI 스튜디오에 가서
[03:12]
제미나이 2.0 플래시 실험판을 선택하면
[03:15]
새로운 출력 형식을 보실 수 있습니다.
[03:17]
텍스트와 함께 선택하시면 됩니다.
[03:21]
또한 이미지와 함께 오디오도 생성할 수 있습니다.
[03:24]
여기 오펜하이머와 알버트 아인슈타인의 사진이 있는데,
[03:26]
흑백 사진입니다.
[03:29]
이 이미지에 색을 입혀보겠습니다.
[03:31]
어떤 결과가 나오는지 보겠습니다.
[03:33]
자, 여기 컬러 결과물이 나왔네요.
[03:35]
원본 이미지의 구조를 잘 유지했고
[03:38]
색감도 매우 자연스럽습니다.
[03:40]
컬러링이 정말 훌륭해 보이네요.
[03:42]
이제 실제로 이미지 속 인물을
[03:45]
인식할 수 있는지 확인해보겠습니다.
[03:47]
이미지 속 인물이 누구인지 물어보겠습니다.
[03:49]
어떤 응답이 오는지 보겠습니다.
[03:54]
응답에 따르면 이미지 속 인물은
[03:56]
알버트 아인슈타인과
[03:59]
그리고
[04:00]
로버트
[04:01]
오펜하이머라고 합니다. 이것은 잘 알려진
[04:04]
두 저명한 물리학자의 사진이라고 하네요.
[04:05]
꽤 정확한데, 이제 한 가지 더 시도해보겠습니다.
[04:08]
오펜하이머의 머리에 모자를 씌워달라고 해보겠습니다.
[04:12]
이 명령어를 실행해보겠습니다.
[04:14]
프롬프트를 실행하고 결과를 기다려보죠.
[04:17]
이번에는 오펜하이머 대신 아인슈타인의 머리에 모자를 씌웠네요.
[04:21]
하지만 이전에 같은 프롬프트를 사용했을 때는
[04:24]
실제로 오펜하이머의 머리에
[04:26]
모자를 잘 씌웠었습니다.
[04:28]
AI가 아직 완벽해지려면 시간이 더 필요하네요.
[04:31]
이제 더 놀라운 기능들을 보여드리겠습니다.
[04:33]
이 이미지를 참조 이미지로 제공하고
[04:36]
이 스타일로 강아지 이미지를 만들어달라고 했습니다.
[04:38]
여기 강아지 이미지가 나왔네요.
[04:41]
제시된 스타일을 이해하고
[04:43]
그 스타일로 이미지를 재생성할 수 있다는 것이
[04:45]
정말 인상적입니다.
[04:48]
생성된 모든 이미지에는
[04:50]
작은 워터마크가 있어서
[04:53]
이것이 AI가 생성한 이미지라는 것을
[04:56]
쉽게 알 수 있습니다.
[04:59]
물론
[05:00]
쉽게 마스킹할 수도 있죠.
[05:02]
이제 트위터나 X에서 본
[05:04]
다른 예시들도 시도해보겠습니다.
[05:07]
여기 한 이미지를 제공하고
[05:10]
옆모습을 만들어달라고 요청했습니다.
[05:13]
여기 결과물이 나왔는데
[05:16]
확실히 원본 이미지의 인물과
[05:18]
이 사람 사이에는 분명한 유사성이 있습니다.
[05:20]
심지어 둘 다 입고 있는 스웨터도
[05:22]
매우 비슷하네요.
[05:26]
하지만 더 놀라운 기능이 있습니다.
[05:28]
이 사람의 전신이 보이도록
[05:31]
확대된 그림을 그려달라고 했더니
[05:33]
여기 결과물이 나왔는데
[05:36]
유사성이 확실히 보이고
[05:39]
티셔츠도 그대로 유지했으며 전신도 잘 표현했습니다.
[05:43]
이 트위터 사용자는
[05:45]
제미나이 플래시의 이미지 생성 기능을 사용한
[05:48]
정말 놀라운 예시들을 보여주었고
[05:51]
저도 그중 몇 가지를
[05:53]
시도해보겠습니다. 여기 하나가 있는데
[05:55]
이 두 이미지를 합치려고 시도했습니다.
[05:58]
두 이미지를 하나로 제공하고
[06:01]
이 여성이 장난감 자동차를 들고 있는
[06:03]
초현실적인 이미지를 만들어달라고
[06:05]
요청했습니다.
[06:09]
어떤 결과가 나올지 보겠습니다.
[06:12]
자, 여기 여성이 자동차를 들고 있네요.
[06:15]
정말 인상적입니다. 다른 모델로도
[06:17]
이런 작업이 가능하지만
[06:19]
컨트롤넷같은 것이 필요하고
[06:21]
매우 복잡한 워크플로우가 필요할 겁니다.
[06:24]
하지만 이건 정말 놀랍습니다.
[06:28]
이 모델의 가장 인상적인 점 중 하나는
[06:30]
캐릭터의 일관성입니다.
[06:33]
작은 변화는 있지만 여전히
[06:35]
이 모델이 이미지를 입력으로 처리하고
[06:38]
생성할 수 있다는 점에서
[06:40]
매우 인상적이라고 생각합니다. 예를 들어
[06:42]
표정을 변경하고
[06:45]
웃는 표정을 만들고 안경을 추가했는데
[06:48]
이 두 이미지 사이의 일관성이
[06:51]
정말 뛰어납니다. 그리고 머리 색을
[06:54]
변경하고 배경을 추가하는 것도
[06:58]
매우 깔끔하게 처리됩니다. 이 모든 것을
[07:01]
원하는 내용을 설명하는 것만으로도 할 수 있고
[07:05]
모델이 이미지를
[07:07]
자동으로 편집해 줍니다. 시작하는 방법은
[07:10]
완전히 무료로
[07:12]
Google AI 스튜디오에서 사용할 수 있으며
[07:15]
API를 통해서도 제공됩니다.
[07:18]
Gemini Flash 모델을 사용해
[07:22]
API를 통해 이미지를 생성할 수 있으며
[07:25]
Google의 새로운 API 클라이언트를 사용하면 됩니다.
[07:27]
모델의 이름만 제공하면 되는데
[07:29]
Gemini 2.0 Flash experimental을
[07:32]
사용하고, 프롬프트와
[07:35]
원하는 출력 응답을 지정하면 됩니다.
[07:37]
이미지를 원한다면 이미지
[07:40]
모달리티를 응답에
[07:42]
추가해야 합니다. 현재 Google은 최전선에 있으며
[07:45]
Google이 작업 중인 다른 기능들도
[07:47]
정말 놀랍습니다.
[07:51]
곧 다른 기업들과 차별화될 것
[07:53]
이라고 생각합니다.
[07:55]
이 외에도 Google은
[07:57]
Gemma 3라는 새로운 오픈 웨이트 모델을 출시했는데
[08:01]
이것도 멀티모달 특성을 가지고 있습니다.
[08:04]
이 제품군에는 4개의 모델이 있으며
[08:06]
1억부터 시작해서
[08:08]
270억까지 다양한 크기가 있고
[08:10]
모든 모델의 컨텍스트 윈도우는
[08:12]
1억 모델을 제외하고 12만 8천 토큰입니다.
[08:16]
1억 모델을 제외한 모든 모델이 다국어를 지원하며
[08:18]
이미지와 비디오 이해 기능도 갖추고 있습니다.
[08:22]
270억 모델은 그 크기에서
[08:25]
최고의 성능을 보여주며
[08:27]
실제로
[08:30]
현존하는 최고의 오픈 웨이트 모델들과 비교했을 때
[08:33]
chatbot Arena 리더보드에서
[08:35]
DeepSeek R1에 이어 2위를 기록했습니다.
[08:40]
Gemma 2에 대해서는
[08:42]
별도의 영상을 만들 예정이니
[08:44]
오픈 웨이트 모델에 관심 있으시다면
[08:46]
채널 구독을 해주시기 바랍니다.
[08:49]
하지만 오늘의 소식은 여기서 끝이 아닙니다.
[08:53]
Google은 Gemini 로보틱스도 발표했는데
[08:56]
이는 Gemini 2 모델을 기반으로 하지만
[09:00]
로보틱스에 특화되어 있습니다.
[09:02]
이 모든 것이 Gemini의
[09:05]
멀티모달 기능으로 구현됩니다.
[09:08]
그들이 공유한
[09:10]
흥미로운 예시들이 많이 있는데
[09:12]
관심 있으시다면 블로그 포스트 링크를
[09:14]
첨부해 두겠습니다. 전반적으로 Gemini는
[09:18]
Google의 AI 전략의 핵심 요소가 되어가고 있으며
[09:22]
Gemini Pro와 같은 최첨단 모델들,
[09:25]
Gemini Flash, 그리고
[09:28]
Gemma와 같은 오픈 웨이트 모델들과 함께
[09:31]
Google이 현재 선두를 달리고 있다고
[09:34]
생각합니다. 특히
[09:36]
모델의 사용성 측면에서는
[09:38]
가장 좋은 모델은 아닐 수 있지만
[09:42]
가장 유용한 모델을 보유하고 있습니다.
[09:45]
Google의 제품을 보면
[09:47]
다양한 옵션과 다양한 가격대를
[09:51]
모든 애플리케이션에 제공하고 있죠.
[09:54]
항상 사고하는 모델이 필요한 것이 아니라
[09:57]
때로는 데이터를 처리하거나
[10:00]
결정을 내릴 수 있는 적당한 수준의
[10:02]
모델이 필요할 뿐입니다. 이런 점에서
[10:06]
Google이 다른
[10:08]
기초 모델 개발사들보다
[10:11]
우위를 가질 수 있다고 봅니다.
[10:13]
이 새로운 기능을 살펴보고 사용해 보시고
[10:17]
이 네이티브 이미지 생성으로
[10:19]
어떤 것을 만드실 수 있는지 알려주세요.
[10:23]
이 영상이 도움이 되었길 바랍니다.
[10:24]
시청해 주셔서 감사하며
[10:26]
다음 영상에서 만나요.