구글 제미니 2.0: AI 이미지 생성 및 편집, 혁신적이다!

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

영상은 구글의 최신 Gemini 2.0 Flash가 제공하는 이미지 생성 및 편집 기능을 실제 데모를 통해 소개합니다. GPT-40 이미지 사례를 언급하며, 모델이 이미지 내 텍스트를 정밀하게 추출(OCR)하고 이를 기반으로 프롬프트를 생성해 동일 이미지를 재생성하는 과정을 보여줍니다. 또한 텍스트 설명만으로 로고 교체, 색채 보정, 스타일 변환 등 다양한 이미지 편집 작업이 가능함을 시연합니다. 마지막으로 API 활용법과 Gemini Robotics, Gat 3 등 구글의 AI 멀티모달 전략에 대해 논의합니다.

주요 키워드

Gemini 2.0 AI 이미지 생성 텍스트 기반 편집 OCR API 멀티모달 Gemini Robotics Gat 3 스타일 변환

하이라이트

  • 🔑 GPT-40 이미지 사례를 통해 호기심을 자극하며 Gemini 2.0 Flash의 출현을 알림.
  • ⚡️ 모델이 이미지 내 텍스트(OCR)를 정밀하게 추출하고, 이를 프롬프트로 전환해 동일 이미지를 재생성하는 과정을 시연함.
  • 🚀 텍스트 기반 이미지 편집 기능으로 T-셔츠 로고 교체, 색상 보정 등 다양한 변형이 가능함을 보여줌.
  • 🌟 인물 인식, 측면도, 전체 신체 이미지 생성 등 세밀한 편집 및 스타일 변환을 통해 일관된 캐릭터 표현을 검증함.
  • 📌 Google AI Studio와 API를 통한 손쉬운 Gemini 2.0 기능 접근성 및 활용 방안을 강조함.
  • 🚀 Gemini Robotics와 Gat 3 등 추가 모델 및 구글의 멀티모달 전략을 언급하며 향후 발전 가능성을 시사함.

용어 설명

Gemini 2.0 Flash

구글의 최신 멀티모달 AI 모델로, 텍스트와 이미지를 동시에 처리하며 생성 및 편집 기능을 제공함.

텍스트-이미지 프롬프트

이미지 생성에 사용되는 상세한 텍스트 설명으로, 모델이 이를 기반으로 이미지를 재현함.

OCR

이미지 내의 텍스트를 인식하여 추출하는 기술로, 모델이 이미지의 세부 정보를 분석하는 데 사용됨.

API

응용 프로그램 인터페이스로, 외부 애플리케이션에서 Gemini 2.0의 기능을 손쉽게 통합하고 활용할 수 있게 해줌.

멀티모달

텍스트, 이미지, 오디오 등 다양한 데이터 유형을 동시에 처리할 수 있는 기술을 의미함.

Open Weight Models

모델의 가중치가 공개되어 사용자가 직접 확인하고 활용할 수 있는 AI 모델을 의미함.

[00:00:00] 도입 및 GPT-40 이미지 소개

GPT-40 이미지 언급과 함께 Gemini 2.0 Flash의 출현 배경 및 핵심 기능을 소개함.

GPT-4로 생성된 것으로 알려진 이미지를 소개하며, Greg Brockman이 1년 전에 공개했던 내용을 설명합니다.
구글이 새로 출시한 제미나이 2.0 플래시의 네이티브 이미지 생성 기능을 소개하고, 기존 이미지를 이용한 테스트를 시작합니다.
[00:00:29] 텍스트 추출과 프롬프트 생성

이미지 내 텍스트를 정밀하게 추출(OCR)하고, 이를 기반으로 재현 가능한 프롬프트를 생성하는 과정을 시연함.

제미나이 2.0 플래시에 이미지를 입력하고 상세 설명과 재생성 프롬프트를 요청하여 놀라운 결과를 얻습니다.
[00:01:39] 텍스트 기반 이미지 편집

텍스트 설명만으로 이미지 내 로고 교체, 수정 등 다양한 편집 작업을 수행하는 기능을 데모함.

이미지 편집 기능을 시연하며, T셔츠 로고를 구글 로고로 변경하는 실험을 진행합니다.
제미나이 플래시의 실제 사용 방법과 API 활용 가능성에 대해 설명합니다.
이미지와 오디오 생성 기능을 소개하며, 오펜하이머와 아인슈타인의 흑백 사진을 컬러로 변환하는 실험을 시작합니다.
[00:03:36] 스타일 변환 및 이미지 합성

색상 보정, 측면도 및 전체 신체 이미지 생성 등 다양한 스타일 변환과 이미지 합성을 통해 모델의 응용력을 확인함.

컬러링 결과가 매우 자연스럽고, AI가 이미지 속 인물을 정확하게 인식하여 아인슈타인과 오펜하이머를 식별합니다.
이미지 편집 실험에서 모자를 추가하는 작업을 시도했으나, AI가 의도와 다르게 아인슈타인의 머리에 모자를 씌우는 실수를 보여줍니다.
참조 이미지의 스타일을 이해하고 그 스타일로 새로운 강아지 이미지를 생성하는 능력을 시연합니다.
인물 이미지의 옆모습 생성과 전신 확장 등 더 복잡한 이미지 조작 실험을 진행합니다.
두 개의 이미지를 조합하여 여성이 장난감 자동차를 들고 있는 새로운 이미지를 생성하는 고급 기능을 보여줍니다.
[00:06:28] API 활용 및 구글 AI 전략

Google AI Studio와 API 활용법, 그리고 Gemini Robotics, Gat 3 등 구글의 멀티모달 AI 전략 및 미래 전망을 논의함.

AI 모델의 캐릭터 일관성 유지 능력을 강조하며 마무리합니다.
Gemini 모델의 이미지 처리 및 생성 능력에 대한 설명과 예시를 보여줍니다.
Google AI 스튜디오와 API를 통한 Gemini Flash 모델 사용 방법을 설명합니다.
Google의 새로운 Gemma 3 오픈 웨이트 모델의 특징과 성능에 대해 소개합니다.
Gemini 로보틱스 발표와 멀티모달 기능의 활용 사례를 설명합니다.
Google의 AI 전략과 모델의 실용성, 다양한 선택지 제공의 장점을 분석합니다.
아마 여러분은 이 이미지를 기억하실 겁니다.
이것은 GPT-4가 생성한 것으로 알려져 있는데,
약 1년 전 Greg Brockman이 게시했던 것입니다.
그는 이것이 GPT-4로 생성된 이미지라고 했죠.
우리는 아직도 이 기능이 공개되기를 기다리고 있는데,
구글이 방금 네이티브 이미지 생성을 지원하는
제미나이 2.0 플래시를 출시했습니다.
그리고 이것은 제가 본 것 중
가장 놀라운 것 중 하나입니다.
저는 그 정확한 이미지를 가져와서
제미나이 2.0 플래시 실험판에 올렸습니다.
그리고 화이트보드에 있는
모든 텍스트를 포함해서
이미지를 자세히 설명해달라고 했고,
텍스트-투-이미지 생성기에서 사용할 수 있는
정확히 같은 이미지를 만들 수 있는 프롬프트를 요청했습니다.
여기 AI가 제시한 결과를 보여드리겠습니다.
매우 상세한 설명을 제공했는데,
이미지에 있는 텍스트를 인식하는
OCR 기능이 정말 뛰어났습니다.
그리고 이미지에서 추출한 모든 텍스트를 포함한
프롬프트를 제공했습니다.
이 프롬프트를 다시
제미나이 2.0 플래시에 입력했고,
여기 생성된 결과물이 있습니다.
정확히 같은 텍스트가 포함되어 있는데,
'모달리티 간의 전환'이라는 내용과
'하나의 큰 자동회귀 트랜스포머로
텍스트, 픽셀, 사운드를 직접 모델링한다면
장단점은 무엇일까'라는 내용이 있고,
심지어 계산 그래프도 포함되어 있어
정말 인상적입니다.
제가 본 것 중 가장 놀라운 것 중 하나인데,
OpenAI 로고를 넣지 않고
대신 다른 것을 사람의
등 뒤에 넣었다는 점이 특이합니다.
하지만 더 놀라운 점은
텍스트 설명만으로 이미지를 편집할 수 있다는 것입니다.
저는 'T셔츠 뒷면의 로고를
구글 로고로 바꿔줄 수 있나요?'라고 했고
여기 결과물이 나왔습니다.
로고를 변경했지만,
이미지가 약간 수정된 것 같습니다.
텍스트가 이전만큼 정확하지는 않네요.
하지만 이는 앞으로 몇 번의 반복만으로도
어떤 것들이 가능해질지
잘 보여주는 예시입니다.
이제 우리가 할 것은,
같은 프롬프트를 사용해서
더 많은 맥락을 제공하고
이번에는 사람의 등 뒤에
구글 로고를 넣어달라고 요청해서
어떤 결과가 나오는지 보겠습니다.
꽤 좋은 결과물이 나왔네요.
텍스트를 보면 '모달리티 간의 전환,
하나의 큰 자동회귀 트랜스포머로
직접 모델링하면'이라는 내용이 있고
실제로 이 사람의 셔츠 뒷면에
구글 로고가 있는 것을 볼 수 있습니다.
정말 인상적이죠.
이는 텍스트 설명으로 이미지를 생성할 수 있을 뿐만 아니라
텍스트 설명으로
이미지를 편집할 수도 있다는 것을 보여줍니다.
발표 페이지에 많은 예시들이 있지만,
제가 직접 만든 몇 가지 예시를
보여드리겠습니다.
가장 좋은 점은 API를 통해
이 기능을 사용할 수 있고
무료로 이용 가능하다는 것입니다.
다른 예시를 보여드리기 전에,
제미나이 플래시에서 어떻게 사용하는지
보여드리겠습니다. 구글 AI 스튜디오에 가서
제미나이 2.0 플래시 실험판을 선택하면
새로운 출력 형식을 보실 수 있습니다.
텍스트와 함께 선택하시면 됩니다.
또한 이미지와 함께 오디오도 생성할 수 있습니다.
여기 오펜하이머와 알버트 아인슈타인의 사진이 있는데,
흑백 사진입니다.
이 이미지에 색을 입혀보겠습니다.
어떤 결과가 나오는지 보겠습니다.
자, 여기 컬러 결과물이 나왔네요.
원본 이미지의 구조를 잘 유지했고
색감도 매우 자연스럽습니다.
컬러링이 정말 훌륭해 보이네요.
이제 실제로 이미지 속 인물을
인식할 수 있는지 확인해보겠습니다.
이미지 속 인물이 누구인지 물어보겠습니다.
어떤 응답이 오는지 보겠습니다.
응답에 따르면 이미지 속 인물은
알버트 아인슈타인과
그리고
로버트
오펜하이머라고 합니다. 이것은 잘 알려진
두 저명한 물리학자의 사진이라고 하네요.
꽤 정확한데, 이제 한 가지 더 시도해보겠습니다.
오펜하이머의 머리에 모자를 씌워달라고 해보겠습니다.
이 명령어를 실행해보겠습니다.
프롬프트를 실행하고 결과를 기다려보죠.
이번에는 오펜하이머 대신 아인슈타인의 머리에 모자를 씌웠네요.
하지만 이전에 같은 프롬프트를 사용했을 때는
실제로 오펜하이머의 머리에
모자를 잘 씌웠었습니다.
AI가 아직 완벽해지려면 시간이 더 필요하네요.
이제 더 놀라운 기능들을 보여드리겠습니다.
이 이미지를 참조 이미지로 제공하고
이 스타일로 강아지 이미지를 만들어달라고 했습니다.
여기 강아지 이미지가 나왔네요.
제시된 스타일을 이해하고
그 스타일로 이미지를 재생성할 수 있다는 것이
정말 인상적입니다.
생성된 모든 이미지에는
작은 워터마크가 있어서
이것이 AI가 생성한 이미지라는 것을
쉽게 알 수 있습니다.
물론
쉽게 마스킹할 수도 있죠.
이제 트위터나 X에서 본
다른 예시들도 시도해보겠습니다.
여기 한 이미지를 제공하고
옆모습을 만들어달라고 요청했습니다.
여기 결과물이 나왔는데
확실히 원본 이미지의 인물과
이 사람 사이에는 분명한 유사성이 있습니다.
심지어 둘 다 입고 있는 스웨터도
매우 비슷하네요.
하지만 더 놀라운 기능이 있습니다.
이 사람의 전신이 보이도록
확대된 그림을 그려달라고 했더니
여기 결과물이 나왔는데
유사성이 확실히 보이고
티셔츠도 그대로 유지했으며 전신도 잘 표현했습니다.
이 트위터 사용자는
제미나이 플래시의 이미지 생성 기능을 사용한
정말 놀라운 예시들을 보여주었고
저도 그중 몇 가지를
시도해보겠습니다. 여기 하나가 있는데
이 두 이미지를 합치려고 시도했습니다.
두 이미지를 하나로 제공하고
이 여성이 장난감 자동차를 들고 있는
초현실적인 이미지를 만들어달라고
요청했습니다.
어떤 결과가 나올지 보겠습니다.
자, 여기 여성이 자동차를 들고 있네요.
정말 인상적입니다. 다른 모델로도
이런 작업이 가능하지만
컨트롤넷같은 것이 필요하고
매우 복잡한 워크플로우가 필요할 겁니다.
하지만 이건 정말 놀랍습니다.
이 모델의 가장 인상적인 점 중 하나는
캐릭터의 일관성입니다.
작은 변화는 있지만 여전히
이 모델이 이미지를 입력으로 처리하고
생성할 수 있다는 점에서
매우 인상적이라고 생각합니다. 예를 들어
표정을 변경하고
웃는 표정을 만들고 안경을 추가했는데
이 두 이미지 사이의 일관성이
정말 뛰어납니다. 그리고 머리 색을
변경하고 배경을 추가하는 것도
매우 깔끔하게 처리됩니다. 이 모든 것을
원하는 내용을 설명하는 것만으로도 할 수 있고
모델이 이미지를
자동으로 편집해 줍니다. 시작하는 방법은
완전히 무료로
Google AI 스튜디오에서 사용할 수 있으며
API를 통해서도 제공됩니다.
Gemini Flash 모델을 사용해
API를 통해 이미지를 생성할 수 있으며
Google의 새로운 API 클라이언트를 사용하면 됩니다.
모델의 이름만 제공하면 되는데
Gemini 2.0 Flash experimental을
사용하고, 프롬프트와
원하는 출력 응답을 지정하면 됩니다.
이미지를 원한다면 이미지
모달리티를 응답에
추가해야 합니다. 현재 Google은 최전선에 있으며
Google이 작업 중인 다른 기능들도
정말 놀랍습니다.
곧 다른 기업들과 차별화될 것
이라고 생각합니다.
이 외에도 Google은
Gemma 3라는 새로운 오픈 웨이트 모델을 출시했는데
이것도 멀티모달 특성을 가지고 있습니다.
이 제품군에는 4개의 모델이 있으며
1억부터 시작해서
270억까지 다양한 크기가 있고
모든 모델의 컨텍스트 윈도우는
1억 모델을 제외하고 12만 8천 토큰입니다.
1억 모델을 제외한 모든 모델이 다국어를 지원하며
이미지와 비디오 이해 기능도 갖추고 있습니다.
270억 모델은 그 크기에서
최고의 성능을 보여주며
실제로
현존하는 최고의 오픈 웨이트 모델들과 비교했을 때
chatbot Arena 리더보드에서
DeepSeek R1에 이어 2위를 기록했습니다.
Gemma 2에 대해서는
별도의 영상을 만들 예정이니
오픈 웨이트 모델에 관심 있으시다면
채널 구독을 해주시기 바랍니다.
하지만 오늘의 소식은 여기서 끝이 아닙니다.
Google은 Gemini 로보틱스도 발표했는데
이는 Gemini 2 모델을 기반으로 하지만
로보틱스에 특화되어 있습니다.
이 모든 것이 Gemini의
멀티모달 기능으로 구현됩니다.
그들이 공유한
흥미로운 예시들이 많이 있는데
관심 있으시다면 블로그 포스트 링크를
첨부해 두겠습니다. 전반적으로 Gemini는
Google의 AI 전략의 핵심 요소가 되어가고 있으며
Gemini Pro와 같은 최첨단 모델들,
Gemini Flash, 그리고
Gemma와 같은 오픈 웨이트 모델들과 함께
Google이 현재 선두를 달리고 있다고
생각합니다. 특히
모델의 사용성 측면에서는
가장 좋은 모델은 아닐 수 있지만
가장 유용한 모델을 보유하고 있습니다.
Google의 제품을 보면
다양한 옵션과 다양한 가격대를
모든 애플리케이션에 제공하고 있죠.
항상 사고하는 모델이 필요한 것이 아니라
때로는 데이터를 처리하거나
결정을 내릴 수 있는 적당한 수준의
모델이 필요할 뿐입니다. 이런 점에서
Google이 다른
기초 모델 개발사들보다
우위를 가질 수 있다고 봅니다.
이 새로운 기능을 살펴보고 사용해 보시고
이 네이티브 이미지 생성으로
어떤 것을 만드실 수 있는지 알려주세요.
이 영상이 도움이 되었길 바랍니다.
시청해 주셔서 감사하며
다음 영상에서 만나요.