구글 클라우드 넥스트 - 어디서나 사용 가능한 Gemini 2.5 Pro

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이 영상은 Google Cloud Next에서 발표된 최신 AI 기술들의 혁신적인 발전을 다룹니다. Gemini 2.5 Pro를 활용한 루빅스 큐브 시뮬레이션 데모와, 7세대 TPU ‘아이언우드’의 엄청난 성능 및 에너지 효율 개선이 주요 내용입니다. 또한 Gemini 2.5 Flash와 오픈소스 에이전트 개발 키트를 통한 에이전트 상호운용성, 그리고 Imagine 3, Chirp 3, LIA 등 다양한 생성형 미디어 모델을 통한 비디오 및 음성 생성 기술도 소개됩니다. 전반적으로 AI의 빠른 발전과 Google의 리더십을 강조하며, 실시간 데모와 실제 사례를 통해 혁신적인 기술력을 전달합니다.

주요 키워드

Gemini 2.5 Pro TPU 아이언우드 Gemini 2.5 Flash 제로샷 에이전트 개발 키트 에이전트 간 상호운용성 Imagine 3 Chirp 3 LIA VO

하이라이트

  • 🔑 Gemini 2.5 Pro를 사용한 루빅스 큐브 시뮬레이션 데모는 복잡한 추론 능력과 인터랙티브 코딩의 뛰어난 성능을 보여줍니다.
  • 🚀 7세대 TPU 아이언우드가 이전 세대 대비 3600배의 성능 향상과 29배의 에너지 효율성을 달성함을 발표합니다.
  • 🌟 Gemini 2.5 Pro의 제로샷 코딩 데모는 예시 없이 단 한 번의 프롬프트로 복잡한 코드를 생성하는 점에서 큰 인상을 남깁니다.
  • 📌 Gemini 2.5 Flash를 통해 저지연성과 비용 효율성을 갖춘 새로운 모델이 곧 출시되며, 사용자가 예산과 성능 사이의 균형을 조절할 수 있습니다.
  • ⚡️ 개방형 에이전트 개발 키트와 에이전트 간 상호운용성 프로토콜이 도입되어 다양한 플랫폼의 에이전트들이 원활하게 협업할 수 있게 됩니다.
  • 🚀 Imagine 3, Chirp 3, LIA 및 VO와 같은 생성형 미디어 모델들이 텍스트, 음성, 이미지, 비디오 생성의 새로운 가능성을 열어줍니다.

용어 설명

TPU (Tensor Processing Unit)

AI 연산을 위해 특별히 설계된 맞춤형 칩으로, 높은 성능과 에너지 효율성을 제공합니다.

Gemini 2.5 Pro

Google의 최신 AI 모델로, 복잡한 추론과 코딩 작업을 제로샷 방식으로 수행할 수 있는 능력을 갖추고 있습니다.

Gemini 2.5 Flash

저지연성과 비용 효율성을 강조한 Gemini 2.5의 고속 변형 모델로, 사용자가 모델의 추론 정도를 조절할 수 있습니다.

에이전트 개발 키트

여러 AI 에이전트를 손쉽게 개발하고 통합할 수 있도록 지원하는 오픈소스 프레임워크입니다.

에이전트 간 상호운용성 프로토콜

여러 플랫폼에서 개발된 에이전트들이 서로 통신하고 협업할 수 있게 하는 표준화된 통신 방식입니다.

모델 컨텍스트 프로토콜

AI 모델이 다양한 데이터 소스와 도구에 통일된 방식으로 접근하고 상호작용할 수 있도록 지원하는 프로토콜입니다.

[00:00:00] 루빅스 큐브 시뮬레이션 데모

개발자 Matt Berman이 코딩한 루빅스 큐브 시뮬레이션을 통해 Gemini 2.5 Pro의 복잡한 추론 능력과 인터랙티브 코드 생성 기능을 선보입니다. 이 데모는 단순한 장난감 같지만 실제로는 매우 정교한 reasoning challenge를 시연합니다.

Matt Berman이 개발한 루빅스 큐브는 단순한 장난감이 아닌 복잡한 추론 과제로, Gemini 2.5 Pro가 크기 조절, 무작위 섞기, 키보드 조작 등을 완벽히 시뮬레이션할 수 있습니다.
Google Cloud Next 키노트에서 CEO가 Gemini 2.5 Pro의 루빅스 큐브 시뮬레이션을 소개했으며, 새로운 에이전트, 텍스트-비디오/이미지 변환, 음성 모델, Box와의 협력을 통한 에이전트 간 상호운용성 등이 발표되었습니다.
[00:01:00] TPU 아이언우드 발표

Google은 7세대 TPU ‘아이언우드’를 발표하며, 이전 대비 3600배의 성능과 29배의 에너지 효율성을 달성했다고 설명합니다. 이 칩은 AI 인프라를 구동하기 위해 특별히 설계된 핵심 하드웨어입니다.

새로운 7세대 TPU 'Ironwood'가 발표되었으며, 이는 첫 공개 TPU 대비 3600배 향상된 성능과 29배 개선된 에너지 효율성을 제공합니다.
AI 발전의 주요 제한 요소인 에너지 문제를 해결하기 위해 하드웨어와 소프트웨어의 효율성 개선이 중요합니다.
[00:02:16] Gemini 2.5 Pro의 제로샷 데모

Gemini 2.5 Pro가 단 한 번의 프롬프트로 루빅스 큐브 코드 생성을 성공적으로 수행한 제로샷 데모가 진행됩니다. 이 데모는 복잡한 추론과 인터랙티브 코드 생성 능력을 입증하며, AI 모델의 혁신성을 강조합니다.

Gemini 2.5는 스스로 생각을 정리하는 능력을 갖춘 세계 최고의 AI 모델로, 다양한 벤치마크에서 최고 성능을 보여주고 있습니다.
Gemini 2.5 Pro가 인간 지식과 추론의 한계를 측정하는 벤치마크에서 최고 점수를 기록했습니다.
Matt Berman이 개발한 루빅스 큐브 데모를 통해 Gemini 2.5 Pro의 뛰어난 능력을 보여줍니다. 이는 단순한 장난감이 아닌 복잡한 추론 과제입니다.
특히 주목할 만한 점은 Gemini 2.5 Pro가 어떤 예시나 반복 없이 한 번에 완벽한 코드를 생성했다는 것입니다.
[00:04:08] Gemini 2.5 Flash 및 에이전트 개발 키트

Gemini 2.5 Flash는 저지연성과 경제성을 강조한 모델로 소개되며, 사용자가 모델의 추론 단계와 비용을 조절할 수 있습니다. 동시에 오픈소스 에이전트 개발 키트가 발표되어 다수의 에이전트들이 효율적으로 상호작용할 수 있는 기반을 마련합니다.

Gemini 2.5 Flash가 발표되었으며, 이는 저지연성과 비용 효율성을 갖춘 새로운 모델입니다. 사용자가 추론 수준과 성능을 조절할 수 있습니다.
새로운 에이전트 개발 키트가 발표되었으며, 이는 에이전트 간 상호운용성을 지원하는 오픈소스 프레임워크입니다.
이 플랫폼을 통해 Gemini 기반 에이전트들이 복잡한 작업을 수행하고 서로 협력할 수 있게 되었으며, Model Context Protocol을 지원합니다.
Google, Microsoft, OpenAI, Anthropic 등 주요 기업들이 MCP(Model Control Protocol)를 지원하기로 결정했습니다. 이는 AI 모델들이 다양한 데이터 소스와 도구들과 통합된 방식으로 상호작용할 수 있게 해주는 중요한 표준입니다.
새로운 에이전트 간 프로토콜이 발표되었습니다. 이는 기반 모델이나 프레임워크와 관계없이 에이전트들이 서로 통신할 수 있게 해주며, Langraph와 Crew AI를 포함한 다양한 프레임워크를 지원합니다.
Google Agent Space 데모에서는 Box와 Google Cloud의 데이터를 통합하여 클레임 보고서와 비용 요약을 생성하는 기능을 선보였습니다. 서로 다른 플랫폼의 에이전트들이 원활하게 협력하는 모습을 보여줍니다.
[00:07:42] 에이전트 상호운용성과 Google Agent Space 데모

새로운 에이전트 간 통신 프로토콜을 통해 서로 다른 플랫폼의 에이전트들이 원활하게 협력할 수 있게 됩니다. Google Agent Space 데모에서는 Box와 BigQuery 데이터를 통합하여 실제 문제를 해결하는 모습을 실시간으로 시연합니다.

Box AI는 Gemini 2.5 Pro를 포함한 주요 모델들과 호환되며, 간단한 API를 통해 문서에서 정보를 추출하고 RAG 파이프라인을 처리할 수 있습니다. 115,000개 이상의 기업이 신뢰하는 엔터프라이즈급 솔루션입니다.
Box는 11만 5천개 이상의 기업이 신뢰하는 엔터프라이즈급 보안, 컴플라이언스, 거버넌스 솔루션을 제공합니다.
[00:09:33] 생성형 미디어 모델 및 비디오 생성

Imagine 3, Chirp 3, LIA, 그리고 VO를 포함한 다양한 생성형 미디어 모델이 발표되어 텍스트->이미지, 음성 생성, 비디오 편집 등 멀티모달 작업을 지원합니다. 이 모델들은 뛰어난 품질과 정밀한 편집 도구를 제공하여 창의적 컨텐츠 제작에 혁신을 더합니다.

구글이 새로운 AI 모델들을 소개했습니다. 고품질 이미지 생성 모델 Imagine 3, 10초 샘플로 음성을 생성하는 Chirp 3, 텍스트로 음악을 만드는 LIIA가 포함됩니다.
Imagine 3는 이전보다 향상된 디테일, 조명, 더 적은 시각적 결함을 제공하며, 프롬프트를 정확히 반영하여 창의적 비전을 구현합니다.
LIA가 Google Cloud에 도입되어 텍스트를 30초 음악 클립으로 변환할 수 있게 되었으며, 이는 하이퍼스케일러 중 최초의 기능입니다.
V2 모델은 단일 이미지에서 3D 비디오를 생성하며, 패닝과 줌 등 다양한 카메라 움직임을 지원합니다.
V2는 4K 품질의 비디오를 생성하고, synth ID 워터마크, 카메라 프리셋, 편집 도구 등 다양한 기능을 제공합니다.
구글은 Gemini, Imagine, Chirp, LIA, VO를 통해 모든 모달리티의 생성형 미디어 모델을 제공하는 유일한 기업이 되었습니다.
V2의 새로운 카메라 프리셋 기능으로 좌우 패닝, 타임랩스, 트래킹 샷, 드론 샷 등 다양한 카메라 움직임을 구현할 수 있습니다.
VO가 만든 라스베가스의 멋진 영상을 보여주며, 분수대와 에펠타워, 그리고 라스베가스 대로를 달리는 차들의 모습을 소개합니다.
콘서트 홍보를 위해 제작한 여러 영상들을 소개하며, 무대 설치 장면과 관객들의 박수 장면을 포함한 다양한 콘텐츠를 선보입니다.
VO의 인페인팅 기능을 시연하며, 영상에서 스태프를 자연스럽게 제거하여 기타에 초점을 맞춘 새로운 버전을 만듭니다.
Gemini 2.5 Pro 출시 이후 구글의 급격한 발전과 현재 세계 최고의 AI 모델을 보유하게 된 상황을 설명하며 영상을 마무리합니다.
[00:14:59] 마무리 및 Google의 AI 리더십

발표의 마지막 부분에서는 Google이 AI 분야에서 선도적인 위치에 있음을 강조합니다. 여러 혁신적인 발표와 데모를 통해 Google의 기술력이 업계 최고임을 전달하며 영상이 마무리됩니다.

타임라인 정보가 없습니다.

이 루빅스 큐브를 한번 보세요.
Matt Berman이라는 개발자가 만든 건데요,
단순한 장난감처럼 보일 수 있지만
사실 매우 복잡한 추론 과제입니다.
조절 가능한 크기와
무작위 섞기, 키보드 조작까지
Gemini 2.5 Pro가 이 모든 것을 시뮬레이션할 수 있죠.
이는 정말 큰 도약이며
강력한 인터랙티브 코드를 생성하는 능력을 보여줍니다.
방금 Google CEO가
Gemini 2.5 Pro로 만든
루빅스 큐브 시뮬레이션에 대해 Google Cloud Next
키노트에서 설명했는데, 정말 멋지더군요.
방금 끝난 이 행사는
인공지능에 관한 것이었고
정말 놀라운 발표들이 있었습니다.
새로운 에이전트, 텍스트-비디오 변환,
텍스트-이미지 변환, 음성 모델,
심지어 에이전트 간 상호운용성까지 발표했는데
이번 영상의 파트너인
Box와도 협력했다고 합니다.
지금부터 모든 내용을 살펴보겠습니다.
혹시 궁금하실 것 같은데,
이 배경은 AI가 아니라 제가 휴가 중입니다.
하지만 AI는 휴가가 없으니
저도 쉴 수 없네요.
첫 번째로 소개할 것은
새로운 텐서 프로세싱 유닛입니다.
AI 인프라를 실행하기 위해 특별히 설계된
칩인데요, 한번 보시죠.
7세대 TPU인 Ironwood를
올해 후반기에 출시한다고 발표하게 되어 자랑스럽습니다.
첫 번째 공개 TPU와 비교했을 때
Ironwood는 3600배 더 뛰어난
성능을 보여주는 놀라운 발전을 이뤘습니다.
지금까지 우리가 만든 것 중
가장 강력한 칩이며
차세대 AI 모델을 가능하게 할 것입니다.
이것은 정말 엄청나게 빠른 칩입니다.
물론 이전 세대와 비교한 것이지만
Y축에서 보시다시피
성능은 플롭스(FLOPS) 단위로 측정되었고
엄청난 발전을 이루었습니다.
같은 기간 동안 에너지 효율성도
29배 향상되었으며, 암 민이 오늘
더 자세한 내용을 공유할 예정입니다.
성능만큼이나 전력 효율성이 중요한데,
특히 미국에서
AI의 제한 요소 중 하나가 바로 에너지이기 때문입니다.
차세대 AI 애플리케이션을 구동하기 위한
충분한 에너지가 단순히 부족한 상황이라
하드웨어와 소프트웨어 모두
더 효율적으로 만들수록
더 좋은 것이죠.
다음으로는
Gemini 2.5 Pro의 성능을
보여드리려고 하는데요
아시다시피 정말 놀라운
코딩과 추론 모델입니다.
그는 엘라마리나와
이 영상 시작부분에서 언급했던
우리가 진행한 테스트에 대해 이야기하는데
Eric Hartford가 말했듯이
우리 커뮤니티에 정당성을 부여해주죠.
"몇 주 전에 우리는
Gemini 2.5를 출시했습니다.
응답하기 전에 스스로 생각을 정리하는
이것은 우리가 만든 가장 지능적인 AI 모델이며
chatbot Arena 리더보드에 따르면
세계 최고의 모델입니다.
고급 추론이 필요한
다양한 벤치마크에서 최고 수준의 성능을 보여주며
가장 어려운 산업 벤치마크 중 하나인
humanity's last exam에서
역대 최고 점수를 기록했습니다.
인간 지식과 추론의 한계를 측정하는
인상적인 말들이 많지만
실제로 어떤 것이 가능한지
보여드리겠습니다. 이것을 보세요
개발자 Matt Berman이 만든 루빅스 큐브입니다
장난감처럼 보일 수 있지만
실제로는 매우 복잡한 추론 과제입니다
크기 조절, 큐브 섞기
키보드 컨트롤까지 가능하며
Gemini 2.5 Pro는 이 모든 것을 시뮬레이션할 수 있습니다
이는 큰 진전이며
견고한 인터랙티브 코드를 생성하는 능력을 보여줍니다
그가 언급하지 않은 정말 놀라운 점은
Gemini 2.5 Pro가 이것을 한 번에 해냈다는 겁니다
반복 과정이 전혀 없었고, 제로샷으로 완성했습니다
예시 없이 프롬프트만 입력했더니
바로 결과가 나왔고, 코드 에디터에 로드했더니
바로 작동했습니다
그리고 그가 슬쩍 넘어간 것이
제가 보기에는
이 데모의 가장 인상적인 부분이었습니다
다음으로 더 빠른 버전인
Gemini 2.5 Flash를 발표할 예정입니다
참고로 지금이 2.5 버전이라면
3.0은 어떨지 상상해보세요
하지만 일단 2.5 Flash를 살펴보겠습니다
Gemini 2.5 Flash는 저지연성과
가장 비용 효율적인 모델로, 사고 기능이 내장되어 있습니다
2.5 Flash를 사용하면 모델의 추론 정도를
제어할 수 있고 성능과 예산의
균형을 맞출 수 있습니다. 2.5 Flash는
곧 AI Studio, Vertex AI
그리고 Gemini 앱에서 사용 가능해질 예정입니다
모델과 성능에 대한
자세한 정보는 곧 공개될 예정입니다. 저는 매우 기대되고
여러분이 직접 경험해보시길 기다립니다
다음으로 제가 개인적으로
가장 기대하는 것에 대해 이야기해보겠습니다
아시다시피 저는 에이전트에 대해 낙관적입니다
이제 새로운 에이전트 생성 플랫폼과
에이전트 간 상호운용성이 있습니다
이는 미래에 여러분의 에이전트가
다른 플랫폼의 에이전트들과
대화할 수 있다는 것을 의미합니다
다른 소프트웨어의 에이전트들과
쉽게 소통하고
협업할 수 있게 됩니다
이것은 우리가 알고 있는
에이전트 중심 미래를 위한
기본 아키텍처입니다
오늘 새로운 에이전트 개발 키트를
발표합니다. 이는 새로운 오픈소스 프레임워크입니다
자, 여기서 제가 가장 좋아하는
키워드는 오픈소스입니다
오픈소스 프레임워크이고
Gemini 모델을 사용한다고 하지만
오픈소스이기 때문에 기술적으로는
어떤 모델이든 사용할 수 있을 것입니다
계속 보시죠. 이는
정교한 멀티 에이전트 시스템을
구축하는 과정을 단순화합니다
이제 정교한 Gemini 기반 에이전트를 구축하고
도구를 사용하여 복잡한 다단계 작업을
추론이나 사고를 포함하여 수행할 수 있습니다
다른 에이전트를 발견하고 그들의 기술을 배우며
에이전트들이 서로 협력하면서도
정확한 제어를 유지할 수
있습니다
에이전트 개발 키트는 MCP를 지원합니다
이것은 엄청난 소식입니다. Model Context Protocol이
이제 모든 곳에서 사용되고 있습니다
구글 CEO가 약 일주일 전에
우리가 이것을 지원해야 하냐고 물었고
물론 그는 이미 알고 있었겠죠
이를 실행할 것이라는 걸 알고 있었고, 모두가 찬성했습니다.
이제 Google, Microsoft, OpenAI, Anthropic,
거의 모든 기업이 MCP를 지원하고 있습니다.
이런 표준화는 우리에게 매우 좋은 일입니다.
AI 모델이 다양한 데이터 소스와 도구에 접근하고
상호작용할 수 있는 통합된 방식을 제공하며,
각각의 개별적인 통합을 필요로 하지 않습니다.
다음으로, 놀라운 에이전트 간 프로토콜에 대해 알아보겠습니다.
우리는 새로운 에이전트 간 프로토콜을 소개하고 있는데,
이는 기반이 되는 모델이나 프레임워크와 관계없이
에이전트들이 서로 통신할 수 있게 해줍니다.
이 프로토콜은 많은 주요 파트너들의 지원을 받고 있으며,
그들은 에이전트들이 다중 에이전트 생태계에서
작동할 수 있게 하는 비전을 공유하고 있습니다.
또한 Langraph와 Crew AI를 포함한
다른 에이전트 프레임워크로 구축된
에이전트들과도 함께 작동합니다.
Langraph와 Crew AI를 언급해서 정말 기쁩니다.
저는 Crew AI의 큰 팬이고,
이 제품들이 모두 잘 연동되어 작동한다는 점이
정말 기쁩니다.
왜냐하면 서로 다른 시스템에서 구축된
에이전트들이 서로 대화하는 것이
매우 중요해질 것이기 때문입니다.
그리고 출시 파트너 중 하나가
이 비디오에서 함께한 Box입니다.
이제 방금 발표된 Google Agent Space의
데모를 보여드리겠습니다.
이것은 에이전트 간 상호운용성 플랫폼의
UI이며, Box를 보여주고 있습니다.
얼마나 멋진지 한번 보세요.
'Box의 컨텐츠와 Google Cloud의 가격 데이터베이스를
사용해서 클레임 보고서와 비용 요약을
만들어줄 수 있나요?'라고 입력했습니다.
두 개의 다른 플랫폼이
한 곳에서 통합되어 있습니다.
오른쪽에서 볼 수 있듯이,
하나는 Box이고 다른 하나는 Big Query입니다.
Agent Space를 통해
이 두 플랫폼의 에이전트들이
서로 통신하면서
함께 문제를 해결할 수 있습니다.
Box와 Big Query를 쿼리하고
이를 함께 처리하는 것을 볼 수 있습니다.
클레임 ID를 제공해달라고 요청하면,
클레임 ID가 제공되고
계속해서 처리가 진행됩니다.
두 플랫폼의 도구들을 모두 사용하고 있습니다.
Box와 Google의 관련 문서들이 있고,
이제 모든 것을 통합하고 있습니다.
Box AI 에이전트가 보고서를 생성했네요.
사진들이 포함되어 있고,
사고 보고서도 생성되었습니다.
완료되면 바로 Box로 전송할 수 있고,
방금 일어난 사고 과정도
확인할 수 있습니다.
정말 멋지죠.
저도 직접 테스트해보길 정말 기대됩니다.
또한 Box AI를 확인해보시는 것을 추천드립니다.
Box를 통해 AI를 사용하여
이미 Box에 저장된 모든 문서에서
유용한 정보를 추출할 수 있습니다.
Gemini 2.5 Pro를 포함한 주요 모델들과
호환되며, 사용하기 쉬운 API를
제공합니다.
전체 RAG 파이프라인을 처리해주어
매우 간단하게 사용할 수 있으며,
115,000개의 기업 조직이
신뢰하고 있습니다.
기업급 보안과 규정 준수,
거버넌스를 제공합니다.
11만 5천개의 엔터프라이즈 조직들이
엔터프라이즈급 보안, 컴플라이언스,
거버넌스를 신뢰하고 있습니다. Box를 확인해보세요.
아래 설명란에 링크를 남겨두겠습니다.
다음으로 Imagine 3에 대해 이야기하겠습니다.
이는 그들의 최신 텍스트-이미지 변환
모델로, 정말 놀라운 품질을 자랑합니다.
또한 Chirp 3도 소개했는데,
이는 음성 생성 모델입니다.
단 10초의 음성 샘플만 있으면
생성이 가능합니다.
이는 명백히 11 Labs의 경쟁 제품이죠.
또한 LIIA에 대해서도 이야기하는데, 이는
텍스트를 음악으로 변환하는 기술입니다. 구글이
모든 종류의 미디어에 올인하고 있습니다.
지난 한 해를 살펴보겠습니다.
우리는 Imagine 3를 크게 개선했습니다.
최고 품질의 텍스트-이미지 변환 모델인데,
이전 모델들보다 더 나은 디테일과
풍부한 조명, 그리고 더 적은
시각적 결함을 제공합니다.
Imagine은 프롬프트를 정확하게 반영하여
여러분의 창의적인 비전을
놀라운 정밀도로 구현합니다.
또한 Chirp 3를 도입했는데,
단 10초의 입력만으로
맞춤형 음성을 만들고 AI 기반 내레이션을
기존 녹음에 자연스럽게 통합할 수 있습니다.
오늘 우리는 Google Cloud에서 LIA를
사용할 수 있게 만들었습니다. 텍스트 프롬프트를
30초 음악 클립으로 변환하는 기능으로,
이는 하이퍼스케일러 중 최초입니다.
LIA의 클립을 들어보겠습니다.
하지만 제 의견으로는 V2가 가장 인상적입니다.
이미지를 입력하면
그 이미지로부터 비디오를 생성하는데,
그뿐만 아니라
방향도 지정할 수 있습니다. 화면을
패닝하거나 줌인할 수 있고,
결과물이 정말 놀랍습니다.
단일 이미지로 3D 비디오를 얻을 수 있죠.
V2는 우리의 업계 선도적인
비디오 생성 모델입니다. 수 분 길이의
4K 비디오를 생성하며, synth ID 워터마크로
AI 생성 여부를 확인할 수 있게
만들었습니다. 크리에이터들에게
전례 없는 창의적 제어 기능을 제공하며,
카메라 프리셋을 포함한 새로운 편집 도구로
복잡한 프롬프팅 없이도 촬영 구도와
카메라 앵글을 지정할 수 있습니다.
첫 샷과 마지막 샷을 제어하여
비디오 시퀀스의 시작과 끝을 정의하고
VO로 자연스럽게 연결할 수 있으며
동적 인페인팅과 아웃페인팅으로
비디오 편집과 스케일링이 가능합니다.
Gemini, Imagine, Chirp, LIA, VO를 통해
구글은 모든 모달리티에 걸쳐
생성형 미디어 모델을 제공하는
유일한 기업이며, 이 모든 것을
오늘날 Vertex AI에서 사용할 수 있습니다.
자, 이제 V2를 사용한 라이브 데모를
보여드리겠습니다. 정말 멋진데요.
비디오를 생성할 건데,
여기 새로운
혁신을 보세요. 카메라 프리셋이
VO에 내장되어 있습니다. 좌우 패닝,
타임랩스, 트래킹 샷, 심지어
드론 샷까지 가능합니다. 자, 이제
도시 스카이라인의 드론 샷을 만들어보겠습니다.
자, 제출해보겠습니다.
보통은 몇 초 정도 걸리는데,
오늘 일찍 실행해봐서 캐시에 있어
평소보다 좀 더 빠를 겁니다.
좋습니다, 첫 번째 비디오를
보시죠.
정말 놀랍습니다.
우리는 이제 볼 수 있게 되었습니다.
분수대와 에펠
타워가 보이네요. 이제 두 번째 영상을
살펴보겠습니다. VO가 만든 다른 각도의
영상인데요, 정말 멋진
이미지네요. 배경의 구름과
라스베가스 대로를 달리는
차들을 보실 수 있습니다.
정말 놀랍습니다. 하지만 콘서트 홍보를 위해
한 영상으로는 부족하죠.
제가 만든 다른 영상들도
보여드리고 싶은데요.
무대 설치 장면이 있고
이 모든 것이 VO의 힘으로
만들어졌습니다. 공연을 앞두고 박수를 치는
관객들의 모습도 있는데
여러분께 좋은 참고가 될 것
같네요. 그런데 매우
재미있는 일이 있었어요. VO가
제 12살 아이처럼
포토밤 전문가가 될 수 있다는 걸
알게 됐어요. 방금 본 멋진
영상에 스태프가 한 명
있었는데요. 스태프들을 매우 소중히 여기지만
이번에는 기타를 중심으로
보여드리고 싶습니다. 기타가 밴드에서
가장 중요한 부분이니까요. 이제
VO의 새로운 인페인팅 기능을
사용해보겠습니다.
죄송합니다만 선생님, 당신이
일을 잘하시는 건 알지만
이 이미지에서 지워야만
합니다. 꽃은 보내드리도록
하죠. 자 이제 새로운
인페인팅
기능을 써보고 몇 초만 기다려서
결과를
볼까요? 제가 생각한 대로
작동한다면, 이전의 모든 요소는
유지되고 스태프만
사라질 거예요. 보세요!
정말 대단한 발표들이 있었죠.
구글이 Gemini 2.5 Pro 출시 이후
완전히 불이 붙었어요. 그들도
'우리가 선두에 섰다'고
생각하는 것 같아요. 이제
모든 면에서 전력을 다하고 있죠.
6개월 전만 해도
이럴 거라고 했다면 아마도
아니라고 했을 텐데, 지금은
구글이 세계 최고의 모델을
보유하게 됐네요. 오늘은 여기까지고
이 영상이 마음에 드셨다면
좋아요와 구독 부탁드립니다.