[00:00]
이 루빅스 큐브를 한번 보세요.
[00:02]
Matt Berman이라는 개발자가 만든 건데요,
[00:05]
단순한 장난감처럼 보일 수 있지만
[00:06]
사실 매우 복잡한 추론 과제입니다.
[00:09]
조절 가능한 크기와
[00:11]
무작위 섞기, 키보드 조작까지
[00:15]
Gemini 2.5 Pro가 이 모든 것을 시뮬레이션할 수 있죠.
[00:17]
이는 정말 큰 도약이며
[00:20]
강력한 인터랙티브 코드를 생성하는 능력을 보여줍니다.
[00:23]
방금 Google CEO가
[00:25]
Gemini 2.5 Pro로 만든
[00:27]
루빅스 큐브 시뮬레이션에 대해 Google Cloud Next
[00:30]
키노트에서 설명했는데, 정말 멋지더군요.
[00:32]
방금 끝난 이 행사는
[00:34]
인공지능에 관한 것이었고
[00:36]
정말 놀라운 발표들이 있었습니다.
[00:38]
새로운 에이전트, 텍스트-비디오 변환,
[00:40]
텍스트-이미지 변환, 음성 모델,
[00:43]
심지어 에이전트 간 상호운용성까지 발표했는데
[00:46]
이번 영상의 파트너인
[00:48]
Box와도 협력했다고 합니다.
[00:50]
지금부터 모든 내용을 살펴보겠습니다.
[00:53]
혹시 궁금하실 것 같은데,
[00:55]
이 배경은 AI가 아니라 제가 휴가 중입니다.
[00:58]
하지만 AI는 휴가가 없으니
[01:00]
저도 쉴 수 없네요.
[01:01]
첫 번째로 소개할 것은
[01:03]
새로운 텐서 프로세싱 유닛입니다.
[01:05]
AI 인프라를 실행하기 위해 특별히 설계된
[01:07]
칩인데요, 한번 보시죠.
[01:10]
7세대 TPU인 Ironwood를
[01:13]
올해 후반기에 출시한다고 발표하게 되어 자랑스럽습니다.
[01:20]
첫 번째 공개 TPU와 비교했을 때
[01:22]
Ironwood는 3600배 더 뛰어난
[01:26]
성능을 보여주는 놀라운 발전을 이뤘습니다.
[01:29]
지금까지 우리가 만든 것 중
[01:31]
가장 강력한 칩이며
[01:34]
차세대 AI 모델을 가능하게 할 것입니다.
[01:37]
이것은 정말 엄청나게 빠른 칩입니다.
[01:40]
물론 이전 세대와 비교한 것이지만
[01:41]
Y축에서 보시다시피
[01:43]
성능은 플롭스(FLOPS) 단위로 측정되었고
[01:47]
엄청난 발전을 이루었습니다.
[01:50]
같은 기간 동안 에너지 효율성도
[01:52]
29배 향상되었으며, 암 민이 오늘
[01:55]
더 자세한 내용을 공유할 예정입니다.
[01:58]
성능만큼이나 전력 효율성이 중요한데,
[02:00]
특히 미국에서
[02:02]
AI의 제한 요소 중 하나가 바로 에너지이기 때문입니다.
[02:06]
차세대 AI 애플리케이션을 구동하기 위한
[02:08]
충분한 에너지가 단순히 부족한 상황이라
[02:10]
하드웨어와 소프트웨어 모두
[02:12]
더 효율적으로 만들수록
[02:15]
더 좋은 것이죠.
[02:16]
다음으로는
[02:18]
Gemini 2.5 Pro의 성능을
[02:20]
보여드리려고 하는데요
[02:24]
아시다시피 정말 놀라운
[02:26]
코딩과 추론 모델입니다.
[02:28]
그는 엘라마리나와
[02:29]
이 영상 시작부분에서 언급했던
[02:31]
우리가 진행한 테스트에 대해 이야기하는데
[02:34]
Eric Hartford가 말했듯이
[02:37]
우리 커뮤니티에 정당성을 부여해주죠.
[02:39]
"몇 주 전에 우리는
[02:40]
Gemini 2.5를 출시했습니다.
[02:43]
응답하기 전에 스스로 생각을 정리하는
[02:46]
이것은 우리가 만든 가장 지능적인 AI 모델이며
[02:49]
chatbot Arena 리더보드에 따르면
[02:51]
세계 최고의 모델입니다.
[03:01]
고급 추론이 필요한
[03:03]
다양한 벤치마크에서 최고 수준의 성능을 보여주며
[03:06]
가장 어려운 산업 벤치마크 중 하나인
[03:08]
humanity's last exam에서
[03:11]
역대 최고 점수를 기록했습니다.
[03:14]
인간 지식과 추론의 한계를 측정하는
[03:16]
인상적인 말들이 많지만
[03:18]
실제로 어떤 것이 가능한지
[03:20]
보여드리겠습니다. 이것을 보세요
[03:22]
개발자 Matt Berman이 만든 루빅스 큐브입니다
[03:25]
장난감처럼 보일 수 있지만
[03:27]
실제로는 매우 복잡한 추론 과제입니다
[03:29]
크기 조절, 큐브 섞기
[03:31]
키보드 컨트롤까지 가능하며
[03:34]
Gemini 2.5 Pro는 이 모든 것을 시뮬레이션할 수 있습니다
[03:37]
이는 큰 진전이며
[03:40]
견고한 인터랙티브 코드를 생성하는 능력을 보여줍니다
[03:42]
그가 언급하지 않은 정말 놀라운 점은
[03:45]
Gemini 2.5 Pro가 이것을 한 번에 해냈다는 겁니다
[03:49]
반복 과정이 전혀 없었고, 제로샷으로 완성했습니다
[03:53]
예시 없이 프롬프트만 입력했더니
[03:56]
바로 결과가 나왔고, 코드 에디터에 로드했더니
[03:58]
바로 작동했습니다
[04:01]
그리고 그가 슬쩍 넘어간 것이
[04:02]
제가 보기에는
[04:04]
이 데모의 가장 인상적인 부분이었습니다
[04:06]
다음으로 더 빠른 버전인
[04:08]
Gemini 2.5 Flash를 발표할 예정입니다
[04:12]
참고로 지금이 2.5 버전이라면
[04:15]
3.0은 어떨지 상상해보세요
[04:16]
하지만 일단 2.5 Flash를 살펴보겠습니다
[04:19]
Gemini 2.5 Flash는 저지연성과
[04:23]
가장 비용 효율적인 모델로, 사고 기능이 내장되어 있습니다
[04:26]
2.5 Flash를 사용하면 모델의 추론 정도를
[04:29]
제어할 수 있고 성능과 예산의
[04:32]
균형을 맞출 수 있습니다. 2.5 Flash는
[04:35]
곧 AI Studio, Vertex AI
[04:39]
그리고 Gemini 앱에서 사용 가능해질 예정입니다
[04:42]
모델과 성능에 대한
[04:43]
자세한 정보는 곧 공개될 예정입니다. 저는 매우 기대되고
[04:47]
여러분이 직접 경험해보시길 기다립니다
[04:48]
다음으로 제가 개인적으로
[04:50]
가장 기대하는 것에 대해 이야기해보겠습니다
[04:52]
아시다시피 저는 에이전트에 대해 낙관적입니다
[04:54]
이제 새로운 에이전트 생성 플랫폼과
[04:56]
에이전트 간 상호운용성이 있습니다
[04:59]
이는 미래에 여러분의 에이전트가
[05:02]
다른 플랫폼의 에이전트들과
[05:05]
대화할 수 있다는 것을 의미합니다
[05:06]
다른 소프트웨어의 에이전트들과
[05:09]
쉽게 소통하고
[05:11]
협업할 수 있게 됩니다
[05:13]
이것은 우리가 알고 있는
[05:14]
에이전트 중심 미래를 위한
[05:16]
기본 아키텍처입니다
[05:19]
오늘 새로운 에이전트 개발 키트를
[05:21]
발표합니다. 이는 새로운 오픈소스 프레임워크입니다
[05:25]
자, 여기서 제가 가장 좋아하는
[05:27]
키워드는 오픈소스입니다
[05:29]
오픈소스 프레임워크이고
[05:32]
Gemini 모델을 사용한다고 하지만
[05:35]
오픈소스이기 때문에 기술적으로는
[05:37]
어떤 모델이든 사용할 수 있을 것입니다
[05:38]
계속 보시죠. 이는
[05:41]
정교한 멀티 에이전트 시스템을
[05:43]
구축하는 과정을 단순화합니다
[05:46]
이제 정교한 Gemini 기반 에이전트를 구축하고
[05:49]
도구를 사용하여 복잡한 다단계 작업을
[05:53]
추론이나 사고를 포함하여 수행할 수 있습니다
[05:57]
다른 에이전트를 발견하고 그들의 기술을 배우며
[06:00]
에이전트들이 서로 협력하면서도
[06:03]
정확한 제어를 유지할 수
[06:06]
있습니다
[06:08]
에이전트 개발 키트는 MCP를 지원합니다
[06:10]
이것은 엄청난 소식입니다. Model Context Protocol이
[06:13]
이제 모든 곳에서 사용되고 있습니다
[06:15]
구글 CEO가 약 일주일 전에
[06:18]
우리가 이것을 지원해야 하냐고 물었고
[06:20]
물론 그는 이미 알고 있었겠죠
[06:22]
이를 실행할 것이라는 걸 알고 있었고, 모두가 찬성했습니다.
[06:24]
이제 Google, Microsoft, OpenAI, Anthropic,
[06:27]
거의 모든 기업이 MCP를 지원하고 있습니다.
[06:30]
이런 표준화는 우리에게 매우 좋은 일입니다.
[06:33]
AI 모델이 다양한 데이터 소스와 도구에 접근하고
[06:36]
상호작용할 수 있는 통합된 방식을 제공하며,
[06:39]
각각의 개별적인 통합을 필요로 하지 않습니다.
[06:44]
다음으로, 놀라운 에이전트 간 프로토콜에 대해 알아보겠습니다.
[06:49]
우리는 새로운 에이전트 간 프로토콜을 소개하고 있는데,
[06:52]
이는 기반이 되는 모델이나 프레임워크와 관계없이
[06:55]
에이전트들이 서로 통신할 수 있게 해줍니다.
[06:57]
이 프로토콜은 많은 주요 파트너들의 지원을 받고 있으며,
[07:00]
그들은 에이전트들이 다중 에이전트 생태계에서
[07:03]
작동할 수 있게 하는 비전을 공유하고 있습니다.
[07:07]
또한 Langraph와 Crew AI를 포함한
[07:10]
다른 에이전트 프레임워크로 구축된
[07:14]
에이전트들과도 함께 작동합니다.
[07:17]
Langraph와 Crew AI를 언급해서 정말 기쁩니다.
[07:24]
저는 Crew AI의 큰 팬이고,
[07:26]
이 제품들이 모두 잘 연동되어 작동한다는 점이
[07:28]
정말 기쁩니다.
[07:30]
왜냐하면 서로 다른 시스템에서 구축된
[07:32]
에이전트들이 서로 대화하는 것이
[07:34]
매우 중요해질 것이기 때문입니다.
[07:36]
그리고 출시 파트너 중 하나가
[07:38]
이 비디오에서 함께한 Box입니다.
[07:39]
이제 방금 발표된 Google Agent Space의
[07:42]
데모를 보여드리겠습니다.
[07:44]
이것은 에이전트 간 상호운용성 플랫폼의
[07:46]
UI이며, Box를 보여주고 있습니다.
[07:49]
얼마나 멋진지 한번 보세요.
[07:51]
'Box의 컨텐츠와 Google Cloud의 가격 데이터베이스를
[07:53]
사용해서 클레임 보고서와 비용 요약을
[07:55]
만들어줄 수 있나요?'라고 입력했습니다.
[07:57]
두 개의 다른 플랫폼이
[07:59]
한 곳에서 통합되어 있습니다.
[08:01]
오른쪽에서 볼 수 있듯이,
[08:04]
하나는 Box이고 다른 하나는 Big Query입니다.
[08:06]
Agent Space를 통해
[08:08]
이 두 플랫폼의 에이전트들이
[08:10]
서로 통신하면서
[08:13]
함께 문제를 해결할 수 있습니다.
[08:15]
Box와 Big Query를 쿼리하고
[08:16]
이를 함께 처리하는 것을 볼 수 있습니다.
[08:19]
클레임 ID를 제공해달라고 요청하면,
[08:22]
클레임 ID가 제공되고
[08:24]
계속해서 처리가 진행됩니다.
[08:26]
두 플랫폼의 도구들을 모두 사용하고 있습니다.
[08:29]
Box와 Google의 관련 문서들이 있고,
[08:31]
이제 모든 것을 통합하고 있습니다.
[08:33]
Box AI 에이전트가 보고서를 생성했네요.
[08:36]
사진들이 포함되어 있고,
[08:38]
사고 보고서도 생성되었습니다.
[08:41]
완료되면 바로 Box로 전송할 수 있고,
[08:43]
방금 일어난 사고 과정도
[08:45]
확인할 수 있습니다.
[08:47]
정말 멋지죠.
[08:49]
저도 직접 테스트해보길 정말 기대됩니다.
[08:51]
또한 Box AI를 확인해보시는 것을 추천드립니다.
[08:53]
Box를 통해 AI를 사용하여
[08:57]
이미 Box에 저장된 모든 문서에서
[08:59]
유용한 정보를 추출할 수 있습니다.
[09:01]
Gemini 2.5 Pro를 포함한 주요 모델들과
[09:04]
호환되며, 사용하기 쉬운 API를
[09:07]
제공합니다.
[09:08]
전체 RAG 파이프라인을 처리해주어
[09:11]
매우 간단하게 사용할 수 있으며,
[09:14]
115,000개의 기업 조직이
[09:16]
신뢰하고 있습니다.
[09:18]
기업급 보안과 규정 준수,
[09:21]
거버넌스를 제공합니다.
[09:23]
11만 5천개의 엔터프라이즈 조직들이
[09:25]
엔터프라이즈급 보안, 컴플라이언스,
[09:28]
거버넌스를 신뢰하고 있습니다. Box를 확인해보세요.
[09:30]
아래 설명란에 링크를 남겨두겠습니다.
[09:32]
다음으로 Imagine 3에 대해 이야기하겠습니다.
[09:33]
이는 그들의 최신 텍스트-이미지 변환
[09:35]
모델로, 정말 놀라운 품질을 자랑합니다.
[09:38]
또한 Chirp 3도 소개했는데,
[09:40]
이는 음성 생성 모델입니다.
[09:41]
단 10초의 음성 샘플만 있으면
[09:44]
생성이 가능합니다.
[09:46]
이는 명백히 11 Labs의 경쟁 제품이죠.
[09:48]
또한 LIIA에 대해서도 이야기하는데, 이는
[09:51]
텍스트를 음악으로 변환하는 기술입니다. 구글이
[09:54]
모든 종류의 미디어에 올인하고 있습니다.
[09:56]
지난 한 해를 살펴보겠습니다.
[09:59]
우리는 Imagine 3를 크게 개선했습니다.
[10:02]
최고 품질의 텍스트-이미지 변환 모델인데,
[10:06]
이전 모델들보다 더 나은 디테일과
[10:09]
풍부한 조명, 그리고 더 적은
[10:12]
시각적 결함을 제공합니다.
[10:14]
Imagine은 프롬프트를 정확하게 반영하여
[10:18]
여러분의 창의적인 비전을
[10:21]
놀라운 정밀도로 구현합니다.
[10:25]
또한 Chirp 3를 도입했는데,
[10:28]
단 10초의 입력만으로
[10:31]
맞춤형 음성을 만들고 AI 기반 내레이션을
[10:35]
기존 녹음에 자연스럽게 통합할 수 있습니다.
[10:39]
오늘 우리는 Google Cloud에서 LIA를
[10:42]
사용할 수 있게 만들었습니다. 텍스트 프롬프트를
[10:46]
30초 음악 클립으로 변환하는 기능으로,
[10:49]
이는 하이퍼스케일러 중 최초입니다.
[10:51]
LIA의 클립을 들어보겠습니다.
[10:58]
하지만 제 의견으로는 V2가 가장 인상적입니다.
[11:03]
이미지를 입력하면
[11:05]
그 이미지로부터 비디오를 생성하는데,
[11:07]
그뿐만 아니라
[11:08]
방향도 지정할 수 있습니다. 화면을
[11:11]
패닝하거나 줌인할 수 있고,
[11:13]
결과물이 정말 놀랍습니다.
[11:15]
단일 이미지로 3D 비디오를 얻을 수 있죠.
[11:18]
V2는 우리의 업계 선도적인
[11:21]
비디오 생성 모델입니다. 수 분 길이의
[11:25]
4K 비디오를 생성하며, synth ID 워터마크로
[11:28]
AI 생성 여부를 확인할 수 있게
[11:31]
만들었습니다. 크리에이터들에게
[11:35]
전례 없는 창의적 제어 기능을 제공하며,
[11:38]
카메라 프리셋을 포함한 새로운 편집 도구로
[11:41]
복잡한 프롬프팅 없이도 촬영 구도와
[11:44]
카메라 앵글을 지정할 수 있습니다.
[11:48]
첫 샷과 마지막 샷을 제어하여
[11:51]
비디오 시퀀스의 시작과 끝을 정의하고
[11:53]
VO로 자연스럽게 연결할 수 있으며
[11:56]
동적 인페인팅과 아웃페인팅으로
[11:59]
비디오 편집과 스케일링이 가능합니다.
[12:01]
Gemini, Imagine, Chirp, LIA, VO를 통해
[12:07]
구글은 모든 모달리티에 걸쳐
[12:11]
생성형 미디어 모델을 제공하는
[12:13]
유일한 기업이며, 이 모든 것을
[12:17]
오늘날 Vertex AI에서 사용할 수 있습니다.
[12:20]
자, 이제 V2를 사용한 라이브 데모를
[12:22]
보여드리겠습니다. 정말 멋진데요.
[12:24]
비디오를 생성할 건데,
[12:27]
여기 새로운
[12:29]
혁신을 보세요. 카메라 프리셋이
[12:32]
VO에 내장되어 있습니다. 좌우 패닝,
[12:35]
타임랩스, 트래킹 샷, 심지어
[12:38]
드론 샷까지 가능합니다. 자, 이제
[12:42]
도시 스카이라인의 드론 샷을 만들어보겠습니다.
[12:46]
자, 제출해보겠습니다.
[12:49]
보통은 몇 초 정도 걸리는데,
[12:52]
오늘 일찍 실행해봐서 캐시에 있어
[12:54]
평소보다 좀 더 빠를 겁니다.
[12:55]
좋습니다, 첫 번째 비디오를
[12:57]
보시죠.
[12:58]
정말 놀랍습니다.
[13:02]
우리는 이제 볼 수 있게 되었습니다.
[13:06]
분수대와 에펠
[13:09]
타워가 보이네요. 이제 두 번째 영상을
[13:11]
살펴보겠습니다. VO가 만든 다른 각도의
[13:14]
영상인데요, 정말 멋진
[13:17]
이미지네요. 배경의 구름과
[13:19]
라스베가스 대로를 달리는
[13:21]
차들을 보실 수 있습니다.
[13:24]
정말 놀랍습니다. 하지만 콘서트 홍보를 위해
[13:28]
한 영상으로는 부족하죠.
[13:30]
제가 만든 다른 영상들도
[13:32]
보여드리고 싶은데요.
[13:34]
무대 설치 장면이 있고
[13:37]
이 모든 것이 VO의 힘으로
[13:39]
만들어졌습니다. 공연을 앞두고 박수를 치는
[13:43]
관객들의 모습도 있는데
[13:45]
여러분께 좋은 참고가 될 것
[13:48]
같네요. 그런데 매우
[13:51]
재미있는 일이 있었어요. VO가
[13:55]
제 12살 아이처럼
[13:57]
포토밤 전문가가 될 수 있다는 걸
[14:01]
알게 됐어요. 방금 본 멋진
[14:03]
영상에 스태프가 한 명
[14:05]
있었는데요. 스태프들을 매우 소중히 여기지만
[14:08]
이번에는 기타를 중심으로
[14:11]
보여드리고 싶습니다. 기타가 밴드에서
[14:14]
가장 중요한 부분이니까요. 이제
[14:17]
VO의 새로운 인페인팅 기능을
[14:20]
사용해보겠습니다.
[14:22]
죄송합니다만 선생님, 당신이
[14:25]
일을 잘하시는 건 알지만
[14:28]
이 이미지에서 지워야만
[14:29]
합니다. 꽃은 보내드리도록
[14:32]
하죠. 자 이제 새로운
[14:35]
인페인팅
[14:36]
기능을 써보고 몇 초만 기다려서
[14:39]
결과를
[14:41]
볼까요? 제가 생각한 대로
[14:44]
작동한다면, 이전의 모든 요소는
[14:48]
유지되고 스태프만
[14:50]
사라질 거예요. 보세요!
[14:56]
정말 대단한 발표들이 있었죠.
[14:59]
구글이 Gemini 2.5 Pro 출시 이후
[15:01]
완전히 불이 붙었어요. 그들도
[15:04]
'우리가 선두에 섰다'고
[15:05]
생각하는 것 같아요. 이제
[15:07]
모든 면에서 전력을 다하고 있죠.
[15:09]
6개월 전만 해도
[15:11]
이럴 거라고 했다면 아마도
[15:13]
아니라고 했을 텐데, 지금은
[15:15]
구글이 세계 최고의 모델을
[15:17]
보유하게 됐네요. 오늘은 여기까지고
[15:19]
이 영상이 마음에 드셨다면
[15:20]
좋아요와 구독 부탁드립니다.