구글의 Gemini 2.5 Pro, 4분 요약

Developers Digest 구독자 35,400명

요약

이 영상은 구글이 새롭게 발표한 Gemini 2.5 Pro 모델의 주요 기능과 뛰어난 성능을 간결하게 소개합니다. 해당 모델은 강화된 추론 능력과 코딩 성능으로 다양한 벤치마크에서 우수한 결과를 기록하였으며, 높은 ELO 점수로 경쟁 모델들을 압도합니다. 또한 멀티모달 이해, 실시간 스트리밍, 네이티브 도구 활용 등 다양한 기술적 장점을 갖추어 여러 플랫폼에서 손쉽게 접근할 수 있음을 강조합니다. 데모를 통해 공룡 코드 생성 및 3JS를 활용한 게임 제작 사례를 보여주며, 앞으로의 AI 경쟁 구도가 더욱 치열해질 것을 암시합니다.

주요 키워드

Gemini 2.5 Pro AI 추론 코딩 벤치마크 멀티모달 ELO API 데모 3JS

하이라이트

🔑 Gemini 2.5 Pro가 발표되며, 최신 추론 및 코딩 기능을 탑재한 모델임을 강조합니다.
⚡️ 모델은 ELO 점수가 크게 향상되어 경쟁 모델 대비 월등한 성능을 보입니다.
🚀 멀티모달 이해와 실시간 스트리밍, 네이티브 도구 사용 등 다양한 기능이 탑재되어 있습니다.
🌟 실제 데모에서는 공룡 코드 생성 및 3JS를 활용한 축구 게임 제작이 시연됩니다.
📌 2025년 AI 연구 환경에서의 치열한 경쟁과 향후 기술 발전 가능성을 예고합니다.

용어 설명

멀티모달 (Multimodal)

텍스트, 이미지 등 여러 형태의 입력을 동시에 이해하고 처리하는 모델의 능력을 의미합니다.

ELO

모델의 성능 평가를 위해 사용되는 점수 시스템으로, 상대 성능 비교에 활용됩니다.

API

애플리케이션 프로그래밍 인터페이스로, 모델을 다른 애플리케이션이나 서비스와 연동할 수 있도록 해줍니다.

구글이 Gemini 2.5 Pro 모델을 발표하며, 강화된 추론과 코딩 성능 등 주요 특징을 소개합니다.

[00:00] 구글이 Gemini 2.5 Pro 실험 버전을 출시했으며, 이는 향상된 추론과 코딩 능력으로 여러 벤치마크에서 선두를 달리고 있습니다.

[00:19] 2025년은 AI 연구소들의 치열한 경쟁이 예상되며, Deepseek의 V3 업데이트와 GPT-5의 출시가 임박했습니다.

[00:29] 이 모델은 ai.studio.google.com에서 사용 가능하며, 2025년 1월까지의 최신 지식을 보유하고 100만 토큰의 컨텍스트를 처리할 수 있습니다.

모델은 멀티모달 이해, 실시간 스트리밍, 네이티브 도구 사용 능력을 갖추었으며, 다양한 플랫폼(API, GCP, Gemini 앱)에서 접근할 수 있습니다.

[00:50] 기본적으로 멀티모달 이해, 실시간 스트리밍, 도구 사용이 가능하며, API를 통해 즉시 사용할 수 있고 GCP Vertex AI 플랫폼에도 출시될 예정입니다.

업그레이드된 성능으로 ELO 점수가 대폭 상승하고, 여러 벤치마크에서 우수한 평가를 받으며 경쟁력을 입증합니다.

[01:21] 성능면에서 ELO 점수가 1380에서 1443으로 크게 상승했으며, 이는 차순위 모델인 Gro 3 Preview(1404점)를 크게 앞서는 수준입니다.

[02:07] 다양한 벤치마크에서 우수한 성능을 보여주며, 특히 수학 분야에서 86.7점을 기록하여 단일 쿼리로 최고 순위를 달성했습니다.

코딩 관련 벤치마크에서의 결과와 함께, 공룡 코드 생성 및 3JS 기반 게임 제작 데모를 통해 모델의 응용력을 시연합니다.

[02:40] Gemini 2.5 Pro의 벤치마크 성능을 분석했습니다. ADR 폴리글랏에서는 최상위 성능을 보였지만, 라이브 코드벤치와 Swebench에서는 Sonnet 3.7이나 Gro 3 베타보다 낮은 성능을 보였습니다.

[03:04] 크롬 브라우저의 공룡 게임을 재현하는 데모를 통해 모델의 코드 생성 능력을 보여주었습니다. 에디터에서 픽셀 공룡 게임이 실행되는 것을 확인했습니다.

스노우맨이 축구하는 3JS 게임 데모를 보이며 모델의 실용성과 창의적 응용 가능성을 강조합니다.

[03:27] Three.js를 사용해 눈사람 축구 게임을 만드는 실험을 진행했습니다. 단 몇 번의 프롬프트로 물리 효과가 있는 기본적인 게임을 구현했습니다.

[00:00] 구글이 방금 Gemini 2.5 Pro를 출시했습니다

[00:03] 최신 실험 버전의 생각하는 모델로,

[00:05] 여러 벤치마크에서 선두를 달리고 있으며

[00:07] 특히 향상된 추론 능력과

[00:09] 코딩 능력이 크게 개선되었습니다

[00:11] 이 모델은 다른 모델들을 크게 앞서

[00:13] 지금까지 중 가장 큰 점수 차이로

[00:15] 도약했습니다. 2025년은

[00:18] AI 연구소들의 치열한 경쟁이

[00:19] 예상되는 해가 될 것 같습니다. 어제만 해도 Deepseek이

[00:22] V3 업데이트를 발표했고

[00:23] Deepseek의 성능이 크게 향상되었으며

[00:25] GPT-5도 곧 출시될 것으로 예상됩니다

[00:28] 이 모델은

[00:29] ai.studio.google.com에서 사용할 수 있습니다

[00:32] 모델에 대해 몇 가지 참고사항을 말씀드리면

[00:34] 지식 기준일이 2025년 1월로

[00:36] 이는 현존하는 프론티어 AI 연구소들 중

[00:39] 가장 최신의 지식 기준일입니다

[00:41] 이 모델은 입력으로

[00:43] 100만 토큰의 컨텍스트를

[00:45] 처리할 수 있는데

[00:46] 이는 엄청난 규모의 토큰 수입니다

[00:48] 또 다른 훌륭한 점은

[00:50] 기본적으로 멀티모달 이해가 가능하고

[00:52] 실시간 스트리밍과 도구 사용이

[00:54] 기본적으로 가능하다는 것입니다

[00:56] AI Studio의 API를 통해 바로 사용할 수 있고

[00:58] 또한 GCP의 Vertex

[01:00] AI 플랫폼에도 출시될 예정입니다

[01:02] 애플리케이션에

[01:04] 통합하고 싶으시다면 말이죠

[01:05] 추가로 Gemini 구독자라면

[01:07] gemini.google.com 앱에서

[01:10] 인터페이스를 통해

[01:11] 사용할 수 있습니다. 단, 주의할 점은

[01:13] Gemini 앱에서는 아직

[01:15] 심층 연구 기능이나

[01:17] HTML 게임을 만들 수 있는

[01:19] 최신 캔버스 기능은 사용할 수 없습니다

[01:21] 성능 향상에 대해 말씀드리면

[01:23] Gemini 2.5 Pro 실험 버전이

[01:26] 2월 5일에 출시된 이후 한 달 조금 지나

[01:29] ELO 점수가 1380에서

[01:31] 1443으로 크게 상승했습니다

[01:34] LM Arena 리더보드에서 가장 근접한 모델은

[01:37] 1404점을 기록한 Gro 3 Preview입니다

[01:40] 블로그 포스트의 내용을 빠르게 살펴보면

[01:42] 추론 모델에 익숙하지 않은 분들을 위해

[01:44] 설명드리자면, 이 모델이 답변하기 전에

[01:46] 정보를 분석하고

[01:48] 논리적 결론을 도출하며

[01:49] 맥락과 뉘앙스를 파악하고

[01:51] 정보에 기반한 결정을 내립니다

[01:53] 모델의 구체적인 사항으로

[01:56] 그들은 향상된 기본 모델과

[01:58] 개선된 사후 학습을 결합하여

[01:59] 새로운 수준의 성능을

[02:01] 달성했다고 언급했습니다

[02:03] 벤치마크 결과를 보면

[02:05] 여러 벤치마크에서

[02:07] Scale AI의 최신 벤치마크인

[02:09] Humanity's Last Exam에서

[02:11] GPQA 다이아몬드에서 18.8%, 84%의 점수를 기록했으며

[02:15] 이는 Claude 3.7 Thinking과

[02:18] 확장 사고 모드가 활성화된 Gro 3 베타에

[02:21] 근접한 수준입니다. 수학 분야에서는

[02:23] 86.7점을 기록했는데

[02:26] Gro 3 베타와 비교했을 때 차이점은

[02:28] 이것이 단 한 번의 쿼리로

[02:30] LLM에서 최고 순위를 기록했다는 것입니다

[02:33] 다른 벤치마크들을 살펴보면

[02:35] 코딩 벤치마크에서

[02:36] 흥미로운 점은

[02:38] Live Code, ADAR Polyglot과

[02:40] 벤치마크 결과를 보면 여기에 흥미로운 점이 있는데요

[02:42] ADR 폴리글랏 벤치마크의 경우

[02:44] 최상위 순위를 기록했지만

[02:47] 라이브 코드벤치와 Swebench에서는

[02:49] Sonnet 3.7이나 확장 사고가 가능한

[02:51] Gro 3 베타만큼 좋은 성능을 보여주진 못했습니다

[02:54] 하지만 여기서 흥미로운 논점은

[02:56] ADR 폴리글랏 벤치마크인데

[02:58] 이는 다른 벤치마크들과 달리

[03:00] 경쟁용 코드나 에이전트 코딩보다는

[03:02] 실제 일상적인 작업에 더 가까운

[03:04] 벤치마크라고 할 수 있죠. 여기 빠르게

[03:07] 공룡을 생성하는 데모를 보여드리겠습니다

[03:09] 크롬 브라우저의 로딩 페이지에서

[03:10] 본 적이 있을 텐데요

[03:12] 이 공룡 게임을 아시죠?

[03:14] 모델이 이 코드를 생성했고

[03:16] 에디터에 넣어서

[03:18] 이렇게 실행해보면

[03:19] 픽셀 공룡이 실행되는 것을

[03:21] 볼 수 있습니다. 브라우저에서

[03:23] 아마 많이 해보셨을

[03:25] 그 게임이 맞죠. 제가 모델을 처음 써보며

[03:27] Three.js로 눈사람이 축구하는

[03:30] 게임을 만들어달라고 요청했는데

[03:33] 단 몇 번의 프롬프트만으로

[03:35] 이렇게 만들어냈습니다. 보시다시피

[03:38] 공의 물리 효과도 있고

[03:40] 눈사람을 보시면

[03:43] 꽤 그럴듯하게

[03:45] 만들어진 것을 알 수 있죠

[03:46] 물론 실제로 플레이 가능하게

[03:48] 만들려면 추가 요청이 필요한데

[03:50] 충돌 감지나

[03:52] 공이 골대에 들어갔을 때

[03:54] 점수를 계산하는 메커니즘

[03:57] 또는 다른 플레이어와의 대전 등

[03:58] 이런 것들이 필요하겠지만

[04:00] 단 몇 번의 프롬프트로

[04:02] 이런 것을 만들어냈다는 게 중요합니다

[04:04] 저는 'Three.js와 HTML로 WD 키로 플레이 가능한 축구 게임을 만들어줘'라고 했고

[04:08] 몇 번의 프롬프트를 거쳐

[04:10] 이 게임이 만들어졌습니다

[04:12] 구글 팀의 이번 릴리즈는

[04:15] 정말 대단한 것 같습니다

[04:16] 저는 앞으로 이 모델을

[04:18] 더 많이 활용할 계획입니다

[04:19] 이 영상이 도움이 되셨다면

[04:21] 댓글, 공유, 구독 부탁드립니다

[04:22] 다음에 또 만나요