구글이 Gemini 2.5 Pro 모델을 발표하며, 강화된 추론과 코딩 성능 등 주요 특징을 소개합니다.
[00:00]
구글이 Gemini 2.5 Pro 실험 버전을 출시했으며, 이는 향상된 추론과 코딩 능력으로 여러 벤치마크에서 선두를 달리고 있습니다.
[00:19]
2025년은 AI 연구소들의 치열한 경쟁이 예상되며, Deepseek의 V3 업데이트와 GPT-5의 출시가 임박했습니다.
[00:29]
이 모델은 ai.studio.google.com에서 사용 가능하며, 2025년 1월까지의 최신 지식을 보유하고 100만 토큰의 컨텍스트를 처리할 수 있습니다.
모델은 멀티모달 이해, 실시간 스트리밍, 네이티브 도구 사용 능력을 갖추었으며, 다양한 플랫폼(API, GCP, Gemini 앱)에서 접근할 수 있습니다.
[00:50]
기본적으로 멀티모달 이해, 실시간 스트리밍, 도구 사용이 가능하며, API를 통해 즉시 사용할 수 있고 GCP Vertex AI 플랫폼에도 출시될 예정입니다.
업그레이드된 성능으로 ELO 점수가 대폭 상승하고, 여러 벤치마크에서 우수한 평가를 받으며 경쟁력을 입증합니다.
[01:21]
성능면에서 ELO 점수가 1380에서 1443으로 크게 상승했으며, 이는 차순위 모델인 Gro 3 Preview(1404점)를 크게 앞서는 수준입니다.
[02:07]
다양한 벤치마크에서 우수한 성능을 보여주며, 특히 수학 분야에서 86.7점을 기록하여 단일 쿼리로 최고 순위를 달성했습니다.
코딩 관련 벤치마크에서의 결과와 함께, 공룡 코드 생성 및 3JS 기반 게임 제작 데모를 통해 모델의 응용력을 시연합니다.
[02:40]
Gemini 2.5 Pro의 벤치마크 성능을 분석했습니다. ADR 폴리글랏에서는 최상위 성능을 보였지만, 라이브 코드벤치와 Swebench에서는 Sonnet 3.7이나 Gro 3 베타보다 낮은 성능을 보였습니다.
[03:04]
크롬 브라우저의 공룡 게임을 재현하는 데모를 통해 모델의 코드 생성 능력을 보여주었습니다. 에디터에서 픽셀 공룡 게임이 실행되는 것을 확인했습니다.
스노우맨이 축구하는 3JS 게임 데모를 보이며 모델의 실용성과 창의적 응용 가능성을 강조합니다.
[03:27]
Three.js를 사용해 눈사람 축구 게임을 만드는 실험을 진행했습니다. 단 몇 번의 프롬프트로 물리 효과가 있는 기본적인 게임을 구현했습니다.
[00:00]
구글이 방금 Gemini 2.5 Pro를 출시했습니다
[00:03]
최신 실험 버전의 생각하는 모델로,
[00:05]
여러 벤치마크에서 선두를 달리고 있으며
[00:07]
특히 향상된 추론 능력과
[00:09]
코딩 능력이 크게 개선되었습니다
[00:11]
이 모델은 다른 모델들을 크게 앞서
[00:13]
지금까지 중 가장 큰 점수 차이로
[00:15]
도약했습니다. 2025년은
[00:18]
AI 연구소들의 치열한 경쟁이
[00:19]
예상되는 해가 될 것 같습니다. 어제만 해도 Deepseek이
[00:22]
V3 업데이트를 발표했고
[00:23]
Deepseek의 성능이 크게 향상되었으며
[00:25]
GPT-5도 곧 출시될 것으로 예상됩니다
[00:28]
이 모델은
[00:29]
ai.studio.google.com에서 사용할 수 있습니다
[00:32]
모델에 대해 몇 가지 참고사항을 말씀드리면
[00:34]
지식 기준일이 2025년 1월로
[00:36]
이는 현존하는 프론티어 AI 연구소들 중
[00:39]
가장 최신의 지식 기준일입니다
[00:41]
이 모델은 입력으로
[00:43]
100만 토큰의 컨텍스트를
[00:45]
처리할 수 있는데
[00:46]
이는 엄청난 규모의 토큰 수입니다
[00:48]
또 다른 훌륭한 점은
[00:50]
기본적으로 멀티모달 이해가 가능하고
[00:52]
실시간 스트리밍과 도구 사용이
[00:54]
기본적으로 가능하다는 것입니다
[00:56]
AI Studio의 API를 통해 바로 사용할 수 있고
[00:58]
또한 GCP의 Vertex
[01:00]
AI 플랫폼에도 출시될 예정입니다
[01:02]
애플리케이션에
[01:04]
통합하고 싶으시다면 말이죠
[01:05]
추가로 Gemini 구독자라면
[01:07]
gemini.google.com 앱에서
[01:10]
인터페이스를 통해
[01:11]
사용할 수 있습니다. 단, 주의할 점은
[01:13]
Gemini 앱에서는 아직
[01:15]
심층 연구 기능이나
[01:17]
HTML 게임을 만들 수 있는
[01:19]
최신 캔버스 기능은 사용할 수 없습니다
[01:21]
성능 향상에 대해 말씀드리면
[01:23]
Gemini 2.5 Pro 실험 버전이
[01:26]
2월 5일에 출시된 이후 한 달 조금 지나
[01:29]
ELO 점수가 1380에서
[01:31]
1443으로 크게 상승했습니다
[01:34]
LM Arena 리더보드에서 가장 근접한 모델은
[01:37]
1404점을 기록한 Gro 3 Preview입니다
[01:40]
블로그 포스트의 내용을 빠르게 살펴보면
[01:42]
추론 모델에 익숙하지 않은 분들을 위해
[01:44]
설명드리자면, 이 모델이 답변하기 전에
[01:46]
정보를 분석하고
[01:48]
논리적 결론을 도출하며
[01:49]
맥락과 뉘앙스를 파악하고
[01:51]
정보에 기반한 결정을 내립니다
[01:53]
모델의 구체적인 사항으로
[01:56]
그들은 향상된 기본 모델과
[01:58]
개선된 사후 학습을 결합하여
[01:59]
새로운 수준의 성능을
[02:01]
달성했다고 언급했습니다
[02:03]
벤치마크 결과를 보면
[02:05]
여러 벤치마크에서
[02:07]
Scale AI의 최신 벤치마크인
[02:09]
Humanity's Last Exam에서
[02:11]
GPQA 다이아몬드에서 18.8%, 84%의 점수를 기록했으며
[02:15]
이는 Claude 3.7 Thinking과
[02:18]
확장 사고 모드가 활성화된 Gro 3 베타에
[02:21]
근접한 수준입니다. 수학 분야에서는
[02:23]
86.7점을 기록했는데
[02:26]
Gro 3 베타와 비교했을 때 차이점은
[02:28]
이것이 단 한 번의 쿼리로
[02:30]
LLM에서 최고 순위를 기록했다는 것입니다
[02:33]
다른 벤치마크들을 살펴보면
[02:35]
코딩 벤치마크에서
[02:36]
흥미로운 점은
[02:38]
Live Code, ADAR Polyglot과
[02:40]
벤치마크 결과를 보면 여기에 흥미로운 점이 있는데요
[02:42]
ADR 폴리글랏 벤치마크의 경우
[02:44]
최상위 순위를 기록했지만
[02:47]
라이브 코드벤치와 Swebench에서는
[02:49]
Sonnet 3.7이나 확장 사고가 가능한
[02:51]
Gro 3 베타만큼 좋은 성능을 보여주진 못했습니다
[02:54]
하지만 여기서 흥미로운 논점은
[02:56]
ADR 폴리글랏 벤치마크인데
[02:58]
이는 다른 벤치마크들과 달리
[03:00]
경쟁용 코드나 에이전트 코딩보다는
[03:02]
실제 일상적인 작업에 더 가까운
[03:04]
벤치마크라고 할 수 있죠. 여기 빠르게
[03:07]
공룡을 생성하는 데모를 보여드리겠습니다
[03:09]
크롬 브라우저의 로딩 페이지에서
[03:10]
본 적이 있을 텐데요
[03:12]
이 공룡 게임을 아시죠?
[03:14]
모델이 이 코드를 생성했고
[03:16]
에디터에 넣어서
[03:18]
이렇게 실행해보면
[03:19]
픽셀 공룡이 실행되는 것을
[03:21]
볼 수 있습니다. 브라우저에서
[03:23]
아마 많이 해보셨을
[03:25]
그 게임이 맞죠. 제가 모델을 처음 써보며
[03:27]
Three.js로 눈사람이 축구하는
[03:30]
게임을 만들어달라고 요청했는데
[03:33]
단 몇 번의 프롬프트만으로
[03:35]
이렇게 만들어냈습니다. 보시다시피
[03:38]
공의 물리 효과도 있고
[03:40]
눈사람을 보시면
[03:43]
꽤 그럴듯하게
[03:45]
만들어진 것을 알 수 있죠
[03:46]
물론 실제로 플레이 가능하게
[03:48]
만들려면 추가 요청이 필요한데
[03:50]
충돌 감지나
[03:52]
공이 골대에 들어갔을 때
[03:54]
점수를 계산하는 메커니즘
[03:57]
또는 다른 플레이어와의 대전 등
[03:58]
이런 것들이 필요하겠지만
[04:00]
단 몇 번의 프롬프트로
[04:02]
이런 것을 만들어냈다는 게 중요합니다
[04:04]
저는 'Three.js와 HTML로 WD 키로 플레이 가능한 축구 게임을 만들어줘'라고 했고
[04:08]
몇 번의 프롬프트를 거쳐
[04:10]
이 게임이 만들어졌습니다
[04:12]
구글 팀의 이번 릴리즈는
[04:15]
정말 대단한 것 같습니다
[04:16]
저는 앞으로 이 모델을
[04:18]
더 많이 활용할 계획입니다
[04:19]
이 영상이 도움이 되셨다면
[04:21]
댓글, 공유, 구독 부탁드립니다
[04:22]
다음에 또 만나요