Gemini 3.0 Pro (얼리 체크포인트 테스트): 세상에! 1위 모델, 이게 진짜 역대급 SOTA 모델이다!

AICodeKing 구독자 71,200명

요약

이 영상에서는 Google AI Studio의 AB 테스트를 통해 숨겨진 Gemini 3.0 Pro 체크포인트를 획득하는 과정을 소개한다. 평면도·SVG 판다·3D 렌더링·자동 체스 등 다양한 비주얼 생성과 AM 시험, 수수께끼 해결까지 13가지 테스트에서 단번에 최고의 성능을 발휘해 Sonnet 4.5 대비 25% 뛰어난 결과를 보여준다. Pro 버전 출시와 가격 정책, 멀티모달 툴 호출 등 생태계 전반에 미칠 영향을 전망하며 직접 체험해 볼 것을 권장한다.

주요 키워드

Gemini 3.0 Pro 체크포인트 ID AB 테스트 one-shot generation SOTA tool calling 3.js Blender 스크립트 리더보드 토큰

하이라이트

🔑 AB 테스트를 활용하면 Google AI Studio에서 간헐적으로 Gemini 3.0 Pro 체크포인트(2HT로 시작)를 사용할 수 있다.
⚡ 확인까지 약 50번의 프롬프트 시도가 필요하지만, Pro 모델이 등장하면 성능 차이가 매우 크다.
🌟 평면도 생성에서 입구·거실·주방·문 배치가 논리적으로 정확해 지금까지 본 모델 중 가장 합리적이다.
🚀 SVG 판다가 햄버거와 자연스럽게 상호작용하고, 3.js Pokeball 렌더링·자동 체스·Minecraft 시뮬레이션도 초고품질로 생성한다.
📌 AM 시험 문제와 간단한 수수께끼를 모두 한 번에 맞추며 Sonnet 4.5 대비 25% 높은 성능으로 리더보드 1위에 올랐다.
💡 Blender 스크립트 테스트에서 Pokeball 모델링·조명·카메라 세팅까지 정확히 처리해 Opus급 결과를 능가한다.
🔨 Gemini CLI·Jules·AI Studios 앱 생성기 등 툴 생태계를 강화하며, 멀티모달 Tool calling 기능 도입이 기대된다.
🎯 Pro 버전 출시 시 Sonnet과 유사한 가격 수준이라면 지불 의사가 있으며, 양자화 버전 또는 개선된 모델도 가능성을 언급한다.

용어 설명

AB 테스트

서로 다른 두 모델(예: Gemini 2.5 Pro, Gemini 3.0 Pro)을 무작위로 비교해 배포되는 버전을 판별하는 실험 방식.

체크포인트

학습된 모델의 상태를 저장한 파일로, 각 버전(3.0 Pro 등)을 구분하는 고유 ID가 포함된다.

one-shot generation

추가 학습 없이 한 번의 프롬프트로 원하는 결과를 생성하는 기능.

SOTA

State-of-the-Art(최첨단) 모델을 뜻하는 약어로, 해당 분야 최고 성능을 지칭한다.

Quantization(양자화)

모델 파라미터를 저용량으로 변환해 경량화하거나 성능을 조정하는 기술.

Token(토큰)

모델이 입력·출력 시 처리하는 텍스트 단위로, 단어나 어절보다 더 작은 단위로 분할된다.

Tool calling

AI 모델이 외부 툴(예: 플러그인, 스크립트)을 호출해 복합 작업을 수행하는 기능.

CLI

Command Line Interface(명령줄 인터페이스)의 약어로, 텍스트 명령어로 도구를 조작하는 방식.

초반에 Google AI Studio에서 Gemini 3.0 Pro 체크포인트를 AB 테스트로 얻는 방법을 설명한다. 50번 프롬프트 중 한 번씩만 Pro 모델이 활성화되는 어려움과 13개 일반 질문을 통한 성능 검증 배경을 제시한다.

[00:09] Gemini 3 Pro의 체크포인트가 구글 AI Studio에서 이용 가능해졌으며, A/B 테스트를 통해 접근할 수 있다고 설명합니다.

[00:28] A/B 테스트의 작동 방식을 설명하고, 2HT로 시작하는 체크포인트 ID가 Gemini 3.0 Pro임을 밝힙니다.

[00:50] 13개의 일반 질문으로 모델을 테스트했으며, 올바른 체크포인트가 50번 중 1번만 나타나는 어려움이 있었지만 결과가 훌륭했다고 말합니다.

가장 합리적인 평면도 생성을 확인한다. 입구, 거실, 주방, 문 배치가 논리적이다. 이어서 햄버거와 상호작용하는 SVG 판다 이미지를 생성해 캐릭터 디테일을 살펴본다.

[01:18] 테스트 결과를 보여주기 시작하며, 첫 번째는 평면도 생성으로 지금까지 본 것 중 가장 놀라운 결과라고 평가합니다.

[01:29] 평면도의 구체적인 장점들을 설명하며, 입구, 거실, 주방, 식당의 배치가 매우 합리적이라고 분석합니다. 다만 화장실 위치가 부적절하다는 점을 지적합니다.

[02:06] 두 번째 테스트인 햄버거를 든 SVG 팬더 생성 결과를 보여주며, 햄버거와 팬더의 상호작용이 훌륭하다고 평가합니다.

[02:20] 세 번째로 3.js로 만든 포켓볼을 보여주며, 지금까지 본 것 중 최고 수준이고 조명 효과도 뛰어나다고 설명합니다. 모든 생성이 원샷으로 이뤄졌다는 점을 강조합니다.

3.js로 렌더링한 Pokeball, 자동으로 플레이되는 체스 게임, 칸딘스키 스타일의 Minecraft 시뮬레이션을 테스트한다. 조명·프레임률·디테일 전반이 매우 뛰어나다.

[02:41] 네 번째 테스트인 자동 플레이 체스 게임을 소개하며, 기존 모델들과 달리 보라색과 파란색을 사용하지 않는 첫 번째 모델이라고 언급합니다.

[02:55] 모델의 훈련 데이터가 특정 색상 사용을 피하도록 높은 수준으로 큐레이션되었다고 분석하며, 제거된 말이 위쪽에 배치되는 적절한 체스판을 만든 첫 번째 모델이라고 평가합니다.

[03:19] 마지막으로 칸딘스키 스타일의 마인크래프트 게임을 보여주며, 이 프롬프트에 대한 최고의 생성 결과이고 FPS 성능도 뛰어나다고 설명하며 결과들의 품질에 대한 감탄을 표현합니다.

나비 비행 시뮬레이션, CLI 기반 이미지 변환 도구, Blender 스크립트를 통한 Pokeball 제작을 진행한다. 특히 Blender 스크립트가 조명과 카메라 설정까지 정확하게 처리한 점이 인상적이다.

[03:41] 나비 시뮬레이션, CLI 도구, 포켓볼 Blender 스크립트 등 다양한 태스크를 테스트한 결과, 포켓볼 생성에서는 조명과 카메라 설정까지 완벽하게 처리하며 Opus 수준 이상의 성능을 보였습니다.

AIM(AM) 시험 문제와 간단한 수수께끼를 단번에 해결하며 Sonnet 4.5 대비 25% 높은 성능을 기록한다. 한 번의 시도로 리더보드 1위를 확정 지어 SOTA 모델임을 입증한다.

[04:32] AIM 문제와 수수께끼 테스트에서 모든 문제를 완벽하게 해결했으며, GPT-4o가 3-4번 시도가 필요한 문제도 한 번에 풀어내고 Sonnet도 통과하지 못하는 문제들을 완벽하게 해결했습니다.

[04:59] 이 모델은 리더보드에서 압도적인 1위를 차지하며 Sonnet 3.5보다 25% 향상된 성능을 보였습니다. thinking 모델로 추정되며 Pro 모델로 출시될 가능성이 높아 보입니다.

실제 공개 모델은 개선되거나 양자화된 버전일 수 있음을 언급한다. Pro 버전으로 출시돼 Sonnet과 비슷한 가격이라면 기꺼이 지불하겠다는 견해를 제시한다.

[05:32] Sonnet 수준의 가격이라면 기꺼이 지불할 의향이 있으며, 도구 호출 성능이 뛰어나 다양한 도구에서 활용 가능하기를 기대합니다. 2.5 Pro의 아쉬웠던 부분이 개선되기를 바랍니다.

[06:11] 가격 대비 성능 면에서 압승하며, Gemini 3 Pro 버전으로 출시될 것으로 예상됩니다. Ultra 모델은 단종되었을 가능성이 높아 Pro 모델이 메인이 될 것 같습니다.

Gemini CLI, Jules, AI Studios 앱 생성기 업데이트 현황을 소개한다. 현재 제품이 Anthropics·OpenAI 대비 우수하나 모델이 제한 요소라며, Gemini 3 도입으로 전반적 생태계가 활성화될 것으로 전망한다.

[06:57] Claude Sonnet 이후 진정한 업그레이드이며 멀티모달 기능도 지원할 것으로 예상됩니다. Google의 Gemini CLI, Jules, AI Studio 등 제품군이 전반적으로 경쟁사보다 우수합니다.

[07:36] 현재 Google 제품들의 유일한 제약은 모델 성능이었는데, Gemini 3가 이 모든 제품들을 크게 향상시킬 것으로 기대됩니다.

예상을 뛰어넘은 성능에 놀라움을 표하며 AB 테스트를 통해 직접 체험해 볼 것을 권장한다. 구독·후원 안내로 영상을 마무리하며 다음 콘텐츠 예고를 한다.

타임라인 정보가 없습니다.

[00:00] [음악]

[00:03] [박수]

[00:04] 안녕하세요, 새로운 영상에 오신 것을 환영합니다. 오늘은

[00:09] Gemini 3 Pro에 대해 이야기하고 싶습니다. 즉

[00:12] Gemini 3 Pro의 체크포인트가 지금

[00:15] 구글의 AI Studio에서 이용 가능합니다. 어떻게

[00:18] 가능한지 궁금하시죠? AI Studio에 가서

[00:22] Gemini 2.5 Pro를 선택한 다음 메시지를

[00:26] 보내면 때로는 A/B 테스트를

[00:28] 만날 수 있습니다. 이 A/B 테스트는 때때로

[00:32] Gemini 3.0 플래시를 제공하고

[00:36] 때로는 Gemini 3.0 Pro를 제공합니다. 이는

[00:39] 네트워크 로그에서 확인할 수 있고

[00:42] 체크포인트 ID를 찾을 수 있습니다.

[00:44] 2HT로 시작하는 체크포인트 ID가

[00:47] 3.0 Pro라고 알려져 있습니다.

[00:50] 그래서 이 모델을 13개의 일반적인 질문으로

[00:53] 꼼꼼하게 테스트했습니다. 유일한 문제는

[00:57] 꽤 오랜 시간이 걸렸다는 것입니다.

[01:00] 왜냐하면 Gemini 3.0 Pro의

[01:01] 올바른 체크포인트는 보내는 50개 프롬프트 중

[01:05] 한 번만 나타나기 때문입니다.

[01:08] 정말 고통스러웠지만 모든 테스트를 했고

[01:11] 정말 너무 훌륭했습니다.

[01:15] 그럼 바로 들어가서 결과를

[01:18] 보여드리겠습니다. 먼저 평면도가

[01:21] 있습니다. 이것은 제가 지금까지 본 것 중

[01:24] 가장 놀라운 생성 결과 중 하나입니다.

[01:27] 정말 놀랍습니다.

[01:29] 보세요. 이것은 지금까지 본 것 중

[01:33] 가장 합리적인 생성 결과입니다.

[01:35] 어떤 모델에서든 말이죠. 이것을 보세요. 여기

[01:39] 입구가 있고 그다음 거실이

[01:41] 올바르게 배치되어 있습니다. 여기

[01:44] 주방과 식당 공간이 있고

[01:47] 문 공간도 바로 거기에 있습니다.

[01:50] 한 가지 실수한 부분은 화장실을

[01:52] 방 앞쪽에 두어서 방으로 들어가려면

[01:55] 화장실을 통과해야 한다는 것인데

[01:56] 그건 좋지 않습니다.

[01:58] 그래도 여전히 가장

[02:00] 합리적인 생성 결과 중 하나입니다.

[02:03] 다음으로는 햄버거를 들고 있는

[02:06] SVG 팬더가 있습니다. 꽤 훌륭해 보입니다.

[02:09] 놀랍도록 좋아 보이는 햄버거를 보시고

[02:12] 팬더도 이 생성물에서

[02:14] 정말 잘 상호작용하고 있는데

[02:17] 이는 정말 훌륭합니다. 그다음에는

[02:20] 3.js로 만든 포켓볼이 있고 이것도

[02:23] 지금까지 본 것 중 최고는 아니더라도

[02:26] 최고 중 하나입니다. 정말

[02:29] 멋져 보이고 조명도

[02:32] 정말 잘 작동합니다. 이들은 모두

[02:34] 원샷 생성으로 정말 놀랍습니다. 그다음에는

[02:37] 자동 플레이 체스 게임이 있습니다. 그리고

[02:41] 얼마나 좋아 보이고 얼마나 잘

[02:43] 작동하는지 보세요.

[02:46] 이것은 또한 제가 본 첫 번째 모델로

[02:48] 보라색과 파란색을 사용하지 않는데

[02:50] 정말 훌륭합니다.

[02:52] 모델의 훈련 데이터가 그것을 제거하기 위해

[02:55] 매우 높은 수준으로 큐레이션된 것 같습니다.

[02:57] 제가 한 작은 테스트들에서는

[03:00] 전혀 그런 색을 사용하지 않았거든요.

[03:02] 하지만 이것도 정말 좋습니다. 정말

[03:05] 감명받았습니다.

[03:08] 이것은 또한 말이 제거될 때

[03:09] 위쪽에 말이 배치된

[03:11] 적절한 체스판을 만든

[03:13] 첫 번째 모델입니다.

[03:15] 정말 훌륭합니다. 그다음에는

[03:19] 칸딘스키 스타일의 마인크래프트 게임이

[03:21] 나무와 모든 것이 있어 보입니다. 그리고

[03:24] 꽤 좋아 보입니다. 이 프롬프트에 대해

[03:26] 지금까지 본 최고의

[03:28] 생성 결과입니다.

[03:30] 이 게임의 FPS도 훌륭합니다.

[03:33] 정말 성능이 좋습니다. 이 생성 결과들이

[03:35] 얼마나 좋게 나오는지

[03:38] 정말 놀랍습니다. 그다음에는

[03:41] 정원에서 나비가 날아다니는 시뮬레이션을 실행해봤습니다.

[03:47] 결과가 꽤 좋긴 하지만, 최고라고는 할 수 없었어요.

[03:49] 이 분야에서는 GPT-4o가 더 뛰어나지만,

[03:52] 3-4번 정도 더 실행해보면

[03:55] 더 나은 결과를 얻을 수 있을 것 같아요.

[03:56]

[03:58] 그 다음엔 이미지 변환용 CLI 도구를 테스트했는데,

[04:00] 이것도 좋긴 했지만 최고는 아니었어요.

[04:03] 포켓볼을 만드는 Blender 스크립트도 테스트했죠.

[04:06] 결과를 보시면 정말 대단합니다.

[04:09] 단순히 공만 만든 게 아니라

[04:12] 조명과 카메라도 설정했고,

[04:14] 조명이 정확히 반사되어

[04:17] 매우 멋진 외관을 연출했어요.

[04:19] Opus만이 이 정도 수준이었는데,

[04:22] 이건 Opus보다도 더 뛰어납니다.

[04:26]

[04:28] 그 후엔 몇 가지 AIM 질문과 간단한 수수께끼를 테스트했는데,

[04:32] 모든 문제를 완벽하게 해결했습니다.

[04:36] AIM 문제를 한 번에 해결하는 걸 보실 수 있는데,

[04:39] GPT-4o도 3-4번의 시도가 필요한 문제를

[04:42] 한 번에 풀어냈습니다.

[04:45]

[04:47] 다른 문제들도 모두 완벽하게 해결했고,

[04:50] Sonnet도 통과하지 못하는 문제들을

[04:53] 최대 사고력을 동원해도 못 풀었던 것들을

[04:55] 수수께끼도 당연히 완벽하게 해결했습니다.

[04:59] 결과적으로 이 모델은

[05:01] 제 리더보드에서 압도적인 1위를 차지했고,

[05:03] Sonnet 3.5보다 25%나 향상된 성능을

[05:07] 보여줬습니다.

[05:09] 물론 이 정확한 모델이

[05:11] 그대로 출시될 것이라는 의미는 아닙니다.

[05:14] 개선된 버전이나

[05:17] 양자화된 버전이 나올 수도 있죠.

[05:20] 예전에 GPT-4o의 Zenith 체크포인트가 있었는데,

[05:24] A/B 테스트 때 많은 사람들이 테스트했지만

[05:26] 아직 정식 출시되지 않았어요.

[05:28] 정말 좋은 모델이었는데 말이죠.

[05:32] 이 모델이 Pro 모델이 될 것 같고,

[05:34] Sonnet 가격이라면

[05:37] 기꺼이 지불할 의향이 있습니다.

[05:39] 정말로 더 뛰어나거든요.

[05:42] 아마도 thinking 변형 모델일 텐데,

[05:45] 사고 과정은 보여주지 않네요.

[05:47] 그래도 thinking 모델이 확실한 것 같은 게,

[05:49] A/B 테스트에서 첫 번째 토큰을 생성하는 데

[05:51] 시간이 좀 걸리거든요.

[05:55] 그래서 이 모델이

[05:58] 도구 호출에서 매우 뛰어나서

[06:00] 다양한 도구에서 활용 가능하기를 바라고 있어요.

[06:04] 2.5 Pro가 그 부분에서 좀 아쉬웠거든요.

[06:07] 그 자체로는 훌륭한 모델이었지만요.

[06:09]

[06:11] 토큰 수를 확인하고

[06:13] Sonnet과 동일한 요금으로 가격을 계산했는데,

[06:15] 이 모델이 비쌀 것 같다고 생각하거든요.

[06:18] 제게는 가격 대비 성능 차트에서 압승입니다.

[06:21] 이게 Gemini 3 Ultra 같은 것일 수도 있지만

[06:25] Ultra 모델들은

[06:27] 단종된 것 같아서

[06:30] 그건 아닐 것 같고요.

[06:32] Sonnet과 비슷한 가격의

[06:35] Pro 버전이 될 것 같은데,

[06:38] 성능이 정말 훌륭해 보이니까

[06:41] 그 정도 가격은 기꺼이 지불하겠어요.

[06:43] 그 가격이 문제없거든요.

[06:45]

[06:47] Sonnet 가격보다 높아진다면

[06:49] 흥미로운 제안이 될 텐데,

[06:51] 만약 Gemini 3에서

[06:53] 이 체크포인트를 모델로 얻는다면

[06:57] 정말 혁신적일 거예요.

[06:59] 너무 좋거든요.

[07:02] Claude Sonnet이나 다른 모델들과 비교해서

[07:04] 정말 큰 업그레이드인 것 같아요.

[07:08] 3.5 Sonnet 이후로는 진짜 업그레이드죠.

[07:12] 멀티모달 기능도 있을 거라고 믿어요.

[07:15] 그들 팀이 정말 열심히 작업하고 있는 것 같아요.

[07:18] Gemini CLI가 훌륭한 업그레이드를 받고 있고,

[07:20] Jules도 멋진 업데이트를 받고 있어요.

[07:23] AI Studio의 앱 생성기도 정말 인상적이고,

[07:26] 전반적으로 제품 면에서

[07:29] Anthropic이나 OpenAI의

[07:32] 제품들보다 우수해요.

[07:34]

[07:36] 지금 이 제품들을 제한하는 유일한 것은

[07:38] 모델 자체인데, Gemini 3가

[07:41] 이 모든 것들을 크게

[07:44] 부활시킬 거예요.

[07:45] 그래서 지켜봐야 할 것 같아요.

[07:49] 테스트할 때 솔직히

[07:52] 성능이 그렇게 좋지 않을 거라고 생각했고

[07:54] 영상을 만들지 않을 계획이었어요.

[07:56]

[07:58] 하지만 성능이 너무 달라서

[08:00] 이 영상을 만들 수밖에 없었어요.

[08:03] 여러분도 확인해보세요.

[08:06] A/B 테스트가 나올 때까지 프롬프트를 다시 실행해보면

[08:09] 이 모델을 접할 수 있을 거예요.

[08:12] 전반적으로 정말 멋져요.

[08:15] 어쨌든 아래에 생각을 댓글로 남겨주시고

[08:17] 채널 구독도 해주세요.

[08:19] Super Thanks 옵션으로 후원하거나

[08:21] 채널 멤버십에 가입해서

[08:23] 특전도 받으실 수 있어요.

[08:26] 다음 영상에서 뵙겠습니다. 안녕히 가세요!