일론 머스크의 Grok3, AI 업계를 충격에 빠뜨리다 (모든 것을 제치다)

TheAIGRID 구독자 324,000명

요약

이 영상은 일론 머스크가 선보인 최신 AI 모델 Grok3의 놀라운 성능과 혁신적 기능을 자세히 분석하고 있다. Grok3는 다양한 벤치마크 테스트와 블라인드 테스트에서 GPT-4, Gemini 2 등 기존 최첨단 모델들을 능가하는 모습을 보이며, 비단 단순한 암기 능력을 넘어 확장된 추론 능력을 자랑한다. 특히, 지속적인 학습과 업데이트를 통해 매일 성능이 향상되며, 복잡한 문제 해결 및 코드 생성 등 실제 애플리케이션에서도 효율적으로 활용될 수 있음을 강조한다. 마지막으로, 차세대 검색 기능인 Deep Search와 사용자에게 투명한 사고 과정을 제공하는 새로운 에이전트 기능을 소개하며 AI의 미래 가능성을 전망한다.

주요 키워드

Grok3 벤치마크 추론 모델 Chatbot Arena 지속적 업데이트 Deep Search 에이전트 Scaling Laws Python 코드

하이라이트

🔑 Grok3는 다양한 벤치마크 테스트에서 경쟁 모델들을 능가하며 세계 최고 성능을 입증합니다.
⚡️ 모델은 지속적인 대규모 학습과 업데이트를 통해 매일 성능이 눈에 띄게 개선됩니다.
🌟 확장된 추론 능력을 통해 Grok3는 보다 복잡한 문제, 예를 들어 지구와 화성 간의 궤도 전환 문제를 해결할 수 있습니다.
🚀 블라인드 테스트 및 Chatbot Arena를 통한 평가에서 Grok3는 객관적인 성과로 높은 평가를 받고 있습니다.
📌 Deep Search와 같은 차세대 검색 기능은 모델이 사고 과정을 사용자에게 투명하게 보여주어 신뢰성을 높입니다.

용어 설명

Grok3

일론 머스크가 제시한 최신 AI 모델로, 다양한 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 보입니다.

비추론 모델 (Non Reasoning Model)

즉각적인 응답 위주로 동작하는 모델로, 기본적인 벤치마크 평가에서 주로 사용됩니다.

추론 모델 (Reasoning Model)

문제 해결 시 일정 시간 동안 사고 과정을 거쳐 보다 정교하고 복잡한 문제에 대해 높은 정확도의 답변을 도출하는 모델입니다.

Chatbot Arena

두 개의 AI 모델이 동일한 질문에 대해 응답을 제공하고, 사용자가 어느 쪽 답변이 더 우수한지를 선택하는 블라인드 테스트 플랫폼입니다.

Scaling Laws

대규모 데이터와 학습을 통하여 모델 성능이 향상되는 관계를 설명하는 원리로, Grok3의 지속적 개선을 뒷받침합니다.

Deep Search

모델이 웹상의 다양한 정보를 수집하고, 사고 과정(Chain of Thought)을 투명하게 제공함으로써 사용자가 보다 깊이 있는 검색 결과를 얻을 수 있는 차세대 검색 기능입니다.

영상 초반부에서는 Grok3가 세계 최고 AI임을 주장하며 주요 벤치마크와 경쟁 모델들과의 성능 비교 결과를 소개합니다. 특히, Grok3와 Grok3 mini가 GPT-4, Gemini 2 등 최신 모델들을 능가하는 모습을 강조합니다.

[00:00] 일론 머스크가 Grok 3를 세계에서 가장 똑똑한 AI라고 발표했으며, 이는 단순한 과대 선전이 아닌 것으로 입증되었습니다.

[00:23] Grok 3와 Grok 3 Mini가 Gemini 2, DeepSeek V3, Claude 3.5, GPT-4 등 최신 AI 모델들을 벤치마크에서 모두 능가했습니다.

[01:12] 현재도 트레이닝이 진행 중인 Grok 3는 일반 수학적 추론, STEM 지식, 컴퓨터 과학 코딩 등 세 가지 주요 분야에서 평가되었습니다.

모델이 지속적인 대규모 학습과 업데이트를 통해 날마다 개선되고 있음을 설명합니다. 또한, 단순 암기 기반의 비추론 모델뿐 아니라, 복잡한 문제 해결을 위한 확장된 추론 모델의 도입과 블라인드 테스트 결과를 통해 일반화 능력을 입증합니다.

[02:12] Grok 3 팀은 챗봇 아레나에서 블라인드 테스트를 진행했고, 사용자들의 선택에 따른 평가에서 1위를 차지했습니다.

[02:51] Grok 3가 블라인드 테스트에서 우승을 차지하며, 이는 기본 모델임에도 불구하고 뛰어난 성과를 보여주고 있습니다.

[03:00] 'Chocolate'이라는 코드명으로 ChatBot Arena에서 2주간 진행된 블라인드 테스트에서 높은 평가를 받았습니다.

[03:24] ChatBot Arena는 순수하게 AI 엔진들의 성능만을 비교하는 플랫폼으로, 사용자들이 모델의 정체를 모른 채 평가를 진행합니다.

[03:47] Grok 3는 초기 버전임에도 1,400점이라는 전례 없는 ELO 점수를 달성했으며, 모든 카테고리에서 최상위 성과를 보여주고 있습니다.

[04:32] Grok 3는 지속적인 업데이트를 통해 매일 성능이 개선되고 있으며, 현재 테스트 버전보다 더 뛰어난 새로운 버전이 준비되어 있습니다.

[04:46] 추론 모델은 즉각적인 응답 대신 더 오랜 시간 생각하여 더 정확하고 복잡한 문제를 해결할 수 있는 능력을 가지고 있습니다.

[05:20] Grok 3의 추론 능력은 Claude 3 Mini를 포함한 다른 최신 AI 모델들을 능가하는 성능을 보여주고 있습니다.

[05:46] Grok 3의 사전 훈련이 완료되고, 추론 능력을 구현하기 위한 노력이 진행 중입니다. 현재는 베타 버전과 미니 버전을 함께 개발하고 있으며, 미니 버전이 더 긴 훈련 시간으로 좋은 성능을 보이고 있습니다.

[06:44] 수학(고교 경시대회), 과학(PhD 수준), 코딩(경쟁적 코딩/리트코드) 세 분야에서 벤치마크 테스트를 진행했으며, Grok 3가 전반적으로 우수한 성능을 보여주고 있습니다.

[07:34] 모델의 특별한 기능으로 '테스트와 컴퓨팅' 시간을 늘려 더 깊은 추론이 가능하며, 이를 통해 성능이 향상됨을 확인했습니다. 이는 음영 처리된 막대 그래프로 표시되었습니다.

[08:27] 개발팀은 모델의 성능이 단순한 과적합이나 암기의 결과가 아닌지 검증하는 과정을 진행했습니다.

[08:38] AMC 2025 시험에서의 새로운 테스트 결과, Grok의 성능이 예상보다 우수했으며 벤치마크 과적합 우려에 대한 검증이 이루어졌습니다.

[09:00] 최근 진행된 AMC 2025 대회에서 Grok 3의 큰 모델이 작은 모델보다 더 나은 일반화 능력을 보여주었습니다.

[09:49] 17개월 전 기초적인 문제 해결도 어려웠던 Grok이 이제는 대학 수준의 문제를 해결할 수 있는 수준으로 발전했습니다.

[10:24] Grok의 고급 추론 능력을 시연하기 위해 물리학 문제와 게임 작성 문제를 준비했습니다.

[10:47] 지구-화성 간 우주 비행 궤도를 계산하고 시각화하는 실시간 물리학 문제 해결 능력을 보여주려 합니다.

Grok3가 실제 물리 문제, 즉 지구에서 화성으로의 궤도 전환 문제를 해결하는 과정을 시연합니다. Python과 matplotlib를 이용한 코드 생성 및 애니메이션 제작을 통해 사고 과정과 문제 해결 과정을 눈으로 확인할 수 있습니다.

[11:28] Grok이 지구에서 화성까지의 우주 비행 경로를 시뮬레이션하는 코드를 생성하고 있습니다. 이는 발사, 화성 착륙, 그리고 지구 귀환까지의 전체 경로를 포함합니다.

[11:38] Grok의 고급 추론 기능을 통해 문제 해결 과정을 추적할 수 있으며, 모델 보호를 위해 일부 사고 과정은 가려져 있습니다.

[12:07] Matplotlib을 사용한 파이썬 코드를 생성하여 케플러 법칙에 기반한 우주 비행 경로를 시뮬레이션합니다.

[12:44] 시뮬레이션은 지구와 화성의 궤도, 그리고 두 행성 사이를 이동하는 우주선의 경로를 성공적으로 보여줍니다.

차세대 검색 기능인 Deep Search와 AI 에이전트로의 전환에 대해 소개합니다. 사용자에게 검색 과정의 사고 데이터를 투명하게 제시하며, 새로운 웹사이트 gro.com과 전용 앱을 통해 최신 기능을 제공하는 점을 강조합니다.

[13:33] Grok 3가 AI 에이전트 시대에 진입했으며, '딥 서치'라는 새로운 검색 기능을 도입했습니다. 이는 일상적인 질문에 답변하고 우주를 이해하는데 도움을 주는 도구입니다.

[14:23] 스타십 발사일 정보 검색을 시작하며, 모델의 검색 프로세스와 진행 상황을 보여주는 인터페이스를 설명합니다.

[14:50] 새로운 검색 시스템이 수백 시간의 구글 검색 시간을 절약할 수 있으며, 웹사이트 탐색과 출처 확인 과정을 상세히 보여줍니다.

[15:20] Path of Exile 하드코어 리그의 인기 빌드 검색과 March Madness 예측에 대한 워런 버핏의 10억 달러 도전에 대해 논의합니다.

[16:17] 딥서치의 투명성 기능을 소개하며, 모델의 사고 과정과 결론 도출 과정을 사용자가 직접 확인할 수 있는 기능을 설명합니다.

[16:56] 정보 검색 과정의 투명성과 교차 검증 기능이 기존 검색 엔진보다 강력한 장점임을 강조합니다.

[17:11] X 플랫폼의 소스만을 사용하도록 설정할 수 있으며, 이는 기존 검색 엔진보다 더 지능적이고 제어 가능한 검색을 제공합니다.

[17:19] Grok은 웹 검색이나 소셜 미디어 리서치에서 30분에서 1시간 걸리는 작업을 10분 만에 완료할 수 있어 시간을 크게 절약할 수 있습니다.

[17:35] Grok은 grok.com 웹사이트를 통해 서비스될 예정이며, Super Grok 버전을 통해 가장 진보된 기능들과 최신 기능들에 먼저 접근할 수 있습니다.

[18:12] iOS 앱스토어에서도 Grok 앱을 이용할 수 있으며, 웹 버전이 가장 최신이자 강력한 기능을 제공할 예정입니다.

[00:00] 일론 머스크가

[00:01] Grok 3가 세계에서 가장 똑똑한 AI라고 말했을 때

[00:03] 그는 단순히 과대 선전을 하는 것이 아니었습니다.

[00:06] 오늘 그가 공개한 Grok 3는

[00:08] 여러 벤치마크에서 단연 세계 최고의 AI임이 입증되었습니다.

[00:11] 오늘 영상에서는

[00:13] Grok 3에 대한 모든 발표 내용을 다루고

[00:15] 여러분이 알아야 할

[00:16] Grok 3에 대해 설명해 드리면서

[00:18] 왜 이것이 현재

[00:20] 세계에서 가장 똑똑한 AI인지 보여드리겠습니다.

[00:23] 대부분의 사람들이

[00:24] 가장 먼저 보고 싶어하는 것은

[00:26] 물론 벤치마크 결과입니다.

[00:27] Grok 3의 비추론 모델을 보면

[00:30] 실제로

[00:31] 전반적인 벤치마크 결과가 놀랍습니다.

[00:33] Grok 3와

[00:35] Grok 3 Mini가 최신 최첨단 모델들을

[00:38] 모두 능가했음을 분명히 알 수 있습니다.

[00:40] Gemini 2, DeepSeek V3, Claude 3.5, Sonnet,

[00:44] 그리고 최근 업데이트된 GPT-4까지 말이죠.

[00:47] 이것은 정말 놀라운 성과입니다.

[00:49] 혹시 여러분이 벤치마크가

[00:51] 중요하지 않다고 생각하실 수도 있는데

[00:53] 팀에서 나중에 보여주겠지만

[00:56] 새로운 벤치마크들로 Grok 3를 테스트했고

[00:58] 거기서도 뛰어난 성능을 보여주었습니다.

[01:01] 모든 트레이닝 과정,

[01:03] 이 대규모 트레이닝을 통해

[01:04] 그들이 실제로

[01:06] 모델을 더욱 똑똑하게

[01:07] 만들었고, 이러한 스케일링 법칙이

[01:10] 여전히 잘 작동하고 있습니다.

[01:12] 현재도 모델 트레이닝이 진행 중이며

[01:14] 이것은 벤치마크 수치의

[01:17] 미리보기일 뿐입니다. Grok 3를

[01:20] 세 가지 다른 카테고리에서 평가했는데요

[01:24] 일반 수학적 추론 능력,

[01:27] STEM과 과학에 대한 일반 지식,

[01:30] 그리고 컴퓨터 과학 코딩입니다.

[01:32] AME(미국 수학 초청 시험)는

[01:36] 매년

[01:38] 실시되는 시험인데

[01:40] 모델의 성능을 평가해보면

[01:44] Grok 3가 전반적으로

[01:47] 독보적인 위치에 있음을 알 수 있습니다.

[01:49] 심지어 작은 버전인 Grok 3 Mini도

[01:53] 다른 경쟁자들과 비교해

[01:56] 최고

[01:57] 수준에 도달했습니다. 이 시점에서 여러분은

[02:00] 이 모든 벤치마크가 단순히

[02:02] 교과서나 GitHub 저장소의

[02:04] 암기를 평가하는 것이라고 말할 수 있습니다.

[02:07] 하지만 실시간 유용성은 어떨까요?

[02:09] 실제로 이 모델들을

[02:11] 제품에서 사용하면 어떨까요?

[02:14] Grok 3 팀의 또 다른 훌륭한 점은

[02:16] 자신들의 모델을

[02:18] 챗봇 아레나에 올렸다는 것입니다.

[02:20] 챗봇 아레나가 익숙하지 않으신 분들을 위해 설명드리면

[02:21] 이것은 표준화된 테스트가 아니라

[02:23] 두 개의 AI 모델이 응답을 제공하고

[02:25] AI에게 질문할 때마다

[02:27] 두 가지 응답 중에서

[02:30] 더 나은 것을

[02:31] 선택하는 방식입니다.

[02:33] 블라인드 테스트라서

[02:34] 어떤 모델이 어느 것인지 모르고

[02:36] 응답만 받아서

[02:38] 더 나은 것을 클릭하면

[02:39] 시간이 지나면서 어떤 모델이

[02:42] 가장 많은 승리를 기록했는지

[02:44] 보여주게 됩니다. 현재

[02:46] 챗봇 아레나에서 1위를 차지한 모델이

[02:48] 바로 Grok 3입니다. 블라인드 테스트에서도

[02:51] 모델의 이름을 알지 못하는

[02:52] 상황에서도 Grok 3가

[02:54] 명백히 우승을 하고 있습니다. 그리고 이것은

[02:56] 단순 기본 모델일 뿐이라는 점을 기억하세요.

[02:59] 우리는

[03:00] Grok 3 모델의 블라인드 테스트를 시작했는데

[03:03] 코드명은 'Chocolate'입니다. 꽤 흥미롭죠.

[03:06] 핫 초콜릿이라고도 하는데, 음...

[03:09] ChatBot Arena라는 플랫폼에서

[03:12] 2주 동안 운영되었습니다. 제가 생각하기에

[03:16] 전체 플랫폼이 어느 시점에

[03:17] 이것이 다음 세대의

[03:19] AI가 될 것이라고 추측했습니다.

[03:24] ChatBot Arena의 작동 방식은

[03:27] 제품의 모든 표면적인 요소를 제거하고

[03:30] 순수하게 AI 엔진들을 비교합니다.

[03:32] 즉, 언어 모델 자체만을 비교하는 것이죠.

[03:34] 인터페이스는 사용자가

[03:37] 하나의 질문을 입력하면

[03:39] 두 개의 응답을 보여주는데, 어떤 모델의 답변인지

[03:42] 알 수 없게 되어 있습니다.

[03:44] 이런 블라인드 테스트에서

[03:47] Grok 3의 초기 버전이

[03:50] 이미 1,400점에 도달했는데, 다른 어떤

[03:53] 모델도 이런 ELO 점수에 도달한 적이 없습니다.

[03:56] 다른 모델들과 비교했을 때

[03:58] 이는 단일 카테고리가 아닌

[04:00] 1,400점이 모든 카테고리에서의 종합 점수입니다.

[04:04] 챗봇의 모든 능력,

[04:06] 지시 수행 능력,

[04:08] 코딩 등 모든 분야에서

[04:11] 1위를 차지했고

[04:13] 계속 상승 중입니다. 우리는

[04:15] 계속 업데이트를 하고 있어서, 현재 1,400점에

[04:17] 도달했고 계속 상승하고 있죠.

[04:20] 사실 우리는

[04:21] 현재 테스트된 버전보다

[04:23] 훨씬 더 나은 모델 버전을 가지고 있습니다.

[04:25] 얼마나 더 발전할지 지켜보죠.

[04:27] 그게 바로 우리가 지금

[04:30] 작업하고 있고 오늘 이야기할 모델입니다.

[04:32] 실제로 한 가지 주목할 점은

[04:33] Grok 3를 사용하시는 분들은

[04:35] 거의 매일 개선사항을 느끼실 수 있을 겁니다.

[04:38] 우리가 지속적으로

[04:39] 모델을 개선하고 있기 때문이죠.

[04:41] 말 그대로 24시간 내에도

[04:43] 개선을 체감하실 수 있습니다. 이제

[04:46] 흥미로운 부분인 추론 모델로 넘어가겠습니다.

[04:48] 이 모델들은 기본적으로 즉각적인

[04:50] 응답을 하는 대신 더 오랜 시간

[04:52] 생각하는 모델입니다.

[04:54] 이런 방식을 택한 이유를

[04:56] 모르시는 분들을 위해 설명하자면,

[04:57] 이는 모델이 더 오래 생각할 수 있게 해서

[05:00] 더 나은 품질의 응답에

[05:02] 접근할 수 있게 해주며

[05:04] 더 정확하고

[05:06] 복잡한 문제를 해결할 수 있게 합니다.

[05:08] 이는 업계 전체가 움직이는 방향인데

[05:11] 이는 매우 유망한

[05:13] 결과를 보여주고 있고

[05:14] 진정으로 스마트한 AI로 이어질 것

[05:17] 같기 때문입니다. Grok 3의

[05:20] 추론 능력을 살펴보면

[05:22] 사고 모델 측면에서도

[05:24] 최근 출시된 Claude 3 Mini를 능가했습니다.

[05:27] 많은 사람들이 이를 세상에서

[05:30] 가장 똑똑한 AI라고 칭송했지만, 이제

[05:32] 아쉽게도 2위가 되었네요.

[05:35] 자, 이제 Grok이 이런

[05:37] 흥미로운 도전적인 벤치마크에서

[05:39] 어떤 성과를 보이는지 살펴보죠.

[05:42] 다시 말하지만, 추론은 실제로

[05:44] 문제를 해결하기 전에 꽤 오랜 시간 동안 생각하는

[05:46] 문제를 해결하는 과정에서 긴 시간을 들여 생각하는 모델의 경우를 보면

[05:50] 한 달 전쯤 Grok 3의 사전 훈련이 완료되었고

[05:52] 그 이후 우리는 열심히 작업했습니다

[05:55] 현재 Grok에 추론 능력을

[05:57] 구현하기 위해 노력했죠

[05:59] 하지만 아직 초기 단계이고

[06:02] 모델은 현재도 훈련 중입니다

[06:04] 그래서 지금 우리가

[06:06] 사람들에게 보여드릴 것은 베타 버전의

[06:09] Grok 3 추론 모델입니다

[06:12] 또한 우리는 미니 버전의

[06:14] 추론 모델도 훈련하고 있는데

[06:16] 이 그래프에서 보시면 Grok 3

[06:19] 추론 베타와 Grok 3 미니

[06:20] 추론 모델을 볼 수 있습니다

[06:22] Grok 3 미니 추론은

[06:24] 훨씬 더 오래 훈련한 모델인데

[06:26] 보시면 때때로 실제로

[06:28] Grok 3 추론보다 약간 더 나은 성능을 보입니다

[06:31] 이는 곧 Grok 3 추론이

[06:32] 엄청난 잠재력을 가지고 있다는 의미입니다

[06:34] 훨씬 적은 시간 동안

[06:36] 훈련했기 때문이죠

[06:39] 자, 이제 실제로 어떤 성능을 보이는지

[06:41] 세 가지 벤치마크에서 살펴보겠습니다

[06:44] 지미가 이미 소개했듯이

[06:46] 우리는 세 가지 다른 영역을 살펴볼 건데

[06:48] 수학, 과학, 그리고 코딩입니다

[06:51] 수학의 경우 고등학교

[06:53] 경시대회 문제를 선택했고

[06:56] 과학은 박사 수준의 과학 문제를

[06:59] 선택했습니다

[07:00] 코딩의 경우에도

[07:02] 매우 도전적인 문제로

[07:03] 경쟁적인 코딩과 리트코드를 포함했는데

[07:06] 이는 기업 면접에서 흔히 보는

[07:08] 코딩 인터뷰 문제들입니다

[07:09] 이러한 벤치마크에서 보시면

[07:12] Grok 3가 실제로 전반적으로

[07:14] 다른 경쟁자들과 비교해 꽤 좋은 성능을 보입니다

[07:17] 네, 매우 유망하죠. 이 모델들은 매우 똑똑합니다

[07:20] 토니, 저 음영이 있는

[07:22] 막대들은 무엇인가요?

[07:25] 아, 좋은 질문이네요

[07:28] 이 모델들은 추론이 가능하기 때문에

[07:30] 더 오래 생각하도록 요청할 수 있습니다

[07:32] 더 많은 시간을 들여 생각하게 할 수 있죠

[07:34] 우리가 '테스트와 컴퓨팅'이라고 부르는 것을 더 많이 사용할 수 있는데

[07:37] 이는 답을 내기 전에 더 많은 시간을 들여

[07:40] 추론하고 생각할 수 있다는 의미입니다

[07:43] 문제에 대해 답을 내기 전에

[07:46] 이 경우 음영이 있는 막대는

[07:49] 모델에게 더 많은 시간을 주었다는 것을 의미합니다

[07:51] 같은 문제를 여러 번

[07:54] 해결하도록 할 수 있죠

[07:56] 최종 결론을 내리기 전에

[07:59] 올바른 해결책이 무엇인지

[08:01] 이런 컴퓨팅 자원이나

[08:03] 이런 종류의 예산을 모델에 주면

[08:05] 모델이 더 나은 성능을 보일 수 있다는 것이 밝혀졌습니다

[08:08] 이것이 바로 그래프에서

[08:11] 음영 처리된 부분의 의미입니다

[08:13] 이는 정말 흥미진진하죠

[08:15] AI와 단일 사고 체인을 하는 대신

[08:18] 왜 한 번에 여러 개를 하지 않을까요?

[08:20] 그렇죠, 이는

[08:22] 훈련 후에도 모델의 능력을

[08:24] 계속 확장할 수 있게 하는 매우 강력한 기술입니다

[08:27] 또한 그들은 이것이 단순히

[08:30] 오랜 시간 동안 많은 데이터로

[08:31] 훈련했기 때문에 발생하는

[08:33] 과적합 현상인지

[08:35] 또는 단순히

[08:36] 테스트의 일부를 암기한 것인지 확인하고 싶었습니다

[08:38] 새로운 AMC 2025에서 테스트해보기로 했고

[08:41] 그 결과는 꽤나 놀라웠습니다.

[08:43] 사람들이 자주 묻는 질문이 있죠.

[08:46] 우리가 단순히 벤치마크에

[08:47] 과적합된 것이 아니냐는 것입니다.

[08:49] 일반화 능력은 어떠냐는 거죠.

[08:52] 이것은 분명히 우리도

[08:54] 스스로에게 던지는 질문입니다.

[08:56] 현재 벤치마크에 과적합되어 있는지

[08:58] 다행히도

[09:00] 실제 테스트가 있었습니다. 약 5일 전에

[09:03] AMC 2025가 막 끝났는데, 이는

[09:06] 고등학생들이 참가하는

[09:08] 특별한 벤치마크 대회입니다.

[09:11] 이 새로운 대회 결과를 받아서

[09:13] 우리의 두 모델을 같은 시험에서

[09:15] 경쟁시켜 보았습니다.

[09:18] 매우 흥미로운 결과가 나왔는데

[09:21] Grok 3 추론 모델, 즉 큰 모델이

[09:24] 이 새로운 시험에서 실제로 더 좋은 성과를 보였습니다.

[09:27] 이는 큰 모델의

[09:29] 일반화 능력이

[09:30] 작은 모델보다 훨씬 더 강력하다는 것을 의미합니다.

[09:33] 작년 시험과 비교해보면

[09:35] 실제로 반대의 결과가 나왔는데

[09:37] 작은 모델이 이전 시험에서

[09:40] 더 좋은 성과를 보였거든요.

[09:43] 그래서 이번 결과는

[09:45] 모델의 진정한 일반화 능력을

[09:47] 보여주는 것입니다. 17개월 전

[09:49] 우리의 Grok 0와 Grok 1은

[09:52] 고등학교 문제를 거의 풀지 못했습니다.

[09:54] 하지만 이제 우리는

[09:56] 대학에 갈 준비가 된 AI를 가지게 됐죠.

[09:58] 맞습니다.

[10:01] 머지않아

[10:02] 인간의 시험은 너무 쉬워서

[10:05] 의미가 없어질 것입니다.

[10:08] 내부적으로도 Grok이 발전하면서

[10:10] 우리가 기대하는 것들에 대해

[10:12] 이야기하겠지만, 곧

[10:15] 더 이상 벤치마크가

[10:17] 남지 않을 것입니다.

[10:18] 이제 이러한 추론 능력이

[10:20] 실제로 어떻게 작동하는지

[10:22] 여러분께 보여드리겠습니다.

[10:24] Jimmy가 말했듯이

[10:27] Grok에 고급 추론 기능을

[10:28] 추가했고, 지난 몇 주 동안

[10:30] 광범위하게 테스트해왔습니다.

[10:32] 어떤 모습인지

[10:33] 맛보기로 보여드리기 위해

[10:35] Grok이 어려운 추론 문제를 해결하는 과정을

[10:37] 준비했습니다.

[10:39] 하나는 물리학 문제이고, 다른 하나는

[10:41] Grok이 직접 작성할 게임입니다.

[10:43] 물리학 문제에 대해 말씀드리면

[10:45] 우리가 Grok에게 원하는 것은

[10:47] 지구에서 화성으로 가는 실현 가능한 궤도를 계산하고

[10:50] 화성에서 지구로의 이동 경로를 그리는 것입니다.

[10:54] 나중에 특정 시점에

[10:56] 화성에서 지구로 돌아오는 경로도 필요한데

[10:59] 이는 Grok이 이해해야 할

[11:01] 물리학 지식이 필요합니다.

[11:03] 우리는 Grok에게

[11:04] 실현 가능한 궤도를 계산하고

[11:07] 그것을 시각화하도록 요청할 것입니다.

[11:10] 그리고 이것은 완전히 즉석에서 하는 것입니다.

[11:13] 이것이 전부입니다.

[11:15] 프롬프트의 전체 내용이

[11:17] 명확해야 하죠.

[11:19] 맞습니다. 정확히

[11:20] 이것이 Grok 인터페이스이고 여기 보이는

[11:23] 텍스트를 입력했습니다.

[11:25] 지구에서 발사되는 3D 애니메이션 플롯을 생성하도록 말이죠.

[11:28] 지구에서 발사해서 화성에 착륙하고

[11:31] 다음 발사 창을 통해 지구로 돌아오는 경로를

[11:34] 우리가 쿼리를 시작했고

[11:35] Grok이 지금 생각하고 있는 걸 볼 수 있습니다

[11:38] Grok의 고급 추론 기능의

[11:40] 일부인 사고 추적 과정을

[11:42] 여기서 확인할 수 있고

[11:44] 내부로 들어가서 Grok이 실제로

[11:47] 문제를 해결하려고 할 때

[11:48] 어떻게 생각하는지 읽을 수 있습니다

[11:51] 네, 우리는 모델이 즉시 복제되는 것을

[11:54] 방지하기 위해 일부 사고 과정을

[11:57] 가리고 있습니다

[11:58] 음...

[11:59] 실제로는 보여지는 것보다

[12:03] 더 많은 사고 과정이 있죠. 자, 이것이

[12:07] 우리가 다룬 물리 문제였고

[12:09] 여기서는 중간 과정들을 접어두었습니다

[12:12] 그래서 지금은 숨겨져 있고

[12:14] 아래에서 Grok의 답변을 볼 수 있는데

[12:16] Matplotlib을 사용한

[12:18] 파이썬 스크립트를 작성했고

[12:21] 전체 코드를 제공했습니다

[12:23] 코드를 빠르게 살펴보면

[12:25] 꽤 합리적으로 보이네요

[12:27] 완전히 틀리지는 않았고

[12:30] 여기 케플러 방정식을 풀고 있는데

[12:33] 아마도 케플러 법칙을 수치적으로 계산하는 것 같습니다

[12:36] 음, 이게 실제로 작동하는지

[12:38] 확인하는 방법은 하나뿐이죠

[12:40] 한번 실행해 보겠습니다

[12:42] 코드를 실행해 보면

[12:44] 네, Grok이 지구와 화성

[12:47] 두 행성을 애니메이션으로 보여주고 있고

[12:49] 초록색 공은 지구와 화성 사이를

[12:53] 이동하는 우주선입니다

[12:55] 지구와 화성 사이를 이동하는

[12:57] 우주선의 궤도를 볼 수 있고

[12:59] 지구에서 화성까지의 여정이

[13:01] 보이네요. 그리고 우주인들이

[13:04] 정확한 시점에

[13:06] 안전하게 귀환하는 것도 보입니다

[13:09] 이것이 방금 생성된 결과라

[13:11] 지금 당장은 이 해결책이

[13:13] 정확한지 알 수 없어서

[13:14] 자세히 살펴봐야 하고

[13:16] SpaceX의 동료들에게 문의해서

[13:18] 이것이 타당한지 확인해봐야겠네요

[13:21] 꽤 근접했어요. 음...

[13:25] 실제 궤도에는

[13:27] 고려해야 할 복잡한 요소들이 많지만

[13:29] 이 정도면 실제와

[13:31] 상당히 유사한 결과입니다

[13:33] 훌륭하네요. 이제 Grok 3는 AI 에이전트 시대에도 진입했는데

[13:37] 이것은 전혀 놀랍지 않습니다

[13:39] AI 에이전트는

[13:41] 2025년 이후의 주요 테마이고

[13:43] 그들이 출시한 것이

[13:45] 다시 한번 놀랍게도

[13:46] 모든 회사들이

[13:48] 제품 이름을 똑같이 지었다는 겁니다

[13:50] 딥 리서치라고 부르거나

[13:52] 이 경우에는 딥 서치라고

[13:54] 불렀습니다. 그래서 오늘

[13:57] 우리는 실제로

[13:59] 딥 서치라는 새로운 제품을 소개하는데

[14:03] 이것은 첫 번째 세대의 Grok 에이전트로

[14:06] 엔지니어들과 연구원들

[14:07] 과학자들의 코딩을 돕는 것뿐만 아니라

[14:09] 모든 사람들의 일상적인 질문에

[14:12] 답변을 제공합니다. 이것은 일종의

[14:14] 차세대 검색 엔진으로

[14:15] 우주를 이해하는 데

[14:17] 실제로 도움을 줍니다. 예를 들어

[14:20] 이런 질문을 할 수 있죠

[14:23] 다음 스타십 발사일이 언제인지 한번 알아볼까요?

[14:26] 자, 한번 시도해보겠습니다.

[14:30] 왼쪽을 보시면 상위 레벨의 진행 바가 보입니다.

[14:34] 모델이 이제 현재 시스템처럼

[14:37] 단일 검색을 수행하지만

[14:39] 사용자의 의도를 깊이 있게 분석하고

[14:40] 고려해야 할 사실들과

[14:43] 읽어야 할 다양한 웹사이트의 내용을

[14:45] 함께 검토합니다.

[14:47] 이는 실제로

[14:49] 특정 주제에 대해

[14:50] 구글 검색으로 수백 시간을 들여야 할 내용을

[14:54] 획기적으로 절약할 수 있게 해줍니다.

[14:56] 오른쪽을 보시면

[14:59] 요약된 내용이 나옵니다.

[15:02] 현재 모델이

[15:03] 어떤 웹사이트를 탐색하고

[15:06] 어떤 출처를 확인하는지 보여주며

[15:08] 종종 여러 출처를

[15:11] 교차 검증하여

[15:12] 최종 답변을 제공하기 전에

[15:15] 정확성을 확인합니다.

[15:16] 우리는 동시에

[15:19] 더 많은 쿼리를 실행할 수 있습니다.

[15:20] 당신은 게이머시죠? 맞나요?

[15:23] 그렇다면 Path of Exile 하드코어에서

[15:27] 가장 좋은 빌드와

[15:28] 인기 있는 빌드가 무엇인지 알아볼까요?

[15:30] 하드코어 리그에서 말이죠.

[15:34] 하드코어 래더를

[15:35] 확인하면

[15:36] 빠르게 알 수 있을 것 같네요.

[15:38] 모델이 어떻게 답변할지 보겠습니다.

[15:41] 그리고 더 재미있는 것도 해볼 수 있죠.

[15:45] 예를 들어

[15:48] March Madness에 대한

[15:50] 예측을 해보는 건 어떨까요?

[15:52] 이건 재미있는 예시인데

[15:55] 워런 버핏이 10억 달러의 상금을 걸었습니다.

[15:59] March Madness의 전체 우승 트리를

[16:02] 정확히 맞추면

[16:05] 워런 버핏으로부터

[16:07] 10억 달러를 받을 수 있죠.

[16:09] AI가 워런 버핏으로부터

[16:11] 10억 달러를 얻는 것을

[16:13] 도와준다면 정말 멋질 것 같네요.

[16:15] 자, 이제 딥서치의 또 다른

[16:17] 멋진 기능을 보여드리겠습니다.

[16:20] 모델의 사고 과정을

[16:21] 실제로 볼 수 있습니다.

[16:23] 만약 원하는 답변을 받지 못했다면

[16:25] 모델이 어떻게

[16:27] 검색 데이터를 통해 추론했는지

[16:29] 그 결론에 도달한 과정을 볼 수 있죠.

[16:31] 이것이 매우 유용한 이유는

[16:32] 모델을

[16:34] 최대한 투명하게 만들고

[16:35] 이를 통해

[16:37] 더욱 유용하게 만들 수 있기 때문입니다.

[16:38] 원하는 응답을 받지 못했다면

[16:39] 모델의 사고 과정을 살펴보고

[16:41] 그 이유를 파악할 수 있습니다.

[16:45] 이 경우에는

[16:47] 실제로 스크롤하면서

[16:48] Grok의 사고 과정을 읽을 수 있습니다.

[16:51] 모델이 어떤 정보를

[16:52] 신뢰할 만하다고 생각하는지

[16:54] 그리고 어떻게

[16:56] 다양한 정보 출처를 교차 검증하는지 볼 수 있죠.

[16:58] 이는 전체 검색 경험과

[17:00] 정보 검색 과정을 훨씬 더 투명하게

[17:02] 사용자들에게 제공합니다.

[17:04] 이는 다른 어떤 검색 엔진보다

[17:06] 훨씬 더 강력합니다.

[17:09] 특정 출처만 사용하도록

[17:11] X에서만 출처를 사용하라고 하면 그것을 존중할 것이고

[17:13] 네, 그래서 훨씬 더 제어가 가능하고

[17:15] 훨씬 더 지능적이에요. 제 말은

[17:17] 정말 많은 시간을 절약해줄 수 있다는 거예요

[17:19] 웹에서 30분이나 1시간 정도 걸릴 만한 일을

[17:21] 소셜 미디어를 검색하거나 연구하는 데 걸리는 시간을

[17:23] 그냥 AI에게 요청하면 되고

[17:25] 10분 후에 돌아와 보면

[17:27] 1시간 분량의 작업을 완료해 놓았을 거예요

[17:29] 그게 바로 핵심이에요

[17:31] 자, 이제 이 AI가 어떻게

[17:33] 출시될지 궁금하실 텐데

[17:35] 그들이 실제로 grok.com이라는

[17:36] 새로운 웹사이트에 대해 이야기했어요

[17:37] 현재 이 영상을 녹화하는 시점에서

[17:39] 웹사이트가 안타깝게도 다운되어 있는데

[17:41] 아마도 엄청난 관심 때문에

[17:43] 이 정도의 트래픽을 예상하지 못했나 봐요

[17:44] 기본적으로 grok.com에서

[17:46] 서비스될 예정이며, 거기에는 Super Grok도

[17:48] 있을 예정인데, 이것은 기본적으로

[17:50] 앱에 접근할 수 있는 전용 플랫폼이 될 거예요

[17:53] 그들의 웹사이트에서 가장

[17:54] 진보된 기능들과 새로운 기능들에

[17:57] 가장 먼저 접근할 수 있죠

[17:59] 음, 한번 확인해 보세요

[18:00] 이것은 전용 Grok 앱과

[18:03] 웹사이트를 위한 거예요. 우리의 새로운

[18:05] 웹사이트는 grok.com이에요

[18:08] 절대 짐작 못하셨죠? 네

[18:09] 절대 짐작 못하셨을 거예요. 그리고

[18:12] iOS 앱스토어에서도 Grok 앱을 찾을 수 있어요

[18:15] 더욱 세련된 경험을 제공하는

[18:17] 완전히 Grok에 특화된 경험이에요

[18:19] 만약 Grok을 쉽게 이용하고 싶다면

[18:21] 한 번의 탭으로 사용할 수 있어요

[18:23] grok.com의 웹 브라우저 버전이

[18:25] 가장 최신이자 가장 발전된

[18:28] 버전이 될 거예요. 왜냐하면

[18:29] 앱으로 만들어서 앱스토어의

[18:31] 승인을 받는 데 시간이 걸리기 때문이에요

[18:34] 게다가 휴대폰 포맷에서는

[18:35] 할 수 있는 것에 제한이 있어서

[18:38] 가장 강력한 Grok 버전과

[18:40] 최신 버전은

[18:41] grok.com의 웹 버전이 될 거예요

[18:43] 네, 그래서 Grok이라는 이름을 주목하세요

[18:45] 앱 스토어에서 무료로 제공될 거예요

[18:48] 정말 명백하죠, 네

[18:50] 맞아요, 그게 바로 힌트예요

[18:52] 만약 Grok3라고 되어 있다면

[18:54] 아직 Grok이 완전히 준비되지 않았다는 뜻이에요

[18:57] 하지만 우리는 이것을 출시하기 위해

[18:58] 열심히 노력하고 있어요