Grok 4는 정말 똑똑하다…진짜로!

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이 영상에서는 XAI의 최신 대화형 모델 Grok 4의 발전 과정을 짚으며, 특히 ‘검증 가능한 보상’ 기반의 강화 학습을 통해 모델이 사고 능력을 획기적으로 향상시킨 과정을 보여준다. 다양한 벤치마크(인류의 마지막 시험, GPQA, ARC AGI, Vending Bench 등)에서 기존 프런티어 모델을 크게 앞서며 50% 이상의 점수를 기록했고, 도구 활용과 테스트타임 컴퓨트를 통해 성능을 배가했다. Grok 4 Heavy는 다중 에이전트를 동시에 구동해 복잡한 수학 문제나 실제 과제를 풀어내고, 웹 브라우징·실시간 데이터 검색·멀티모달 추론 등 다양한 기능을 제공한다. 영상 후반부에서는 Abacus AI 데모, AI 기반 비디오 게임 제작 사례, 코드 특화·멀티모달 에이전트·영상 생성 모델 출시 로드맵을 다룬다.

주요 키워드

Reinforcement Learning Verifiable Rewards Multi-Agent System Test-Time Compute Tool Usage Context Window Multimodal Reasoning Prompt Engineering ARC AGI Benchmark Vending Bench

하이라이트

  • 🔑 Grok 4는 ‘검증 가능한 보상(verifiable rewards)’ 강화 학습을 대폭 확대해 모델의 사고 능력을 크게 끌어올렸다.
  • ⚡️ 인류의 마지막 시험 벤치마크에서 도구 활용 시 41%, 테스트타임 컴퓨트 확장 시 50.7%를 기록하며 다른 프런티어 모델을 압도했다.
  • 🌟 Grok 4 Heavy는 다중 에이전트를 동시에 구동해 각 에이전트가 지식을 공유·협업하며 최적 해답을 도출하는 멀티 에이전트 시스템을 보여준다.
  • 📌 실제 세계 과제인 Vending Bench에서 $4,700 순자산을 기록해 인간과 경쟁 모델 대비 탁월한 실전 성능을 입증했다.
  • 🚀 Abacus AI 플랫폼은 Chat LLM으로 프롬프트별 최적 모델 라우팅, PDF 채팅, 텍스트→이미지·비디오 생성 등 올인원 기능을 제공한다.
  • 🔑 AAA 게임 개발 프로토타입 데모에서 단 4시간 만에 1인 FPS 게임을 제작해 자동 자산 소싱 능력을 입증했다.
  • ⚡️ ARC AGI 벤치마크에서 66.6%를 기록해 AI 일반 지능 평가에서도 비약적 성능을 나타냈다.
  • 🌟 Grok 4는 256k 토큰 컨텍스트 윈도우, 멀티모달 추론, 실시간 데이터 검색, 엔터프라이즈 보안 기능을 API로 제공한다.

용어 설명

Next Token Prediction

모델이 주어진 문맥을 바탕으로 다음에 올 단어(토큰)를 예측하는 기본 언어 모델 학습 방식

Pre-training Compute

사전 훈련 단계에서 투입된 총 컴퓨팅 자원(연산 능력)의 규모

Reinforcement Learning with Verifiable Rewards (RLVR)

정답이 명확한 문제에 대해 정답을 맞힐 때 보상을 주며 학습해 모델의 추론 능력을 강화하는 기법

Test-Time Compute

추론(테스트) 단계에서 추가로 컴퓨팅 자원을 투입해 체인 오브 뎃팟(chain of thought)을 확장하고 성능을 높이는 방법

Multi-Agent System

여러 에이전트를 동시에 구동해 각자 해결책을 모색하고 상호 지식을 공유해 최적 해답을 선택하는 협업형 구조

Context Window

모델이 한 번에 참조할 수 있는 입력 토큰의 최대 길이(예: 256k 토큰)

Multimodal Reasoning

텍스트뿐 아니라 이미지, 비디오 같은 다양한 형태의 데이터를 함께 처리·추론하는 능력

[00:00:00] 개요 및 Grok 시리즈 발전

Grok 2(단순 토큰 예측)에서 Grok 3(10배 사전 훈련 컴퓨트)과 Grok 3 Reasoning(추론 + RL)을 거쳐, Grok 4(강화 학습 컴퓨트 대폭 확대)로 진화한 과정을 설명한다.

Grok 4가 출시되었으며, 현재 세계에서 가장 똑똑한 모델로 다른 최첨단 모델들과 비교해 상당한 도약을 보여주고 있습니다.
Grok 시리즈의 발전 과정을 살펴보면, Grok 2는 단순한 다음 토큰 예측이었고, Grok 3에서는 사전 훈련 컴퓨팅을 10배 늘렸습니다.
Grok 3 추론에서는 강화 학습 컴퓨팅이 추가되었고, Grok 4 추론으로 엄청난 도약이 있었는데, 이는 강화 학습에 집중한 결과입니다.
[00:00:38] 검증 가능한 보상 기반 강화 학습

검증 가능한 보상(verifiable rewards)을 활용해 간단한 정답 문제로 모델을 보상하며 학습하는 방법과, 이러한 기법이 실제 사고 행동을 유발하는 메커니즘을 설명한다.

강화 학습의 핵심은 검증 가능한 보상으로, 알려진 해답이 있는 문제들을 통해 모델을 훈련시키는 것입니다.
가장 기본적인 예로 2+2=4와 같은 문제-해답 쌍을 사용하여 모델에게 보상을 주며, 이를 어려운 문제들로 반복하면 모델이 크게 향상됩니다.
[00:01:26] 인류의 마지막 시험 벤치마크 소개

수학·물리·생물·사회과학 등 전문가 수준 난이도의 종합 시험 ‘인류의 마지막 시험’ 벤치마크 개요와, 기존 프런티어 모델별 초기 점수를 소개한다.

이 검증 가능한 보상을 가진 강화 학습 패러다임이 모델들로부터 사고 행동을 끌어내며, Grok이 RLVW의 벽을 뚫고 나갔습니다.
강화 학습이 워크플로우에 너무 중요해서 세상에 알려진 문제들이 부족해지기 시작했고, 이때 일론 머스크가 현실을 궁극적인 테스트로 언급했습니다.
[00:02:13] 도구 활용 및 테스트 타임 컴퓨트 확장

웹 브라우징·메모리·코드 실행 같은 도구(tool usage) 도입 시 41% 달성, 테스트 시 추가 컴퓨트(test-time compute) 투입으로 50.7% 돌파 과정을 살펴본다.

모델들을 실제 세상에 두면, 휴머노이드 로봇이나 물리학과 상호작용하는 형태로 무제한의 검증 가능한 보상을 얻을 수 있습니다.
첫 번째 벤치마크는 '인류의 마지막 시험'으로, 전문가나 전문가 팀만이 맞힐 수 있는 최첨단 지식 문제들로 구성되어 있으며, 수학, 물리학, 생물학, 사회과학 등 다양한 분야를 포괄합니다.
[00:02:42] 다중 에이전트 Grok 4 Heavy 원리

Grok 4 Heavy는 여러 에이전트를 동시에 생성해 각 에이전트가 문제를 풀고 협업해 최적 답안을 선택하는 협업형 멀티 에이전트 시스템을 소개한다.

타임라인 정보가 없습니다.

[00:02:58] 스폰서 소개: Abacus AI

Abacus AI의 올인원 플랫폼 Chat LLM을 통해 다양한 AI 모델 사용, 프롬프트별 최적 모델 라우팅, PDF 채팅·텍스트→이미지·텍스트→비디오 기능 등을 안내한다.

인류의 마지막 시험은 컴퓨터 과학, 공학, 화학 등 다양한 분야를 아우르는 시험으로, 세상에서 가장 똑똑한 박사 후 연구원들도 단일 분야에서 몇 문제만 풀 수 있을 정도로 어려운 시험입니다.
[00:03:46] Grok 4 Heavy 수학 문제 해결 데모

고차원 수학 문제를 풀기 위해 4개 에이전트를 동시 실행해 문제 해결 과정을 시각화하고, 진행 상황 바와 함께 인터페이스를 소개한다.

현재 최첨단 모델들의 점수를 살펴보면 Gemini 2.5 Pro가 21.6%로 1위, O3이 20%, O4 Mini가 18%로 모두 비슷한 점수대를 보이고 있습니다.
반면 Grok 4는 도구 사용 없이도 26.9%를 달성하여 다른 최첨단 모델들보다 상당히 앞서 있습니다.
[00:04:11] 다양한 실험 벤치마크 데모

MLB 월드시리즈 승률 예측, 블랙홀 충돌 시각화, 모델 점수 발표 타임라인 생성 등 Grok 4가 실시간 정보와 도구를 활용해 다양한 분야 데모를 수행한다.

Grok 4에 웹 브라우징, 정교한 메모리, 코드 작성 및 실행 환경 등의 도구 사용을 허용했을 때 41%를 달성했습니다. 이는 다음 순위 최고 모델의 두 배에 달하는 점수입니다.
테스트 시간 컴퓨팅을 확장했을 때 50.7%에 도달하여 50% 장벽을 뛰어넘고 다른 모든 모델들을 완전히 압도했습니다.
테스트 시간 컴퓨팅 확장의 실제 의미는 단순히 생각할 시간을 더 주는 것이 아니라, Grok 4 헤비 버전의 경우 여러 에이전트를 생성하는 것입니다.
각 에이전트가 문제를 해결하려고 시도하고 협력하며, 메모를 공유하고 효과적인 해결책을 찾으면 다른 에이전트들과 공유합니다. 마지막에 가장 좋은 답을 선택하는 방식으로 50.7%를 달성했습니다.
Grok 4를 쉽게 테스트하고 싶다면 스폰서인 Abacus AI의 Chat LLM을 확인해보세요. 여러 AI 서비스에 구독하고 있어서 비싸고 번거로운 문제를 해결할 수 있는 올인원 AI 플랫폼입니다.
[00:06:00] ARC AGI 및 Vending Bench 실평가

AI 일반 지능 평가 ARC AGI에서 66.6% 달성, 실제 세계 자판기 운영 시뮬레이션 Vending Bench에서 $4,700 순자산을 기록한 실전 성능 결과를 소개한다.

Chat LLM은 최신 모델들을 포함한 올인원 AI 플랫폼으로, Route LLM 기능을 통해 프롬프트에 따라 최적의 모델을 자동 선택하여 전송합니다. PDF 채팅, 텍스트-이미지-비디오 변환, Deep Agent를 통한 웹사이트 제작까지 월 10달러로 이용 가능합니다.
[00:07:00] AI 비디오 게임 제작 데모

4시간 만에 1인 FPS 게임 프로토타입을 생성하는 과정을 통해 Grok 4의 자산 소싱·텍스처 자동화 능력과 AI 게임 개발 활용 가능성을 조명한다.

화자가 이미 결제한 Grok 4 Heavy를 시연하며, 인류의 마지막 시험 문제 중 하나인 복잡한 수학 문제를 입력합니다. 네 개의 에이전트가 동시에 초기화되어 각자의 솔루션을 실행하는 멀티에이전트 시스템을 보여줍니다.
Grok 4는 단일 에이전트 버전이고 Grok 4 Heavy는 다중 에이전트 버전으로, 각 에이전트가 지식을 공유하여 최고의 답변을 도출합니다. 가격이 저렴하지 않다고 언급하며, 라이브 스트림에서 보여준 월드 시리즈 예측 데모를 소개합니다.
[00:08:17] Grok 4 기능·요금제·API

256k 토큰 컨텍스트 윈도우, 멀티모달 추론, 실시간 데이터 검색, 엔터프라이즈 보안 등 주요 기능과 Super Grok($30/월), Heavy($300/월) 요금제를 안내한다.

폴리 마켓에 대해 소개하며, 진실을 찾는 역할을 하고 대부분 현실과 일치하는 플랫폼이라고 설명합니다. Grok과 함께 실제로 관찰하고 있는 것에 대해 이야기를 이어갑니다.
Grok 4가 MLB 월드시리즈 승률을 예측하는 과정을 소개합니다. 다양한 배팅 사이트를 검색하고 자체 승률을 계산하여 다저스에게 21.6%의 승률을 부여했으며, 이 계산에는 약 4분 30초가 소요되었습니다.
[00:09:02] 향후 로드맵

8월 코딩 특화 모델, 9월 멀티모달 에이전트, 10월 영상 생성 모델 출시 계획을 통해 차세대 foundation v7 기반 성능 개선 방향을 살펴본다.

두 블랙홀 충돌 시각화를 요청했는데, Grok 4는 시각화를 위해 파동의 규모를 과장하는 등 몇 가지 자유로운 해석을 했습니다. 포스트 뉴턴 근사를 사용했지만 나선형 접근, 병합, 링다운 과정 등 기본적인 물리학적 효과들은 정확하게 표현했습니다.
Grok의 가장 큰 강점인 실시간 정보 제공 기능을 보여줍니다. 인류의 마지막 시험이라는 모델 점수 발표와 관련된 모든 공지사항과 타임라인을 수집하여, 댄 헨드릭스의 초기 발표부터 OpenAI의 2월 점수 발표까지 시간 순서대로 정리했습니다.
AI 모델들의 벤치마크 성능 비교를 통해 Gemini와 Kimmy 등의 발전상황을 살펴보고, 유출된 벤치마크 결과들이 매우 인상적일 것이라는 기대감을 표현합니다.
GPQA 벤치마크에서 Grok 4는 도구 없이 87점, Heavy 버전은 도구 사용으로 88.9점을 기록했으며, 이는 다음 최고 모델의 86점보다 약간 높은 수준입니다.
AMY 2025에서 Grok 4 Heavy가 완벽한 100%를 달성했으며, 이는 세계에서 가장 어려운 수학 문제들에 대한 놀라운 성과입니다. o3도 98.4%로 우수한 성능을 보였습니다.
Live CodeBench에서 79.4%를 기록하며 뛰어난 코딩 능력을 보여주었고, Math Arena에서 96.7%, USA 수학 올림피아드에서도 다른 모델들을 압도하는 성과를 보였습니다.
실제 문제 해결 과정에서 Grok 4 Heavy가 5분 48초 동안 작업하고 있으며, 각 에이전트의 진행상황만 볼 수 있고 사고 체인은 확인할 수 없다고 설명합니다.
ARC AGI 테스트에 대해 설명하는데, 이는 인간에게는 쉽지만 AI에게는 매우 어려운 패턴 인식 및 적용 테스트입니다. 시각화를 통해 패턴을 학습하고 새로운 상황에 적용하는 능력을 측정합니다.
Grok 4가 ARC AGI 테스트를 완전히 압도했으며, V1에서 66.6%, V2에서 15.9%를 기록했습니다. 이는 Claude 3 Opus의 두 배에 해당하는 성과입니다.
ARC Prize 회장 Greg Cameron이 XAI로부터 24시간 전 연락을 받아 독립적으로 테스트했으며, 데이터 보존 없음, 공개 사용 목적, 속도 제한 증가 등의 조건으로 진행되었습니다.
Grok 4는 Arc AGI에서 최고 성능의 공개 모델이 되었고, Kaggle의 특별 제작 솔루션들도 능가했습니다. 15.9%는 기존 노이즈 장벽(10% 이하)을 뛰어넘는 성과로, 진정한 유동적 지능을 보여줍니다.
하지만 이러한 벤치마크들은 추상적이며 실제 세계와 다르다는 점을 지적하며, 실제 상황을 시뮬레이션하는 Vending Bench라는 새로운 벤치마크를 소개합니다.
벤딩 벤치 테스트에서 다양한 AI 모델들이 실제 자동판매기 관리 시뮬레이션을 수행했습니다. O3은 1,800달러, Gemini 2.5 Pro는 789달러, 인간은 844달러, Claude Opus 4는 2,000달러의 순자산을 기록했지만, Grok 4는 4,700달러로 압도적인 성과를 보였습니다.
XAI 팀은 AI 비디오 게임 개발에 대해 논의해왔고, 일론 머스크는 가까운 미래에 AAA 게임을 만들 것이라고 예언했습니다. 게임 디자이너 Danny가 Grok 4를 사용해 단 4시간 만에 1인칭 슈팅 게임을 제작하는 실증을 보여주었습니다.
게임 개발의 가장 어려운 부분은 핵심 로직보다는 에셋과 텍스처 소싱입니다. Grok 4는 이러한 에셋 소싱을 자동화할 수 있어, 개발자가 핵심 개발에만 집중할 수 있게 하고 한 사람이 전체 게임 스튜디오를 운영할 수 있게 합니다.
일론 머스크는 내년에 첫 번째 진짜 AI 비디오 게임을 기대한다고 했지만, 현재 게임들은 일회성 수준입니다. 어쌔신 크리드나 헤일로 같은 AAA 게임을 AI가 만들기는 아직 어렵습니다.
게임 개발을 위해서는 뛰어난 비디오 이해력과 게임의 재미를 판단할 수 있는 능력이 필요합니다. 이는 취향의 영역으로, 예측 가능한 미래에는 인간이 자신들과 다른 인간들을 위한 경험을 큐레이팅하는 데 가장 뛰어날 것입니다.
인간이 AI 시스템에서 오랜 시간 동안 중요한 역할을 계속할 것이라고 예상한다고 설명합니다.
Grok 4의 현재 이용 가능성과 API 접근성을 소개하며, 에이전트 코딩 애플리케이션들과의 연결 가능성을 언급합니다.
Grok 4의 주요 기능들을 나열합니다 - 256k 컨텍스트 윈도우, 멀티모달 추론, 실시간 데이터 검색, 엔터프라이즈급 보안 등.
Grok의 가격 체계를 설명합니다 - Super Grok는 월 30달러로 다른 AI 서비스보다 비싸며, Super Grok Heavy는 월 300달러 또는 연간 3천 달러입니다.
Super Grok Heavy의 추가 혜택들을 설명하고, 현재 진행 중인 테스트가 15분째 계속되고 있다고 언급합니다.
AI 에이전트의 장기적 사고 능력을 강조하며 구독을 요청하고, Grok 4에 대한 추가 테스트 계획을 언급합니다.
일론 머스크가 언급한 Grok의 로드맵을 소개합니다 - 현재 버전 6 기반, 이달 말 완료 예정인 버전 7, 그리고 향후 출시 예정인 다양한 모델들.
Grok 4가 막 출시되었고, 맞습니다. 일론이
옳았습니다. 현재로서는 세계에서 가장 똑똑한 모델입니다.
그리고 다른 최첨단 모델들과 비교해서
꽤 큰 도약이라고 할 수 있습니다.
먼저 Grok 시리즈 모델들의
발전 과정을 살펴보겠습니다.
이건 어젯밤 라이브 스트림의 슬라이드였습니다.
Grok 2를 볼 수 있는데, 그런데 이게
불과 2년 전이었고 여기 있습니다.
단순한 다음 토큰 예측이었습니다.
여기가 컴퓨팅 양입니다.
그리고 Grok 3에서는 사전 훈련 컴퓨팅을
10배로 늘렸고, 정말 좋은 모델이었습니다.
그다음에 Grok 3 추론이 있었는데
사전 훈련 컴퓨팅을 가져와서
여기 노란색으로 보이는 것이
강화 학습 컴퓨팅입니다.
하지만 그다음 Grok 4 추론으로의 엄청난 도약이 있었습니다.
이것이 바로 Grok 4의 핵심입니다.
강화 학습 말입니다.
우리는 이 채널에서 이에 대해
많이 이야기했습니다.
그래서 이게 놀라운 일은 아닐 겁니다.
여기에 사전 훈련이 있고,
여기에 사후 훈련이 있습니다.
그들은 강화 학습에 엄청난 컴퓨팅을 투입했습니다.
이것이 바로 검증 가능한 보상을 가진
강화 학습의 힘입니다.
그리고 검증 가능한 보상이
중요한 부분입니다.
이것들은 알려진 해답이 있는 문제들입니다.
가장 기본적인 예는 2 더하기 2가 문제이고,
4가 해답입니다.
우리가 이 문제와 해답을 사용해서
모델을 훈련시킨다면, 모델에게 말할 수 있습니다.
2 더하기 2가 뭔지 알아내려고 해봐.
그리고 4라는 답을 얻으면,
그것에 대해 보상을 줄 거야.
이제 이걸 아주 어려운 문제들로
여러 번 반복하면
모델들이 정말 좋아지고 있습니다.
이것이 또한 이 모델들로부터
사고 행동을 끌어내는 것입니다.
검증 가능한 보상을 가진 강화 학습
패러다임 말입니다.
그래서 RLVW에 벽이 있다고 생각했다면,
Grok이 그것을 뚫고 나갔습니다.
사실, 검증 가능한 보상을 가진 강화 학습이
그들의 워크플로우에 너무 중요해서,
그들은 문제가 부족해지기 시작했습니다.
실제로 우리가 세상에서 알고 있는
보상과 함께 기록된 충분한 문제들을
찾는 데 어려움을 겪고 있었습니다.
그때 일론 머스크가 현실이
궁극적인 테스트라고 말하기 시작했습니다.
이 모델들은 훌륭합니다.
이 벤치마크들을 정말 잘 통과하지만,
우리는 그들에게 줄 수 있는
문제와 답 세트의 수에 제한이 있습니다.
왜냐하면 세상에는 제한된 양만
존재하기 때문입니다.
하지만 이 모델들을 실제 세상에 두면,
그리고 보통 그것은 휴머노이드 로봇이나
물리학과 상호작용할 수 있는 형태로 올 것인데,
그때 우리는 본질적으로 무제한의
검증 가능한 보상을 갖게 됩니다.
좋습니다. 이제 벤치마크로 들어가 봅시다.
그들이 언급하는 첫 번째 벤치마크는
인류의 마지막 시험입니다.
그리고 이것은 매우 어려운 벤치마크입니다.
이것들은 상상할 수 있듯이 전문가나
전문가 팀만이 이 시험의 단일 도메인에서
맞힐 수 있는 최첨단 지식 문제들입니다.
하지만 이것은 수학, 물리학, 생물학,
사회과학에 걸쳐 있는 시험입니다.
컴퓨터 과학, 공학, 화학
그리고 기타 분야까지요. 상상해보세요.
세상에서 가장 똑똑한 박사 후 연구원과 그 팀이
시간, 일, 주 단위로 작업했을 때
단일 분야에서 몇 문제나 풀 수 있을까요?
반면 Grok 4는 어떨까요?
제가 직접 보여드리겠습니다.
그 전에 만약 여러분이
Grok 4를 최대한 활용하는 방법을 배우고 싶다면
비슷한 이름의 '인류의 마지막 프롬프트 엔지니어링'
가이드를 꼭 다운로드하세요. 저와 제 팀이 만든 것입니다.
완전 무료입니다. 오늘 다운로드하세요.
아래 설명란에 링크가 있습니다.
그리고 그들이 Grok 4의
인류의 마지막 시험 점수를 공개한 방식은
정말 멋졌습니다. 그들은 진행 과정을 보여줬죠.
Grok 4에 주어진 다양한 기능과
다양한 능력들, 그리고
그것이 달성할 수 있었던 것들을 말이죠.
함께 살펴보겠습니다.
여기 현재 최첨단 모델들을 기준으로 한
인류의 마지막 시험 최고 점수가 있습니다.
Gemini 2.5 Pro가 21.6%로 1위에 올랐고
O3이 20%, O4 Mini가 18%입니다.
모두 좋은 점수죠. 거의 비슷한 점수대입니다.
이제 도구 사용 없이 Grok 4로 바꿔보면
Grok 4가 26.9%로
이미 다른 최첨단 모델들보다 상당히 앞서 있습니다.
하지만 여기서 끝이 아닙니다.
그다음 그들은 Grok 4에 도구 사용을 허용했습니다.
웹 브라우징, 더 정교한 메모리,
그리고 코드를 작성하고 실행할 수 있는
환경 같은 것들 말이죠.
그렇게 해서 41%를 달성할 수 있었습니다.
26.9%에서 엄청난 향상이죠.
다음 순위 최고 모델이 달성할 수 있는 것의
두 배에 달하는 점수입니다.
하지만 여기서 끝이 아닙니다.
그다음 그들이 테스트 시간 컴퓨팅을
확장했을 때 50.7%에 도달했습니다.
도구 사용과 테스트 시간 컴퓨팅 확장으로
50.7%를 달성한 것입니다.
50% 장벽을 뛰어넘었고
이 벤치마크에서 테스트된 다른 모든 모델들을
완전히 압도했습니다.
하지만 테스트 시간 컴퓨팅 확장이
실제로 무엇을 의미하는 걸까요?
이전까지 제가 테스트 시간 컴퓨팅에 대해 연상한 것은
생각할 시간을 더 주고 많은 사고 과정을
출력하게 한 다음
그것으로부터 가능한 최고의 답을
도출하는 것이었습니다.
하지만 Grok 4는 약간 다른
방향을 택한 것 같습니다.
그들이 하는 일은, 그리고 이것은
Grok 4 헤비 버전이라고 불리는 것에 특화된 것인데
여러 에이전트를 생성하는 것입니다.
각각의 에이전트가 나가서
문제를 해결하려고 시도하고, 실제로 협력합니다.
그들은 메모를 공유하죠.
그 중 하나가 효과적인 것을 알아내면
다른 것들과 공유하고
각각이 더 나아집니다.
그리고 마지막에 가장 좋은 답이나
가장 좋은 해결책을 선택합니다.
이 모든 것을 통해 50.7%라는 수치를 얻었습니다.
참고로 Grok 4를 쉽게 테스트해보고 싶다면
저희 스폰서인 Abacus를 확인해보세요.
저와 같다면 여러분도 아마도 다양한 AI
서비스에 구독하고 있을 것이고
그것들 사이를 항상 오가고 있을 겁니다.
그리고 이것은 좀 짜증나는 일이죠.
그뿐만 아니라 꽤 비싸기도 합니다.
그리고 바로 여기서 Abacus AI의
Chat LLM이 등장합니다.
이것은 올인원 AI입니다.
최신 및 최고의 모델들을 포함한 플랫폼입니다
주요 모델 공급업체들의 모델들을 제공하죠
그리고 Route LLM이라는 기능도 있는데
이는 자동으로 최적의 모델을 선택해서
프롬프트에 따라 가장 적합한 모델로 전송해줍니다
실제 프롬프트 내용에 따라 올바른 LLM으로 라우팅해주는 거죠
물론 PDF와 채팅하는 기능도 있어요
원하는 문서를 업로드하면 쉽게 질문하고
인사이트를 추출하고 데이터를 수집하는 등
기존 문서에서 필요한 모든 작업을 할 수 있어요
그뿐만 아니라 텍스트에서 이미지로
그리고 텍스트에서 비디오로 변환하는 모델도 있어요
멋진 이미지와 비디오를 쉽게 생성할 수 있죠
또한 최근에 Deep Agent를 도입했는데
이는 엄청나게 강력한 AI 에이전트로
기본적으로 모든 것을 할 수 있어요
웹사이트 제작, 앱 개발
프레젠테이션 제작, 연구 보고서
챗봇 개발, 심지어 게임 제작까지
이 모든 것을 월 10달러로 이용할 수 있어요
한번 확인해보세요
chatlm.abacus.ai
또는 설명란의 링크를 클릭하시고
제가 소개했다고 알려주세요
정말 감사하겠습니다
Abacus AI에게 다시 한번 감사드립니다
이제 본 영상으로 돌아가죠
그런데 저는 이미 Grok 4 Heavy를 결제했어요
빠르게 보여드릴게요
여기 Grok 4 Heavy가 있고
실제로 이것에게
인류의 마지막 시험 문제 중 하나를 줄 거예요
먼저 말씀드리면
저는 이 문제가 무엇을 묻는지조차 모릅니다
지금은 단순히 여러 에이전트가
생성되고 답변을 가져오는 것을
보여드리고 싶을 뿐입니다
전체 테스트는 다른 영상에서 하겠습니다
여기 계산 문제가 있네요
12차원 축소 스핀 보드의 분류 공간을
읽을 수도 없네요
좋아요, 여기 문제가 있습니다
시작해보죠
네 개의 에이전트가 시작됐네요
초기화 중이고 각각의 네 에이전트가
이제 자신만의 솔루션을 실행하고 있습니다
시간이 좀 걸릴 수 있어요
인터페이스를 보여드리기 위해
빠르게 보여드리는 거예요
실제로 UI가 정말 멋져 보인다고 생각해요
이것이 Grok 4의 모습입니다
여러 에이전트를 생성하고
각각을 작업하게 합니다
각 에이전트는 자신의 지식을 공유하고
최고의 답변을 가져옵니다
명명 규칙을 생각해보면
Grok 4는 단일 에이전트 버전이고
Grok 4 Heavy는 다중 에이전트 버전입니다
그리고 저렴하지 않아요
가격에 대해서는 나중에 말씀드리겠습니다
라이브 스트림에서
정말 멋진 데모들을 보여주기도 했어요
몇 가지 간단한 클립을 보여드리겠습니다
먼저 라이브 데모에서
Grok 4가 월드 시리즈 우승자를 예측하게 했고
필요한 모든 도구와 계산 능력을 제공했어요
한번 보시죠
모든 사람들이 폴리 마켓을 알고 있어요
정말 흥미로운 서비스죠
진실을 찾는 역할을 하고
대부분의 경우 현실과 일치합니다
그리고 Grok과 함께 우리가 실제로 보고 있는 것은
시장을 어떻게 활용해 미래를 예측할 수 있는지 살펴보는 것입니다.
이 시장들을 분석해서 미래 예측이 가능한지 확인해보겠습니다.
이 과정을 실행하면서 Grok 4가 어떻게
MLB 현재 팀들의 월드시리즈 승률을
예측하는지 살펴보겠습니다.
여기서 볼 수 있듯이, 정확한 답을 찾기 위해
사용한 모든 도구와 프로세스를 확인할 수 있습니다.
다양한 배팅 사이트를 검색하고
자체적으로 승률을 계산했습니다.
시장과 비교하여 자신만의 알파와 우위를 찾았죠.
전체 과정을 단계별로 설명하며
우승 팀의 승률을 계산했습니다.
다저스에게 21.6%의 승률을 주었고
이 계산에는 약 4분 30초가 걸렸습니다.
다음으로 Grok 4에게 두 블랙홀이 충돌하는
모습을 시각화하도록 했습니다.
두 블랙홀의 충돌 시각화를 요청했는데
물론 몇 가지 자유롭게 해석한 부분이 있습니다.
실제로 사고 과정에서 이런 해석들을 명확히 설명했습니다.
예를 들어, 실제로 보이게 하려면
파동의 규모를 정말 과장해야 한다는 점입니다.
네, 여기서 보시는 것처럼 이런 작용을 보여줍니다.
여러 방면에서 규모를 과장했습니다.
거리에 따른 진폭 감소가 실제보다 적게 표현되었지만
기본적인 효과들은 실제로 정확하게 볼 수 있습니다.
나선형 접근으로 시작해서 병합되고
링다운 과정을 거치는데
이는 기본적으로 대체로 정확합니다.
물론 필요한 단순화를 고려했을 때 말이죠.
실제로 이에 대해 매우 명확하게 설명했습니다.
포스트 뉴턴 근사를 사용했다고 하네요.
블랙홀 중심 근처의 일반 상대론적 효과를
실제로 계산하는 대신 근사치를 사용했습니다.
이는 정확하지 않고 잘못된 결과를 낳을 수 있지만
전체적인 시각화는 기본적으로 제대로 되어 있습니다.
물론 Grok의 진짜 강점은
실시간 정보 제공입니다.
여기서 Grok 4가 인류의 마지막 시험이라는
모델 점수 발표와 관련된 모든 공지사항과
타임라인을 수집하는 모습을 보겠습니다.
시간 경과에 따른 점수 변화를 자세히 보여주는
타임라인을 만들어보겠습니다.
그 당시 진행되었던 모든 대화도 볼 수 있습니다.
누가 점수를 발표했고 그 당시 반응이 어땠는지
확인할 수 있습니다.
댄 헨드릭스가 처음 발표한 날짜도 정의되어 있고
2월에 OpenAI가 발표한 점수도
확인할 수 있습니다.
전체 과정을 살펴볼 수 있죠.
네, 이런 식으로 말입니다.
정말 흥미로운 기능이라고 생각합니다.
물론 몇 가지 부정확한 결과가 있을 수 있지만
전체적으로는 훌륭한 시각화입니다.
그리고 물론 Grok이 정말 잘 알려진 부분은
적어도 제가 정말 좋아하는 부분은
실시간 정보 제공입니다.
여기서 Grok 4가 나가서
모든 발표와 타임라인을 가져오는 모습을
보여주고 있습니다.
인류의 마지막 시험을 위해 출시된
모델 점수 발표들을 살펴보죠.
포스트를 기반으로 타임라인을 만들어서
시간 경과에 따른 점수 변화를 자세히 보여주고
그 당시 진행되었던 모든 대화도 볼 수 있습니다.
누가 점수를 발표했고
그 당시 반응이 어땠는지 확인할 수 있습니다.
댄 헨드릭스가 처음 발표한 날짜도 정의되어 있고
전체 과정을 살펴볼 수 있습니다.
그 당시 반응들도 확인할 수 있고
OpenAI가 2월에 발표한
점수도 볼 수 있습니다.
그리고 여기서 보시는 것처럼
OpenAI가 발표한 점수를
2월에 확인할 수 있습니다.
진행 상황을 확인할 수 있습니다
Gemini 같은 모델의 발전과정을 볼 수 있고
Kimmy 같은 모델들, 그리고 심지어
유출된 벤치마크 결과들도 볼 수 있습니다
사람들이 말하는 걸 보면, 만약
그것이 맞다면 꽤
인상적일 것이라고 합니다. 정말 멋지네요. 자, 이제 더 많은
벤치마크를 살펴보겠습니다.
여기 GPQA가 있습니다. 여기 Grok 4는 도구 없이
87점, 그리고 Grok 4 Heavy는 도구를 사용해서
88.9점으로 다음 최고 모델인
86점과 비교됩니다. 엄청난 차이는 아니네요. AMY 2025에서 Grok 4
Heavy는 완벽한 100%를 기록했습니다. 이건
정말 미친 수준입니다. 이건 세계에서 가장 어려운
수학 문제들 중 일부입니다. 완벽한
100점. o3도 꽤 잘했습니다.
98.4점입니다. 여기 Live CodeBench에서 79.4점. 정말
뛰어난 코더네요. Gemini 2.5 Pro는
74%로 제 의견으로는 최고의
코더인데, 아직 Grok 4를 테스트해보지 않았습니다.
그래서 지켜봐야겠네요. 여기 Math Arena에서 96.7점
그리고 USA Mo는 수학 올림피아드
테스트입니다. Grok 4 Heavy가
다른 모델들을 압도하고 있습니다. 알겠습니다.
잠시 다시 돌아가서, 제가 보여드리고 싶었던 건
진행 상황입니다. 우리는 5분
48초 동안 Grok 4 Heavy가
이 문제를 풀려고 시도하고 있습니다. 우리는
대략 중간쯤 왔습니다. 만약 이
진행률 바가 정확하다면, 그리고 우리는
계속해서 실행되고 있는 걸 볼 수 있습니다.
이제 안타깝게도 저는
사고 체인을 볼 수 없습니다. 각 에이전트의
진행 상황만 볼 수 있습니다. 좋아요, 다음으로.
ARC AGI. 이 테스트는 인간이 쉽게
풀 수 있도록 만들어졌지만
AI가 풀기에는 정말 어렵습니다. 이것은
본질적으로 패턴을 찾고
그 패턴들로부터 여러 기술을 배우고
그것들을 새로운 테스트에 적용하는 것입니다.
그래서 여기서 볼 수 있듯이, 이런 다양한
시각화들을 보고
그것들이 어떻게 변하는지 배우고
그 다음에 이것이 어떻게 변할지 알아내려고 합니다.
여기서 본 패턴들을 바탕으로요.
그리고 Grok 4는
이 테스트를 완전히 압도했습니다. 그래서 여기
ARC AGI V1에서 66.6%를 기록했습니다
o3의 60.8%와 비교해서, 그리고 ARC AGI V2에서
15.9%
두 배입니다. Claude 3 Opus가 2위입니다. 여기서
이 벤치마크에서 완전히 독보적인 위치에 있다는 걸
볼 수 있고, 이것은
독립적으로 테스트되었습니다. 그래서 Greg Cameron의
ARC Prize 회장이 말했습니다. "우리는
XAI로부터 24시간 전에 연락을 받았습니다. 테스트해보자."
그들은 그들의 테스트 정책을 안내했습니다.
데이터 보존 없음, 모델
체크포인트는 공개 사용을 위한 것이어야 하고
속도 제한의 일시적 증가.
그리고 이제 그의 견해를 보겠습니다.
Grok 4는 이제 Arc AGI에서 최고 성능을 보이는
공개적으로 사용 가능한 모델입니다.
이것은 심지어 특별히 제작된
Kaggle에 제출된 솔루션들을 능가합니다. 이전 최고
점수는 Claude 3 Opus의 8%였습니다. 10% 이하는
노이즈가 많습니다. 15.9%를 얻는 것은
그 노이즈 장벽을 뛰어넘는 것입니다. Grok 4는
0이 아닌 수준의 유동적 지능을 보여주고 있습니다.
정말 미친 수준입니다. 이것은 진정한
일반화입니다. 하지만 다시 말해, 이 모든 것들은
어느 정도 추상적인 벤치마크입니다. 이들은
실제가 아닙니다. 실제 세계에 있는 게 아닙니다.
그래서 그들은 이것을 새로운
Vending Bench라고 불리는 벤치마크로 테스트했습니다.
그리고 이 모델들은 본질적으로 다음과 같은 상황에 놓입니다
실제 세계에서 자동판매기를 관리하는 역할을 맡게 됩니다.
그리고 예산과 재고를 제공받고,
모든 것을 제공받습니다.
그리고 이것이 결과입니다.
O3은 테스트 종료 시점에서
순자산이 약 1,800달러입니다.
Gemini 2.5 Pro는 약 789달러의 순자산을 가집니다.
인간은 844달러로 나타났습니다.
Claude Opus 4는 상당한 도약으로 약 2,000달러였습니다.
하지만 Grok 4는 4,700달러로 들어왔습니다.
다시 말해 이것은 실제 시험입니다.
어떻게 상호작용하고
실제 세계 테스트에서
어떻게 실제로 성능을 발휘하는지에 대한 것입니다.
매우 인상적입니다.
그리고 지난 몇 달 동안 XAI 팀은
AI가 비디오 게임을 만드는 것에 대해 많이 이야기했습니다.
일론 머스크는 가까운 미래에
AAA 비디오 게임을 만들 것이라고 말했습니다.
그의 일정에 대해 어떻게 생각하든 말이죠.
하지만 그들은 바이브 코더에게
Grok 4에 접근할 수 있게 하고 단 몇 시간 만에 무엇을 만들 수 있는지 물었습니다.
이것이 그 결과입니다.
Danny는 실제로 X에서 비디오 게임 디자이너입니다.
그래서 우리는 말했습니다
게임을 만들기 위해 Grok 4 프리뷰 API를 시도해보고 싶은 사람이 있냐고요
그리고 Danny가 응답했습니다.
이것은 실제로 4시간 만에 만들어진
1인칭 슈팅 게임입니다.
실제로 비디오 게임 제작의
가장 과소평가된 어려운 문제 중 하나는
반드시 게임의 핵심 로직을 코딩하는 것이 아니라
실제로 모든 에셋, 모든 텍스처를
소싱하는 것입니다
파일들과 시각적으로 매력적인 게임을 만들기 위해서요.
그래서 Grok이 정말 잘하는 핵심 측면 중 하나는
모든 도구들과 함께
실제로 이런 에셋 소싱 기능들을
자동화할 수 있다는 것입니다.
그래서 개발자들은
핵심 개발 자체에만 집중할 수 있습니다
이제 게임 스튜디오를 운영할 수 있습니다
한 사람만으로도 말이죠
그리고 Grok 4가
모든 에셋들을 소싱하고
모든 유지 관리 작업을 해줄 수 있습니다.
모든 슬롯 에셋들을 소싱하고
모든 유지 관리 작업을 해줄 수 있습니다.
당신을 위해서요.
꽤 멋진 게임입니다. 슈터 게임이고
멋진 그래픽과 다양한 규칙과 로직이 있고
정말 멋지게 보입니다.
매우 좋습니다. 이제 일론 머스크가 말했습니다.
"첫 번째로 정말 좋은 AI 비디오 게임을 내년에 기대한다"
저는 정말로 그것을 믿지 않습니다.
이런 게임들은 재미있지만
확실히 일회성 게임들입니다.
우리는 어쌔신 크리드를 보지 못할 것입니다.
우리는 AI가 만든
다음 헤일로를 보지 못할 것입니다.
아직은 말이죠. 그리고 확실히 내년 말까지는 아닙니다.
그리고 특히 일론은
말했습니다
매우 좋은 비디오 이해력을 가져야 한다고
게임을 플레이하고
게임과 상호작용하고 실제로
게임이 재미있는지 평가하고
실제로 게임이 재미있는지에 대해
좋은 판단력을 가져야 한다고 말이죠.
그리고 그것은 취향의 영역으로 들어갑니다.
그리고 제 생각에는 적어도
예측 가능한 미래에는 취향은 인간의 영역입니다.
인간은 자신들과 다른 인간들을 위한
경험을 큐레이팅하는 데 가장 뛰어납니다.
그래서 저는 실제로 그렇게 생각합니다
인간이 꽤 오랜 시간 동안
계속 관여할 것이라고 생각합니다. 만약
Grok 4를 테스트해보고 싶다면
지금 이용 가능하고 API를 통해서도
사용할 수 있습니다. 앞으로 모든
에이전트 코딩 애플리케이션들에
연결될 것으로 기대됩니다.
정말 멋질 것 같습니다. 256k 컨텍스트 윈도우와
멀티모달 추론, 실시간 데이터
검색, 그리고 엔터프라이즈급 보안을
제공합니다. 정확히 무슨 의미인지는
잘 모르겠지만, 뭐 괜찮습니다. 하지만 가격이
저렴하지 않습니다. Super Grok는 월 30달러이고
ChatGPT 구독료보다 비싸며
Claude 구독료보다도 비쌉니다.
Super Grok Heavy는 월 300달러 또는
연간 3천 달러입니다. 이것으로
Super Grok의 모든 기능을 받을 수 있고
Grok 4 Heavy, 높은 속도 제한
그리고 새로운 기능에 대한 조기 액세스를
받습니다. 다시 돌아가서 보니
아직도 실행 중이네요. 거의 15분이 지났는데
4개 에이전트 중 3개가 아직도
완료되지 않은 것 같습니다. 정말로
장기적인 사고가 필요한 작업이네요.
구독 잊지 마세요. 제가 Grok 4를
철저히 테스트할 예정입니다. 자, 마지막으로
앞으로 무엇을 기대할 수 있을까요?
일론 머스크는 Grok 4가 현재
파운데이션 모델 버전 6를 기반으로 하고 있고
현재 진행 중인 훈련 버전 7은
이달 말까지 완료될 예정이며
이것이 멀티모달 추론과
이해 능력을 향상시킬 것이라고 했습니다.
방금 출시된 Grok 4 릴리스가 있고
8월에는 코딩 전용 모델이
출시될 예정이며
9월에는 멀티모달 에이전트가
10월에는 비디오 생성 모델이 출시될 예정입니다.
이런 일정들이 지켜질지 보겠지만
너무 기대하지는 않겠습니다. 하지만
정말 기대됩니다. 이와 관련해서
더 많은 영상을 준비 중이니
계속 시청해 주세요. 만약 이 영상이
마음에 드셨다면 좋아요와 구독 부탁드립니다.