엘론의 Grok-3, 모두를 제치다?!

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이번 영상은 엘론 머스크의 xAI 팀이 선보인 최신 AI 모델 Grok-3에 대한 리뷰와 분석을 다룹니다. Grok-3는 LM Arena 사용자 평가에서 1위를 차지하며, 수학과 코딩 분야의 강화학습 기법을 통해 뛰어난 일반화 능력을 보여줍니다. 또한 X 플랫폼의 방대한 데이터와 100,000개 이상의 GPU를 활용한 인프라 덕분에 단기간에 경쟁 모델을 능가하는 성능을 구현하였습니다. 영상은 Grok-3의 기술적 특징과 벤치마크 결과, 데모 시연 및 향후 전망에 대해 자세히 설명합니다.

주요 키워드

Grok-3 xAI LM Arena 강화학습 벤치마크 GPU 데이터 센터 체인 오브 쏘트 오픈 소스 PGI AI

하이라이트

  • 🔑 Grok-3의 공식 출시와 함께 xAI 팀이 놀라운 성과를 선보였음이 강조됩니다.
  • ⚡️ LM Arena 사용자 평가에서 Grok-3가 경쟁 모델들을 제치고 1위를 기록한 점이 주목됩니다.
  • 🚀 강화학습을 수학과 코딩에 집중하여 검증 가능한 보상을 통한 학습 전략이 일반화 능력을 증명합니다.
  • 🌟 X의 고유 데이터와 100,000개 이상의 GPU 인프라가 성능 급상승의 핵심 요인으로 작용합니다.
  • 📌 체인 오브 쏘트(생각 과정)를 일부 숨김으로써 모델의 복제 위험을 낮추는 기술이 언급됩니다.
  • 📢 영상 중간에 소개된 PGI AI는 기존의 Postgres SQL 데이터베이스에 AI 기능을 손쉽게 통합할 수 있는 오픈 소스 도구입니다.

용어 설명

Grok-3

엘론 머스크의 xAI 팀이 개발한 최신 AI 모델로, 뛰어난 벤치마크 성능과 빠른 처리 속도를 자랑함.

xAI

엘론 머스크가 이끄는 AI 전문 기업으로, 혁신적인 AI 모델 개발에 주력함.

LM Arena

사용자들이 직접 평가하는 AI 성능 순위 시스템으로, Grok-3가 이곳에서 1위를 차지함.

강화학습

모델이 반복 학습을 통해 보상을 극대화하며 성능을 향상시키는 학습 기법으로, 특히 수학과 코딩 분야에 집중됨.

체인 오브 쏘트

AI가 문제 해결 과정에서 단계별로 사고하는 내부 과정을 의미하며, 일부는 보안을 위해 비공개 처리됨.

PGI AI

Postgres SQL 상에서 AI 기능을 손쉽게 활용할 수 있도록 지원하는 오픈 소스 데이터베이스 도구로, 시간 스케일 팀이 개발함.

[00:00:00] 제품 발표 및 개요

Grok-3가 출시되었음을 알리며, 엘론 머스크와 xAI 팀의 약속과 초기 인상이 소개됩니다. 제품의 존재감과 기대감이 바로 드러납니다.

그록 3가 출시되어 xAI 팀이 약속한 대로 세계에서 가장 똑똑한 AI를 선보였습니다. LM 아레나 리더보드에서 1위를 차지하며 그들의 주장이 입증되었습니다.
[00:00:29] 벤치마크 성능 및 모델 비교

사용자 평가 기반 LM Arena 순위와 수학, 코딩 벤치마크 점수를 통해 Grok-3의 뛰어난 성능이 설명됩니다. 경쟁 모델들인 Gemini, GPT 시리즈와의 비교도 이루어집니다.

PGI by 타임스케일의 후원 안내와 함께, 발표자가 자신의 X(트위터) 계정을 소개하고 그록 3에 대한 예측을 공유했습니다.
그록 3는 GPT-4와 동등한 수준을 보여주며, X 플랫폼의 데이터 접근권한이라는 독특한 강점을 가지고 있습니다.
벤치마크 결과에서 그록 3와 그록 3 미니가 다른 AI 모델들보다 우수한 성능을 보여주었으며, 특히 수학, 과학, 코딩 분야에서 뛰어난 결과를 달성했습니다.
수학과 코딩에 집중된 강화학습을 통해 모델이 훈련 데이터를 넘어서는 일반화 능력을 보여주었습니다.
[00:03:00] 모델 기능 시연 및 특장점

Grok-3의 다양한 기능, 예를 들어 체인 오브 쏘트 표시, 'think' 버튼을 통한 심도 있는 문제 해결 과정이 시연됩니다. 데모로 Python 코드 실행 속도도 확인할 수 있습니다.

모델이 수학과 코딩 벤치마크에서 강화학습을 통해 훈련되었으며, AMI 2024와 2025에서 뛰어난 일반화 능력을 보여주었습니다.
Grok 3 Mini Reasoning과 Grok 3 Reasoning Beta가 다른 모델들보다 우수한 성능을 보여주었습니다.
챗봇 아레나에서 초기 Grok 3 버전이 1,400 ELO 이상을 기록하며 Gemini 2.0을 앞섰습니다.
AI 전문가들은 Gemini의 활용 가치를 강조하며, GPT 4.0의 최신 버전이 더 친근하고 개성 있게 업그레이드되었습니다.
TimeScale DB 팀이 출시한 PG AI는 Postgres 데이터베이스에 AI 특화 기능을 추가하는 오픈소스 도구입니다.
[00:05:11] 데이터 인프라 및 GPU 구축

X의 방대한 데이터와 100,000개 이상의 GPU를 활용한 인프라 구축이 성능 비약의 핵심으로 설명됩니다. 하드웨어 구축 과정과 에너지, 냉각 문제 해결 사례가 언급됩니다.

PG AI Vectorizer는 다양한 임베딩 모델을 지원하고, 자체 호스팅과 클라우드 기반 옵션을 제공합니다.
간단한 SQL 명령어로 설정 가능하며, 다양한 커스터마이징과 실험 기능을 제공합니다.
PGAI가 LLM과 SQL Alchemy 통합을 발표하며, PostgreSQL에 AI를 더욱 쉽게 도입할 수 있게 되었습니다. 30일 무료 체험도 제공됩니다.
다양한 AI 모델들의 성능 비교에서, OpenAI 직원 Rex가 공개한 차트에 따르면 Grok-3가 상위권 성능을 보여주고 있습니다.
12월 버전의 O3 모델이 여전히 최고 성능을 보여주지만, LM Arena에서는 'Chocolate'이라는 코드명의 Grok-3가 1위를 차지했습니다.
xAI는 모델 트레이닝 분야에 늦게 참여했음에도 불구하고, 매우 짧은 시간 안에 최첨단 모델들과 경쟁할 수 있는 수준에 도달했습니다.
xAI의 빠른 발전: 2023년 11월부터 2025년까지 Grok-1에서 Grok-3까지 연이은 모델 출시로 급속한 성장을 보여주었습니다.
xAI의 성공 요인으로는 독자적인 데이터셋과 10만 개 이상의 GPU를 갖춘 자체 데이터 센터 구축이 있습니다.
일론 머스크의 리더십 하에 빠르게 인프라를 구축하여 초당 수백 토큰을 처리할 수 있는 고성능 모델을 개발했습니다.
Grok-3가 X 계정 사용자들에게 공개되었으며, 드롭다운 메뉴를 통해 접근할 수 있다고 설명합니다.
Grok-3의 주요 기능으로 심층 리서치, 브레인스토밍, 데이터 분석, 이미지 생성, 코드 작성 기능을 소개합니다.
파이썬 스네이크 게임 제작 예시를 통해 Grok-3의 빠른 응답 속도와 성능을 시연합니다.
일론 머스크가 언급한 모델 보호를 위한 사고 과정 난독화 전략에 대해 설명합니다.
[00:10:25] 최종 분석 및 전망

Grok-3의 전반적인 성능, 강화학습 기법, 체인 오브 쏘트 보안 전략 등이 종합적으로 분석됩니다. 미래의 모델 개선과 오픈 소스 공개 여부, 추가 기능에 대해 전망합니다.

10만 개 이상의 GPU를 활용한 강력한 성능과 지속적인 모델 개선 계획을 소개합니다.
심층 리서치 에이전트 기능을 소개하고 다른 AI 기업들의 유사 기능과 비교합니다.
심층 리서치 기능의 실용성과 시간 절약 효과에 대해 설명합니다.
그록 3이 출시되었습니다. 일론 머스크와 xAI 팀이
어제 저녁 8시에 그록 3을 공개하겠다고
약속했고, 실제로 약속을 지켰습니다.
세계에서 가장 똑똑한 AI가 될 것이라고 했고,
사실 저는 좀 의심스러웠지만
그들의 말이 맞았던 것 같습니다.
LM 아레나 리더보드에서 1위를 차지했는데,
이는 표준 벤치마크가 아닌
사용자들이 선택한 순위입니다.
그리고 실제로 1위를 차지했죠.
그록 3에 대해 모든 것을 설명해드리겠습니다.
이 영상은 PGI by 타임스케일이 후원합니다.
AI 애플리케이션에 PostgreSQL을
가장 쉽게 적용할 수 있는 방법입니다.
본론으로 들어가기 전에
제가 그록 3에 대해 예측했던 내용을
보여드리겠습니다. 그리고
X에서 저를 팔로우하지 않으셨다면,
Matthew Berman을 팔로우해주세요. 예측: xAI는
GPT-4와 동등한 수준이지만, 더 매력적이고
다른 AI 기업들이 제공하지 않는 기능들이 있을 것
GPT-5는 뛰어나고 매우 빠르며 저렴할 것
Claude 4가 나오고 GPT-5가
옴니 모델로 출시될 것입니다. xAI로 돌아가서,
GPT-4와 동등한 수준이 될 것이라는 예측은
거의 맞았습니다. 실제로
몇몇 벤치마크에서 약간 앞서고
LM 아레나 리더보드에서도 1위지만
기본적으로 GPT-4와 비슷합니다.
AI의 성격이나
검열, 할 수 있는 것과 없는 것에 대해서는
언급이 없어서 매력적인 성격 부분은
아직 모르겠습니다만, 그렇다고 하네요.
그리고 실제로 다른 기업들이
이미 가지고 있던 기능들도 출시했는데,
딥 서치나 도구 사용 같은 것들입니다.
하지만 그록을 특별하게 만드는 것은
X의 데이터에 대한 접근권한입니다.
이것이 실제로 X의 엄청난 양의
사용자 생성 데이터에 접근할 수 있는
유일한 AI입니다. 이제 어제 밤
라이브 스트림에서 보여준
몇 가지 벤치마크를 보여드리고
라이브 스트림의 일부 클립을 보여드린 후
그록의 성능에 대해
더 자세히 이야기하겠습니다.
이것이 그들이 보여준
첫 번째 벤치마크 세트입니다.
그록 3와 그록 3 미니가 있는데,
이것들은 생각하는 버전이 아닙니다.
파란색 열을 보시면 제미나이 2 프로,
딥시크 V3, 클로드 3.5, 소넷,
GPT-4와 비교했을 때 동등하거나 앞섭니다.
다시 말하지만 이것들은 비사고 모델입니다.
사고 모델로 전환할 수 있는
기본 모델이 이미 다른 어떤 모델보다
뛰어나다는 것이고, 실제로
상당한 차이가 있습니다. 특히 그록 3는
수학 AMI 벤치마크를 보면
52점을 받았는데, 이는 그 다음으로 높은
비그록 점수인 딥시크 V3의
39점과 비교됩니다. 과학 분야에서는 75점으로
다음 순위 65점보다 높고, 코딩에서는 57점으로
40점과 비교됩니다. 정말 흥미로운 점은,
잠시 후에 설명드리겠지만,
강화학습을
수학과 코딩에만 집중했다는 것입니다.
이 분야들은 검증 가능한
보상이 있는 강화학습이
가능한 영역이라 그만큼 강력합니다.
정말 흥미로운 점은
일론과 팀이 언급했듯이,
이 모델이 수학과
훈련 데이터를 넘어서서
일반화할 수 있었다는 것입니다.
코딩과 관련해서 매우 흥미로운 점이 있는데
이 모델은
특히 수학과 코딩 벤치마크에 대해
강화학습으로 훈련되었습니다
AMI 2024에서 정말 좋은 성과를 보였고
그들은 혹시 이 벤치마크에
과적합된 것은 아닐까 생각했습니다. 그러다 AMI 2025가
출시되었고 모델을 테스트해보니
놀랍게도 매우 뛰어난
성능을 보여주었습니다. 이는
학습 데이터를 넘어선 일반화 능력을 보여준 것입니다
보시다시피 여기 Gemini 2 Flash
Thinking이 있고, DeepSeek R1 01 03
Mini가 있으며, Grok 3 Mini
Reasoning과 Grok 3 Reasoning Beta가
최상위에 있습니다
이전에 본 적 없는 수학 문제들에 대해
매우 우수한 성능을 보여주었죠
다음으로 챗봇 아레나 순위를 보면
LM Cy에서 초콜릿이라는 코드명으로
불린 초기 Grok 3 버전이
1,400 ELO 이상을 기록했습니다
그 다음으로 높은 점수는 Gemini
2.0 Flash Thinking입니다
사실 저는 Gemini를
거의 사용해보지 않았는데
AI 분야의 많은 전문가들이
제가 놓치고 있는 게 많다고 말해주더군요
그래서 반드시 제 워크플로우에
도입해봐야겠습니다. 보시면 01
작년의 01은
1350 정도로 낮은 위치에 있고
GPT 4.0의 최신 버전이
1380으로 상위에 있습니다
GPT 4.0이 큰 업그레이드를 했는데
아마 사용해보셨을 텐데, 더 친근해지고
로봇 같은 느낌이 줄어들고
개성이 더해졌다고 합니다
오늘의 스폰서인 PG AI만큼
똑똑하죠. TimeScale DB 팀이 최근
PG AI라는 새로운 제품을 출시했는데
이는 Postgres 인스턴스 위에서 동작하는
데이터베이스 도구 모음으로
AI에 특화된 다양한
기능을 제공하며 가장 좋은 점은
완전히 오픈소스라는 것입니다. PG Vectorizer는
기존 Postgres 데이터베이스에
벡터화 기능을 추가할 수 있게 해줍니다
새로운 도구를 배울 필요도 없고
여러 데이터베이스를 관리할 필요도 없죠
제 경험상 이는 정말
귀찮은 일이었습니다. PG AI Vectorizer는
다양한 오픈소스 임베딩
모델을 Ollama를 통해 지원하며
OpenAI와 같은 회사의
독점 모델도 지원합니다. 오픈소스이므로
자체 호스팅하면 완전 무료이고
원한다면 클라우드 기반
완전 관리형 버전도
이용할 수 있어서
TimeScale을 통해 모든 것을
쉽게 설정할 수 있습니다. 단 하나의 SQL
명령어만으로 설정이 가능하고
다양한 커스터마이징 옵션을 제공하여
임베딩 모델 선택과
인덱싱, 청킹 사이즈,
포맷팅 옵션을 설정할 수 있습니다
내장된 실험 기능으로
여러 벡터라이저를 실행하고 다양한
모델과 임베딩을 테스트하여
당신의 애플리케이션에
가장 적합한 것을 찾을 수 있습니다
pga.com에서 확인해보세요
오픈소스 GitHub 페이지로 직접 연결됩니다
LLM과 SQL Alchemy가 통합된
PGAI 벡터라이저가 이제 사용 가능합니다. 이 업데이트로
PostgreSQL에 AI를 도입하는 것이
그 어느 때보다 쉬워졌습니다.
모든 관련 링크는 아래에 있으며,
30일 무료 체험이 포함된
호스팅 솔루션도 제공됩니다.
이제 영상으로 돌아가서,
다른 사고형 모델들과 비교한
점수를 보여드리겠습니다.
흥미로운 점은 이 차트가
OpenAI 직원인 Rex가 제공한 것이며,
xAI 팀이 Grok-3의 성능을
보여주기 위해 공개한 차트입니다만,
여기에는 O3 모델이 포함되어 있지 않았습니다.
O3 모델이 없는 상태를 상상해보세요.
O3 모델이 없는 차트에서는
Grok이 최고의 성능을 보여주고 있습니다.
당시에는 실제로 최고였죠.
O3 mini, High-O1, Deep-SE, Gar1, Gemini-2
Flash Thinking과 비교했을 때
큰 차이는 아니지만
모두를 앞서고 있었습니다.
하지만 12월 버전의 O3를 추가하면,
O3가 여전히 세계 최고의
모델임을 알 수 있습니다. 그러나
LM Arena의 게시물에 따르면 Grok-3가
1위를 차지했는데, 코드명은 'Chocolate'이었고
많은 사람들이 이것이
xAI의 차세대 모델일 것이라 생각했습니다.
하지만 가장 인상적인 것은
xAI가 모델 트레이닝 게임에
매우 늦게 참여했다는 점입니다.
이러한 놀라운 모델들을
트레이닝하는 분야에서,
최첨단 모델들을 따라잡았다는 것,
이기든 약간 뒤처지든
그건 중요하지 않습니다.
이렇게 짧은 시간 안에
이를 달성했다는 것이 정말 놀랍습니다.
얼마나 대단한지 보여드리겠습니다.
AI for Success 사용자의 분석에 따르면
xAI의 Grok의 발전이 놀랍습니다.
2023년 11월 초기 버전의 Grok-1은
사실상 사용할 수 없는 모델이었습니다.
몇 달 후 X Premium Plus 사용자용 Grok,
그 후 몇 달 뒤에는 Grok-1 오픈소스,
2024년 5월 Grok-1.5, 8월 Grok-2,
2024년 11월 Aurora, 그리고 2025년 Grok-3까지
어떻게 이런 것이 가능했을까요?
첫째로, 그들만의 독특한 데이터셋이 있습니다.
다른 모든 기업들이 가진
공개 웹 데이터도 있고,
거기에 X의 데이터도 있는데,
이는 매일 계속해서 증가하는
엄청난 양의 데이터입니다.
가장 놀라운 점은 일론 머스크가
데이터 센터 구축에 대해 언급한 것인데,
10만 개의 GPU를 사용하고
지금은 그보다 더 많다고 합니다.
처음에 대형 클라우드 업체들에 문의했을 때
10만 개의 GPU를 구축하는 데
18-24개월이 걸린다고 했지만,
그는 '안 된다'고 하고
직접 구축했습니다.
건물 구매부터 시작해서
전력 공급, 냉각 시스템,
모든 GPU를 효과적으로
연결하는 방법까지 모두 해결했고,
이 모든 GPU가 정말 유용하게 쓰였습니다.
Grok-3의 가장 인상적인 점은 속도입니다.
초당 수백 토큰을 처리할 수 있다고 하는데,
이것이 제가 가장 놀라웠던 부분이며,
유료 X 계정이 있다면
X 계정이 있다면 이미 Grok-3를 사용할 수 있을 겁니다.
여기 보시면 Grok-2라고 되어 있는데
드롭다운을 클릭하면 Grok-3 베타가 있습니다.
이 모델에는 몇 가지 기능들이 내장되어 있는데요.
먼저 심층 리서치 기능이 있고
이건 그들이 시연했던 기능입니다.
브레인스토밍 기능, 데이터 분석 기능,
이미지 생성 기능과 코드 기능이 있습니다.
그리고 'Think' 버튼이 있는데
이 버튼을 통해 Grok 모델의
더 긴 사고 과정을 볼 수 있습니다.
이제 얼마나 빠른지 보여드리겠습니다.
'파이썬으로 스네이크 게임을 만들어줘'라고 해보죠.
생각하는 중... 보세요, 정말 빠르죠!
속도가 정말 뛰어납니다.
사고 과정을 볼 수 있다는 것이 좋긴 한데
일론이 언급했듯이
전체 사고 과정을 보여주지는 않습니다.
일부는 의도적으로 숨기고 있죠.
약간의 난독화를 사용해서
일부를 감추고 있다고 했는데
특히 그가 말하길
모델이 하룻밤 사이에 복제되는 것을 막기 위해서라고 했습니다.
관련 클립을 보여드리죠.
Grok이 문제를 해결하면서
어떻게 생각하는지
내부적으로 볼 수 있습니다만...
사고 과정의 일부를
난독화하고 있습니다.
우리 모델이 즉시 복제되는 것을 막기 위해서죠.
표시된 것보다 더 많은 사고 과정이 있습니다.
자, 다시 돌아와서 보시면
지금 약 50초 정도 생각했고
얼마나 많은 출력을 했는지 보세요.
계속 진행 중이며 정말 빠릅니다.
10만 개가 넘는 GPU를 사용하니
당연한 결과겠죠.
저는 별도의 테스트 영상을 만들 예정인데
그게 이 영상의 요점은 아닙니다만,
보시다시피 코드를 출력하기 시작했고
잘 작동하길 바랍니다.
85초 동안 생각했고
코드를 한 번 더 출력하네요.
왜 그러는지는 모르겠지만 괜찮습니다.
앞서 언급했듯이, 일론은
강화학습이 본질적으로
수학과 코딩에만 국한되었다고 했는데
이게 정말 흥미로운 점입니다.
여기서 출발해서 수학과 코딩을 넘어
일반화할 수 있게 되었고
실제 논리와 추론,
진정한 사고 능력을 갖게 되었죠. 정말 인상적입니다.
다시 말하지만, RL만으로 충분했다는 거죠.
일론은 또한 이게 끝이 아니라고 했습니다.
모델이 매일 더 나아질 거라고 하는데
이 GPU들이 계속 돌아가면서
여전히 학습 중이고
모델을 계속 훈련시키고 있으며
새로운 버전이 나올 예정이고
곧 다른 기능들도
추가될 예정입니다. 물론 Grok은
에이전트에 대해서도 이야기했는데
하단에 Grok 에이전트가 있고
첫 번째 에이전트는 심층 리서치 에이전트입니다.
예상하신 그대로입니다.
Perplexity의 심층 리서치,
구글의 심층 리서치, Grok의 심층 리서치까지
이 모든 회사들이
심층 리서치를 출시하고 있습니다.
실제 작동하는 모습을 보여드리죠.
예를 들어 '다음 스타십 발사일이 언제인가요?'
자, 한번 해보죠. 답을 얻으면
왼쪽에서 높은 수준의 진행 바를 볼 수 있습니다.
모델이 단순히 한 번의 검색만 하는 게 아니라
현재 시스템처럼
사용자의 의도가 무엇인지
어떤 사실들을 고려해야 하는지
동시에 얼마나 많은 웹사이트를
읽어야 하는지 깊이 생각합니다.
얼마나 많은 웹사이트의
콘텐츠를 읽어야 할지 말이죠.
이것은 특정 주제에 대해 정말로 알아보고 싶을 때
수백 시간의 구글링 시간을 절약해줄 수 있습니다.
특정 주제에 대해
자세히 알아보고 싶을 때요.
오른쪽에서는 현재 모델이
어떤 작업을 하고 있는지
어떤 웹사이트를 탐색하고 어떤 출처를
확인하는지 요약을 볼 수 있습니다.
종종 여러 출처를 교차 검증하여
최종 답변을 출력하기 전에
정확성을 확인합니다.
전반적으로 매우 인상적입니다.
이렇게 많은 기능을 가진
훌륭한 모델을 출시할 줄은
몰랐는데, 뭐 그렇죠.
'일론을 과소평가하지 말라'는 말이 맞네요.
Grok 팀은 오픈소스에 대해서는
거의 언급하지 않았는데
이것들을 오픈소스로 공개할
계획이 있는지는 모르겠습니다만
매우 인상적이네요.
또 하나의 최첨단 모델이 나왔고
그들이 움직이는 속도가
정말 놀랍습니다.
Time Scale의 PG AI에 다시 한 번 감사드립니다.
오픈소스인 PG AI를 오늘 한번 시도해보세요.
링크는 아래 설명란에 있습니다.
이 영상이 마음에 드셨다면 좋아요와 구독 부탁드립니다.
다음 영상에서 만나요!