[00:00]
Grok 4가 막 출시되었고, 맞습니다. 일론이
[00:02]
옳았습니다. 현재로서는 세계에서 가장 똑똑한 모델입니다.
[00:05]
그리고 다른 최첨단 모델들과 비교해서
[00:08]
꽤 큰 도약이라고 할 수 있습니다.
[00:10]
먼저 Grok 시리즈 모델들의
[00:13]
발전 과정을 살펴보겠습니다.
[00:15]
이건 어젯밤 라이브 스트림의 슬라이드였습니다.
[00:17]
Grok 2를 볼 수 있는데, 그런데 이게
[00:18]
불과 2년 전이었고 여기 있습니다.
[00:21]
단순한 다음 토큰 예측이었습니다.
[00:23]
여기가 컴퓨팅 양입니다.
[00:25]
그리고 Grok 3에서는 사전 훈련 컴퓨팅을
[00:28]
10배로 늘렸고, 정말 좋은 모델이었습니다.
[00:31]
그다음에 Grok 3 추론이 있었는데
[00:33]
사전 훈련 컴퓨팅을 가져와서
[00:36]
여기 노란색으로 보이는 것이
[00:38]
강화 학습 컴퓨팅입니다.
[00:41]
하지만 그다음 Grok 4 추론으로의 엄청난 도약이 있었습니다.
[00:44]
이것이 바로 Grok 4의 핵심입니다.
[00:47]
강화 학습 말입니다.
[00:49]
우리는 이 채널에서 이에 대해
[00:51]
많이 이야기했습니다.
[00:54]
그래서 이게 놀라운 일은 아닐 겁니다.
[00:55]
여기에 사전 훈련이 있고,
[00:57]
여기에 사후 훈련이 있습니다.
[01:00]
그들은 강화 학습에 엄청난 컴퓨팅을 투입했습니다.
[01:03]
이것이 바로 검증 가능한 보상을 가진
[01:05]
강화 학습의 힘입니다.
[01:07]
그리고 검증 가능한 보상이
[01:09]
중요한 부분입니다.
[01:12]
이것들은 알려진 해답이 있는 문제들입니다.
[01:15]
가장 기본적인 예는 2 더하기 2가 문제이고,
[01:18]
4가 해답입니다.
[01:20]
우리가 이 문제와 해답을 사용해서
[01:22]
모델을 훈련시킨다면, 모델에게 말할 수 있습니다.
[01:24]
2 더하기 2가 뭔지 알아내려고 해봐.
[01:26]
그리고 4라는 답을 얻으면,
[01:28]
그것에 대해 보상을 줄 거야.
[01:30]
이제 이걸 아주 어려운 문제들로
[01:32]
여러 번 반복하면
[01:35]
모델들이 정말 좋아지고 있습니다.
[01:38]
이것이 또한 이 모델들로부터
[01:40]
사고 행동을 끌어내는 것입니다.
[01:42]
검증 가능한 보상을 가진 강화 학습
[01:45]
패러다임 말입니다.
[01:48]
그래서 RLVW에 벽이 있다고 생각했다면,
[01:51]
Grok이 그것을 뚫고 나갔습니다.
[01:52]
사실, 검증 가능한 보상을 가진 강화 학습이
[01:55]
그들의 워크플로우에 너무 중요해서,
[01:57]
그들은 문제가 부족해지기 시작했습니다.
[01:59]
실제로 우리가 세상에서 알고 있는
[02:02]
보상과 함께 기록된 충분한 문제들을
[02:05]
찾는 데 어려움을 겪고 있었습니다.
[02:08]
그때 일론 머스크가 현실이
[02:11]
궁극적인 테스트라고 말하기 시작했습니다.
[02:13]
이 모델들은 훌륭합니다.
[02:15]
이 벤치마크들을 정말 잘 통과하지만,
[02:17]
우리는 그들에게 줄 수 있는
[02:19]
문제와 답 세트의 수에 제한이 있습니다.
[02:21]
왜냐하면 세상에는 제한된 양만
[02:23]
존재하기 때문입니다.
[02:26]
하지만 이 모델들을 실제 세상에 두면,
[02:27]
그리고 보통 그것은 휴머노이드 로봇이나
[02:29]
물리학과 상호작용할 수 있는 형태로 올 것인데,
[02:32]
그때 우리는 본질적으로 무제한의
[02:35]
검증 가능한 보상을 갖게 됩니다.
[02:37]
좋습니다. 이제 벤치마크로 들어가 봅시다.
[02:39]
그들이 언급하는 첫 번째 벤치마크는
[02:41]
인류의 마지막 시험입니다.
[02:44]
그리고 이것은 매우 어려운 벤치마크입니다.
[02:47]
이것들은 상상할 수 있듯이 전문가나
[02:50]
전문가 팀만이 이 시험의 단일 도메인에서
[02:52]
맞힐 수 있는 최첨단 지식 문제들입니다.
[02:56]
하지만 이것은 수학, 물리학, 생물학,
[02:58]
사회과학에 걸쳐 있는 시험입니다.
[03:01]
컴퓨터 과학, 공학, 화학
[03:03]
그리고 기타 분야까지요. 상상해보세요.
[03:06]
세상에서 가장 똑똑한 박사 후 연구원과 그 팀이
[03:10]
시간, 일, 주 단위로 작업했을 때
[03:13]
단일 분야에서 몇 문제나 풀 수 있을까요?
[03:15]
반면 Grok 4는 어떨까요?
[03:17]
제가 직접 보여드리겠습니다.
[03:20]
그 전에 만약 여러분이
[03:21]
Grok 4를 최대한 활용하는 방법을 배우고 싶다면
[03:23]
비슷한 이름의 '인류의 마지막 프롬프트 엔지니어링'
[03:25]
가이드를 꼭 다운로드하세요. 저와 제 팀이 만든 것입니다.
[03:28]
완전 무료입니다. 오늘 다운로드하세요.
[03:30]
아래 설명란에 링크가 있습니다.
[03:32]
그리고 그들이 Grok 4의
[03:34]
인류의 마지막 시험 점수를 공개한 방식은
[03:36]
정말 멋졌습니다. 그들은 진행 과정을 보여줬죠.
[03:40]
Grok 4에 주어진 다양한 기능과
[03:41]
다양한 능력들, 그리고
[03:43]
그것이 달성할 수 있었던 것들을 말이죠.
[03:45]
함께 살펴보겠습니다.
[03:47]
여기 현재 최첨단 모델들을 기준으로 한
[03:48]
인류의 마지막 시험 최고 점수가 있습니다.
[03:50]
Gemini 2.5 Pro가 21.6%로 1위에 올랐고
[03:54]
O3이 20%, O4 Mini가 18%입니다.
[03:59]
모두 좋은 점수죠. 거의 비슷한 점수대입니다.
[04:03]
이제 도구 사용 없이 Grok 4로 바꿔보면
[04:06]
Grok 4가 26.9%로
[04:09]
이미 다른 최첨단 모델들보다 상당히 앞서 있습니다.
[04:14]
하지만 여기서 끝이 아닙니다.
[04:16]
그다음 그들은 Grok 4에 도구 사용을 허용했습니다.
[04:19]
웹 브라우징, 더 정교한 메모리,
[04:23]
그리고 코드를 작성하고 실행할 수 있는
[04:25]
환경 같은 것들 말이죠.
[04:28]
그렇게 해서 41%를 달성할 수 있었습니다.
[04:31]
26.9%에서 엄청난 향상이죠.
[04:34]
다음 순위 최고 모델이 달성할 수 있는 것의
[04:36]
두 배에 달하는 점수입니다.
[04:39]
하지만 여기서 끝이 아닙니다.
[04:42]
그다음 그들이 테스트 시간 컴퓨팅을
[04:44]
확장했을 때 50.7%에 도달했습니다.
[04:48]
도구 사용과 테스트 시간 컴퓨팅 확장으로
[04:51]
50.7%를 달성한 것입니다.
[04:54]
50% 장벽을 뛰어넘었고
[04:57]
이 벤치마크에서 테스트된 다른 모든 모델들을
[05:00]
완전히 압도했습니다.
[05:02]
하지만 테스트 시간 컴퓨팅 확장이
[05:04]
실제로 무엇을 의미하는 걸까요?
[05:06]
이전까지 제가 테스트 시간 컴퓨팅에 대해 연상한 것은
[05:09]
생각할 시간을 더 주고 많은 사고 과정을
[05:11]
출력하게 한 다음
[05:13]
그것으로부터 가능한 최고의 답을
[05:16]
도출하는 것이었습니다.
[05:18]
하지만 Grok 4는 약간 다른
[05:20]
방향을 택한 것 같습니다.
[05:22]
그들이 하는 일은, 그리고 이것은
[05:24]
Grok 4 헤비 버전이라고 불리는 것에 특화된 것인데
[05:27]
여러 에이전트를 생성하는 것입니다.
[05:30]
각각의 에이전트가 나가서
[05:32]
문제를 해결하려고 시도하고, 실제로 협력합니다.
[05:35]
그들은 메모를 공유하죠.
[05:37]
그 중 하나가 효과적인 것을 알아내면
[05:38]
다른 것들과 공유하고
[05:40]
각각이 더 나아집니다.
[05:42]
그리고 마지막에 가장 좋은 답이나
[05:44]
가장 좋은 해결책을 선택합니다.
[05:46]
이 모든 것을 통해 50.7%라는 수치를 얻었습니다.
[05:50]
참고로 Grok 4를 쉽게 테스트해보고 싶다면
[05:53]
저희 스폰서인 Abacus를 확인해보세요.
[05:55]
저와 같다면 여러분도 아마도 다양한 AI
[05:58]
서비스에 구독하고 있을 것이고
[05:59]
그것들 사이를 항상 오가고 있을 겁니다.
[06:01]
그리고 이것은 좀 짜증나는 일이죠.
[06:03]
그뿐만 아니라 꽤 비싸기도 합니다.
[06:05]
그리고 바로 여기서 Abacus AI의
[06:07]
Chat LLM이 등장합니다.
[06:10]
이것은 올인원 AI입니다.
[06:12]
최신 및 최고의 모델들을 포함한 플랫폼입니다
[06:14]
주요 모델 공급업체들의 모델들을 제공하죠
[06:16]
그리고 Route LLM이라는 기능도 있는데
[06:19]
이는 자동으로 최적의 모델을 선택해서
[06:21]
프롬프트에 따라 가장 적합한 모델로 전송해줍니다
[06:23]
실제 프롬프트 내용에 따라 올바른 LLM으로 라우팅해주는 거죠
[06:26]
물론 PDF와 채팅하는 기능도 있어요
[06:31]
원하는 문서를 업로드하면 쉽게 질문하고
[06:33]
인사이트를 추출하고 데이터를 수집하는 등
[06:36]
기존 문서에서 필요한 모든 작업을 할 수 있어요
[06:38]
그뿐만 아니라 텍스트에서 이미지로
[06:41]
그리고 텍스트에서 비디오로 변환하는 모델도 있어요
[06:43]
멋진 이미지와 비디오를 쉽게 생성할 수 있죠
[06:44]
또한 최근에 Deep Agent를 도입했는데
[06:47]
이는 엄청나게 강력한 AI 에이전트로
[06:49]
기본적으로 모든 것을 할 수 있어요
[06:51]
웹사이트 제작, 앱 개발
[06:54]
프레젠테이션 제작, 연구 보고서
[06:56]
챗봇 개발, 심지어 게임 제작까지
[06:58]
이 모든 것을 월 10달러로 이용할 수 있어요
[07:00]
한번 확인해보세요
[07:03]
chatlm.abacus.ai
[07:04]
또는 설명란의 링크를 클릭하시고
[07:07]
제가 소개했다고 알려주세요
[07:09]
정말 감사하겠습니다
[07:11]
Abacus AI에게 다시 한번 감사드립니다
[07:13]
이제 본 영상으로 돌아가죠
[07:16]
그런데 저는 이미 Grok 4 Heavy를 결제했어요
[07:19]
빠르게 보여드릴게요
[07:21]
여기 Grok 4 Heavy가 있고
[07:24]
실제로 이것에게
[07:25]
인류의 마지막 시험 문제 중 하나를 줄 거예요
[07:28]
먼저 말씀드리면
[07:30]
저는 이 문제가 무엇을 묻는지조차 모릅니다
[07:31]
지금은 단순히 여러 에이전트가
[07:34]
생성되고 답변을 가져오는 것을
[07:35]
보여드리고 싶을 뿐입니다
[07:37]
전체 테스트는 다른 영상에서 하겠습니다
[07:39]
여기 계산 문제가 있네요
[07:41]
12차원 축소 스핀 보드의 분류 공간을
[07:44]
읽을 수도 없네요
[07:47]
좋아요, 여기 문제가 있습니다
[07:49]
시작해보죠
[07:51]
네 개의 에이전트가 시작됐네요
[07:53]
초기화 중이고 각각의 네 에이전트가
[07:55]
이제 자신만의 솔루션을 실행하고 있습니다
[07:58]
시간이 좀 걸릴 수 있어요
[08:01]
인터페이스를 보여드리기 위해
[08:02]
빠르게 보여드리는 거예요
[08:04]
실제로 UI가 정말 멋져 보인다고 생각해요
[08:06]
이것이 Grok 4의 모습입니다
[08:08]
여러 에이전트를 생성하고
[08:10]
각각을 작업하게 합니다
[08:12]
각 에이전트는 자신의 지식을 공유하고
[08:14]
최고의 답변을 가져옵니다
[08:15]
명명 규칙을 생각해보면
[08:17]
Grok 4는 단일 에이전트 버전이고
[08:18]
Grok 4 Heavy는 다중 에이전트 버전입니다
[08:20]
그리고 저렴하지 않아요
[08:23]
가격에 대해서는 나중에 말씀드리겠습니다
[08:26]
라이브 스트림에서
[08:27]
정말 멋진 데모들을 보여주기도 했어요
[08:30]
몇 가지 간단한 클립을 보여드리겠습니다
[08:31]
먼저 라이브 데모에서
[08:33]
Grok 4가 월드 시리즈 우승자를 예측하게 했고
[08:36]
필요한 모든 도구와 계산 능력을 제공했어요
[08:39]
한번 보시죠
[08:41]
모든 사람들이 폴리 마켓을 알고 있어요
[08:44]
정말 흥미로운 서비스죠
[08:46]
진실을 찾는 역할을 하고
[08:48]
대부분의 경우 현실과 일치합니다
[08:50]
그리고 Grok과 함께 우리가 실제로 보고 있는 것은
[08:54]
시장을 어떻게 활용해 미래를 예측할 수 있는지 살펴보는 것입니다.
[08:57]
이 시장들을 분석해서 미래 예측이 가능한지 확인해보겠습니다.
[08:59]
이 과정을 실행하면서 Grok 4가 어떻게
[09:02]
MLB 현재 팀들의 월드시리즈 승률을
[09:04]
예측하는지 살펴보겠습니다.
[09:07]
여기서 볼 수 있듯이, 정확한 답을 찾기 위해
[09:10]
사용한 모든 도구와 프로세스를 확인할 수 있습니다.
[09:12]
다양한 배팅 사이트를 검색하고
[09:14]
자체적으로 승률을 계산했습니다.
[09:16]
시장과 비교하여 자신만의 알파와 우위를 찾았죠.
[09:18]
전체 과정을 단계별로 설명하며
[09:20]
우승 팀의 승률을 계산했습니다.
[09:23]
다저스에게 21.6%의 승률을 주었고
[09:25]
이 계산에는 약 4분 30초가 걸렸습니다.
[09:27]
다음으로 Grok 4에게 두 블랙홀이 충돌하는
[09:29]
모습을 시각화하도록 했습니다.
[09:31]
두 블랙홀의 충돌 시각화를 요청했는데
[09:34]
물론 몇 가지 자유롭게 해석한 부분이 있습니다.
[09:39]
실제로 사고 과정에서 이런 해석들을 명확히 설명했습니다.
[09:42]
예를 들어, 실제로 보이게 하려면
[09:44]
파동의 규모를 정말 과장해야 한다는 점입니다.
[09:47]
네, 여기서 보시는 것처럼 이런 작용을 보여줍니다.
[09:50]
여러 방면에서 규모를 과장했습니다.
[09:51]
거리에 따른 진폭 감소가 실제보다 적게 표현되었지만
[09:54]
기본적인 효과들은 실제로 정확하게 볼 수 있습니다.
[09:58]
나선형 접근으로 시작해서 병합되고
[10:01]
링다운 과정을 거치는데
[10:03]
이는 기본적으로 대체로 정확합니다.
[10:05]
물론 필요한 단순화를 고려했을 때 말이죠.
[10:07]
실제로 이에 대해 매우 명확하게 설명했습니다.
[10:08]
포스트 뉴턴 근사를 사용했다고 하네요.
[10:10]
블랙홀 중심 근처의 일반 상대론적 효과를
[10:15]
실제로 계산하는 대신 근사치를 사용했습니다.
[10:19]
이는 정확하지 않고 잘못된 결과를 낳을 수 있지만
[10:23]
전체적인 시각화는 기본적으로 제대로 되어 있습니다.
[10:25]
물론 Grok의 진짜 강점은
[10:27]
실시간 정보 제공입니다.
[10:31]
여기서 Grok 4가 인류의 마지막 시험이라는
[10:35]
모델 점수 발표와 관련된 모든 공지사항과
[10:38]
타임라인을 수집하는 모습을 보겠습니다.
[10:40]
시간 경과에 따른 점수 변화를 자세히 보여주는
[10:44]
타임라인을 만들어보겠습니다.
[10:46]
그 당시 진행되었던 모든 대화도 볼 수 있습니다.
[10:51]
누가 점수를 발표했고 그 당시 반응이 어땠는지
[10:55]
확인할 수 있습니다.
[10:57]
댄 헨드릭스가 처음 발표한 날짜도 정의되어 있고
[10:59]
2월에 OpenAI가 발표한 점수도
[11:01]
확인할 수 있습니다.
[11:04]
전체 과정을 살펴볼 수 있죠.
[11:06]
네, 이런 식으로 말입니다.
[11:09]
정말 흥미로운 기능이라고 생각합니다.
[11:10]
물론 몇 가지 부정확한 결과가 있을 수 있지만
[11:13]
전체적으로는 훌륭한 시각화입니다.
[11:15]
그리고 물론 Grok이 정말 잘 알려진 부분은
[11:18]
적어도 제가 정말 좋아하는 부분은
[11:22]
실시간 정보 제공입니다.
[11:24]
여기서 Grok 4가 나가서
[11:26]
모든 발표와 타임라인을 가져오는 모습을
[11:29]
보여주고 있습니다.
[11:31]
인류의 마지막 시험을 위해 출시된
[11:33]
모델 점수 발표들을 살펴보죠.
[11:35]
포스트를 기반으로 타임라인을 만들어서
[11:37]
시간 경과에 따른 점수 변화를 자세히 보여주고
[11:39]
그 당시 진행되었던 모든 대화도 볼 수 있습니다.
[11:42]
누가 점수를 발표했고
[11:44]
그 당시 반응이 어땠는지 확인할 수 있습니다.
[11:45]
댄 헨드릭스가 처음 발표한 날짜도 정의되어 있고
[11:47]
전체 과정을 살펴볼 수 있습니다.
[11:49]
그 당시 반응들도 확인할 수 있고
[11:51]
OpenAI가 2월에 발표한
[11:54]
점수도 볼 수 있습니다.
[11:56]
그리고 여기서 보시는 것처럼
[11:58]
OpenAI가 발표한 점수를
[12:00]
2월에 확인할 수 있습니다.
[12:02]
진행 상황을 확인할 수 있습니다
[12:04]
Gemini 같은 모델의 발전과정을 볼 수 있고
[12:06]
Kimmy 같은 모델들, 그리고 심지어
[12:08]
유출된 벤치마크 결과들도 볼 수 있습니다
[12:10]
사람들이 말하는 걸 보면, 만약
[12:12]
그것이 맞다면 꽤
[12:13]
인상적일 것이라고 합니다. 정말 멋지네요. 자, 이제 더 많은
[12:16]
벤치마크를 살펴보겠습니다.
[12:18]
여기 GPQA가 있습니다. 여기 Grok 4는 도구 없이
[12:21]
87점, 그리고 Grok 4 Heavy는 도구를 사용해서
[12:24]
88.9점으로 다음 최고 모델인
[12:27]
86점과 비교됩니다. 엄청난 차이는 아니네요. AMY 2025에서 Grok 4
[12:31]
Heavy는 완벽한 100%를 기록했습니다. 이건
[12:36]
정말 미친 수준입니다. 이건 세계에서 가장 어려운
[12:38]
수학 문제들 중 일부입니다. 완벽한
[12:40]
100점. o3도 꽤 잘했습니다.
[12:43]
98.4점입니다. 여기 Live CodeBench에서 79.4점. 정말
[12:48]
뛰어난 코더네요. Gemini 2.5 Pro는
[12:52]
74%로 제 의견으로는 최고의
[12:55]
코더인데, 아직 Grok 4를 테스트해보지 않았습니다.
[12:57]
그래서 지켜봐야겠네요. 여기 Math Arena에서 96.7점
[13:01]
그리고 USA Mo는 수학 올림피아드
[13:05]
테스트입니다. Grok 4 Heavy가
[13:07]
다른 모델들을 압도하고 있습니다. 알겠습니다.
[13:09]
잠시 다시 돌아가서, 제가 보여드리고 싶었던 건
[13:10]
진행 상황입니다. 우리는 5분
[13:12]
48초 동안 Grok 4 Heavy가
[13:14]
이 문제를 풀려고 시도하고 있습니다. 우리는
[13:15]
대략 중간쯤 왔습니다. 만약 이
[13:17]
진행률 바가 정확하다면, 그리고 우리는
[13:19]
계속해서 실행되고 있는 걸 볼 수 있습니다.
[13:21]
이제 안타깝게도 저는
[13:23]
사고 체인을 볼 수 없습니다. 각 에이전트의
[13:24]
진행 상황만 볼 수 있습니다. 좋아요, 다음으로.
[13:26]
ARC AGI. 이 테스트는 인간이 쉽게
[13:29]
풀 수 있도록 만들어졌지만
[13:32]
AI가 풀기에는 정말 어렵습니다. 이것은
[13:34]
본질적으로 패턴을 찾고
[13:36]
그 패턴들로부터 여러 기술을 배우고
[13:37]
그것들을 새로운 테스트에 적용하는 것입니다.
[13:39]
그래서 여기서 볼 수 있듯이, 이런 다양한
[13:42]
시각화들을 보고
[13:42]
그것들이 어떻게 변하는지 배우고
[13:45]
그 다음에 이것이 어떻게 변할지 알아내려고 합니다.
[13:47]
여기서 본 패턴들을 바탕으로요.
[13:48]
그리고 Grok 4는
[13:51]
이 테스트를 완전히 압도했습니다. 그래서 여기
[13:54]
ARC AGI V1에서 66.6%를 기록했습니다
[13:58]
o3의 60.8%와 비교해서, 그리고 ARC AGI V2에서
[14:03]
15.9%
[14:05]
두 배입니다. Claude 3 Opus가 2위입니다. 여기서
[14:08]
이 벤치마크에서 완전히 독보적인 위치에 있다는 걸
[14:09]
볼 수 있고, 이것은
[14:12]
독립적으로 테스트되었습니다. 그래서 Greg Cameron의
[14:15]
ARC Prize 회장이 말했습니다. "우리는
[14:18]
XAI로부터 24시간 전에 연락을 받았습니다. 테스트해보자."
[14:20]
그들은 그들의 테스트 정책을 안내했습니다.
[14:22]
데이터 보존 없음, 모델
[14:24]
체크포인트는 공개 사용을 위한 것이어야 하고
[14:26]
속도 제한의 일시적 증가.
[14:28]
그리고 이제 그의 견해를 보겠습니다.
[14:30]
Grok 4는 이제 Arc AGI에서 최고 성능을 보이는
[14:31]
공개적으로 사용 가능한 모델입니다.
[14:34]
이것은 심지어 특별히 제작된
[14:36]
Kaggle에 제출된 솔루션들을 능가합니다. 이전 최고
[14:38]
점수는 Claude 3 Opus의 8%였습니다. 10% 이하는
[14:42]
노이즈가 많습니다. 15.9%를 얻는 것은
[14:45]
그 노이즈 장벽을 뛰어넘는 것입니다. Grok 4는
[14:48]
0이 아닌 수준의 유동적 지능을 보여주고 있습니다.
[14:52]
정말 미친 수준입니다. 이것은 진정한
[14:53]
일반화입니다. 하지만 다시 말해, 이 모든 것들은
[14:56]
어느 정도 추상적인 벤치마크입니다. 이들은
[14:58]
실제가 아닙니다. 실제 세계에 있는 게 아닙니다.
[15:00]
그래서 그들은 이것을 새로운
[15:02]
Vending Bench라고 불리는 벤치마크로 테스트했습니다.
[15:04]
그리고 이 모델들은 본질적으로 다음과 같은 상황에 놓입니다
[15:05]
실제 세계에서 자동판매기를 관리하는 역할을 맡게 됩니다.
[15:08]
그리고 예산과 재고를 제공받고,
[15:10]
모든 것을 제공받습니다.
[15:11]
그리고 이것이 결과입니다.
[15:14]
O3은 테스트 종료 시점에서
[15:16]
순자산이 약 1,800달러입니다.
[15:20]
Gemini 2.5 Pro는 약 789달러의 순자산을 가집니다.
[15:23]
인간은 844달러로 나타났습니다.
[15:27]
Claude Opus 4는 상당한 도약으로 약 2,000달러였습니다.
[15:30]
하지만 Grok 4는 4,700달러로 들어왔습니다.
[15:34]
다시 말해 이것은 실제 시험입니다.
[15:37]
어떻게 상호작용하고
[15:39]
실제 세계 테스트에서
[15:40]
어떻게 실제로 성능을 발휘하는지에 대한 것입니다.
[15:43]
매우 인상적입니다.
[15:44]
그리고 지난 몇 달 동안 XAI 팀은
[15:46]
AI가 비디오 게임을 만드는 것에 대해 많이 이야기했습니다.
[15:49]
일론 머스크는 가까운 미래에
[15:51]
AAA 비디오 게임을 만들 것이라고 말했습니다.
[15:52]
그의 일정에 대해 어떻게 생각하든 말이죠.
[15:55]
하지만 그들은 바이브 코더에게
[15:57]
Grok 4에 접근할 수 있게 하고 단 몇 시간 만에 무엇을 만들 수 있는지 물었습니다.
[15:59]
이것이 그 결과입니다.
[16:00]
Danny는 실제로 X에서 비디오 게임 디자이너입니다.
[16:02]
그래서 우리는 말했습니다
[16:05]
게임을 만들기 위해 Grok 4 프리뷰 API를 시도해보고 싶은 사람이 있냐고요
[16:07]
그리고 Danny가 응답했습니다.
[16:10]
이것은 실제로 4시간 만에 만들어진
[16:13]
1인칭 슈팅 게임입니다.
[16:15]
실제로 비디오 게임 제작의
[16:17]
가장 과소평가된 어려운 문제 중 하나는
[16:20]
반드시 게임의 핵심 로직을 코딩하는 것이 아니라
[16:22]
실제로 모든 에셋, 모든 텍스처를
[16:25]
소싱하는 것입니다
[16:27]
파일들과 시각적으로 매력적인 게임을 만들기 위해서요.
[16:30]
그래서 Grok이 정말 잘하는 핵심 측면 중 하나는
[16:33]
모든 도구들과 함께
[16:35]
실제로 이런 에셋 소싱 기능들을
[16:37]
자동화할 수 있다는 것입니다.
[16:39]
그래서 개발자들은
[16:42]
핵심 개발 자체에만 집중할 수 있습니다
[16:44]
이제 게임 스튜디오를 운영할 수 있습니다
[16:46]
한 사람만으로도 말이죠
[16:48]
그리고 Grok 4가
[16:50]
모든 에셋들을 소싱하고
[16:52]
모든 유지 관리 작업을 해줄 수 있습니다.
[16:56]
모든 슬롯 에셋들을 소싱하고
[16:58]
모든 유지 관리 작업을 해줄 수 있습니다.
[16:59]
당신을 위해서요.
[17:00]
꽤 멋진 게임입니다. 슈터 게임이고
[17:02]
멋진 그래픽과 다양한 규칙과 로직이 있고
[17:04]
정말 멋지게 보입니다.
[17:07]
매우 좋습니다. 이제 일론 머스크가 말했습니다.
[17:10]
"첫 번째로 정말 좋은 AI 비디오 게임을 내년에 기대한다"
[17:14]
저는 정말로 그것을 믿지 않습니다.
[17:16]
이런 게임들은 재미있지만
[17:18]
확실히 일회성 게임들입니다.
[17:19]
우리는 어쌔신 크리드를 보지 못할 것입니다.
[17:22]
우리는 AI가 만든
[17:23]
다음 헤일로를 보지 못할 것입니다.
[17:25]
아직은 말이죠. 그리고 확실히 내년 말까지는 아닙니다.
[17:28]
그리고 특히 일론은
[17:30]
말했습니다
[17:32]
매우 좋은 비디오 이해력을 가져야 한다고
[17:33]
게임을 플레이하고
[17:34]
게임과 상호작용하고 실제로
[17:37]
게임이 재미있는지 평가하고
[17:39]
실제로 게임이 재미있는지에 대해
[17:41]
좋은 판단력을 가져야 한다고 말이죠.
[17:43]
그리고 그것은 취향의 영역으로 들어갑니다.
[17:45]
그리고 제 생각에는 적어도
[17:47]
예측 가능한 미래에는 취향은 인간의 영역입니다.
[17:51]
인간은 자신들과 다른 인간들을 위한
[17:54]
경험을 큐레이팅하는 데 가장 뛰어납니다.
[17:56]
그래서 저는 실제로 그렇게 생각합니다
[17:58]
인간이 꽤 오랜 시간 동안
[18:00]
계속 관여할 것이라고 생각합니다. 만약
[18:01]
Grok 4를 테스트해보고 싶다면
[18:03]
지금 이용 가능하고 API를 통해서도
[18:05]
사용할 수 있습니다. 앞으로 모든
[18:07]
에이전트 코딩 애플리케이션들에
[18:09]
연결될 것으로 기대됩니다.
[18:11]
정말 멋질 것 같습니다. 256k 컨텍스트 윈도우와
[18:14]
멀티모달 추론, 실시간 데이터
[18:17]
검색, 그리고 엔터프라이즈급 보안을
[18:19]
제공합니다. 정확히 무슨 의미인지는
[18:21]
잘 모르겠지만, 뭐 괜찮습니다. 하지만 가격이
[18:24]
저렴하지 않습니다. Super Grok는 월 30달러이고
[18:26]
ChatGPT 구독료보다 비싸며
[18:29]
Claude 구독료보다도 비쌉니다.
[18:31]
Super Grok Heavy는 월 300달러 또는
[18:35]
연간 3천 달러입니다. 이것으로
[18:38]
Super Grok의 모든 기능을 받을 수 있고
[18:40]
Grok 4 Heavy, 높은 속도 제한
[18:41]
그리고 새로운 기능에 대한 조기 액세스를
[18:43]
받습니다. 다시 돌아가서 보니
[18:46]
아직도 실행 중이네요. 거의 15분이 지났는데
[18:49]
4개 에이전트 중 3개가 아직도
[18:52]
완료되지 않은 것 같습니다. 정말로
[18:54]
장기적인 사고가 필요한 작업이네요.
[18:56]
구독 잊지 마세요. 제가 Grok 4를
[18:58]
철저히 테스트할 예정입니다. 자, 마지막으로
[19:00]
앞으로 무엇을 기대할 수 있을까요?
[19:02]
일론 머스크는 Grok 4가 현재
[19:05]
파운데이션 모델 버전 6를 기반으로 하고 있고
[19:08]
현재 진행 중인 훈련 버전 7은
[19:11]
이달 말까지 완료될 예정이며
[19:12]
이것이 멀티모달 추론과
[19:14]
이해 능력을 향상시킬 것이라고 했습니다.
[19:16]
방금 출시된 Grok 4 릴리스가 있고
[19:18]
8월에는 코딩 전용 모델이
[19:19]
출시될 예정이며
[19:22]
9월에는 멀티모달 에이전트가
[19:25]
10월에는 비디오 생성 모델이 출시될 예정입니다.
[19:28]
이런 일정들이 지켜질지 보겠지만
[19:31]
너무 기대하지는 않겠습니다. 하지만
[19:32]
정말 기대됩니다. 이와 관련해서
[19:34]
더 많은 영상을 준비 중이니
[19:35]
계속 시청해 주세요. 만약 이 영상이
[19:37]
마음에 드셨다면 좋아요와 구독 부탁드립니다.