[00:00]
그록 3이 출시되었습니다. 일론 머스크와 xAI 팀이
[00:04]
어제 저녁 8시에 그록 3을 공개하겠다고
[00:07]
약속했고, 실제로 약속을 지켰습니다.
[00:10]
세계에서 가장 똑똑한 AI가 될 것이라고 했고,
[00:13]
사실 저는 좀 의심스러웠지만
[00:15]
그들의 말이 맞았던 것 같습니다.
[00:16]
LM 아레나 리더보드에서 1위를 차지했는데,
[00:19]
이는 표준 벤치마크가 아닌
[00:22]
사용자들이 선택한 순위입니다.
[00:24]
그리고 실제로 1위를 차지했죠.
[00:26]
그록 3에 대해 모든 것을 설명해드리겠습니다.
[00:29]
이 영상은 PGI by 타임스케일이 후원합니다.
[00:31]
AI 애플리케이션에 PostgreSQL을
[00:34]
가장 쉽게 적용할 수 있는 방법입니다.
[00:35]
본론으로 들어가기 전에
[00:38]
제가 그록 3에 대해 예측했던 내용을
[00:40]
보여드리겠습니다. 그리고
[00:42]
X에서 저를 팔로우하지 않으셨다면,
[00:44]
Matthew Berman을 팔로우해주세요. 예측: xAI는
[00:47]
GPT-4와 동등한 수준이지만, 더 매력적이고
[00:50]
다른 AI 기업들이 제공하지 않는 기능들이 있을 것
[00:52]
GPT-5는 뛰어나고 매우 빠르며 저렴할 것
[00:55]
Claude 4가 나오고 GPT-5가
[00:58]
옴니 모델로 출시될 것입니다. xAI로 돌아가서,
[01:01]
GPT-4와 동등한 수준이 될 것이라는 예측은
[01:05]
거의 맞았습니다. 실제로
[01:07]
몇몇 벤치마크에서 약간 앞서고
[01:10]
LM 아레나 리더보드에서도 1위지만
[01:13]
기본적으로 GPT-4와 비슷합니다.
[01:15]
AI의 성격이나
[01:17]
검열, 할 수 있는 것과 없는 것에 대해서는
[01:20]
언급이 없어서 매력적인 성격 부분은
[01:22]
아직 모르겠습니다만, 그렇다고 하네요.
[01:25]
그리고 실제로 다른 기업들이
[01:27]
이미 가지고 있던 기능들도 출시했는데,
[01:29]
딥 서치나 도구 사용 같은 것들입니다.
[01:32]
하지만 그록을 특별하게 만드는 것은
[01:33]
X의 데이터에 대한 접근권한입니다.
[01:36]
이것이 실제로 X의 엄청난 양의
[01:39]
사용자 생성 데이터에 접근할 수 있는
[01:41]
유일한 AI입니다. 이제 어제 밤
[01:44]
라이브 스트림에서 보여준
[01:46]
몇 가지 벤치마크를 보여드리고
[01:48]
라이브 스트림의 일부 클립을 보여드린 후
[01:49]
그록의 성능에 대해
[01:50]
더 자세히 이야기하겠습니다.
[01:53]
이것이 그들이 보여준
[01:54]
첫 번째 벤치마크 세트입니다.
[01:56]
그록 3와 그록 3 미니가 있는데,
[01:58]
이것들은 생각하는 버전이 아닙니다.
[02:01]
파란색 열을 보시면 제미나이 2 프로,
[02:05]
딥시크 V3, 클로드 3.5, 소넷,
[02:09]
GPT-4와 비교했을 때 동등하거나 앞섭니다.
[02:11]
다시 말하지만 이것들은 비사고 모델입니다.
[02:14]
사고 모델로 전환할 수 있는
[02:17]
기본 모델이 이미 다른 어떤 모델보다
[02:20]
뛰어나다는 것이고, 실제로
[02:22]
상당한 차이가 있습니다. 특히 그록 3는
[02:25]
수학 AMI 벤치마크를 보면
[02:28]
52점을 받았는데, 이는 그 다음으로 높은
[02:30]
비그록 점수인 딥시크 V3의
[02:33]
39점과 비교됩니다. 과학 분야에서는 75점으로
[02:37]
다음 순위 65점보다 높고, 코딩에서는 57점으로
[02:41]
40점과 비교됩니다. 정말 흥미로운 점은,
[02:43]
잠시 후에 설명드리겠지만,
[02:45]
강화학습을
[02:46]
수학과 코딩에만 집중했다는 것입니다.
[02:48]
이 분야들은 검증 가능한
[02:51]
보상이 있는 강화학습이
[02:53]
가능한 영역이라 그만큼 강력합니다.
[02:55]
정말 흥미로운 점은
[02:57]
일론과 팀이 언급했듯이,
[03:00]
이 모델이 수학과
[03:02]
훈련 데이터를 넘어서서
[03:04]
일반화할 수 있었다는 것입니다.
[03:06]
코딩과 관련해서 매우 흥미로운 점이 있는데
[03:09]
이 모델은
[03:10]
특히 수학과 코딩 벤치마크에 대해
[03:12]
강화학습으로 훈련되었습니다
[03:15]
AMI 2024에서 정말 좋은 성과를 보였고
[03:18]
그들은 혹시 이 벤치마크에
[03:20]
과적합된 것은 아닐까 생각했습니다. 그러다 AMI 2025가
[03:24]
출시되었고 모델을 테스트해보니
[03:26]
놀랍게도 매우 뛰어난
[03:28]
성능을 보여주었습니다. 이는
[03:30]
학습 데이터를 넘어선 일반화 능력을 보여준 것입니다
[03:33]
보시다시피 여기 Gemini 2 Flash
[03:35]
Thinking이 있고, DeepSeek R1 01 03
[03:40]
Mini가 있으며, Grok 3 Mini
[03:43]
Reasoning과 Grok 3 Reasoning Beta가
[03:46]
최상위에 있습니다
[03:48]
이전에 본 적 없는 수학 문제들에 대해
[03:50]
매우 우수한 성능을 보여주었죠
[03:53]
다음으로 챗봇 아레나 순위를 보면
[03:56]
LM Cy에서 초콜릿이라는 코드명으로
[03:58]
불린 초기 Grok 3 버전이
[04:00]
1,400 ELO 이상을 기록했습니다
[04:05]
그 다음으로 높은 점수는 Gemini
[04:07]
2.0 Flash Thinking입니다
[04:10]
사실 저는 Gemini를
[04:12]
거의 사용해보지 않았는데
[04:13]
AI 분야의 많은 전문가들이
[04:16]
제가 놓치고 있는 게 많다고 말해주더군요
[04:18]
그래서 반드시 제 워크플로우에
[04:20]
도입해봐야겠습니다. 보시면 01
[04:23]
작년의 01은
[04:26]
1350 정도로 낮은 위치에 있고
[04:29]
GPT 4.0의 최신 버전이
[04:32]
1380으로 상위에 있습니다
[04:35]
GPT 4.0이 큰 업그레이드를 했는데
[04:38]
아마 사용해보셨을 텐데, 더 친근해지고
[04:40]
로봇 같은 느낌이 줄어들고
[04:42]
개성이 더해졌다고 합니다
[04:44]
오늘의 스폰서인 PG AI만큼
[04:47]
똑똑하죠. TimeScale DB 팀이 최근
[04:51]
PG AI라는 새로운 제품을 출시했는데
[04:54]
이는 Postgres 인스턴스 위에서 동작하는
[04:56]
데이터베이스 도구 모음으로
[04:58]
AI에 특화된 다양한
[04:59]
기능을 제공하며 가장 좋은 점은
[05:02]
완전히 오픈소스라는 것입니다. PG Vectorizer는
[05:05]
기존 Postgres 데이터베이스에
[05:08]
벡터화 기능을 추가할 수 있게 해줍니다
[05:11]
새로운 도구를 배울 필요도 없고
[05:14]
여러 데이터베이스를 관리할 필요도 없죠
[05:16]
제 경험상 이는 정말
[05:18]
귀찮은 일이었습니다. PG AI Vectorizer는
[05:21]
다양한 오픈소스 임베딩
[05:23]
모델을 Ollama를 통해 지원하며
[05:26]
OpenAI와 같은 회사의
[05:27]
독점 모델도 지원합니다. 오픈소스이므로
[05:30]
자체 호스팅하면 완전 무료이고
[05:32]
원한다면 클라우드 기반
[05:33]
완전 관리형 버전도
[05:35]
이용할 수 있어서
[05:37]
TimeScale을 통해 모든 것을
[05:39]
쉽게 설정할 수 있습니다. 단 하나의 SQL
[05:41]
명령어만으로 설정이 가능하고
[05:43]
다양한 커스터마이징 옵션을 제공하여
[05:45]
임베딩 모델 선택과
[05:47]
인덱싱, 청킹 사이즈,
[05:50]
포맷팅 옵션을 설정할 수 있습니다
[05:52]
내장된 실험 기능으로
[05:54]
여러 벡터라이저를 실행하고 다양한
[05:56]
모델과 임베딩을 테스트하여
[05:58]
당신의 애플리케이션에
[05:59]
가장 적합한 것을 찾을 수 있습니다
[06:02]
pga.com에서 확인해보세요
[06:05]
오픈소스 GitHub 페이지로 직접 연결됩니다
[06:08]
LLM과 SQL Alchemy가 통합된
[06:11]
PGAI 벡터라이저가 이제 사용 가능합니다. 이 업데이트로
[06:15]
PostgreSQL에 AI를 도입하는 것이
[06:17]
그 어느 때보다 쉬워졌습니다.
[06:20]
모든 관련 링크는 아래에 있으며,
[06:21]
30일 무료 체험이 포함된
[06:23]
호스팅 솔루션도 제공됩니다.
[06:26]
이제 영상으로 돌아가서,
[06:28]
다른 사고형 모델들과 비교한
[06:31]
점수를 보여드리겠습니다.
[06:33]
흥미로운 점은 이 차트가
[06:36]
OpenAI 직원인 Rex가 제공한 것이며,
[06:38]
xAI 팀이 Grok-3의 성능을
[06:40]
보여주기 위해 공개한 차트입니다만,
[06:43]
여기에는 O3 모델이 포함되어 있지 않았습니다.
[06:46]
O3 모델이 없는 상태를 상상해보세요.
[06:48]
O3 모델이 없는 차트에서는
[06:52]
Grok이 최고의 성능을 보여주고 있습니다.
[06:55]
당시에는 실제로 최고였죠.
[06:57]
O3 mini, High-O1, Deep-SE, Gar1, Gemini-2
[07:00]
Flash Thinking과 비교했을 때
[07:03]
큰 차이는 아니지만
[07:04]
모두를 앞서고 있었습니다.
[07:07]
하지만 12월 버전의 O3를 추가하면,
[07:09]
O3가 여전히 세계 최고의
[07:12]
모델임을 알 수 있습니다. 그러나
[07:14]
LM Arena의 게시물에 따르면 Grok-3가
[07:18]
1위를 차지했는데, 코드명은 'Chocolate'이었고
[07:20]
많은 사람들이 이것이
[07:21]
xAI의 차세대 모델일 것이라 생각했습니다.
[07:24]
하지만 가장 인상적인 것은
[07:26]
xAI가 모델 트레이닝 게임에
[07:29]
매우 늦게 참여했다는 점입니다.
[07:32]
이러한 놀라운 모델들을
[07:33]
트레이닝하는 분야에서,
[07:36]
최첨단 모델들을 따라잡았다는 것,
[07:38]
이기든 약간 뒤처지든
[07:40]
그건 중요하지 않습니다.
[07:42]
이렇게 짧은 시간 안에
[07:44]
이를 달성했다는 것이 정말 놀랍습니다.
[07:46]
얼마나 대단한지 보여드리겠습니다.
[07:50]
AI for Success 사용자의 분석에 따르면
[07:53]
xAI의 Grok의 발전이 놀랍습니다.
[07:55]
2023년 11월 초기 버전의 Grok-1은
[07:57]
사실상 사용할 수 없는 모델이었습니다.
[08:00]
몇 달 후 X Premium Plus 사용자용 Grok,
[08:02]
그 후 몇 달 뒤에는 Grok-1 오픈소스,
[08:04]
2024년 5월 Grok-1.5, 8월 Grok-2,
[08:10]
2024년 11월 Aurora, 그리고 2025년 Grok-3까지
[08:14]
어떻게 이런 것이 가능했을까요?
[08:17]
첫째로, 그들만의 독특한 데이터셋이 있습니다.
[08:19]
다른 모든 기업들이 가진
[08:21]
공개 웹 데이터도 있고,
[08:23]
거기에 X의 데이터도 있는데,
[08:25]
이는 매일 계속해서 증가하는
[08:27]
엄청난 양의 데이터입니다.
[08:29]
가장 놀라운 점은 일론 머스크가
[08:32]
데이터 센터 구축에 대해 언급한 것인데,
[08:35]
10만 개의 GPU를 사용하고
[08:37]
지금은 그보다 더 많다고 합니다.
[08:39]
처음에 대형 클라우드 업체들에 문의했을 때
[08:42]
10만 개의 GPU를 구축하는 데
[08:44]
18-24개월이 걸린다고 했지만,
[08:45]
그는 '안 된다'고 하고
[08:48]
직접 구축했습니다.
[08:50]
건물 구매부터 시작해서
[08:52]
전력 공급, 냉각 시스템,
[08:54]
모든 GPU를 효과적으로
[08:57]
연결하는 방법까지 모두 해결했고,
[08:59]
이 모든 GPU가 정말 유용하게 쓰였습니다.
[09:02]
Grok-3의 가장 인상적인 점은 속도입니다.
[09:05]
초당 수백 토큰을 처리할 수 있다고 하는데,
[09:07]
이것이 제가 가장 놀라웠던 부분이며,
[09:10]
유료 X 계정이 있다면
[09:12]
X 계정이 있다면 이미 Grok-3를 사용할 수 있을 겁니다.
[09:14]
여기 보시면 Grok-2라고 되어 있는데
[09:16]
드롭다운을 클릭하면 Grok-3 베타가 있습니다.
[09:19]
이 모델에는 몇 가지 기능들이 내장되어 있는데요.
[09:21]
먼저 심층 리서치 기능이 있고
[09:23]
이건 그들이 시연했던 기능입니다.
[09:25]
브레인스토밍 기능, 데이터 분석 기능,
[09:28]
이미지 생성 기능과 코드 기능이 있습니다.
[09:29]
그리고 'Think' 버튼이 있는데
[09:32]
이 버튼을 통해 Grok 모델의
[09:34]
더 긴 사고 과정을 볼 수 있습니다.
[09:36]
이제 얼마나 빠른지 보여드리겠습니다.
[09:38]
'파이썬으로 스네이크 게임을 만들어줘'라고 해보죠.
[09:40]
생각하는 중... 보세요, 정말 빠르죠!
[09:43]
속도가 정말 뛰어납니다.
[09:46]
사고 과정을 볼 수 있다는 것이 좋긴 한데
[09:49]
일론이 언급했듯이
[09:51]
전체 사고 과정을 보여주지는 않습니다.
[09:53]
일부는 의도적으로 숨기고 있죠.
[09:55]
약간의 난독화를 사용해서
[09:57]
일부를 감추고 있다고 했는데
[09:59]
특히 그가 말하길
[10:01]
모델이 하룻밤 사이에 복제되는 것을 막기 위해서라고 했습니다.
[10:03]
관련 클립을 보여드리죠.
[10:05]
Grok이 문제를 해결하면서
[10:08]
어떻게 생각하는지
[10:09]
내부적으로 볼 수 있습니다만...
[10:12]
사고 과정의 일부를
[10:14]
난독화하고 있습니다.
[10:16]
우리 모델이 즉시 복제되는 것을 막기 위해서죠.
[10:19]
표시된 것보다 더 많은 사고 과정이 있습니다.
[10:23]
자, 다시 돌아와서 보시면
[10:25]
지금 약 50초 정도 생각했고
[10:27]
얼마나 많은 출력을 했는지 보세요.
[10:29]
계속 진행 중이며 정말 빠릅니다.
[10:32]
10만 개가 넘는 GPU를 사용하니
[10:34]
당연한 결과겠죠.
[10:37]
저는 별도의 테스트 영상을 만들 예정인데
[10:39]
그게 이 영상의 요점은 아닙니다만,
[10:40]
보시다시피 코드를 출력하기 시작했고
[10:43]
잘 작동하길 바랍니다.
[10:45]
85초 동안 생각했고
[10:47]
코드를 한 번 더 출력하네요.
[10:49]
왜 그러는지는 모르겠지만 괜찮습니다.
[10:51]
앞서 언급했듯이, 일론은
[10:54]
강화학습이 본질적으로
[10:56]
수학과 코딩에만 국한되었다고 했는데
[10:58]
이게 정말 흥미로운 점입니다.
[11:00]
여기서 출발해서 수학과 코딩을 넘어
[11:03]
일반화할 수 있게 되었고
[11:05]
실제 논리와 추론,
[11:07]
진정한 사고 능력을 갖게 되었죠. 정말 인상적입니다.
[11:10]
다시 말하지만, RL만으로 충분했다는 거죠.
[11:13]
일론은 또한 이게 끝이 아니라고 했습니다.
[11:16]
모델이 매일 더 나아질 거라고 하는데
[11:17]
이 GPU들이 계속 돌아가면서
[11:20]
여전히 학습 중이고
[11:21]
모델을 계속 훈련시키고 있으며
[11:23]
새로운 버전이 나올 예정이고
[11:25]
곧 다른 기능들도
[11:27]
추가될 예정입니다. 물론 Grok은
[11:29]
에이전트에 대해서도 이야기했는데
[11:32]
하단에 Grok 에이전트가 있고
[11:33]
첫 번째 에이전트는 심층 리서치 에이전트입니다.
[11:37]
예상하신 그대로입니다.
[11:39]
Perplexity의 심층 리서치,
[11:41]
구글의 심층 리서치, Grok의 심층 리서치까지
[11:44]
이 모든 회사들이
[11:46]
심층 리서치를 출시하고 있습니다.
[11:49]
실제 작동하는 모습을 보여드리죠.
[11:52]
예를 들어 '다음 스타십 발사일이 언제인가요?'
[11:55]
자, 한번 해보죠. 답을 얻으면
[11:58]
왼쪽에서 높은 수준의 진행 바를 볼 수 있습니다.
[12:01]
모델이 단순히 한 번의 검색만 하는 게 아니라
[12:03]
현재 시스템처럼
[12:05]
사용자의 의도가 무엇인지
[12:08]
어떤 사실들을 고려해야 하는지
[12:10]
동시에 얼마나 많은 웹사이트를
[12:12]
읽어야 하는지 깊이 생각합니다.
[12:14]
얼마나 많은 웹사이트의
[12:16]
콘텐츠를 읽어야 할지 말이죠.
[12:17]
이것은 특정 주제에 대해 정말로 알아보고 싶을 때
[12:20]
수백 시간의 구글링 시간을 절약해줄 수 있습니다.
[12:23]
특정 주제에 대해
[12:24]
자세히 알아보고 싶을 때요.
[12:26]
오른쪽에서는 현재 모델이
[12:29]
어떤 작업을 하고 있는지
[12:31]
어떤 웹사이트를 탐색하고 어떤 출처를
[12:33]
확인하는지 요약을 볼 수 있습니다.
[12:36]
종종 여러 출처를 교차 검증하여
[12:38]
최종 답변을 출력하기 전에
[12:40]
정확성을 확인합니다.
[12:42]
전반적으로 매우 인상적입니다.
[12:45]
이렇게 많은 기능을 가진
[12:48]
훌륭한 모델을 출시할 줄은
[12:49]
몰랐는데, 뭐 그렇죠.
[12:51]
'일론을 과소평가하지 말라'는 말이 맞네요.
[12:54]
Grok 팀은 오픈소스에 대해서는
[12:56]
거의 언급하지 않았는데
[12:58]
이것들을 오픈소스로 공개할
[13:00]
계획이 있는지는 모르겠습니다만
[13:03]
매우 인상적이네요.
[13:04]
또 하나의 최첨단 모델이 나왔고
[13:08]
그들이 움직이는 속도가
[13:10]
정말 놀랍습니다.
[13:14]
Time Scale의 PG AI에 다시 한 번 감사드립니다.
[13:17]
오픈소스인 PG AI를 오늘 한번 시도해보세요.
[13:19]
링크는 아래 설명란에 있습니다.
[13:21]
이 영상이 마음에 드셨다면 좋아요와 구독 부탁드립니다.
[13:23]
다음 영상에서 만나요!