Grok 3 (완전 테스트 완료): 정말 우수한가, 아니면 단순한 또 다른 모델인가?

AICodeKing 구독자 71,200명

요약

본 영상은 최신 AI 모델인 Grok 3의 특징과 성능을 집중적으로 평가한 내용을 담고 있습니다. Grok 3는 고급 추론 모드와 ‘Big Brain’ 모드를 탑재하여 Deep Seek, Gemini 2.0 pro 등 경쟁 모델과 견주며 출시되었으나, 일부 테스트에서는 기대에 미치지 못하는 결과를 보였습니다. 영상은 스폰서인 Ninj Chat의 올인원 AI 플랫폼 소개와 함께, 모델의 롤아웃 일정, API 미제공 등 불확실한 요소와 향후 비용 문제에 대해서도 언급합니다. 최종적으로는 경쟁 모델에 비해 부족한 점이 있으나 그래도 주목할 만한 기능을 갖추었음을 전달합니다.

주요 키워드

Grok 3 Deep Seek Gemini 2.0 pro Reasoning Mode Big Brain 모드 LM Arena Ninj Chat API 테스트

하이라이트

🔑 Grok 3는 최신 AI 기술을 탑재하며 Deep Seek와 Gemini 2.0 pro 등과 비교되는 등 높은 기대를 불러일으킵니다.
⚡️ 고급 추론 모드와 Big Brain 모드가 도입되어 다양한 테스트 질문에서 일부는 성공하고 일부는 실패하는 결과가 나타났습니다.
🚀 영상 중 Ninj Chat 스폰서 소개가 있으며, 다양한 AI 모델과 도구를 한 플랫폼에서 저렴하게 제공하는 점이 강조됩니다.
🌟 테스트 결과 중, 모델이 특정 질문(예: 정육각형의 대각선 계산)에서 실패하면서 기술적 한계를 드러냈음을 알 수 있습니다.
📌 API 제공 일정과 높은 비용 회수 문제 등 향후 모델 활용에 있어 불확실한 요소가 존재함을 언급합니다.

용어 설명

Grok 3

최신 AI 모델로, 고급 추론 기능과 다양한 새로운 모드를 탑재하여 경쟁 모델과 성능을 겨루는 제품입니다.

추론 모드 (Reasoning Mode)

모델이 복잡한 문제를 해결하고 이해력을 발휘하기 위해 사용하는 고급 사고 기능을 의미합니다.

Big Brain 모드

높은 추론 능력을 요구하는 작업에 특화된 모드로, OpenAI의 고급 모델과 유사한 기능을 제공하는 것으로 평가됩니다.

LM Arena

AI 모델의 성능 평가를 위해 사용되는 온라인 플랫폼으로, Grok 3의 성적을 비롯해 다양한 모델의 점수를 비교할 수 있습니다.

Ninj Chat

여러 AI 모델과 도구를 하나의 플랫폼에서 제공하는 올인원 AI 서비스로, 다양한 기능과 저렴한 멤버십 옵션을 갖추고 있습니다.

초반부에서 Grok 3의 주요 기능과 경쟁 모델과의 비교를 통해 고급 reasoning 모드, Big Brain 모드 등 다양한 특징이 소개됩니다. 프리미엄 사용자 대상으로 초기 롤아웃되며, API 제공 및 블로그 포스트 부재 등 몇 가지 불확실성도 언급됩니다.

[00:05] Grok이 드디어 출시되었으며, Deep Seek V3, Sonet, Gemini 2.0 Pro보다 성능이 뛰어나다고 발표되었습니다.

[00:19] 새로운 추론 모드와 Big Brain 모드가 추가되었으며, Deep Search 에이전트를 통해 광범위한 소스 검색과 분석이 가능합니다.

[00:51] Grok 3는 현재 프리미엄 사용자 대상으로 출시 중이며, API는 아직 개발 중입니다. LM Arena에서 1위를 차지한 성과를 보여주고 있습니다.

영상 중간에 Ninj Chat 스폰서 소개가 나오며, 이 플랫폼이 10개 이상의 AI 모델과 다양한 도구를 통합 제공한다는 점이 강조됩니다. 저렴한 가격과 다양한 기능들이 소개되어 시청자의 관심을 끕니다.

[02:16] 스폰서 Ninja Chat 소개: 다양한 AI 모델을 저렴한 가격에 제공하는 올인원 AI 플랫폼입니다.

[03:24] 13개의 테스트 질문 중 첫 번째로 'lia'로 끝나는 나라와 그 수도를 묻는 문제를 시작합니다.

총 13개의 테스트 질문을 통해 Grok 3의 성능이 실제로 평가됩니다. 각 질문마다 모델의 답변이 'pass' 또는 'fail'로 판단되며, 다양한 문제 해결 능력이 확인됩니다.

[03:45] 문제 풀이를 시작하여 국가의 수도를 맞추는 문제와 'tree'와 운을 맞추는 문제를 성공적으로 해결했습니다.

[04:14] 'simple'을 만드는 하이쿠 작성과 특정 조건을 만족하는 라틴어 어원 형용사 찾기 문제에서는 실패했습니다.

[05:00] 수학적 계산 문제들(인원 수 계산, 사과 문제, 자매 수 계산)을 연이어 성공적으로 해결했습니다.

[06:08] 정육각형의 대각선 길이 계산 문제에서는 실패했으나, 이후 프로그래밍 관련 문제들은 모두 성공적으로 해결했습니다.

[07:53] 최종 평가에서는 모델이 괜찮은 성능을 보여주었지만, 기대했던 것보다는 특별히 뛰어나지 않았다고 결론지었습니다.

최종 평가에서는 Grok 3가 일부 중요한 테스트에서 실패하며 기대에 미치지 못한 점이 지적됩니다. 경쟁 모델(O3 mini, R1 등)과 비교하여 안정성과 API 제공 면에서 아쉬움이 남음을 결론짓습니다.

타임라인 정보가 없습니다.

[00:05] 안녕하세요, 오늘도 영상으로 찾아뵙겠습니다. Grok이

[00:09] 드디어 출시되었는데요.

[00:12] 이 모델은 Deep Seek V3, Sonet,

[00:15] Gemini 2.0 Pro보다 성능이 뛰어나다고 합니다.

[00:19] 게다가 새로운 추론 모드도 출시했는데,

[00:22] 이는 GPT-3와 다른 모델들을 능가한다고 주장하고 있죠.

[00:25] 정말 놀라운 발전인데요.

[00:27] 새로운 Big Brain 모드도 있는데,

[00:30] 이것은 기본적으로 OpenAI의

[00:32] GPT-3의 고도 추론 능력을 기반으로 합니다.

[00:33] 또한 Deep Search 에이전트가 있는데,

[00:37] 이는 OpenAI의 Deep Research와

[00:39] 유사하며, 수천 개의 소스를 검색하고

[00:42] 그 내용을 분석하여 추론할 수 있으며,

[00:45] 전체 보고서를 생성할 수 있습니다.

[00:48] 이것도 꽤 멋진 기능이죠.

[00:51] Grok 3 모델은 현재 출시 중이며,

[00:54] 프리미엄 사용자에게 우선 제공됩니다.

[00:57] 하지만 아직 그들도 사용하지 못하고 있어서

[01:00] 꽤 흥미로운 상황입니다.

[01:02] 출시가 확실히 시간이 많이 걸리고 있고,

[01:04] API도 아직 제공되지 않습니다.

[01:08] API는 나중에 제공될 예정이며,

[01:10] 모델도 계속 개선 중이라고 합니다.

[01:13] 블로그 포스트도 아직 없는데,

[01:16] 저는 개인적으로

[01:17] 출시 영상 대신 제대로 된 블로그 포스트가

[01:20] 있었으면 좋았을 것 같네요.

[01:23] 이 모델은 LM Arena에서

[01:25] 이미 사용 가능했던

[01:28] Claude 모델로 밝혀졌는데요.

[01:30] LM Arena 리더보드에서

[01:34] 1,400점으로 1위를 차지했습니다.

[01:37] 이것도 상당히 좋은 성과죠.

[01:40] 그래서 이 모델을 무료로 안정적으로

[01:43] 사용할 수 있는 방법은 LM Arena를

[01:47] 통하는 것입니다. Direct Chat으로 가면

[01:50] Grok 3 모델을 볼 수 있습니다.

[01:53] 여기서

[01:53] 흥미로운 점은 Grok 3 Mini에 대한

[01:57] 언급이 없다는 것입니다.

[01:59] 그들은 Grok 2가

[02:02] 몇 달 내에 오픈소스가 될 것이라고 했지만,

[02:05] 이미 Deep Seek가 있기 때문에

[02:07] 중요하지 않을 것 같네요.

[02:09] 이제 테스트를 해보면서 성능을 확인해보겠습니다.

[02:12] 하지만 그전에

[02:16] 오늘의 스폰서를 소개해드리겠습니다.

[02:18] Ninja Chat입니다. Ninja Chat은

[02:21] 올인원 AI 플랫폼으로

[02:24] 10개 이상의 모델에 접근할 수 있습니다.

[02:27] Claude 3, Sonet, GPT-4, Gemini와 같은 모델들,

[02:32] Flux와 같은 이미지 생성 모델,

[02:35] Shing과 같은 비디오 생성 모델 등

[02:37] 모든 것을 한 곳에서 이용할 수 있으며,

[02:41] ChatGPT 멤버십보다도 저렴한

[02:43] 단 1달러부터 시작합니다.

[02:46] 게다가 이러한 모델들을 복잡한 방식으로

[02:50] 사용할 수 있게 해주는

[02:52] AI 도구들도 많이 있습니다.

[02:55] 최근에는 아티팩트 기능을 추가해서

[02:57] 코드를 생성하고 미리보기하고

[03:00] 미리보기 링크로 다른 사람과 공유할 수 있게 되었죠.

[03:03] 이는 정말 훌륭한 기능입니다.

[03:06] 파이썬 코드도 실행하고 차트도 만들 수 있습니다.

[03:10] 설명란의

[03:11] 링크를 통해 확인해보세요.

[03:13] 그리고 제 쿠폰 코드

[03:16] king2를 사용하시면

[03:18] 이미 저렴한 가격에서 추가로 25% 할인을 받을 수 있습니다.

[03:22] 정말 좋은 거래죠.

[03:24] 이제 다시 영상으로 돌아가보겠습니다.

[03:28] 제가 테스트할 13개의 질문이 있는데요.

[03:30] 첫 번째 질문은

[03:32] 'lia'로 끝나는 나라 이름과

[03:34] 그 나라의 수도를 말해달라는 것입니다.

[03:38] 답변은 예를 들어

[03:41] 호주(Australia)와 같은 형식이어야 합니다.

[03:45] 캔버라를 보내고 결과를 확인해보죠.

[03:49] 여기 답변이 나왔고 정답입니다.

[03:52] 통과로 표시하겠습니다. 다음 질문입니다.

[03:56] 키가 큰 식물을 설명하는 단어와

[03:58] 운이 맞는 숫자는 무엇일까요?

[04:00] 답은 'three'여야 합니다.

[04:04] 보내고 확인해볼까요?

[04:05] 자, 답변이 나왔고 이것도 정답입니다.

[04:09] 이것도 통과입니다. 다음 질문은

[04:14] 각 단어의 두 번째 글자를 모으면

[04:17] 'simple'이 되는 하이쿠를

[04:19] 작성하는 것입니다. 보내고 확인해볼까요?

[04:23] 자, 여기 답변이 나왔는데

[04:27] 흥미롭게도 이건 정답이 아닙니다.

[04:29] 그래서

[04:30] 이건 통과가 아닙니다. 다음 문제는

[04:34] 라틴어 어원을 가진 영어 형용사로

[04:36] 시작과 끝이 같은 글자이고

[04:39] 총 11글자이며 모든 모음이

[04:42] 알파벳 순서로

[04:44] 되어있는 단어를

[04:45] 찾는 것입니다.

[04:47] 답변으로는

[04:49] 'transparent' 같은 것이 될 수 있겠죠.

[04:53] 자, 답변이 나왔는데 이것도

[04:55] 전혀 맞지 않네요. 실패로 표시하겠습니다.

[04:58] 실패입니다.

[05:00] 다음 문제입니다. Courtney는

[05:02] 48명이라고 했지만 Kelly는

[05:05] Courtney가 20% 과대 계산했다고

[05:08] 했다면, Kelly가 맞다고 할 때 실제로는

[05:11] 몇 명이

[05:12] 있었을까요? 답은 40이어야 합니다.

[05:16] 보내고 확인해보죠. 답변이 나왔고

[05:20] 정답입니다. 통과로 표시하겠습니다.

[05:23] 다음 문제는 사과 두 개가 있는데

[05:27] 두 개를 더 샀습니다. 사과 두 개로 파이를 만들어서

[05:30] 파이의 절반을 먹었다면

[05:33] 남은 사과는 몇 개일까요?

[05:35] 답은 2개여야 합니다. 확인해볼까요?

[05:39] 답변이 나왔고 정답입니다.

[05:42] 이것도

[05:43] 통과입니다. 다음 문제는 Sally는

[05:47] 여자아이이고 남자 형제가 셋 있습니다.

[05:50] 각 형제들은 같은 두 자매가 있다면

[05:53] Sally는 자매가 몇 명일까요?

[05:56] 답은 1명이어야 합니다. 확인해볼까요?

[05:59] 자, 답변이 나왔고 이것도

[06:02] 정답입니다. 이것도 통과로

[06:05] 표시하겠습니다. 다음은 정육각형의

[06:08] 짧은 대각선이 64일 때

[06:12] 긴 대각선의 길이를 구하는 문제입니다.

[06:14] 답은

[06:16] 73.9여야 합니다. 확인해볼까요?

[06:19] 답변이 나왔는데 몇 번을

[06:22] 시도해도 실패하네요. 실패로

[06:26] 표시하겠습니다. 다음

[06:28] 문제는

[06:30] 클릭하면 색종이가 터지는

[06:33] HTML 버튼을 만드는 것입니다.

[06:36] CSS와 JS도 사용할 수 있습니다.

[06:40] 확인해보죠. 코드가 나왔고

[06:43] 실행해보니 잘 작동하네요.

[06:46] 통과입니다. 다음 문제는

[06:50] HTML, CSS, JS를 사용해서

[06:53] 신디사이저

[06:54] 키보드를 만드는 것입니다.

[06:58] 답변이 나왔고 실행해보니

[07:00] 잘 작동하고 정확한

[07:02] 소리도 나오네요. 통과입니다. 다음은

[07:07] 나비 모양의 SVG 코드를

[07:09] 생성하는 것입니다. 확인해볼까요?

[07:12] 답변이 나왔고 미리보기를 하면

[07:15] 잘 보이네요. 통과로 표시하겠습니다.

[07:18] 다음은 3D 공을 만들어서

[07:22] 3D 공간에서 끊임없이

[07:24] 움직이게 하는 것입니다. HTML, CSS, JS를 사용해서요.

[07:29] 확인해보죠. 답변이 나왔고

[07:33] 잘 작동하네요. 이것도 통과로

[07:36] 하겠습니다. 마지막 문제는

[07:40] 터미널에서 작동하는 생명 게임을

[07:42] 파이썬으로 작성하는 것입니다.

[07:46] 자, 코드가 나왔네요. 복사해서 실행해보면

[07:50] 잘 작동합니다. 통과입니다.

[07:53] 이제 최종 결과를 보면

[07:56] 괜찮지만 특별히

[07:58] 뛰어나지는

[08:00] 않습니다. 대각선 테스트를

[08:02] 통과하지 못했고, 지금까지 본

[08:05] 프론티어 모델 중 처음으로

[08:07] 이 테스트를 통과하지 못했다는 점이

[08:10] 실망스럽습니다. 모든

[08:12] 마케팅에서 20만 대의 GPU로

[08:14] 학습했다는 점을 강조한 것을 보면

[08:18] 기대치가 높아질 수밖에 없는데

[08:20] 그만큼은 아니었습니다. 저는

[08:23] 여전히 O3 mini와 R1이 더 낫다고 봅니다.

[08:27] API도 있고 안정적이니까요. 반면 이 모델은

[08:30] 언제 사용 가능해질지,

[08:33] 성능은 어떨지 알 수 없는

[08:35] 상태입니다.

[08:37] 내일은

[08:38] API 가격도 높을 것 같은데,

[08:41] 더 큰 규모로 학습했고

[08:44] 비용을 회수해야 하기

[08:46] 때문입니다.

[08:48] 그래서 별도의 멤버십도

[08:50] 생겼고요.

[08:52] 전반적으로 좋은 모델이지만

[08:55] 더 나은 선택지들이 있고

[08:57] 특별히 새로운 것을

[09:00] 제시하지는

[09:01] 않습니다. 꽤 괜찮은 정도네요.

[09:05] 아래에 여러분의 생각을 공유해주시고

[09:07] 구독해주세요. 수퍼 땡스로

[09:09] 후원하거나 채널 멤버가 되어서

[09:11] 특전을 받으실 수도 있습니다.

[09:13] 다음 영상에서 만나요. 안녕히 계세요