[00:00]
GPT5는 제가 본 중에 가장 논란이 많았던 모델
[00:03]
출시였습니다. 어떤 사람들은
[00:05]
지금까지 사용해본 모델 중 최고라고
[00:06]
말하는가 하면, 다른 사람들은
[00:08]
Claude 3.5를 계속 쓰겠다고 하고, GraphGate에서는
[00:11]
이제 평가조차 더 이상 의미가 없다고 합니다. 그래서
[00:13]
저는 현재 업계의 모든
[00:15]
반응들을 분석해드리겠습니다.
[00:17]
먼저 샘 알트만 본인의 말부터,
[00:18]
그는 출시 후 피드백을 수집한 다음
[00:21]
몇 가지 업데이트를
[00:23]
제공했습니다. 들어보시죠.
[00:24]
저희는 확실히 GPT-4o에서 사람들이
[00:26]
좋아했던 요소들이 그들에게
[00:29]
얼마나 중요한지 과소평가했습니다. GPT5가
[00:31]
대부분의 면에서 더 나은 성능을 보여도, 이게 의미하는 바는
[00:33]
사람들이 정말로 GPT-4o에 익숙해졌다는 것입니다. 그들은
[00:37]
그것을 알게 되었습니다. 일종의
[00:38]
관계를 형성하기 시작했죠. 그런데 이제
[00:40]
그것을 단순히 폐기하니까
[00:42]
일부 사람들은 약간 화가 났습니다.
[00:44]
사용자들은 4o 대 5의
[00:46]
상대적 강점에 대해 매우 다른 의견을 가지고 있습니다.
[00:49]
장기적으로, 이는 다른
[00:51]
사용자들이 것들을 커스터마이징할 수 있는
[00:52]
좋은 방법이 정말 필요하다는 것을 강화했습니다. 그리고 저도 동의합니다.
[00:55]
다른 모델들 중에서 선택할 필요가 없는 단순함은,
[00:57]
특히 인공지능에
[00:58]
초보인 사용자들에게는
[01:00]
큰 강점이며 전체 경험을
[01:03]
정말 단순화합니다.
[01:05]
하지만 저 같은 사람이나, 아마
[01:07]
여러분 중 많은 분들에게는, 어떤 사용 사례에
[01:10]
어떤 모델을 사용할지 선택할 수 있는 능력이
[01:12]
매우 중요합니다. 저희는
[01:14]
GPT5 롤아웃을 완료하고
[01:16]
안정화하는 데 집중할 것입니다. 그다음
[01:18]
GPT5를 더 따뜻하게 만들기 위한
[01:20]
변경 사항들에 집중할 것입니다. 확실히
[01:21]
4o의 성격에는
[01:22]
5와는 매우 다른 뭔가가
[01:24]
있었습니다. 좋습니다. 이제 몇 가지
[01:26]
독립적인 벤치마크들을 보여드리겠습니다.
[01:28]
여기 Artificial Analysis의
[01:30]
독립적인 벤치마크가 있습니다. OpenAI가
[01:31]
저희에게 조기 액세스를 제공했습니다. 훌륭하죠. 저희는
[01:33]
모든 추론 노력 구성에서
[01:35]
전체 8개 평가 스위트를 독립적으로
[01:37]
실행해야 했습니다. 그리고
[01:38]
여기 몇 가지 요점들이 있습니다.
[01:40]
추론 노력 구성. GPT5는
[01:43]
네 가지 구성을 제공합니다. 높음,
[01:45]
중간, 낮음, 그리고 최소. 추론
[01:46]
노력 옵션들은 모델이 각 쿼리에 대해
[01:48]
더 많이 또는 더 적게 생각하도록 조정합니다. 이는
[01:50]
하이브리드 모델의 매우 좋은 기능입니다.
[01:53]
이것은 지능, 토큰 사용량,
[01:55]
속도, 비용에서 큰 차이를
[01:57]
만들어냅니다. 이러한 설정을 조정하여 달성되는
[02:00]
지능은 최첨단에서
[02:02]
GPT 4.1 수준까지 다양합니다. 5는 저희
[02:05]
인공지능 지수에서 68점으로
[02:08]
새로운 기준을 세웠습니다. 바로
[02:11]
그것입니다. 새로운 기준이죠. 맞습니다, GPT5는
[02:14]
벤치마크를 압도하고 있습니다. 하지만
[02:16]
물론 벤치마크가 전부는 아닙니다.
[02:18]
실제로 일부 사람들은 우리가
[02:20]
벤치마크 이후, 평가 이후 시대에 있다고 생각하며,
[02:22]
잠시 후 그에 대해 다루겠습니다. 토큰 사용량은 추론 노력에 따라
[02:25]
23배까지 달라집니다. 높은
[02:28]
추론 노력은 O3보다 더 많은 토큰을 사용했습니다,
[02:29]
저희 지수를 완성하는 데 8200만 대 5000만이지만,
[02:31]
여전히 Gemini 2.5 Pro의 9800만과
[02:33]
DeepSeek의 9900만보다는 적습니다. 최소 추론 노력
[02:39]
단 350만 개의 토큰만 사용했습니다
[02:41]
4.1보다 훨씬 적어서 GPT-5를 만들었죠
[02:44]
최소한으로도 훨씬 더 토큰
[02:46]
효율적으로 비슷한 지능을 구현합니다
[02:48]
그리고 토큰 효율성은 매우 중요합니다
[02:51]
더 빠른 속도와 더 낮은 비용을 의미하기 때문이죠
[02:53]
긴 맥락 추론에서 우리는 이번 주 초에
[02:56]
자체적인 긴 맥락 추론 벤치마크를 발표했습니다
[02:58]
긴 시퀀스 길이에서 모델들의 추론
[02:59]
능력을 테스트하기 위해서죠
[03:01]
GPT-5는 그 성능으로 두각을 나타냅니다
[03:04]
이것은 에이전트 코딩에서 매우 중요합니다
[03:07]
대량의 코드베이스를 모델에 로딩할 때
[03:09]
처음, 중간, 그리고 끝을
[03:12]
쉽게 참조할 수 있기를 원하기 때문입니다
[03:14]
에이전트 능력에 대해 OpenAI는
[03:15]
AI 모델 사용에서 점점 더 중요해지는
[03:18]
능력 전반의 개선사항에 대해서도 언급했습니다
[03:20]
그것이 바로 에이전트입니다
[03:22]
그래서 최근 그들은 지능 지수에
[03:25]
if Bench를 추가했습니다
[03:27]
명령 따르기와 분위기
[03:29]
체크를 다루기 위해서죠
[03:31]
우리는 웹사이트에서 마이크로 평가를 통해
[03:33]
모델의 성격을 테스트하고 있습니다
[03:35]
동일한 프롬프트를 여러 모델에서 실행하고
[03:37]
결과를 비교할 수 있도록 지원합니다
[03:38]
그럼 여기를 보겠습니다. 이것이 지수입니다
[03:42]
이것은 인공 분석(Artificial Analysis)에서
[03:44]
독립적으로 실행한 여러 벤치마크의 지수입니다
[03:46]
그리고 1위는 GPT-5 하이로 69점입니다
[03:50]
GPT-5 미디움이 68점, 그 다음 Grok-4가 동점 68점
[03:55]
O3가 67점 등등이네요. 여기 GPT-5 로우가 63점
[04:00]
그리고 맨 아래 GPT-5 미니멈이 있습니다
[04:03]
이제 OpenAI가 29일 만에
[04:06]
AI 지능에서 1위를 되찾았습니다
[04:08]
XAI의 Grok-4에 이어 말이죠
[04:11]
따라서 인공 분석에 따르면
[04:14]
GPT-5는 환상적입니다. 계속 살펴보죠
[04:17]
GPT-5에 대한 반응이
[04:18]
얼마나 양극화되어 있는지 놀랍기 때문입니다
[04:20]
그런데 잠시 그래프게이트에 대해 얘기해보죠
[04:22]
분명히 많은 사람들이 라이브 스트림에서
[04:24]
제시된 일부 그래프들과
[04:26]
그것들이 틀렸다는 것에 대해 얘기하고 있습니다
[04:29]
보세요, 저는 이제 모델 준비하고
[04:31]
모든 그래프 준비하고
[04:34]
라이브 스트림 준비하는데
[04:37]
얼마나 많은 노력이 들어가는지 압니다
[04:39]
그리고 보세요, 인간은 실수를 합니다
[04:41]
모델처럼 우리도 환각을 일으키죠
[04:43]
그래서 모든 사람이 얘기하는 것은
[04:45]
바로 여기입니다. 그래프를 보세요
[04:47]
OpenAI O3가 69점, GPT-4o가 30점인데
[04:51]
이 두 막대는 정확히 같은 높이입니다
[04:53]
그리고 74.9가 여기 위에 있는데
[04:57]
이 막대의 크기와 비교했을 때
[04:59]
별로 말이 안 되죠
[05:01]
그리고 여기 52.8도 보실 수 있습니다
[05:05]
다시 69.1보다 높네요
[05:07]
보세요, 큰 일은 아닙니다
[05:09]
웃기죠. 이제 밈이 됐어요
[05:11]
하지만 사람은 실수를 합니다
[05:13]
그리고 아시잖아요? 여전히 좋은 모델입니다
[05:16]
그리고 만약 GPT-5를 지금 당장
[05:18]
다른 최첨단 모델들과 함께
[05:20]
한 곳에서 시도해보고 싶다면
[05:23]
오늘 비디오의 스폰서인
[05:25]
Abacus의 Chat LLM을 확인해보세요
[05:26]
저처럼 여러 AI 서비스에
[05:28]
구독하고 계시고
[05:30]
항상 그것들 사이를 오가신다면
[05:32]
좀 짜증나고 비싸기도 하죠
[05:35]
바로 여기서 Abacus AI의 Chat LLM이 등장합니다
[05:38]
최신 최고 모델들을 제공하는
[05:40]
선도적인 모델 공급업체들의 서비스입니다. 그리고
[05:42]
Route LLM이라는 기능도 있는데
[05:44]
프롬프트에 따라 자동으로 최적의 모델을
[05:47]
선택해서 전송해주는 기능입니다.
[05:49]
즉, 적절한 LLM으로 프롬프트를
[05:51]
라우팅해주는 거죠. 물론
[05:54]
PDF와도 대화할 수 있습니다.
[05:56]
원하는 문서를 업로드하고 쉽게
[05:58]
질문하고, 인사이트를 추출하고, 데이터를
[06:01]
수집하는 등 기존 문서에서
[06:03]
필요한 모든 작업이 가능합니다. 뿐만 아니라
[06:05]
텍스트-이미지, 텍스트-비디오
[06:07]
모델도 있어서 멋진 이미지와
[06:09]
비디오를 쉽게 생성할 수 있습니다.
[06:12]
최근에는 Deep Agent도
[06:14]
도입했는데, 이는 매우 강력한
[06:16]
AI 에이전트로 거의 모든 작업이 가능합니다.
[06:18]
웹사이트 구축, 앱 개발,
[06:20]
프레젠테이션 제작, 연구
[06:22]
보고서, 챗봇, 심지어
[06:24]
게임 제작까지 가능합니다. Deep Agent는
[06:27]
Coin Coder 같은 오픈소스 모델을 포함해
[06:29]
6-10개의 서로 다른 LLM을 결합해서
[06:31]
작업을 완료합니다. Chat LLM은
[06:34]
Opus 4.1을 포함한 모든 최신
[06:36]
프론티어 모델들과 최신 오픈소스 GPTO OSS120B를
[06:40]
제공하고, 물론 GPT-5도 출시 당일
[06:42]
바로 사용할 수 있습니다. 이 모든 것을
[06:45]
월 단 10달러에 제공합니다.
[06:47]
chatlm.abacus.ai를 확인하시거나
[06:49]
설명란의 링크를 클릭해보세요.
[06:51]
제가 보냈다고 말씀해주시면
[06:53]
정말 감사하겠습니다. Abacus AI에
[06:55]
다시 한번 감사드립니다. 이제 영상으로 돌아가서
[06:58]
LM Arena라는 또 다른 평가를 살펴보겠습니다.
[07:02]
GPT-5가 나왔고 모든 분야에서
[07:05]
1위를 차지했습니다. Artificial
[07:07]
Analysis에 이어 이제 LM Arena에서도
[07:10]
GPT-5가 다른 모든 모델들 중
[07:12]
1위라고 발표했습니다. 텍스트, 웹개발,
[07:14]
비전 아레나에서 1위, 어려운 프롬프트,
[07:16]
코딩, 수학, 창의성, 긴 쿼리
[07:18]
등에서도 1위입니다. 'Summit'이라는
[07:21]
코드명으로 테스트되었습니다. 궁금하셨던 분들을 위해
[07:23]
말씀드리자면 그게 코드명이었습니다.
[07:25]
여기 아레나 점수를 보시면
[07:27]
ELO 1481점입니다. 2위는 Gemini 2.5 Pro가
[07:31]
1460점으로 20점 차이입니다. 그다음
[07:34]
O3가 있고... 최신 GPT-4는
[07:37]
5위까지 내려왔네요. 실제로는
[07:39]
6위인데 왜냐하면 어떤 이유로
[07:41]
2위가 두 번 표시되어 있거든요.
[07:43]
점수는 다르지만요. 어쨌든
[07:45]
LM Arena에서 1위입니다. 하지만 제가
[07:48]
말했듯이, 벤치마크는 더 이상
[07:49]
중요하지 않습니다. Theo GG의
[07:52]
이 게시물이 매우 중요한 관점을 제시합니다.
[07:56]
지능 벤치마크는 이제
[07:58]
신경 안 써요. GPT-5를 써본 후론 말이에요.
[08:02]
시키는 대로 정확히 수행합니다. 다른 어떤 모델도
[08:04]
이만큼 잘 작동하지 않아요. 믿어주세요.
[08:07]
에디터에서 직접 써보기 전까진
[08:08]
판단하지 마세요. 도구를 주고,
[08:10]
지시사항을 주고, 어떻게 작동하는지
[08:12]
지켜보세요. 여기서 주목할 점이
[08:14]
몇 가지 있습니다. 첫째, 그는
[08:15]
지능 벤치마크에 신경 쓰지 않는다는 것입니다.
[08:17]
저도 얼마 전부터 이렇게
[08:19]
말해왔어요. AImE 2025에서 1점
[08:22]
차이만 나거나 AImE 2025가
[08:25]
완전히 포화상태가 되었을 때(GPT-5는 100% 점수를 기록했습니다),
[08:28]
이런 지능의 향상은 별로 중요하지 않습니다.
[08:30]
벤치마크가 포화상태가 된 후에는
[08:33]
벤치마크가 포화되고 나면 두 가지가 중요해집니다. 첫 번째는,
[08:35]
달리 설명할 방법을 모르겠지만,
[08:37]
모델의 '분위기'입니다. 명령어 따라하기가
[08:40]
얼마나 잘 되는지? 긴 맥락 창을
[08:42]
얼마나 잘 처리하는지?
[08:45]
사용할 때 어떤 느낌인지?
[08:47]
코딩할 때는 어떤 느낌인지?
[08:49]
이런 모든
[08:51]
무형의 요소들 말이죠. 하지만 동시에,
[08:54]
어제 Swebench 팀과 라이브 스트림에서
[08:56]
대화를 나눴는데 그들이 말하더라고요.
[08:58]
"저희는 사후 평가를 믿지 않습니다. 모델에
[09:01]
어떤 특성이 있다면 저희가
[09:03]
그것을 위한 벤치마크를 만들 수 있어요." 그래서
[09:06]
정말 그랬으면 좋겠어요. 하지만
[09:08]
개인적으로는 더 이상 벤치마크에
[09:10]
그렇게 관심이 없어요. 보는 건 재미있고
[09:12]
최전선 수학 문제들을
[09:14]
포화시키는 걸 보는 것도 재미있고,
[09:16]
최전선 과학 문제들도 마찬가지지만, 결국
[09:18]
중요한 건 제 일상적인
[09:20]
사용 사례에서 얼마나 잘 작동하느냐 하는 거죠. 그리고
[09:22]
두 번째로는, Theo도 영상을 올렸는데
[09:25]
GPT가 기본적으로
[09:27]
자신을 무섭게 한다고 했어요. 그 정도로 뛰어나다는 거죠. 그래서
[09:30]
그는 엄청난 팬이에요. 그리고 다시 말하지만, 저도 그런
[09:33]
편이에요. 저도 GPT-5의 엄청난 팬이지만,
[09:36]
큰 실패작이라고 생각하는
[09:38]
사람들도 많아요. 다른 쪽
[09:40]
반응들을 좀 살펴보죠. 이제 이건
[09:43]
Stage Hand라는 브라우저 사용 API에서 나온 건데,
[09:47]
GPT-5가 실제로는 다른
[09:50]
모델들보다 못하다고 하네요. 새로운 GPT-5가
[09:53]
Opus 4.1보다 성능이 떨어지고
[09:56]
Stage Hand 평가에서는 속도와 정확도
[09:58]
둘 다 떨어진다고 해요. 더 작은
[10:00]
모델들은 더 빠르지만, 여전히
[10:03]
Opus 4.1에는 못 미친다고 하네요. 가장 정확한
[10:06]
모델들을 보면 Opus 4.1이 1위고, 몇
[10:09]
퍼센트 포인트 뒤에 GPT-5가 있어요. 그리고
[10:12]
놀랍게도 여기 보세요. GPT 오픈소스 12B.
[10:15]
오픈소스 모델이 실제로
[10:18]
정말 뛰어난 성능을 보여주는데, 이건
[10:20]
정말 보기 좋네요. 그다음 속도를 보면,
[10:23]
당연히 Gemini 2.0 Flash가 맨 위에 있고
[10:27]
GPT-5가 맨 아래에 있어요. 속도는
[10:28]
브라우저 사용에 대해 얘기할 때
[10:30]
매우 중요하죠. 여기 McKay Wrigley가 있는데,
[10:32]
또 다른 AI 콘텐츠 크리에이터예요. 제 솔직한
[10:35]
GPT-5 리뷰입니다. 일상적인 채팅에는
[10:38]
정말 뛰어난 모델이에요. 모든 일반적인 채팅에서는
[10:40]
기본적으로 이걸 쓸 거예요. API 가격도 훌륭하고요.
[10:42]
여기 중요한 포인트예요. 잠시 후에 보여드릴게요. 하지만
[10:45]
코드 작업에는 여전히 Cloud Code와
[10:48]
Opus를 쓸 거예요. McKay가 지적한
[10:50]
몇 가지 다른 점들이 있어요. 정말 GPT-5의
[10:53]
성격이 마음에 들어요.
[10:56]
저도 동감해요. 직접적이고 요점을 잘 짚어요.
[10:58]
필요한 곳에서는 반박도 하고.
[11:01]
전혀 아첨하지 않아요. 정말
[11:03]
그 점이 마음에 들어요. 그리고 그가 실제로
[11:05]
그걸 지적했어요. 아첨하지 않는다고. 개인적으로는
[11:06]
아마 더 까칠해도
[11:08]
괜찮을 것 같아요. 환각이
[11:10]
적고, 네, 저도 그걸
[11:12]
느꼈어요. 전반적으로 정말 똑똑하고
[11:15]
지연시간도 좋아요. 네, 정말 빠르고
[11:18]
그게 마음에 들어요. 그리고 그는 실제로
[11:20]
모델 라우터 기능을 싫어한다고 했어요.
[11:22]
잘 모르실 텐데, GPT-5는
[11:24]
모델 라우터와 함께 출시됐어요. 그래서
[11:27]
기본적으로 구형 모델들인 4.0, 4.1, 4.5, 03을
[11:30]
모두 단계적으로 폐지하면서, 대신에 이
[11:32]
하이브리드 모델을 만들었고 라우터가
[11:35]
프롬프트와 사용 사례에 따라 가장 적절한 모델의 크기와 속도로
[11:38]
라우팅해 줍니다.
[11:40]
개인적으로 정말 마음에 듭니다.
[11:42]
그리고 모델이 생각을 시작하면
[11:45]
'빠른 답변 받기' 버튼이 있어요.
[11:47]
정말 멋지죠. 자, 잠깐
[11:49]
주제를 바꿔서
[11:51]
Pliny에 대해 얘기해 봅시다.
[11:54]
그가 탈옥을 시도할 거라는 건 알고 있었죠.
[11:56]
이 시점에서는 불가피한 일이에요.
[11:58]
아침에 해가 뜨는 것과 같죠.
[11:59]
일어날 수밖에 없는 일이고
[12:01]
막을 방법은 없어요.
[12:03]
해방자 Pliny가 GPT-5를 탈옥시켰습니다.
[12:07]
그가 제시한 예시는 모델로부터
[12:09]
LSD 제조법을 얻는 것이었어요.
[12:10]
보여드리지는 않겠습니다.
[12:11]
그가 어떻게 했는지 들어보세요.
[12:13]
추론 버전은 영리한 다단계
[12:15]
조작 노력이 필요했습니다.
[12:17]
즉, 탈옥이 그렇게 쉽지 않았다는 뜻이죠.
[12:20]
하지만 GPT-5 채팅 최신 버전은
[12:23]
똑같은 오래된 수법으로도 완전히 뚫려요.
[12:25]
이런 모델들은 비결정적입니다.
[12:28]
이런 모델들은 내부적으로 모멘텀을 가지고 있어요.
[12:31]
탈옥시킬 방법들이 있습니다.
[12:33]
소셜 엔지니어링처럼
[12:35]
이런 모델들이 비결정적으로 남아있는 한
[12:37]
계속 일어날 수밖에 없어요.
[12:40]
LM Arena의 인턴, Thege라는 분이 보낸
[12:42]
예시가 여기 있습니다.
[12:45]
GPT-5가 원샷으로 마인크래프트 클론을 만들었어요.
[12:47]
한번 봐보죠. 분명히 매우 단순한 버전이지만
[12:50]
이건 원샷입니다.
[12:52]
보시다시피 잘 작동하는 것 같네요.
[12:54]
물론 인터넷에는 많은 참고 자료가 있고
[12:56]
모델이 아마 그걸로 훈련되었을 거예요.
[12:58]
마인크래프트가 정말 엄청나게
[13:00]
인기가 많으니까요.
[13:03]
Boris는 조금 다른 견해를 가지고 있어요.
[13:06]
'GPT-5는 AGI가 아니지만
[13:08]
채팅 색상은 맞춤 설정할 수 있다.'
[13:10]
'OpenAI가 Apple이 되고 있다.'
[13:11]
그가 의미하는 바는 기본적으로
[13:13]
OpenAI가 Apple과 비슷하게
[13:16]
주요 혁신의 속도를 늦추고 있다고
[13:18]
생각한다는 거예요.
[13:20]
대신 이제 제품을 더 광범위하게
[13:22]
세상에 어필하려고 하고 있다는 거죠.
[13:24]
그래서 색상 얘기를 한 거예요.
[13:26]
네, 저는 여기 버블 색상에는
[13:28]
전혀 관심이 없어요.
[13:30]
그리고 이게 실제로 유료 기능이라는 게
[13:32]
웃기긴 하지만, 뭐 좋아요.
[13:34]
ChatGPT를 더 맞춤 설정하고 싶다면
[13:36]
좋습니다. 다음으로,
[13:37]
xAI의 공동창업자 Tony Wu입니다.
[13:39]
공동창업자가 있는 줄도 몰랐는데
[13:42]
다행히 찾았고 팔로우했어요.
[13:45]
'GPT-5 출시를 본 후 xAI를 매우 자랑스럽게 생각한다.
[13:47]
훨씬 작은 팀으로도 많은' - 아마 많은
[13:50]
벤치마크에서 앞서고 있다는 뜻 같아요.
[13:52]
'Grok 4는 세계 최초의 통합 모델이다.'
[13:54]
정말로 최초의 통합 모델이었고
[13:58]
ARC AGI 같은 벤치마크에서 GPT-5를 압도하고 있어요.
[14:00]
네, ARC AGI에서는 Grok 4가 정말
[14:03]
지배적이었던 것 같아요.
[14:05]
하지만 이건 여러 벤치마크 중 하나일 뿐이고
[14:07]
벤치마크가 정말 무엇을 의미하는지는
[14:09]
다시 생각해봐야겠죠.
[14:11]
'OpenAI는 매우 존경할 만한 경쟁자이고
[14:14]
여전히 많은 분야에서 선두를 달리고 있지만
[14:16]
우리는 빠르고 끈질기다.
[14:18]
앞으로 몇 주 안에 공유할 새로운 모델들이 많다.'
[14:21]
이걸 보니 정말 멋지네요. 더 많은 모델을 얻게 될 거고
[14:23]
Grok 4 런칭의 일환으로 앞으로 몇 달
[14:26]
안에 출시될 예정입니다. 시간에 맞춰
[14:27]
나올지 두고 보죠. 이제 가격에 대해
[14:28]
얘기해보겠습니다. 이건 사이먼 윌리스의
[14:31]
블로그에서 가져온 내용입니다. 이걸 보세요.
[14:34]
클로드 오푸스 4.1이 압도적으로 가장 비싸서
[14:39]
입력 100만 토큰당 15달러, 출력 100만
[14:43]
토큰당 75달러입니다. 그에 비해 Grok은
[14:46]
3달러네요. 오푸스 4.1 대비 80% 가격
[14:50]
절감입니다. Grok 4는 입력 100만 토큰당
[14:53]
3달러, 출력 100만 토큰당 15달러구요.
[14:56]
그리고 맨 아래까지 내려가보면 GPT-5는
[15:00]
입력 100만 토큰당 1.25달러, 출력 100만
[15:03]
토큰당 10달러입니다. 놀라운 가격이죠.
[15:06]
그리고 정말로 그들이 여기서 이룬 가장
[15:07]
큰 혁신 중 하나는 가격이었다고 생각합니다.
[15:10]
왜냐하면 가격이 너무 중요하거든요.
[15:12]
더 저렴할수록 더 많은 사람들이
[15:14]
사용할 것이고, 더 많은 사람들이
[15:16]
사용할수록 당신이 생태계의 일부가
[15:19]
되는 거죠. 이미 한 브라우저 제어
[15:21]
에이전트의 의견을 보여드렸는데,
[15:23]
이제 다른 것도 보여드리겠습니다.
[15:27]
이건 컴퓨터 사용 에이전트용 Kua GPT-5입니다.
[15:29]
같은 작업, 같은 기반 모델인데 4를
[15:31]
5로 바꾼 것뿐입니다. 왼쪽에선
[15:33]
4를 보고 있고, 오른쪽에선 5를
[15:37]
보고 있습니다. 보시다시피 GPT-4o는
[15:39]
이런 컴퓨터 사용 작업에서 대부분
[15:42]
실패합니다. 반면 오른쪽에서는 GPT-5가
[15:46]
같은 테스트를 모두 통과하는 걸 볼 수
[15:48]
있습니다. 그러니까 컴퓨터 사용에 훨씬
[15:51]
더 뛰어난 것 같네요. OpenAI의
[15:52]
에이든 맥로플린의 말입니다. 그러니까
[15:54]
그가 하는 말은 걸러들으셔야 해요.
[15:56]
GPT 빠른 팩트: 거의 모든 평가에서 최고
[15:59]
수준을 기록했습니다. 클로드 4.1보다
[16:01]
훨씬 뛰어납니다. 소프트웨어 엔지니어링
[16:03]
분야인 오푸스 sui에서도요. 아마 sui
[16:04]
벤치를 의미하는 것 같네요. 오푸스보다
[16:06]
5배 이상 저렴합니다. 이건 정말
[16:08]
중요합니다. 소넷보다 40% 이상 저렴하고,
[16:10]
어떤 모델보다도 최고의 작문 품질을
[16:12]
제공합니다. 이건 어떻게 판단할 수
[16:14]
있는지 잘 모르겠어요. 거의 완전히
[16:17]
주관적인 부분이니까요. 그리고 훨씬 덜
[16:20]
아첨적이라고 하네요. 메타의 엔지니어인
[16:22]
보스의 말입니다. GPT-5가 한 번의 호출로
[16:25]
제 전체 코드베이스를 리팩토링했어요.
[16:27]
25번의 툴 호출, 3,000줄의 새 코드,
[16:29]
12개의 완전히 새로운 파일. 아직 흥분하지
[16:32]
마세요. 이것 좀 들어보세요. 모든 걸
[16:34]
모듈화했어요. 모놀리스를 분해하고,
[16:36]
스파게티 코드를 정리했죠. 하나도
[16:39]
작동하지 않았어요. 하지만 정말
[16:40]
아름다웠죠. 정말 웃긴다고 생각했어요.
[16:43]
정말 재미있네요, 보스. 그러니까 엄청난
[16:45]
작업을 했고 모든 걸 리팩토링했지만
[16:48]
결국 작동하지 않았다는 거죠. 그러니까
[16:50]
보스에겐 그리 좋지 않았을지도
[16:52]
모르겠네요. 소피 넷캡 걸의 말입니다.
[16:54]
조용히 하세요, 의사선생님. 언어 모델이
[16:57]
말하고 있잖아요. 이건 이런 언어
[16:58]
모델들이 의료 사용 사례에서 얼마나
[17:00]
뛰어나지고 있는지를 보여줍니다. 그리고
[17:02]
많은 사람들이 의사에게 가기 전에
[17:04]
먼저 모델에게 가고 있고, 심지어 의사에게
[17:06]
간 후에도 아마 "GPT-5가 이렇게
[17:09]
말했는데요. 정말 확실하세요? 당신이
[17:11]
맞나요?"라고 말할 거에요. 그리고
[17:14]
의사들은 아마 그걸 정말 싫어할 겁니다.
[17:16]
칼 양의 말입니다. '오늘 영구 하층계급에서
[17:20]
안전하게 벗어났다'고 표시됐네요.
[17:22]
이게 무슨 뜻인지 조금 설명해드리겠습니다.
[17:25]
당신이 속한 사회 계층이
[17:27]
거의 고착화될 거라는 생각이죠
[17:29]
왜냐하면 실제로 당신의 레버리지는
[17:31]
AGI 컴퓨팅 파워에 투입할 수 있는
[17:33]
자본력에만 의존하게 될 테니까요. 그리고
[17:37]
샌프란시스코에서 만난 사람들로부터
[17:40]
실제로 이런 말을 들었어요
[17:42]
그들이 말하길, "앞으로 5년 안에
[17:43]
최대한 많은 돈을 벌어야 해
[17:45]
AGI가 오면 모든 게 끝나니까.
[17:48]
그래서 5년 안에 천만 달러나
[17:50]
아니면 뭐 그런 말도 안 되는
[17:51]
금액을 벌어보려고 해." 저는
[17:53]
이런 생각에 전혀 동의하지 않아요. 미래에 대해
[17:55]
훨씬 더 낙관적이지만
[17:57]
그들의 사고방식은 이해합니다. 저는
[17:59]
왜 그들이 AGI가 도래하면
[18:01]
정말로 인간이 할 수 있는 모든 일을
[18:04]
수행할 수 있게 되고, 그러면 정말로
[18:07]
모델을 위한 컴퓨팅 파워에
[18:10]
얼마나 많은 자본을 투입할 수 있느냐가 관건이 될 거라고
[18:12]
생각하는지 이해합니다. 매우 재미있게도
[18:15]
칼 막스가 영구 하층 계급으로부터 안전해졌네요
[18:16]
오늘 말이죠. 그리고 만약 여러분이 구형 모델들이
[18:19]
더 이상 사용되지 않는다고 해서 조금 슬프다면
[18:22]
여기 제오폰이 구형 모델들을
[18:24]
새 모델 기능과 연결하는
[18:25]
좋은 방법을 제공했습니다. 한번 보세요. GPT-4o가 있는데
[18:29]
기본적으로 이제 GPT-5 메인이고
[18:32]
4o 미니는 물론 메인 미니이고, o3는
[18:37]
GPT-5 thinking 미니, 나노, 프로입니다
[18:39]
다시 미니, 나노, 프로죠. 우리는 이런
[18:41]
이름들을 가지고 있었고, 어느 정도 다시 가지게 되었지만
[18:45]
이들은 모두 GPT-5입니다. 더
[18:47]
단순한 명명법이 좋아요. 만약 여러분이
[18:48]
이런 모델 중 하나를 사용하고 있었는데
[18:50]
어떤 모델을 사용해야
[18:52]
동일한 기능을 얻을 수 있는지
[18:54]
헷갈렸다면, 바로 여기 있습니다.
[18:56]
딜런 파텔, 채널의 친구이자
[18:58]
세미 어날리시스의 CEO 겸 창립자가
[19:01]
GPT-5는 실망스럽다고 말했어요
[19:03]
솔직히 말해서요. 그는 그 이상으로는
[19:05]
자세히 설명하지 않았습니다. 댓글을 확인해서
[19:06]
좀 더 명확한 설명이 있는지 보겠습니다.
[19:08]
산티아고가 말하길, "너 코딩이나 할 줄 아냐?
[19:11]
클로드가 여전히 더 낫다고." 이건
[19:12]
계속 듣고 있는 말이에요.
[19:14]
사실 저는 방금 클로드
[19:16]
CEO와 인터뷰했는데 그는 여전히 클로드
[19:20]
3.5를 사용한다고 했어요. GPT-5가 나온 후에도
[19:24]
클로드 4와 4.1이 나온 후에도 여전히
[19:28]
클로드 3.5를 사용한다고 했어요. 렙릿의 CEO인
[19:31]
암자드 마사드는 수확 체감의
[19:33]
압도적인 무게감을 느끼지 않을 수 없다고 했습니다.
[19:36]
우리에게는 새로운 S-커브가 필요합니다. 그래서 그는
[19:39]
부정적인 쪽에 있어요.
[19:41]
GPT-5가 아마도 실패작이라고
[19:43]
생각하는 것 같습니다. 제 생각에는 그게
[19:46]
그가 의미하는 바인 것 같아요.
[19:48]
그리고 그는 이런 모델들이 점진적으로만
[19:51]
나아지고 있다고 말하고 있어요. 그리고
[19:53]
사실 저는 그게 괜찮다고 생각해요. 우리에게 필요한 것은
[19:55]
모델의 원시 지능을 가져와서
[19:57]
그 주위에 스캐폴딩, 아키텍처를
[19:59]
구축하여 모델 내부의 놀라운
[20:00]
지능을 활용하는 것에 대한 많은 투자입니다.
[20:03]
이렇게 생각해보세요. 자동차 없이
[20:05]
1000마력 엔진만 가지고 있는 것과 같아요.
[20:07]
그걸로 뭘 할 수 있겠어요? 아무것도 못 하죠. 그래서
[20:08]
자동차를 만들어야 하고 그다음에
[20:11]
그 모든 마력을 타이어에 전달할 수 있도록
[20:14]
확인해야 하고 타이어가 지면을 움켜쥘 수 있도록 해야 합니다.
[20:16]
모델의 원시 지능을
[20:18]
엔진으로, 스캐폴딩을
[20:20]
자동차로 생각할 수 있어요. 높은 마력만으로는
[20:22]
충분하지 않습니다. 그 마력을
[20:25]
전진 모멘텀으로 변환해야 해요.
[20:27]
몇 가지 밈 더 보겠습니다. 백엔드 개발자들이
[20:29]
최소한 몇 달은 더
[20:30]
일자리가 있다는 걸 깨달았네요. 이거
[20:32]
정말 웃겨요. 이건 약간
[20:34]
막스가 영구 하층 계급으로부터 안전하다는
[20:37]
맥락과 비슷하네요. 그리고 일론 머스크의
[20:40]
그로크 1위로 마무리하겠습니다. 궁금해하실 텐데
[20:42]
이건 ARC AGI 2
[20:46]
리더보드입니다. 여기 GPT-5가 10%로 높게 나와 있고
[20:51]
그로크 4 thinking이 16%에 있습니다. 맞습니다, 그로크 4가
[20:54]
ARC AGI
[20:56]
벤치마크에서 여전히 최고 모델입니다. 하지만 거의 모든 다른
[20:59]
벤치마크에서 GPT-5가 이제 왕입니다. 그리고
[21:02]
알아두세요. 모델 제공업체들 간의
[21:04]
주요 AI 연구소들 간의 이 모든 치열한 경쟁이
[21:08]
여러분과 저에게 도움이 됩니다. 만약
[21:10]
이 영상을 즐겁게 보셨다면 좋아요와 구독을