[00:00]
[음악]
[00:03]
[박수]
[00:04]
안녕하세요, 또 다른 영상에 오신 것을 환영합니다. 자, 어제 GPT 모델 5개가
[00:08]
새로 출시되었고
[00:11]
이전 영상에서 다뤘습니다.
[00:13]
API에서 사용 가능한 주요 신규 모델은
[00:16]
세 가지입니다. GPT-5, GPT-5 Mini,
[00:21]
그리고 Nano입니다. 저는 이 모델들을
[00:24]
제 벤치마크로 테스트해봤는데, 정말
[00:27]
형편없더군요. 처음엔 충격을 받았지만
[00:30]
점차 받아들이게 되었습니다. 그럼
[00:34]
각 모델이 무엇을 잘하고 못하는지
[00:36]
테스트를 살펴보죠. 하지만 먼저
[00:39]
오늘의 스폰서 Dart에 대해 얘기해보겠습니다.
[00:41]
여러 도구를 오가며 작업하는 게 지치셨나요?
[00:43]
Dart는 전통적인 프로젝트 관리와
[00:45]
실제로 작업을 완료해주는 강력한 AI 기능을
[00:47]
결합합니다. 작업과 보드를 정리하는 것 외에도
[00:49]
Dart의 AI는 프로젝트 아이디어를 브레인스토밍하고
[00:51]
작업 목록을 생성하며
[00:54]
전체 과제를 완료해줄 수도 있습니다.
[00:56]
작곡가 같은 AI 에이전트는
[00:58]
프로젝트 전체 맥락을 이해하므로
[01:00]
간단히 채팅으로
[01:02]
자연스럽게 작업을 생성하고 편집하거나
[01:04]
삭제할 수 있습니다. 진짜 게임체인저는
[01:06]
커스텀 에이전트입니다. 내장된
[01:08]
통합 기능이나 N8N 워크플로 또는 커스텀
[01:09]
웹훅에서 트리거되는 커스텀 에이전트를
[01:12]
만들어 완전 커스터마이징할 수 있습니다.
[01:15]
GitHub에 풀 리퀘스트를 푸시하는 코딩 에이전트나
[01:17]
캠페인용 마케팅 에이전트,
[01:19]
또는 아웃리치용 메일링 에이전트를
[01:21]
만들 수 있습니다. 그런 다음 작업을 할당하면
[01:23]
자동으로 완료되는 걸 볼 수 있습니다.
[01:26]
게다가 Dart는 MCP 서버를 통해
[01:28]
기존 워크플로와 완벽하게 통합되어
[01:30]
Claude, ChatGPT 및 이미 사용 중인
[01:32]
기타 AI 도구들과 직접 연결됩니다.
[01:35]
대부분의 기능이 완전 무료이며
[01:37]
프리미엄 옵션은 월 8달러부터 시작합니다.
[01:39]
설명란의 링크를 통해 Dart를
[01:41]
확인해보세요.
[01:42]
작업 방식을 완전히 바꿔줄지도 모릅니다.
[01:44]
이제 본 영상으로 돌아가겠습니다. 우선
[01:47]
GPT-5 모델 자체부터 시작해보겠습니다.
[01:50]
[01:51]
저는 이 모든 모델들을 고추론 모드로 테스트했는데
[01:54]
이는 이 모델들의
[01:56]
최고 버전입니다. 이제 GPT-5부터 시작해보죠.
[02:00]
10개 질문 중에서 답한 건
[02:03]
단 하나뿐이고, 그것도 가장 쉬운 수수께끼 문제입니다.
[02:06]
수학도 잘 못합니다.
[02:09]
코딩 문제를 보면
[02:12]
이 모델의 3D 평면도는
[02:14]
아예 렌더링되지도 않습니다.
[02:18]
사실 얼마나 형편없는지 너무 놀라서
[02:20]
확인해봐야 했습니다. 그래서 이 프롬프트를
[02:24]
오픈 라우터와 T3 채팅에서 시도해봤는데
[02:27]
항상 렌더링되지 않는 코드를 줍니다.
[02:30]
소위 최신 모델이라고 하기엔
[02:33]
정말 형편없죠.
[02:36]
또 한 가지 말해야 할 건
[02:39]
왠지 모르게 이 모델의 출력 형식이
[02:42]
엉망입니다. 코드를 요청하면
[02:45]
절대 코드 블록으로 형식을 맞춰주지 않습니다.
[02:47]
실제로 시스템 프롬프트를 바꿔서
[02:50]
항상 코드 블록과 함께 마크다운 형식을
[02:53]
사용하도록 구체적으로 요청해야 했습니다.
[02:55]
그렇지 않으면 줄바꿈도 없이
[02:59]
평문으로만 코드를 주고
[03:01]
그런 식이었습니다.
[03:03]
이 문제는 오픈 라우터와
[03:06]
T3에서도 마찬가지였습니다. 모델 전체의 문제죠.
[03:10]
다음 질문으로 넘어가서 팬더 SVG를
[03:12]
만들어달라고 했더니
[03:15]
정말 형편없는 SVG를 만들었습니다.
[03:17]
버거가 판다의 손에 있는 게 아니라
[03:19]
판다의 배 안에 들어있는 것처럼 보이네요.
[03:22]
네, 이것도 정말 별로였습니다. 또한,
[03:27]
추론이 정의되지 않은 부분이 궁금하시다면,
[03:29]
OpenAI에서는 원시 추론 추적 정보를
[03:32]
제공하지 않기 때문입니다.
[03:35]
하지만 제가 추론 모드로 설정했기 때문에
[03:37]
벤치마크에서 그것을 캡처하려고 했지만
[03:39]
찾지 못했습니다. 하지만 저는 모든 설정을
[03:43]
높음으로 했습니다. 그다음 3JS로 만든
[03:46]
포켓볼로 넘어가보면, 이것도 렌더링이
[03:49]
안 됩니다. 더 말할 게 있을까요?
[03:53]
다음 문제로 넘어가면,
[03:55]
사실 이건 자동 플레이 옵션이 있는
[03:57]
체스보드인데, 게임을 플레이할 수 있도록
[04:00]
하는 건데, 체스보드가 렌더링되지 않습니다.
[04:02]
실제로 저는 이것을 세네 번 다시 실행했습니다.
[04:05]
Horizon Beta가 이걸 통과했었는데,
[04:08]
이건 둘 다에서 체스보드를 만들지 못합니다.
[04:10]
웹 버전의 마인크래프트도 보이지 않고,
[04:13]
정원에서 날고 있는 나비도
[04:18]
작동하지 않으며, Rust로 만든 이미지 변환용
[04:21]
CLI 도구도 작동하지 않습니다.
[04:24]
미니와 나노 모델들의 답변도
[04:27]
일관성이 있고, 한 문제를 제외하고는
[04:30]
아무것도 통과하지 못합니다.
[04:32]
그 한 문제는 바로 수수께끼 문제입니다.
[04:36]
네, 한 문제를 제외하고는 아무것도
[04:39]
통과하지 못해서 10% 카테고리에 속하게 되어
[04:42]
GPoss 등과 비슷한 모델들과 같은 수준입니다.
[04:46]
제 벤치마크에서 최고는 여전히
[04:49]
max thinking을 사용한 Sonnet이고,
[04:51]
그 다음이 Opus 4.1입니다.
[04:55]
Opus는 Sonnet보다 코드 품질이 훨씬 좋지만,
[04:58]
일부 문제에서 실패해서 점수가
[05:00]
낮게 나옵니다. 하지만 저는 둘을 같은
[05:03]
수준으로 놓고 Opus 모델을 선호합니다.
[05:06]
그 다음은 Gemini 2.5 Pro입니다.
[05:10]
이 모델은 프론트엔드 작업에는 훌륭하지만
[05:12]
다른 건 별로입니다.
[05:16]
3JS처럼 정확한 치수를 설정하고
[05:18]
기타 등등이 필요한 논리적 추론에 있어서는
[05:21]
정말 명백하게 실패합니다.
[05:24]
저는 정말 이해가 안 갑니다.
[05:27]
이 모델에 무슨 문제가 있는 건지.
[05:28]
너무 나빠서 충격을 받았고, 여러 곳에서
[05:32]
재확인을 해봐야 했습니다.
[05:34]
여러분도 실제로 이런 프롬프트들을
[05:36]
직접 시도해보고 확인해보세요.
[05:38]
정말 별로입니다.
[05:42]
제 생각에는 이건 그들이
[05:43]
라이브 스트림에서 말한 것과 연관되어 있는데,
[05:45]
바로 합성 데이터로 훈련시켰다는
[05:48]
것입니다.
[05:50]
합성 데이터란, 잘 모르시는 분들을 위해 설명하면
[05:51]
기본적으로 큰 모델의 능력을
[05:54]
더 작은 모델로 증류하는 것입니다.
[05:56]
이 경우 03 같은 더 큰 모델에게
[05:59]
요청해서
[06:03]
사용 가능한 정보를 압축된 형태로
[06:05]
합성하는 데이터를 만들게 하는 것입니다.
[06:08]
이것은 벤치마크에는 좋습니다.
[06:10]
벤치마크 문제들은
[06:12]
쉽게 압축될 수 있고, 일반적으로
[06:14]
이런 모델들은 그런 문제들에서
[06:16]
좋은 성능을 보입니다.
[06:19]
하지만 실제 업무에 있어서는
[06:21]
명백하게 실패합니다.
[06:23]
이것의 좋은 예가 Microsoft FI 모델들입니다.
[06:27]
그들은 주로 모델들을 위해서 그런 일을
[06:30]
합니다. 제 생각에는 여기서도 같은 일이
[06:33]
일어나고 있는 것 같습니다. 어떻게 그들이
[06:35]
향상되지 않고 오히려 떨어질 수 있는지
[06:38]
모르겠습니다.
[06:40]
04 mini는 괜찮았는데, 이건 그에 비해
[06:44]
훨씬 나쁩니다. 사용해보려고 했는데
[06:47]
윈드서프에서도 시도해 봤는데
[06:49]
커서와 함께 데모를 보여줬지만
[06:52]
내 질문에는
[06:53]
전혀 작동하지 않습니다.
[06:55]
실제 사용 사례에서도
[06:57]
잘 동작하지 않아요.
[07:00]
정말 이해가 안 됩니다.
[07:02]
인터넷에서 어떤 사람들은
[07:04]
이게 AGI라고 하더군요. 그런데 제가 직접
[07:07]
테스트해보니 정말 끔찍한 결과가 나왔습니다.
[07:10]
여러분도 직접 테스트해보시고
[07:12]
이런 프롬프트들도 시도해보세요.
[07:15]
정말 나쁩니다, 특히 이런 프롬프트에서는요.
[07:19]
여러분도
[07:20]
어떻게 생각하시는지
[07:22]
댓글로 공유해 주세요. 저는 이런
[07:25]
형편없는 모델을 돈 주고 쓸 생각이 없습니다.
[07:29]
이 모델이 전혀 마음에 들지 않고
[07:31]
당분간 사용할 생각도 없어요.
[07:34]
오픈AI의 릴리스들을 보니
[07:37]
앤트로픽과 제미나이 모델들에 대한
[07:40]
존경심이 더욱 높아지네요.
[07:43]
앤트로픽과 제미나이에
[07:46]
15달러 내는 것도 괜찮다고 생각해요. 오픈AI는
[07:49]
이제 게임 끝인 것 같습니다. 도대체
[07:52]
어떤 쓰레기 같은 모델들을
[07:53]
만들고 있는지 모르겠어요.
[07:55]
실제 사용 사례에서는
[07:57]
아무것도 제대로 작동하지 않고
[07:59]
이제 희망을 잃었습니다. 오픈소스 모델도 엄청나게 나쁘고
[08:04]
클로즈드 소스 모델도 엄청나게 나빠요.
[08:07]
거의 모든 사용 사례에서
[08:09]
그냥 나쁩니다.
[08:11]
여러분들이 아직도
[08:13]
소넷이나 제미나이, 또는 GPT-5를
[08:16]
사용하고 있는지 알려주세요.
[08:18]
소넷이나 제미나이보다 50~80% 정도
[08:21]
성능이 떨어지는 모델을 쓸 이유를
[08:24]
모르겠거든요. 차라리 제미나이 플래시를
[08:27]
쓰겠습니다. 테스트는 여기까지입니다.
[08:30]
정말 실망스럽네요.
[08:33]
전반적으로 별로 좋지 않습니다. 어쨌든
[08:36]
아래 댓글로 생각을 공유하시고
[08:38]
채널을 구독해 주세요.
[08:40]
슈퍼땡스 옵션으로 후원하거나
[08:42]
채널에 가입하셔서
[08:44]
혜택을 받으실 수도 있습니다.
[08:47]
다음 영상에서 뵙겠습니다. 안녕히 계세요.