GPT-5 (General, Mini & Nano) 완전 테스트: 2025년 최악의 모델들, 정말 실망스럽습니다

AICodeKing 구독자 71,200명

요약

이번 영상에서는 어제 공개된 GPT5, GPT5 Mini, Nano 세 가지 모델을 직접 벤치마크하여 성능을 비교했습니다. 예상과 달리 10문제 중 단 하나의 수수께끼만 맞추고 수학·코딩·렌더링 과제에서는 거의 전부 실패했습니다. 합성 데이터 기반 증류(synthetic data distillation) 방식을 택해 벤치마크 점수는 유지할 수 있었지만 실사용 결과는 기대 이하여서 개인적으로는 Sonnet, Opus, Gemini, Anthropic 모델을 더 선호하게 되었습니다.

주요 키워드

GPT-5 Synthetic Data Benchmark Rendering Model Distillation Sonnet Opus 4.1 Gemini 2.5 Pro 3JS Code Block

하이라이트

🔑 GPT-5 모델은 10문제 중 수수께끼 한 문제만 정답 처리하며 수학·코딩 성능은 기대 이하였습니다.
⚡️ 코드 출력 시 마크다운 코드블록 대신 줄바꿈 없는 일반 텍스트만 제공해 개발자 경험이 크게 저하됩니다.
🌟 SVG·3JS 포케볼·체스보드·Rust CLI 도구 등 다양한 실전 렌더링 테스트 모두 제대로 작동하지 않았습니다.
📌 Mini·Nano 모델 역시 GPT-5와 동일하게 10%대 성능으로 GPoss 등 구형 모델 수준에 머뭅니다.
🚀 합성 데이터 증류 방식은 벤치마크 최적화엔 유리하나 실제 작업에선 치명적 오류를 유발했습니다.
💡 Sonnet과 Opus 4.1은 전반적인 코드 품질에서 앞서며, Opus는 일부 질문만 실패해 안정적인 선택이었습니다.
🔍 Gemini 2.5 Pro는 프론트엔드 작업에는 강하지만 정확한 논리·치수 계산이 필요한 과제에선 연속 실패를 보였습니다.
💬 AGI 수준이라 홍보했지만 실제 결과를 보면 다수 실사용 시나리오에서 쓸모가 없었습니다.
👍 Anthropic·Gemini 모델은 $15 수준의 요금을 지불할 가치가 있다고 판단됐습니다.
⚠️ OpenAI의 최신 릴리스는 기대 이하로, 개발 현장에서는 다른 OSS·상용 모델이 더 나은 선택입니다.

용어 설명

Synthetic Data(합성 데이터)

기존 대규모 모델이 생성한 출력을 작은 모델 학습에 활용하기 위해 가공한 데이터로, 벤치마크 특화 성능을 높이지만 실제 과제에선 한계가 있다.

Model Distillation(모델 증류)

대형 모델의 지식을 소형 모델에 압축·이전하는 기법으로, 계산 비용을 줄이지만 정보 손실이 발생할 수 있다.

Benchmark(벤치마크)

모델 성능을 표준화된 문제 세트로 평가하는 절차로, 실제 사용 환경과는 차이가 있을 수 있다.

Rendering(렌더링)

3JS나 SVG 같은 그래픽 라이브러리를 활용해 화면에 시각적 요소를 그려내는 과정으로, GPT-5 계열 모델은 이 부분에서 연이은 실패를 기록했다.

3JS

웹에서 3차원 그래픽을 구현할 때 쓰이는 JavaScript 라이브러리로, 정확한 치수와 논리 계산이 필수다.

Code Block(코드 블록)

마크다운 문법에서 코드 조각을 따로 구분해 가독성을 높이는 포맷으로, GPT-5 모델은 기본 출력을 지원하지 않았다.

Sonnet

벤치마크에서 상위권을 차지하는 OSS(오픈소스) 모델로, 전반적인 추론·코딩 품질이 뛰어나다.

Opus 4.1

높은 코드 완성도를 보이는 벤치마크 모델로, 일부 질문에서만 실패해 안정적인 퍼포먼스를 제공한다.

Gemini 2.5 Pro

주로 프론트엔드 작업에 강점을 보이는 상용 모델이지만, 논리적 계산과 치수 설정 과제에서 약점을 드러낸다.

어제 공개된 다섯 가지 GPT 계열 모델 중 API에 적용된 GPT5, GPT5 Mini, GPT5 Nano 세 가지를 간략히 소개합니다. 이전 영상에서 다룬 내용을 요약하고, 이번 테스트의 목적과 벤치마크 방식을 안내합니다.

[00:38] 스폰서 Dart AI를 소개합니다. 전통적인 프로젝트 관리와 AI 기능을 결합한 도구로, 작업 자동화, 커스텀 에이전트 생성, 기존 AI 도구들과의 통합 등이 가능하며 대부분 무료로 제공됩니다.

프로젝트 관리와 AI 기능을 결합해 자연어로 작업 생성·수정·삭제가 가능한 Dart를 소개합니다. 커스텀 에이전트, GitHub 통합, N8N 워크플로우 연동 등 다양한 AI 워크플로우를 지원하며, 무료 기능과 월 $8 프리미엄 옵션을 안내합니다.

[01:46] GPT-5 모델의 실제 테스트 결과를 공개합니다. 10개 질문 중 단 1개(수수께끼)만 맞히고, 수학과 코딩 능력이 매우 부족하며, 3D 평면도 렌더링에 완전히 실패했습니다.

Reasoning 옵션을 최고 수준으로 설정한 뒤 10문제를 풀게 했습니다. 결과는 수수께끼 한 문제만 정답, 수학·코딩 과제 완전 실패 그리고 마크다운 코드 블록 미지원 등 전반적인 출력 포맷 문제를 목격했습니다.

[02:36] GPT-5의 추가 문제점들을 지적합니다. 코드를 요청해도 적절한 형식(코드 블록)으로 출력하지 않아 시스템 프롬프트를 수정해야 했고, 팬더 SVG 생성에서도 매우 품질이 낮은 결과물을 제공했습니다.

SVG 팬더 제작, 3JS 포케볼, 체스보드 자동 재생, 웹 기반 Minecraft, Rust CLI 툴 등 실전 예시 모두 렌더링에 실패했습니다. Mini와 Nano 모델도 동일한 문제를 보이며 벤치마크 통과율이 10%에 불과합니다.

[03:17] GPT-5의 SVG 생성 성능을 평가한 결과, 판다 이미지에서 버거가 손이 아닌 배에 있는 것처럼 보이는 등 품질이 매우 떨어짐. OpenAI가 원시 추론 추적을 제공하지 않아 추론 과정 분석이 어려움.

[03:46] 3JS 포켓볼, 체스보드, 마인크래프트 웹 버전, 나비 애니메이션, Rust CLI 도구 등 다양한 코딩 테스트에서 모든 GPT-5 모델(일반, 미니, 나노)이 실패. 수수께끼 문제 하나만 통과하여 10% 수준의 성능.

Sonnet과 Opus 4.1 모델이 GPT-5 계열보다 월등히 높은 성능을 보였습니다. Opus는 코드 품질에서 Sonnet을 능가하는 부분도 있어 선호도가 높으며, Gemini 2.5 Pro는 프론트엔드 작업엔 적합하나 논리·치수 과제에서 연속 실패가 나타났습니다.

[04:46] 벤치마크 결과 Sonnet(max thinking)이 최고 성능을 보이고, Opus 4.1이 뒤를 이음. Opus는 코드 품질은 우수하나 일부 문제에서 실패. Gemini 2.5 Pro는 프론트엔드 작업에만 특화되어 있고 논리적 추론에서는 실패.

OpenAI가 밝혔듯 합성 데이터로 모델을 증류하면 벤치마크에 특화된 데이터셋에선 좋은 평가를 받지만 실제 작업에서는 정보 압축 과정에서 손실이 커져 연이은 오류가 발생합니다. 마이크로소프트 FI 모델 사례와 유사한 문제로 분석됩니다.

[05:27] GPT-5의 성능 저하에 대해 충격을 표현하며, 직접 테스트해볼 것을 권유. 이러한 성능 문제가 OpenAI가 언급한 합성 데이터 훈련과 관련이 있다고 분석.

[05:51] 합성 데이터의 개념을 설명 - 큰 모델(03 등)의 능력을 작은 모델로 증류하는 과정. 벤치마크에서는 좋은 성능을 보이지만 실제 업무에서는 실패하는 패턴을 보임. Microsoft FI 모델들과 유사한 문제점 지적.

AGI 수준이라고 홍보된 GPT-5 계열 모델은 다양한 실제 시나리오에서 기대 이하의 성능을 보여 절대로 사용 의욕이 생기지 않았습니다. 대신 Sonnet, Opus, Anthropic, Gemini 모델을 유료로라도 계속 활용하겠다는 결론을 내립니다.

[06:35] 04 mini 대비 GPT-5의 성능이 오히려 퇴보했음을 지적하며 실망감을 표현. 향상이 아닌 퇴보에 대한 의문 제기.

[06:47] 리뷰어가 윈드서프와 커서에서 GPT-5를 테스트했지만 실제 질문과 사용 사례에서 전혀 작동하지 않았다고 보고했습니다. 인터넷에서 AGI라고 칭찬받는 것과 달리 실제 테스트에서는 끔찍한 결과가 나왔다고 언급했습니다.

[07:19] 리뷰어는 이 모델을 전혀 사용할 생각이 없으며, 오픈AI 릴리스들을 보면서 오히려 앤트로픽과 제미나이에 대한 존경심이 높아졌다고 말했습니다. 15달러를 내더라도 이 두 서비스를 사용하겠다고 밝혔습니다.

[07:49] 오픈AI가 만들고 있는 모델들을 '쓰레기'라고 강하게 비판하며, 실제 사용 사례에서 아무것도 제대로 작동하지 않는다고 실망감을 표했습니다. 오픈소스와 클로즈드소스 모델 모두 나쁘다고 평가했습니다.

테스트 결과에 대한 의견을 댓글로 부탁드리며, 채널 구독과 SuperThanks·멤버십 후원 안내를 전합니다. 다음 영상 예고와 함께 인사를 나누며 영상을 마칩니다.

타임라인 정보가 없습니다.

[00:00] [음악]

[00:03] [박수]

[00:04] 안녕하세요, 또 다른 영상에 오신 것을 환영합니다. 자, 어제 GPT 모델 5개가

[00:08] 새로 출시되었고

[00:11] 이전 영상에서 다뤘습니다.

[00:13] API에서 사용 가능한 주요 신규 모델은

[00:16] 세 가지입니다. GPT-5, GPT-5 Mini,

[00:21] 그리고 Nano입니다. 저는 이 모델들을

[00:24] 제 벤치마크로 테스트해봤는데, 정말

[00:27] 형편없더군요. 처음엔 충격을 받았지만

[00:30] 점차 받아들이게 되었습니다. 그럼

[00:34] 각 모델이 무엇을 잘하고 못하는지

[00:36] 테스트를 살펴보죠. 하지만 먼저

[00:39] 오늘의 스폰서 Dart에 대해 얘기해보겠습니다.

[00:41] 여러 도구를 오가며 작업하는 게 지치셨나요?

[00:43] Dart는 전통적인 프로젝트 관리와

[00:45] 실제로 작업을 완료해주는 강력한 AI 기능을

[00:47] 결합합니다. 작업과 보드를 정리하는 것 외에도

[00:49] Dart의 AI는 프로젝트 아이디어를 브레인스토밍하고

[00:51] 작업 목록을 생성하며

[00:54] 전체 과제를 완료해줄 수도 있습니다.

[00:56] 작곡가 같은 AI 에이전트는

[00:58] 프로젝트 전체 맥락을 이해하므로

[01:00] 간단히 채팅으로

[01:02] 자연스럽게 작업을 생성하고 편집하거나

[01:04] 삭제할 수 있습니다. 진짜 게임체인저는

[01:06] 커스텀 에이전트입니다. 내장된

[01:08] 통합 기능이나 N8N 워크플로 또는 커스텀

[01:09] 웹훅에서 트리거되는 커스텀 에이전트를

[01:12] 만들어 완전 커스터마이징할 수 있습니다.

[01:15] GitHub에 풀 리퀘스트를 푸시하는 코딩 에이전트나

[01:17] 캠페인용 마케팅 에이전트,

[01:19] 또는 아웃리치용 메일링 에이전트를

[01:21] 만들 수 있습니다. 그런 다음 작업을 할당하면

[01:23] 자동으로 완료되는 걸 볼 수 있습니다.

[01:26] 게다가 Dart는 MCP 서버를 통해

[01:28] 기존 워크플로와 완벽하게 통합되어

[01:30] Claude, ChatGPT 및 이미 사용 중인

[01:32] 기타 AI 도구들과 직접 연결됩니다.

[01:35] 대부분의 기능이 완전 무료이며

[01:37] 프리미엄 옵션은 월 8달러부터 시작합니다.

[01:39] 설명란의 링크를 통해 Dart를

[01:41] 확인해보세요.

[01:42] 작업 방식을 완전히 바꿔줄지도 모릅니다.

[01:44] 이제 본 영상으로 돌아가겠습니다. 우선

[01:47] GPT-5 모델 자체부터 시작해보겠습니다.

[01:50]

[01:51] 저는 이 모든 모델들을 고추론 모드로 테스트했는데

[01:54] 이는 이 모델들의

[01:56] 최고 버전입니다. 이제 GPT-5부터 시작해보죠.

[02:00] 10개 질문 중에서 답한 건

[02:03] 단 하나뿐이고, 그것도 가장 쉬운 수수께끼 문제입니다.

[02:06] 수학도 잘 못합니다.

[02:09] 코딩 문제를 보면

[02:12] 이 모델의 3D 평면도는

[02:14] 아예 렌더링되지도 않습니다.

[02:18] 사실 얼마나 형편없는지 너무 놀라서

[02:20] 확인해봐야 했습니다. 그래서 이 프롬프트를

[02:24] 오픈 라우터와 T3 채팅에서 시도해봤는데

[02:27] 항상 렌더링되지 않는 코드를 줍니다.

[02:30] 소위 최신 모델이라고 하기엔

[02:33] 정말 형편없죠.

[02:36] 또 한 가지 말해야 할 건

[02:39] 왠지 모르게 이 모델의 출력 형식이

[02:42] 엉망입니다. 코드를 요청하면

[02:45] 절대 코드 블록으로 형식을 맞춰주지 않습니다.

[02:47] 실제로 시스템 프롬프트를 바꿔서

[02:50] 항상 코드 블록과 함께 마크다운 형식을

[02:53] 사용하도록 구체적으로 요청해야 했습니다.

[02:55] 그렇지 않으면 줄바꿈도 없이

[02:59] 평문으로만 코드를 주고

[03:01] 그런 식이었습니다.

[03:03] 이 문제는 오픈 라우터와

[03:06] T3에서도 마찬가지였습니다. 모델 전체의 문제죠.

[03:10] 다음 질문으로 넘어가서 팬더 SVG를

[03:12] 만들어달라고 했더니

[03:15] 정말 형편없는 SVG를 만들었습니다.

[03:17] 버거가 판다의 손에 있는 게 아니라

[03:19] 판다의 배 안에 들어있는 것처럼 보이네요.

[03:22] 네, 이것도 정말 별로였습니다. 또한,

[03:27] 추론이 정의되지 않은 부분이 궁금하시다면,

[03:29] OpenAI에서는 원시 추론 추적 정보를

[03:32] 제공하지 않기 때문입니다.

[03:35] 하지만 제가 추론 모드로 설정했기 때문에

[03:37] 벤치마크에서 그것을 캡처하려고 했지만

[03:39] 찾지 못했습니다. 하지만 저는 모든 설정을

[03:43] 높음으로 했습니다. 그다음 3JS로 만든

[03:46] 포켓볼로 넘어가보면, 이것도 렌더링이

[03:49] 안 됩니다. 더 말할 게 있을까요?

[03:53] 다음 문제로 넘어가면,

[03:55] 사실 이건 자동 플레이 옵션이 있는

[03:57] 체스보드인데, 게임을 플레이할 수 있도록

[04:00] 하는 건데, 체스보드가 렌더링되지 않습니다.

[04:02] 실제로 저는 이것을 세네 번 다시 실행했습니다.

[04:05] Horizon Beta가 이걸 통과했었는데,

[04:08] 이건 둘 다에서 체스보드를 만들지 못합니다.

[04:10] 웹 버전의 마인크래프트도 보이지 않고,

[04:13] 정원에서 날고 있는 나비도

[04:18] 작동하지 않으며, Rust로 만든 이미지 변환용

[04:21] CLI 도구도 작동하지 않습니다.

[04:24] 미니와 나노 모델들의 답변도

[04:27] 일관성이 있고, 한 문제를 제외하고는

[04:30] 아무것도 통과하지 못합니다.

[04:32] 그 한 문제는 바로 수수께끼 문제입니다.

[04:36] 네, 한 문제를 제외하고는 아무것도

[04:39] 통과하지 못해서 10% 카테고리에 속하게 되어

[04:42] GPoss 등과 비슷한 모델들과 같은 수준입니다.

[04:46] 제 벤치마크에서 최고는 여전히

[04:49] max thinking을 사용한 Sonnet이고,

[04:51] 그 다음이 Opus 4.1입니다.

[04:55] Opus는 Sonnet보다 코드 품질이 훨씬 좋지만,

[04:58] 일부 문제에서 실패해서 점수가

[05:00] 낮게 나옵니다. 하지만 저는 둘을 같은

[05:03] 수준으로 놓고 Opus 모델을 선호합니다.

[05:06] 그 다음은 Gemini 2.5 Pro입니다.

[05:10] 이 모델은 프론트엔드 작업에는 훌륭하지만

[05:12] 다른 건 별로입니다.

[05:16] 3JS처럼 정확한 치수를 설정하고

[05:18] 기타 등등이 필요한 논리적 추론에 있어서는

[05:21] 정말 명백하게 실패합니다.

[05:24] 저는 정말 이해가 안 갑니다.

[05:27] 이 모델에 무슨 문제가 있는 건지.

[05:28] 너무 나빠서 충격을 받았고, 여러 곳에서

[05:32] 재확인을 해봐야 했습니다.

[05:34] 여러분도 실제로 이런 프롬프트들을

[05:36] 직접 시도해보고 확인해보세요.

[05:38] 정말 별로입니다.

[05:42] 제 생각에는 이건 그들이

[05:43] 라이브 스트림에서 말한 것과 연관되어 있는데,

[05:45] 바로 합성 데이터로 훈련시켰다는

[05:48] 것입니다.

[05:50] 합성 데이터란, 잘 모르시는 분들을 위해 설명하면

[05:51] 기본적으로 큰 모델의 능력을

[05:54] 더 작은 모델로 증류하는 것입니다.

[05:56] 이 경우 03 같은 더 큰 모델에게

[05:59] 요청해서

[06:03] 사용 가능한 정보를 압축된 형태로

[06:05] 합성하는 데이터를 만들게 하는 것입니다.

[06:08] 이것은 벤치마크에는 좋습니다.

[06:10] 벤치마크 문제들은

[06:12] 쉽게 압축될 수 있고, 일반적으로

[06:14] 이런 모델들은 그런 문제들에서

[06:16] 좋은 성능을 보입니다.

[06:19] 하지만 실제 업무에 있어서는

[06:21] 명백하게 실패합니다.

[06:23] 이것의 좋은 예가 Microsoft FI 모델들입니다.

[06:27] 그들은 주로 모델들을 위해서 그런 일을

[06:30] 합니다. 제 생각에는 여기서도 같은 일이

[06:33] 일어나고 있는 것 같습니다. 어떻게 그들이

[06:35] 향상되지 않고 오히려 떨어질 수 있는지

[06:38] 모르겠습니다.

[06:40] 04 mini는 괜찮았는데, 이건 그에 비해

[06:44] 훨씬 나쁩니다. 사용해보려고 했는데

[06:47] 윈드서프에서도 시도해 봤는데

[06:49] 커서와 함께 데모를 보여줬지만

[06:52] 내 질문에는

[06:53] 전혀 작동하지 않습니다.

[06:55] 실제 사용 사례에서도

[06:57] 잘 동작하지 않아요.

[07:00] 정말 이해가 안 됩니다.

[07:02] 인터넷에서 어떤 사람들은

[07:04] 이게 AGI라고 하더군요. 그런데 제가 직접

[07:07] 테스트해보니 정말 끔찍한 결과가 나왔습니다.

[07:10] 여러분도 직접 테스트해보시고

[07:12] 이런 프롬프트들도 시도해보세요.

[07:15] 정말 나쁩니다, 특히 이런 프롬프트에서는요.

[07:19] 여러분도

[07:20] 어떻게 생각하시는지

[07:22] 댓글로 공유해 주세요. 저는 이런

[07:25] 형편없는 모델을 돈 주고 쓸 생각이 없습니다.

[07:29] 이 모델이 전혀 마음에 들지 않고

[07:31] 당분간 사용할 생각도 없어요.

[07:34] 오픈AI의 릴리스들을 보니

[07:37] 앤트로픽과 제미나이 모델들에 대한

[07:40] 존경심이 더욱 높아지네요.

[07:43] 앤트로픽과 제미나이에

[07:46] 15달러 내는 것도 괜찮다고 생각해요. 오픈AI는

[07:49] 이제 게임 끝인 것 같습니다. 도대체

[07:52] 어떤 쓰레기 같은 모델들을

[07:53] 만들고 있는지 모르겠어요.

[07:55] 실제 사용 사례에서는

[07:57] 아무것도 제대로 작동하지 않고

[07:59] 이제 희망을 잃었습니다. 오픈소스 모델도 엄청나게 나쁘고

[08:04] 클로즈드 소스 모델도 엄청나게 나빠요.

[08:07] 거의 모든 사용 사례에서

[08:09] 그냥 나쁩니다.

[08:11] 여러분들이 아직도

[08:13] 소넷이나 제미나이, 또는 GPT-5를

[08:16] 사용하고 있는지 알려주세요.

[08:18] 소넷이나 제미나이보다 50~80% 정도

[08:21] 성능이 떨어지는 모델을 쓸 이유를

[08:24] 모르겠거든요. 차라리 제미나이 플래시를

[08:27] 쓰겠습니다. 테스트는 여기까지입니다.

[08:30] 정말 실망스럽네요.

[08:33] 전반적으로 별로 좋지 않습니다. 어쨌든

[08:36] 아래 댓글로 생각을 공유하시고

[08:38] 채널을 구독해 주세요.

[08:40] 슈퍼땡스 옵션으로 후원하거나

[08:42] 채널에 가입하셔서

[08:44] 혜택을 받으실 수도 있습니다.

[08:47] 다음 영상에서 뵙겠습니다. 안녕히 계세요.