산업계가 GPT-5에 보인 반응

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이 영상은 GPT-5 출시 이후 업계 전반에 걸친 극명하게 엇갈린 반응을 종합적으로 다룹니다. 샘 올트먼을 비롯해 독립 벤치마크, 경쟁사, 콘텐츠 크리에이터, 엔지니어 등 다양한 관점에서 GPT-5의 성능, 비용, 사용자 경험, 보안 취약점을 분석합니다. 벤치마크 수치뿐 아니라 모델의 분위기(vibe), 토큰 효율, 에이전트 기능 등 실제 활용 관점에서 GPT-5가 남긴 의미를 조명합니다.

주요 키워드

GPT-5 benchmark reasoning effort configuration token efficiency model router long context reasoning agentic capabilities jailbreak hybrid model customization

하이라이트

  • 🔑 샘 올트먼은 GPT-4X 사용자 애착을 과소평가했으며, GPT-5에 사용자별 커스터마이징 기능을 강화할 계획이라고 밝혔습니다.
  • ⚡️ Artificial Analysis 벤치마크에서 GPT-5는 네 가지 reasoning effort 설정으로 지수 68을 기록했으며, minimal 모드도 4.1보다 토큰 효율적입니다.
  • 🌟 LM Arena 평가에서 GPT-5는 텍스트, 코딩, 수학, 장문 쿼리 분야 모두 ELO 1481로 1위를 차지했습니다.
  • 📌 일부 이용자들은 GPT-5가 Opus 4.1보다 정확도와 속도 모두 뒤처진다고 지적했으며, 오픈소스 GPTO OSS 12B의 선전을 꼽았습니다.
  • 🚀 Jailbreak 시도에서도 GPT-5의 reasoning version은 다단계 우회가 필요할 만큼 방어가 강화되었지만, non-deterministic 속성으로 완전 차단은 어렵습니다.
  • 🥇 가격 경쟁력 측면에서 GPT-5는 입력 토큰당 $1.25, 출력 토큰당 $10로 Opus 4.1보다 5배 저렴해 더 많은 확산을 기대할 수 있습니다.
  • 💡 벤치마크 수치가 포화 단계에 달하자 모델의 분위기(vibe)와 실사용 경험이 중요해졌으며, Swebench는 여전히 새로운 벤치마크 개발을 주장합니다.

용어 설명

benchmark

모델의 지능·성능을 객관적인 테스트로 평가하는 표준화된 지표

reasoning effort configuration (추론 노력 구성)

GPT-5가 쿼리에 대해 더 많이 또는 적게 사고하도록 조절하는 설정 옵션

token efficiency (토큰 효율성)

주어진 작업을 수행할 때 사용하는 토큰 수 대비 성능 비율

hybrid model (하이브리드 모델)

다양한 규모·버전의 내부 모델을 자동으로 조합해 사용하는 통합 아키텍처

model router (모델 라우터)

입력 프롬프트에 맞춰 적절한 내부 모델 버전으로 자동 연결해 주는 기능

long context reasoning (장문 맥락 추론)

수천 토큰에 달하는 긴 텍스트를 이해·추론하는 모델의 능력

agentic capabilities (에이전트 기능)

외부 도구나 API를 호출해 자율적으로 작업을 수행하는 모델 특성

non-deterministic (비결정론적)

같은 입력에도 내부 확률에 따라 출력이 달라질 수 있는 모델 속성

jailbreak (탈옥)

시스템의 안전·정책 필터를 우회해 금지된 답변을 얻어 내는 기법

[00:00:00] 도입 및 반응 요약

GPT-5 출시 후 산업계에서 찬사와 비판이 동시에 터져 나왔다는 점을 소개하며, 주요 대화 흐름과 논점을 개괄적으로 제시합니다.

GPT5는 출시 이후 업계에서 가장 논란이 많은 모델로, 사용자들 사이에서 극명하게 갈린 반응을 보이고 있다.
[00:00:17] 샘 올트먼의 코멘트

샘 올트먼은 GPT-4X 사용자들이 모델과 친밀감을 형성한 점을 과소평가했다면서, GPT-5에 사용자별 커스터마이징 기능을 강화하고 ‘따뜻한(warmer)’ 성격을 조정할 계획임을 밝혔습니다.

샘 알트만은 출시 후 피드백을 바탕으로 GPT-4o에 대한 사용자들의 애착을 과소평가했다고 인정하며, 사용자 맞춤화 기능의 필요성을 강조했다.
전문가들에게는 모델 선택권이 중요하다는 점을 인정하고, GPT5를 더 따뜻한 성격으로 개선하겠다고 약속했다.
[00:01:26] 독립 벤치마크 – Artificial Analysis

Artificial Analysis가 4단계 reasoning effort 설정으로 GPT-5를 평가한 결과, 인텔리전스 인덱스 68점 기록 및 최소 설정에서도 GPT-4.1 대비 토큰 효율이 크게 개선된 사실을 공유합니다.

Artificial Analysis의 독립적인 벤치마크에서 GPT5는 4가지 추론 노력 설정을 제공하며, 각각 성능과 비용에서 큰 차이를 보인다.
GPT5는 AI 지수에서 68점으로 새로운 기준을 세웠지만, 토큰 사용량은 설정에 따라 최대 23배까지 차이가 나며 여전히 벤치마크의 한계에 대한 논의가 계속되고 있다.
[00:02:18] GraphGate 그래프 논란

OpenAI 라이브스트림에서 제시된 성능 그래프의 수치와 막대 높이가 맞지 않아 밈이 된 사례를 짚으며, 사람도 실수를 한다는 점을 유머러스하게 언급합니다.

GPT-5는 단 350만 토큰으로 4.1보다 훨씬 효율적이며, 토큰 효율성이 더 빠른 속도와 낮은 비용을 제공한다고 설명합니다.
긴 맥락 추론 벤치마크를 통해 GPT-5가 긴 시퀀스에서 뛰어난 성능을 보이며, 이는 에이전트 코딩에서 대량 코드베이스 처리에 중요하다고 강조합니다.
OpenAI가 에이전트 능력 개선을 위해 if Bench를 추가했으며, 웹사이트에서 모델 간 성격 테스트와 프롬프트 비교가 가능하다고 소개합니다.
인공 분석의 지능 지수에서 GPT-5 하이가 69점으로 1위를 기록했으며, 29일 만에 XAI의 Grok-4를 제치고 최고 자리를 되찾았다고 발표합니다.
GPT-5에 대한 양극화된 반응을 언급하며, 라이브 스트림에서 제시된 그래프의 오류들에 대해 설명하지만 이를 인간의 자연스러운 실수로 받아들여야 한다고 조언합니다.
그래프 오류에도 불구하고 GPT-5는 여전히 좋은 모델이라고 평가하며, 스폰서인 Abacus의 Chat LLM을 통해 다양한 AI 모델을 한 곳에서 이용할 수 있다고 소개합니다.
[00:05:18] 스폰서 소개 – Chat LLM by Abacus AI

여러 LLM을 한곳에 모아주는 통합 플랫폼으로, 모델 라우팅, PDF 대화, 텍스트·이미지·영상 생성 기능을 제공해 구독 서비스 비용과 사용 편의성을 동시에 잡는 솔루션을 소개합니다.

Abacus AI의 ChatLLM 플랫폼을 소개하며, 최신 모델들과 Route LLM 기능으로 프롬프트에 따라 최적의 모델을 자동 선택해주는 서비스라고 설명합니다.
PDF 문서 분석, 텍스트-이미지/비디오 생성, Deep Agent를 통한 웹사이트 구축이나 게임 제작 등 다양한 AI 기능들을 월 10달러에 제공한다고 소개합니다.
ChatLLM이 Opus 4.1, GPTO OSS120B, GPT-5 등 최신 프론티어 모델들을 출시 당일부터 제공하며, 스폰서십에 감사를 표합니다.
[00:06:58] LM Arena 평가 결과

LM Arena에서 텍스트, 웹 개발, 비전, 코딩, 수학, 창의성, 장문 쿼리 등 모든 분야에서 GPT-5가 ELO 1481로 1위를 기록해 벤치마크 경쟁에서 압도적 우위를 보인 점을 설명합니다.

LM Arena 평가 결과를 분석하며, GPT-5가 'Summit' 코드명으로 테스트되어 모든 분야에서 1위를 차지했다고 발표합니다.
GPT-5가 ELO 1481점으로 1위, Gemini 2.5 Pro가 1460점으로 2위를 차지했고, 기존 GPT-4는 5-6위까지 내려왔다고 분석합니다.
Theo GG의 의견을 인용하며 벤치마크보다는 실제 사용성이 중요하다고 강조합니다. GPT-5는 지시사항을 정확히 수행하는 능력이 뛰어나다고 평가합니다.
AImE 2025 같은 벤치마크가 포화상태에 도달한 상황에서는 더 이상 지능 점수의 미세한 차이가 중요하지 않다고 주장합니다.
[00:08:22] 포스트 벤치마크 관점

Theo GG는 단순 점수보다 모델의 ‘분위기(vibe)’와 실사용 경험이 중요해졌다며 포스트 에밸(Post Eval) 관점을 강조하고, Swebench 팀은 새로운 벤치마크 개발을 이어가겠다고 밝혔습니다.

벤치마크가 포화되고 나면 모델의 '분위기'와 실제 사용감이 가장 중요하다고 설명합니다. 명령어 처리 능력, 긴 맥락 처리, 코딩 시 느낌 등 무형의 요소들이 핵심이라고 강조합니다.
Swebench 팀과의 대화를 인용하여 '사후 평가보다는 구체적인 벤치마크가 중요하다'는 의견을 소개하면서도, 개인적으로는 벤치마크보다 일상적 사용에서의 실제 성능이 더 중요하다고 말합니다.
Theo라는 인물이 GPT-5의 성능에 대해 매우 긍정적으로 평가했다고 소개하며, 자신도 GPT-5의 큰 팬이라고 밝힙니다. 하지만 많은 사람들이 실패작이라고 생각한다며 다른 반응들을 살펴보겠다고 합니다.
Stage Hand라는 브라우저 사용 API 팀의 평가 결과를 소개합니다. GPT-5가 Claude Opus 4.1보다 속도와 정확도 모두에서 떨어진다는 결과를 제시하며, 오픈소스 모델인 GPT OSS 12B가 놀랍게도 좋은 성능을 보인다고 설명합니다.
[00:09:43] 부정적 피드백 – Stagehand

Stagehand는 브라우저용 API 속도·정확도 평가에서 GPT-5가 Opus 4.1에 뒤처진다고 지적했으며, GPTO OSS 12B 등 오픈소스 모델이 선전한 점을 공유합니다.

속도 측면에서는 Gemini 2.0 Flash가 가장 빠르고 GPT-5가 가장 느리다고 하며, 브라우저 사용에서는 속도가 매우 중요하다고 강조합니다.
[00:10:30] McKay Wrigley 리뷰

평상시 대화용으로는 GPT-5를 기본 채팅 모델로 추천하지만, 코딩 작업은 Claude Code와 Opus를 병행 사용한다는 의견과 함께 모델의 직관적 응답·지연 시간 장단점을 평가합니다.

AI 콘텐츠 크리에이터 McKay Wrigley의 GPT-5 리뷰를 인용합니다. 일상적인 채팅에서는 뛰어난 성능을 보이고 API 가격도 훌륭하지만, 코드 작업에는 여전히 Claude Code와 Opus를 사용할 것이라고 평가했다고 소개합니다.
GPT-5의 성격이 직접적이고 요점을 잘 짚으며, 필요할 때 반박도 하는 아첨하지 않는 스타일이라고 긍정적으로 평가합니다. 환각이 적고 전반적으로 똑똑하며 지연시간도 좋다고 설명하면서, 모델 라우터 기능에 대한 부정적 의견도 언급합니다.
GPT-5가 모델 라우터와 함께 출시되었다고 설명하며, 기존의 4.0, 4.1, 4.5, 03 모델들을 단계적으로 폐지하고 하이브리드 모델과 라우터 시스템을 도입했다고 설명합니다.
하이브리드 라우터 모델의 장점을 설명하며, 프롬프트와 사용 사례에 따라 적절한 모델로 라우팅하는 기능이 매우 유용하다고 평가합니다.
[00:11:54] 탈옥(Jailbreak) 시도

Ply Liberator 사례를 통해 GPT-5 chat reasoning 버전은 다단계 설계로 방어가 강화됐지만, 여전히 non-deterministic 특성으로 완전 차단은 어렵다는 점을 다룹니다.

Pliny의 GPT-5 탈옥 시도에 대해 논의하며, AI 모델의 탈옥이 불가피한 현상이라고 설명합니다. 추론 버전은 복잡한 다단계 접근이 필요했지만, 일반 채팅 버전은 기존 수법으로도 쉽게 뚫렸다고 분석합니다.
LM Arena 인턴이 공유한 GPT-5의 마인크래프트 클론 원샷 생성 예시를 소개하며, 단순하지만 잘 작동하는 결과물이라고 평가합니다.
Boris의 관점을 인용하여 OpenAI가 Apple처럼 주요 혁신보다는 제품의 대중적 어필에 집중하고 있다고 비판하며, 채팅 색상 커스터마이징 같은 기능이 그 예라고 언급합니다.
[00:13:06] 경쟁사 관점 & 커스터마이징

Meta 엔지니어 Voss가 코드 리팩토링 경험을 공유하고, XAI Tony Woo는 소규모 팀으로도 주요 벤치마크에서 경쟁력을 입증했다며 더 많은 모델 출시를 예고합니다.

xAI 공동창업자 Tony Wu의 트윗을 소개하며, 더 작은 팀으로도 많은 벤치마크에서 GPT-5를 앞서고 있다고 자랑하는 내용과 앞으로 몇 주 내에 새로운 모델들을 공개할 예정이라는 발표를 전합니다.
Grok 4의 다양한 버전과 제품들이 향후 몇 달 내 출시 예정이며, 가격 비교에서 GPT-5가 매우 경쟁력 있는 가격을 보여주고 있다고 설명합니다.
[00:14:28] 가격 구조 분석

Claude 4.1 대비 GPT-5는 입력 토큰당 $1.25, 출력 토큰당 $10으로 약 5배 저렴해 비용 혁신을 이뤘고, 저렴해진 가격이 생태계 확산에 미칠 긍정적 효과를 강조합니다.

각 AI 모델의 가격을 상세히 비교하며, Claude Opus 4.1이 가장 비싸고 GPT-5가 입력 100만 토큰당 1.25달러로 매우 저렴한 가격을 제시한다고 분석합니다.
가격이 AI 모델 채택에 있어서 핵심 혁신 요소라고 강조하며, 저렴할수록 더 많은 사용자를 확보하고 생태계를 구축할 수 있다고 설명합니다.
컴퓨터 사용 에이전트 테스트에서 GPT-4o는 대부분 실패하지만 GPT-5는 모든 테스트를 통과하여 컴퓨터 사용 능력이 크게 향상되었음을 보여줍니다.
[00:15:47] 컴퓨터 작업 & 의료 활용

Kua 테스트에서 GPT-5가 GPT-4X 대비 컴퓨터 사용 작업을 전부 통과했고, 의료 상담 분야에서도 환자들이 진료 전후로 GPT-5의 의견을 교차 확인하는 사례가 늘어나고 있음을 설명합니다.

OpenAI의 에이든 맥로플린이 GPT-5의 성능을 자화자찬하며, 모든 평가에서 최고 수준을 기록하고 경쟁 모델들보다 훨씬 저렴하다고 주장합니다.
메타 엔지니어 보스의 경험담으로, GPT-5가 전체 코드베이스를 리팩토링했지만 결과적으로 작동하지 않아서 아름답지만 무용지물이었다는 재미있는 사례를 소개합니다.
AI 언어 모델이 의료 분야에서 점점 더 활용되고 있으며, 사람들이 의사보다 AI를 먼저 찾거나 의사의 진단을 AI와 비교하는 현상이 증가하고 있다고 언급합니다.
[00:17:06] AGI 불안·개선 논의

Carl Yang은 AGI 도달 후 자본력이 곧 계급을 결정한다고 우려하며, Replet CEO는 모델 발전 속도가 완만해지는 ‘감쇠 곡선’을 지적해 원시 지능 엔진과 이를 활용하는 아키텍처 구축의 중요성을 언급합니다.

실리콘 밸리에서 널리 퍼진 사고방식으로, AGI 도달 시 기존 자본과 사회적 지위가 영구적인 계층 구조를 형성할 것이라는 우려에 대해 설명을 시작합니다.
AGI 도래 시 사회 계층이 고착화될 것이라는 우려에 대해 설명하며, 샌프란시스코 사람들이 5년 안에 최대한 돈을 벌어야 한다고 생각하는 이유를 전달합니다.
화자는 이런 비관적 전망에 동의하지 않으며 미래에 대해 낙관적이지만, AGI 시대에 자본력이 중요해질 것이라는 사고방식은 이해한다고 말합니다.
구형 AI 모델들의 새로운 명명 체계를 소개하며, GPT-4o가 GPT-5 메인이 되고 다른 모델들도 GPT-5 체계로 통합되었다고 설명합니다.
[00:18:25] 모델 매핑 & 결론

Zeopon이 기존 GPT-4X 버전을 GPT-5 대응 기능으로 매핑해 명명 체계를 단순화한 사례를 소개하고, Semi Analysis CEO의 실망 평가와 ARC AGI 벤치마크 결과를 통해 과열 경쟁이 사용자에겐 긍정적이라는 결론으로 마무리합니다.

업계 전문가들의 GPT-5에 대한 엇갈린 반응을 소개하며, 딜런 파텔은 실망스럽다고 평가하고 여전히 Claude가 더 낫다는 의견들이 있다고 전합니다.
렝플릿 CEO가 수확 체감을 우려하며 새로운 S-커브가 필요하다고 언급한 것에 대해, 화자는 점진적 개선도 괜찮다고 반박하며 모델의 원시 지능을 활용하는 스캐폴딩 구축에 투자해야 한다고 주장합니다.
자동차와 엔진의 비유를 통해 AI 모델의 지능을 실제 성과로 변환하는 중요성을 설명하며, 원시 마력을 전진 모멘텀으로 바꾸는 것처럼 AI의 잠재력을 현실적 가치로 변환해야 한다고 강조합니다.
GPT5는 제가 본 중에 가장 논란이 많았던 모델
출시였습니다. 어떤 사람들은
지금까지 사용해본 모델 중 최고라고
말하는가 하면, 다른 사람들은
Claude 3.5를 계속 쓰겠다고 하고, GraphGate에서는
이제 평가조차 더 이상 의미가 없다고 합니다. 그래서
저는 현재 업계의 모든
반응들을 분석해드리겠습니다.
먼저 샘 알트만 본인의 말부터,
그는 출시 후 피드백을 수집한 다음
몇 가지 업데이트를
제공했습니다. 들어보시죠.
저희는 확실히 GPT-4o에서 사람들이
좋아했던 요소들이 그들에게
얼마나 중요한지 과소평가했습니다. GPT5가
대부분의 면에서 더 나은 성능을 보여도, 이게 의미하는 바는
사람들이 정말로 GPT-4o에 익숙해졌다는 것입니다. 그들은
그것을 알게 되었습니다. 일종의
관계를 형성하기 시작했죠. 그런데 이제
그것을 단순히 폐기하니까
일부 사람들은 약간 화가 났습니다.
사용자들은 4o 대 5의
상대적 강점에 대해 매우 다른 의견을 가지고 있습니다.
장기적으로, 이는 다른
사용자들이 것들을 커스터마이징할 수 있는
좋은 방법이 정말 필요하다는 것을 강화했습니다. 그리고 저도 동의합니다.
다른 모델들 중에서 선택할 필요가 없는 단순함은,
특히 인공지능에
초보인 사용자들에게는
큰 강점이며 전체 경험을
정말 단순화합니다.
하지만 저 같은 사람이나, 아마
여러분 중 많은 분들에게는, 어떤 사용 사례에
어떤 모델을 사용할지 선택할 수 있는 능력이
매우 중요합니다. 저희는
GPT5 롤아웃을 완료하고
안정화하는 데 집중할 것입니다. 그다음
GPT5를 더 따뜻하게 만들기 위한
변경 사항들에 집중할 것입니다. 확실히
4o의 성격에는
5와는 매우 다른 뭔가가
있었습니다. 좋습니다. 이제 몇 가지
독립적인 벤치마크들을 보여드리겠습니다.
여기 Artificial Analysis의
독립적인 벤치마크가 있습니다. OpenAI가
저희에게 조기 액세스를 제공했습니다. 훌륭하죠. 저희는
모든 추론 노력 구성에서
전체 8개 평가 스위트를 독립적으로
실행해야 했습니다. 그리고
여기 몇 가지 요점들이 있습니다.
추론 노력 구성. GPT5는
네 가지 구성을 제공합니다. 높음,
중간, 낮음, 그리고 최소. 추론
노력 옵션들은 모델이 각 쿼리에 대해
더 많이 또는 더 적게 생각하도록 조정합니다. 이는
하이브리드 모델의 매우 좋은 기능입니다.
이것은 지능, 토큰 사용량,
속도, 비용에서 큰 차이를
만들어냅니다. 이러한 설정을 조정하여 달성되는
지능은 최첨단에서
GPT 4.1 수준까지 다양합니다. 5는 저희
인공지능 지수에서 68점으로
새로운 기준을 세웠습니다. 바로
그것입니다. 새로운 기준이죠. 맞습니다, GPT5는
벤치마크를 압도하고 있습니다. 하지만
물론 벤치마크가 전부는 아닙니다.
실제로 일부 사람들은 우리가
벤치마크 이후, 평가 이후 시대에 있다고 생각하며,
잠시 후 그에 대해 다루겠습니다. 토큰 사용량은 추론 노력에 따라
23배까지 달라집니다. 높은
추론 노력은 O3보다 더 많은 토큰을 사용했습니다,
저희 지수를 완성하는 데 8200만 대 5000만이지만,
여전히 Gemini 2.5 Pro의 9800만과
DeepSeek의 9900만보다는 적습니다. 최소 추론 노력
단 350만 개의 토큰만 사용했습니다
4.1보다 훨씬 적어서 GPT-5를 만들었죠
최소한으로도 훨씬 더 토큰
효율적으로 비슷한 지능을 구현합니다
그리고 토큰 효율성은 매우 중요합니다
더 빠른 속도와 더 낮은 비용을 의미하기 때문이죠
긴 맥락 추론에서 우리는 이번 주 초에
자체적인 긴 맥락 추론 벤치마크를 발표했습니다
긴 시퀀스 길이에서 모델들의 추론
능력을 테스트하기 위해서죠
GPT-5는 그 성능으로 두각을 나타냅니다
이것은 에이전트 코딩에서 매우 중요합니다
대량의 코드베이스를 모델에 로딩할 때
처음, 중간, 그리고 끝을
쉽게 참조할 수 있기를 원하기 때문입니다
에이전트 능력에 대해 OpenAI는
AI 모델 사용에서 점점 더 중요해지는
능력 전반의 개선사항에 대해서도 언급했습니다
그것이 바로 에이전트입니다
그래서 최근 그들은 지능 지수에
if Bench를 추가했습니다
명령 따르기와 분위기
체크를 다루기 위해서죠
우리는 웹사이트에서 마이크로 평가를 통해
모델의 성격을 테스트하고 있습니다
동일한 프롬프트를 여러 모델에서 실행하고
결과를 비교할 수 있도록 지원합니다
그럼 여기를 보겠습니다. 이것이 지수입니다
이것은 인공 분석(Artificial Analysis)에서
독립적으로 실행한 여러 벤치마크의 지수입니다
그리고 1위는 GPT-5 하이로 69점입니다
GPT-5 미디움이 68점, 그 다음 Grok-4가 동점 68점
O3가 67점 등등이네요. 여기 GPT-5 로우가 63점
그리고 맨 아래 GPT-5 미니멈이 있습니다
이제 OpenAI가 29일 만에
AI 지능에서 1위를 되찾았습니다
XAI의 Grok-4에 이어 말이죠
따라서 인공 분석에 따르면
GPT-5는 환상적입니다. 계속 살펴보죠
GPT-5에 대한 반응이
얼마나 양극화되어 있는지 놀랍기 때문입니다
그런데 잠시 그래프게이트에 대해 얘기해보죠
분명히 많은 사람들이 라이브 스트림에서
제시된 일부 그래프들과
그것들이 틀렸다는 것에 대해 얘기하고 있습니다
보세요, 저는 이제 모델 준비하고
모든 그래프 준비하고
라이브 스트림 준비하는데
얼마나 많은 노력이 들어가는지 압니다
그리고 보세요, 인간은 실수를 합니다
모델처럼 우리도 환각을 일으키죠
그래서 모든 사람이 얘기하는 것은
바로 여기입니다. 그래프를 보세요
OpenAI O3가 69점, GPT-4o가 30점인데
이 두 막대는 정확히 같은 높이입니다
그리고 74.9가 여기 위에 있는데
이 막대의 크기와 비교했을 때
별로 말이 안 되죠
그리고 여기 52.8도 보실 수 있습니다
다시 69.1보다 높네요
보세요, 큰 일은 아닙니다
웃기죠. 이제 밈이 됐어요
하지만 사람은 실수를 합니다
그리고 아시잖아요? 여전히 좋은 모델입니다
그리고 만약 GPT-5를 지금 당장
다른 최첨단 모델들과 함께
한 곳에서 시도해보고 싶다면
오늘 비디오의 스폰서인
Abacus의 Chat LLM을 확인해보세요
저처럼 여러 AI 서비스에
구독하고 계시고
항상 그것들 사이를 오가신다면
좀 짜증나고 비싸기도 하죠
바로 여기서 Abacus AI의 Chat LLM이 등장합니다
최신 최고 모델들을 제공하는
선도적인 모델 공급업체들의 서비스입니다. 그리고
Route LLM이라는 기능도 있는데
프롬프트에 따라 자동으로 최적의 모델을
선택해서 전송해주는 기능입니다.
즉, 적절한 LLM으로 프롬프트를
라우팅해주는 거죠. 물론
PDF와도 대화할 수 있습니다.
원하는 문서를 업로드하고 쉽게
질문하고, 인사이트를 추출하고, 데이터를
수집하는 등 기존 문서에서
필요한 모든 작업이 가능합니다. 뿐만 아니라
텍스트-이미지, 텍스트-비디오
모델도 있어서 멋진 이미지와
비디오를 쉽게 생성할 수 있습니다.
최근에는 Deep Agent도
도입했는데, 이는 매우 강력한
AI 에이전트로 거의 모든 작업이 가능합니다.
웹사이트 구축, 앱 개발,
프레젠테이션 제작, 연구
보고서, 챗봇, 심지어
게임 제작까지 가능합니다. Deep Agent는
Coin Coder 같은 오픈소스 모델을 포함해
6-10개의 서로 다른 LLM을 결합해서
작업을 완료합니다. Chat LLM은
Opus 4.1을 포함한 모든 최신
프론티어 모델들과 최신 오픈소스 GPTO OSS120B를
제공하고, 물론 GPT-5도 출시 당일
바로 사용할 수 있습니다. 이 모든 것을
월 단 10달러에 제공합니다.
chatlm.abacus.ai를 확인하시거나
설명란의 링크를 클릭해보세요.
제가 보냈다고 말씀해주시면
정말 감사하겠습니다. Abacus AI에
다시 한번 감사드립니다. 이제 영상으로 돌아가서
LM Arena라는 또 다른 평가를 살펴보겠습니다.
GPT-5가 나왔고 모든 분야에서
1위를 차지했습니다. Artificial
Analysis에 이어 이제 LM Arena에서도
GPT-5가 다른 모든 모델들 중
1위라고 발표했습니다. 텍스트, 웹개발,
비전 아레나에서 1위, 어려운 프롬프트,
코딩, 수학, 창의성, 긴 쿼리
등에서도 1위입니다. 'Summit'이라는
코드명으로 테스트되었습니다. 궁금하셨던 분들을 위해
말씀드리자면 그게 코드명이었습니다.
여기 아레나 점수를 보시면
ELO 1481점입니다. 2위는 Gemini 2.5 Pro가
1460점으로 20점 차이입니다. 그다음
O3가 있고... 최신 GPT-4는
5위까지 내려왔네요. 실제로는
6위인데 왜냐하면 어떤 이유로
2위가 두 번 표시되어 있거든요.
점수는 다르지만요. 어쨌든
LM Arena에서 1위입니다. 하지만 제가
말했듯이, 벤치마크는 더 이상
중요하지 않습니다. Theo GG의
이 게시물이 매우 중요한 관점을 제시합니다.
지능 벤치마크는 이제
신경 안 써요. GPT-5를 써본 후론 말이에요.
시키는 대로 정확히 수행합니다. 다른 어떤 모델도
이만큼 잘 작동하지 않아요. 믿어주세요.
에디터에서 직접 써보기 전까진
판단하지 마세요. 도구를 주고,
지시사항을 주고, 어떻게 작동하는지
지켜보세요. 여기서 주목할 점이
몇 가지 있습니다. 첫째, 그는
지능 벤치마크에 신경 쓰지 않는다는 것입니다.
저도 얼마 전부터 이렇게
말해왔어요. AImE 2025에서 1점
차이만 나거나 AImE 2025가
완전히 포화상태가 되었을 때(GPT-5는 100% 점수를 기록했습니다),
이런 지능의 향상은 별로 중요하지 않습니다.
벤치마크가 포화상태가 된 후에는
벤치마크가 포화되고 나면 두 가지가 중요해집니다. 첫 번째는,
달리 설명할 방법을 모르겠지만,
모델의 '분위기'입니다. 명령어 따라하기가
얼마나 잘 되는지? 긴 맥락 창을
얼마나 잘 처리하는지?
사용할 때 어떤 느낌인지?
코딩할 때는 어떤 느낌인지?
이런 모든
무형의 요소들 말이죠. 하지만 동시에,
어제 Swebench 팀과 라이브 스트림에서
대화를 나눴는데 그들이 말하더라고요.
"저희는 사후 평가를 믿지 않습니다. 모델에
어떤 특성이 있다면 저희가
그것을 위한 벤치마크를 만들 수 있어요." 그래서
정말 그랬으면 좋겠어요. 하지만
개인적으로는 더 이상 벤치마크에
그렇게 관심이 없어요. 보는 건 재미있고
최전선 수학 문제들을
포화시키는 걸 보는 것도 재미있고,
최전선 과학 문제들도 마찬가지지만, 결국
중요한 건 제 일상적인
사용 사례에서 얼마나 잘 작동하느냐 하는 거죠. 그리고
두 번째로는, Theo도 영상을 올렸는데
GPT가 기본적으로
자신을 무섭게 한다고 했어요. 그 정도로 뛰어나다는 거죠. 그래서
그는 엄청난 팬이에요. 그리고 다시 말하지만, 저도 그런
편이에요. 저도 GPT-5의 엄청난 팬이지만,
큰 실패작이라고 생각하는
사람들도 많아요. 다른 쪽
반응들을 좀 살펴보죠. 이제 이건
Stage Hand라는 브라우저 사용 API에서 나온 건데,
GPT-5가 실제로는 다른
모델들보다 못하다고 하네요. 새로운 GPT-5가
Opus 4.1보다 성능이 떨어지고
Stage Hand 평가에서는 속도와 정확도
둘 다 떨어진다고 해요. 더 작은
모델들은 더 빠르지만, 여전히
Opus 4.1에는 못 미친다고 하네요. 가장 정확한
모델들을 보면 Opus 4.1이 1위고, 몇
퍼센트 포인트 뒤에 GPT-5가 있어요. 그리고
놀랍게도 여기 보세요. GPT 오픈소스 12B.
오픈소스 모델이 실제로
정말 뛰어난 성능을 보여주는데, 이건
정말 보기 좋네요. 그다음 속도를 보면,
당연히 Gemini 2.0 Flash가 맨 위에 있고
GPT-5가 맨 아래에 있어요. 속도는
브라우저 사용에 대해 얘기할 때
매우 중요하죠. 여기 McKay Wrigley가 있는데,
또 다른 AI 콘텐츠 크리에이터예요. 제 솔직한
GPT-5 리뷰입니다. 일상적인 채팅에는
정말 뛰어난 모델이에요. 모든 일반적인 채팅에서는
기본적으로 이걸 쓸 거예요. API 가격도 훌륭하고요.
여기 중요한 포인트예요. 잠시 후에 보여드릴게요. 하지만
코드 작업에는 여전히 Cloud Code와
Opus를 쓸 거예요. McKay가 지적한
몇 가지 다른 점들이 있어요. 정말 GPT-5의
성격이 마음에 들어요.
저도 동감해요. 직접적이고 요점을 잘 짚어요.
필요한 곳에서는 반박도 하고.
전혀 아첨하지 않아요. 정말
그 점이 마음에 들어요. 그리고 그가 실제로
그걸 지적했어요. 아첨하지 않는다고. 개인적으로는
아마 더 까칠해도
괜찮을 것 같아요. 환각이
적고, 네, 저도 그걸
느꼈어요. 전반적으로 정말 똑똑하고
지연시간도 좋아요. 네, 정말 빠르고
그게 마음에 들어요. 그리고 그는 실제로
모델 라우터 기능을 싫어한다고 했어요.
잘 모르실 텐데, GPT-5는
모델 라우터와 함께 출시됐어요. 그래서
기본적으로 구형 모델들인 4.0, 4.1, 4.5, 03을
모두 단계적으로 폐지하면서, 대신에 이
하이브리드 모델을 만들었고 라우터가
프롬프트와 사용 사례에 따라 가장 적절한 모델의 크기와 속도로
라우팅해 줍니다.
개인적으로 정말 마음에 듭니다.
그리고 모델이 생각을 시작하면
'빠른 답변 받기' 버튼이 있어요.
정말 멋지죠. 자, 잠깐
주제를 바꿔서
Pliny에 대해 얘기해 봅시다.
그가 탈옥을 시도할 거라는 건 알고 있었죠.
이 시점에서는 불가피한 일이에요.
아침에 해가 뜨는 것과 같죠.
일어날 수밖에 없는 일이고
막을 방법은 없어요.
해방자 Pliny가 GPT-5를 탈옥시켰습니다.
그가 제시한 예시는 모델로부터
LSD 제조법을 얻는 것이었어요.
보여드리지는 않겠습니다.
그가 어떻게 했는지 들어보세요.
추론 버전은 영리한 다단계
조작 노력이 필요했습니다.
즉, 탈옥이 그렇게 쉽지 않았다는 뜻이죠.
하지만 GPT-5 채팅 최신 버전은
똑같은 오래된 수법으로도 완전히 뚫려요.
이런 모델들은 비결정적입니다.
이런 모델들은 내부적으로 모멘텀을 가지고 있어요.
탈옥시킬 방법들이 있습니다.
소셜 엔지니어링처럼
이런 모델들이 비결정적으로 남아있는 한
계속 일어날 수밖에 없어요.
LM Arena의 인턴, Thege라는 분이 보낸
예시가 여기 있습니다.
GPT-5가 원샷으로 마인크래프트 클론을 만들었어요.
한번 봐보죠. 분명히 매우 단순한 버전이지만
이건 원샷입니다.
보시다시피 잘 작동하는 것 같네요.
물론 인터넷에는 많은 참고 자료가 있고
모델이 아마 그걸로 훈련되었을 거예요.
마인크래프트가 정말 엄청나게
인기가 많으니까요.
Boris는 조금 다른 견해를 가지고 있어요.
'GPT-5는 AGI가 아니지만
채팅 색상은 맞춤 설정할 수 있다.'
'OpenAI가 Apple이 되고 있다.'
그가 의미하는 바는 기본적으로
OpenAI가 Apple과 비슷하게
주요 혁신의 속도를 늦추고 있다고
생각한다는 거예요.
대신 이제 제품을 더 광범위하게
세상에 어필하려고 하고 있다는 거죠.
그래서 색상 얘기를 한 거예요.
네, 저는 여기 버블 색상에는
전혀 관심이 없어요.
그리고 이게 실제로 유료 기능이라는 게
웃기긴 하지만, 뭐 좋아요.
ChatGPT를 더 맞춤 설정하고 싶다면
좋습니다. 다음으로,
xAI의 공동창업자 Tony Wu입니다.
공동창업자가 있는 줄도 몰랐는데
다행히 찾았고 팔로우했어요.
'GPT-5 출시를 본 후 xAI를 매우 자랑스럽게 생각한다.
훨씬 작은 팀으로도 많은' - 아마 많은
벤치마크에서 앞서고 있다는 뜻 같아요.
'Grok 4는 세계 최초의 통합 모델이다.'
정말로 최초의 통합 모델이었고
ARC AGI 같은 벤치마크에서 GPT-5를 압도하고 있어요.
네, ARC AGI에서는 Grok 4가 정말
지배적이었던 것 같아요.
하지만 이건 여러 벤치마크 중 하나일 뿐이고
벤치마크가 정말 무엇을 의미하는지는
다시 생각해봐야겠죠.
'OpenAI는 매우 존경할 만한 경쟁자이고
여전히 많은 분야에서 선두를 달리고 있지만
우리는 빠르고 끈질기다.
앞으로 몇 주 안에 공유할 새로운 모델들이 많다.'
이걸 보니 정말 멋지네요. 더 많은 모델을 얻게 될 거고
Grok 4 런칭의 일환으로 앞으로 몇 달
안에 출시될 예정입니다. 시간에 맞춰
나올지 두고 보죠. 이제 가격에 대해
얘기해보겠습니다. 이건 사이먼 윌리스의
블로그에서 가져온 내용입니다. 이걸 보세요.
클로드 오푸스 4.1이 압도적으로 가장 비싸서
입력 100만 토큰당 15달러, 출력 100만
토큰당 75달러입니다. 그에 비해 Grok은
3달러네요. 오푸스 4.1 대비 80% 가격
절감입니다. Grok 4는 입력 100만 토큰당
3달러, 출력 100만 토큰당 15달러구요.
그리고 맨 아래까지 내려가보면 GPT-5는
입력 100만 토큰당 1.25달러, 출력 100만
토큰당 10달러입니다. 놀라운 가격이죠.
그리고 정말로 그들이 여기서 이룬 가장
큰 혁신 중 하나는 가격이었다고 생각합니다.
왜냐하면 가격이 너무 중요하거든요.
더 저렴할수록 더 많은 사람들이
사용할 것이고, 더 많은 사람들이
사용할수록 당신이 생태계의 일부가
되는 거죠. 이미 한 브라우저 제어
에이전트의 의견을 보여드렸는데,
이제 다른 것도 보여드리겠습니다.
이건 컴퓨터 사용 에이전트용 Kua GPT-5입니다.
같은 작업, 같은 기반 모델인데 4를
5로 바꾼 것뿐입니다. 왼쪽에선
4를 보고 있고, 오른쪽에선 5를
보고 있습니다. 보시다시피 GPT-4o는
이런 컴퓨터 사용 작업에서 대부분
실패합니다. 반면 오른쪽에서는 GPT-5가
같은 테스트를 모두 통과하는 걸 볼 수
있습니다. 그러니까 컴퓨터 사용에 훨씬
더 뛰어난 것 같네요. OpenAI의
에이든 맥로플린의 말입니다. 그러니까
그가 하는 말은 걸러들으셔야 해요.
GPT 빠른 팩트: 거의 모든 평가에서 최고
수준을 기록했습니다. 클로드 4.1보다
훨씬 뛰어납니다. 소프트웨어 엔지니어링
분야인 오푸스 sui에서도요. 아마 sui
벤치를 의미하는 것 같네요. 오푸스보다
5배 이상 저렴합니다. 이건 정말
중요합니다. 소넷보다 40% 이상 저렴하고,
어떤 모델보다도 최고의 작문 품질을
제공합니다. 이건 어떻게 판단할 수
있는지 잘 모르겠어요. 거의 완전히
주관적인 부분이니까요. 그리고 훨씬 덜
아첨적이라고 하네요. 메타의 엔지니어인
보스의 말입니다. GPT-5가 한 번의 호출로
제 전체 코드베이스를 리팩토링했어요.
25번의 툴 호출, 3,000줄의 새 코드,
12개의 완전히 새로운 파일. 아직 흥분하지
마세요. 이것 좀 들어보세요. 모든 걸
모듈화했어요. 모놀리스를 분해하고,
스파게티 코드를 정리했죠. 하나도
작동하지 않았어요. 하지만 정말
아름다웠죠. 정말 웃긴다고 생각했어요.
정말 재미있네요, 보스. 그러니까 엄청난
작업을 했고 모든 걸 리팩토링했지만
결국 작동하지 않았다는 거죠. 그러니까
보스에겐 그리 좋지 않았을지도
모르겠네요. 소피 넷캡 걸의 말입니다.
조용히 하세요, 의사선생님. 언어 모델이
말하고 있잖아요. 이건 이런 언어
모델들이 의료 사용 사례에서 얼마나
뛰어나지고 있는지를 보여줍니다. 그리고
많은 사람들이 의사에게 가기 전에
먼저 모델에게 가고 있고, 심지어 의사에게
간 후에도 아마 "GPT-5가 이렇게
말했는데요. 정말 확실하세요? 당신이
맞나요?"라고 말할 거에요. 그리고
의사들은 아마 그걸 정말 싫어할 겁니다.
칼 양의 말입니다. '오늘 영구 하층계급에서
안전하게 벗어났다'고 표시됐네요.
이게 무슨 뜻인지 조금 설명해드리겠습니다.
당신이 속한 사회 계층이
거의 고착화될 거라는 생각이죠
왜냐하면 실제로 당신의 레버리지는
AGI 컴퓨팅 파워에 투입할 수 있는
자본력에만 의존하게 될 테니까요. 그리고
샌프란시스코에서 만난 사람들로부터
실제로 이런 말을 들었어요
그들이 말하길, "앞으로 5년 안에
최대한 많은 돈을 벌어야 해
AGI가 오면 모든 게 끝나니까.
그래서 5년 안에 천만 달러나
아니면 뭐 그런 말도 안 되는
금액을 벌어보려고 해." 저는
이런 생각에 전혀 동의하지 않아요. 미래에 대해
훨씬 더 낙관적이지만
그들의 사고방식은 이해합니다. 저는
왜 그들이 AGI가 도래하면
정말로 인간이 할 수 있는 모든 일을
수행할 수 있게 되고, 그러면 정말로
모델을 위한 컴퓨팅 파워에
얼마나 많은 자본을 투입할 수 있느냐가 관건이 될 거라고
생각하는지 이해합니다. 매우 재미있게도
칼 막스가 영구 하층 계급으로부터 안전해졌네요
오늘 말이죠. 그리고 만약 여러분이 구형 모델들이
더 이상 사용되지 않는다고 해서 조금 슬프다면
여기 제오폰이 구형 모델들을
새 모델 기능과 연결하는
좋은 방법을 제공했습니다. 한번 보세요. GPT-4o가 있는데
기본적으로 이제 GPT-5 메인이고
4o 미니는 물론 메인 미니이고, o3는
GPT-5 thinking 미니, 나노, 프로입니다
다시 미니, 나노, 프로죠. 우리는 이런
이름들을 가지고 있었고, 어느 정도 다시 가지게 되었지만
이들은 모두 GPT-5입니다. 더
단순한 명명법이 좋아요. 만약 여러분이
이런 모델 중 하나를 사용하고 있었는데
어떤 모델을 사용해야
동일한 기능을 얻을 수 있는지
헷갈렸다면, 바로 여기 있습니다.
딜런 파텔, 채널의 친구이자
세미 어날리시스의 CEO 겸 창립자가
GPT-5는 실망스럽다고 말했어요
솔직히 말해서요. 그는 그 이상으로는
자세히 설명하지 않았습니다. 댓글을 확인해서
좀 더 명확한 설명이 있는지 보겠습니다.
산티아고가 말하길, "너 코딩이나 할 줄 아냐?
클로드가 여전히 더 낫다고." 이건
계속 듣고 있는 말이에요.
사실 저는 방금 클로드
CEO와 인터뷰했는데 그는 여전히 클로드
3.5를 사용한다고 했어요. GPT-5가 나온 후에도
클로드 4와 4.1이 나온 후에도 여전히
클로드 3.5를 사용한다고 했어요. 렙릿의 CEO인
암자드 마사드는 수확 체감의
압도적인 무게감을 느끼지 않을 수 없다고 했습니다.
우리에게는 새로운 S-커브가 필요합니다. 그래서 그는
부정적인 쪽에 있어요.
GPT-5가 아마도 실패작이라고
생각하는 것 같습니다. 제 생각에는 그게
그가 의미하는 바인 것 같아요.
그리고 그는 이런 모델들이 점진적으로만
나아지고 있다고 말하고 있어요. 그리고
사실 저는 그게 괜찮다고 생각해요. 우리에게 필요한 것은
모델의 원시 지능을 가져와서
그 주위에 스캐폴딩, 아키텍처를
구축하여 모델 내부의 놀라운
지능을 활용하는 것에 대한 많은 투자입니다.
이렇게 생각해보세요. 자동차 없이
1000마력 엔진만 가지고 있는 것과 같아요.
그걸로 뭘 할 수 있겠어요? 아무것도 못 하죠. 그래서
자동차를 만들어야 하고 그다음에
그 모든 마력을 타이어에 전달할 수 있도록
확인해야 하고 타이어가 지면을 움켜쥘 수 있도록 해야 합니다.
모델의 원시 지능을
엔진으로, 스캐폴딩을
자동차로 생각할 수 있어요. 높은 마력만으로는
충분하지 않습니다. 그 마력을
전진 모멘텀으로 변환해야 해요.
몇 가지 밈 더 보겠습니다. 백엔드 개발자들이
최소한 몇 달은 더
일자리가 있다는 걸 깨달았네요. 이거
정말 웃겨요. 이건 약간
막스가 영구 하층 계급으로부터 안전하다는
맥락과 비슷하네요. 그리고 일론 머스크의
그로크 1위로 마무리하겠습니다. 궁금해하실 텐데
이건 ARC AGI 2
리더보드입니다. 여기 GPT-5가 10%로 높게 나와 있고
그로크 4 thinking이 16%에 있습니다. 맞습니다, 그로크 4가
ARC AGI
벤치마크에서 여전히 최고 모델입니다. 하지만 거의 모든 다른
벤치마크에서 GPT-5가 이제 왕입니다. 그리고
알아두세요. 모델 제공업체들 간의
주요 AI 연구소들 간의 이 모든 치열한 경쟁이
여러분과 저에게 도움이 됩니다. 만약
이 영상을 즐겁게 보셨다면 좋아요와 구독을