GPT-5에 대해 제가 잘못 판단했습니다

채널 아이콘
Theo - t3․gg 구독자 439,000명

요약

이 영상에서 화자는 GPT-5 공개 버전이 초기 테스트 때 경험했던 것과 크게 다르다는 점을 솔직하게 고백합니다. 유료 홍보 의혹을 일축하며, 오히려 API·커서 사용으로 막대한 비용을 지출했다고 설명합니다. 또한 OpenAI의 오토라우터 설계 오류와 UI 변경, 모델 숨김 등이 실제 사용자 경험을 저하시켰음을 상세히 분석합니다. 마지막으로 진정성과 투명성을 지키려다 오히려 비난받는 복잡한 현실을 토로하고 앞으로의 소통 방안을 제시합니다.

주요 키워드

GPT-5 Auto Router chatgpt.com UI T3 Chat API 엔드포인트 Reasoning 모델 Cursor Opus (Claude) Sonnet 진정성

하이라이트

  • 🔑 초기 테스트 시 GPT-5 고성능 모델을 API와 커서(Cursor)로 체험했으나, chatgpt.com 기본 인터페이스에서 만나는 모델은 성능이 크게 낮춰졌다.
  • ⚡️ OpenAI로부터 금전 지원을 받았다는 유료 홍보 의혹을 전면 부인하며, 실제로 몇 천 달러의 사용료를 지불하고 1,000달러 출연료도 거절했다고 밝혔다.
  • 📌 오토라우터(auto router) 기능이 입력문(prompt)의 복잡도에 따라 낮은 성능 모델로 자동 연결하면서, 상당수 사용자가 기대했던 고성능 GPT-5를 제대로 경험하지 못하게 된 점을 지적한다.
  • 🚀 GPT-5를 제대로 활용하려면 단순 문자열 교체가 아닌, 프롬프트 작성 방식과 시스템 설계, 툴 호출 방식을 새롭게 구성해야 한다.
  • 🌟 Anthropic의 Claude(Opus)나 Sonnet 같은 경쟁 모델과 비교해도 GPT-5의 잠재력은 우수하지만, 출시 과정에서 여럿 문제가 겹치며 성능 우위를 느끼기 어려워졌다.
  • ❗️ 출시 당일 휴가와 일정 문제로 커뮤니티 반응을 확인하지 못한 채 영상을 게시해, 사용자 경험과 어긋난 시기적 선택을 스스로 인정한다.
  • 🛠 GPT-5는 지시 따르기(follow instructions) 능력이 강화된 만큼, 기존 툴 통합 로직이나 챗봇 에이전트 설계 방식 전반을 재검토해야 한다.
  • 🔥 정직하게 경험을 공유했음에도 ‘페이드 셸’ 비난을 받는 현실을 안타까워하며, 진정성과 투명성의 딜레마를 고백한다.

용어 설명

GPT-5 고추론 API 엔드포인트

복잡한 문제에 깊이 있는 추론을 수행하도록 설계된 GPT-5 API 호출 옵션입니다.

오토라우터(auto router)

입력문 난이도에 따라 모델 파라미터를 자동으로 조정·선택해 사용자 요청을 분배하는 시스템입니다.

chatgpt.com UI

OpenAI가 제공하는 웹 인터페이스로, 사용자들은 이곳에서 GPT-5 버전을 시도하게 됩니다.

T3 Chat

API 기반으로 GPT-5 모델을 통합해 성능을 유지하면서 대화형 인터페이스를 제공하는 서드파티 서비스입니다.

Nectarine (725 빌드)

화자가 초기 테스트 때 사용했던 GPT-5의 고추론 모델 코드명입니다.

Cursor

코드 편집기 내 GPT 모델 연동 툴로, 프롬프트 설계와 시스템 호출을 통해 GPT-5 성능을 극대화합니다.

Opus (Claude)

Anthropic에서 개발한 모델명으로, 타사 모델과 비교 평가 시 언급된 경쟁 상대입니다.

Sonnet

Anthropic Sonnet 모델로, 화자가 예전에 코드 작업에서 활용했던 버전입니다.

[00:00:00] 소개 및 목표

GPT-5 출시 경험과 커뮤니티 반응이 기대와 달랐음을 인정하고, 영상의 목적과 다룰 핵심 주제를 간략히 소개합니다.

크리에이터가 GPT-5 출시가 예상과 다르게 진행되었다고 인정하며, 댓글에서 사용자들의 실망감을 확인했다고 설명합니다.
이 문제에는 여러 층위가 있고 상당 부분이 자신의 잘못이라고 인정하며, 모든 세부사항을 투명하게 공개하겠다고 약속합니다.
현재 GPT-5를 사용하는 경험이 출시 전 테스트했을 때보다 훨씬 나쁘다는 핵심 문제를 제기합니다.
혼란과 잘못된 정보 확산을 방지하기 위해 이 설명을 하고 있으며, 현재 사용자가 경험하는 GPT-5는 자신이 테스트했던 것과 다르다고 명확히 합니다.
[00:00:54] 유료 홍보 의혹 해명

OpenAI의 ‘페이드 셸’ 의혹을 부인하고, 실제로 발생한 API 사용 비용과 1,000달러 출연료 제안 거절 사실을 투명하게 공개합니다.

OpenAI의 유료 홍보꾼이라는 비난에 대해 강하게 반박하며, 실제로는 추론 비용으로 25,000달러의 적자를 보고 있다고 밝힙니다.
OpenAI로부터 받은 건 1,000달러 출연료뿐이었다고 하며, 자신이 어떻게 출시 영상에 참여하게 되었는지 투명하게 공개하겠다고 합니다.
[00:01:55] 초기 액세스 경험 및 출시 협업

GPT-5 초기 액세스 경로, 출시 영상 참여 과정, API·커서 기반 테스트 환경과 비교해 웹 UI 경험이 다른 이유를 설명합니다.

GPT-5 조기 접근 권한을 원했지만 개인 자격으로는 받을 수 없었고, 대신 OpenAI가 출시 영상 참여를 제안했다고 경위를 설명합니다.
편견에 대한 우려를 인정하면서도 신뢰할 만한 동료 Simon Willis의 참여로 프로젝트에 참여하기로 결정했다고 설명합니다.
AI에 완전히 빠지지 않은 합리적인 관점에서 참여하게 되어 흥미로웠으며, 테스트를 위해 다양한 벤치마크를 준비했다고 밝힙니다.
웹사이트보다는 API를 통해 모델을 사용했으며, 특히 커서에서 놀라운 성능을 경험했지만 자신에게도 잘못이 있음을 인정합니다.
[00:03:05] 출시 직후 일정과 커뮤니티 반응

Defcon 휴가 일정으로 커뮤니티 피드백을 즉시 확인하지 못했고, 이로 인해 사용자 기대와 어긋난 타이밍을 반성합니다.

가장 큰 실수는 커뮤니티 반응에 주의를 기울일 수 없는 상황에서 영상을 게시한 것이라고 고백하며, 당시 데프콘 참석 중이었다고 설명합니다.
OpenAI는 영상을 사전에 검토하지 않았으며, 단지 모델 접근 권한과 기술적 피드백만 제공했음을 명확히 하고 승인 과정의 스크린샷을 공개하겠다고 약속합니다.
대중 반응을 전혀 고려하지 않고 첫 번째 영상을 게시했고, 두 번째 영상도 반응을 제대로 파악하지 못한 상태에서 제작했다고 시인합니다.
대중의 반응이 자신의 경험과 맞지 않았던 이유에 대한 여러 이론이 있다고 말하며, 가장 큰 원인은 사람들이 사용한 모델이 자신이 사용한 것만큼 좋지 않았다는 점이라고 분석합니다.
자신이 사용한 모델은 GPT-5 고도 추론 API를 통해 접근 가능하지만, 일반 사용자들이 웹사이트나 다른 도구에서 경험하는 것과는 다르다고 설명합니다.
다른 AI 도구들이 더 이상 관련성이 없다는 무책임한 트윗을 했는데, 사용자들의 실제 경험이 자신의 주장과 다르다면 돈을 받고 홍보하는 것처럼 보일 수 있음을 인정합니다.
자신의 투명성 노력에 대한 이력을 모르는 사람들이 의심할 수 있음을 이해하며, 실제로 나쁜 경험을 한 사용자들이 자신의 게시물을 보면 의심스러워할 만하다고 공감합니다.
화자가 자신에 대한 비판적 반응을 이해한다고 밝히며, GPT-5 출시 당시 디프콘 대회 참가로 라스베이거스에 있어 온라인 상황을 제대로 파악하지 못했다고 설명합니다.
휴가 중 작은 코드베이스에서 GPT-5를 테스트했을 때는 약간의 성능 저하만 느꼈지만, 오늘 본격적으로 코딩해보니 처음 경험했던 것만큼 좋지 않다고 평가합니다.
[00:05:25] 실사용 성능 변화 관찰

출시일부터 현재까지 직접 코딩·이미지 생성 등 다양한 실사용 시나리오에서 성능이 눈에 띄게 저하된 구체 사례를 공유합니다.

GPT-5의 현재 경험이 이전에 사용했던 넥타린 725 빌드보다 못하며, 이는 모델 자체보다는 사용 경험의 문제일 수 있다고 분석합니다.
커서와 OpenAI가 GPT-5 통합을 위해 협력했지만, 현재 개선 시도들이 오히려 부정적 영향을 주고 있으며, 자신이 코딩을 많이 하지 않은 기간 동안의 변화를 놓쳤을 수 있다고 언급합니다.
많은 사용자들이 GPT-5 출시 첫 1-2일 동안은 높은 품질을 경험했지만 이후 성능이 저하되었다고 보고하고 있으며, 출시일에는 한 번에 성공했던 것들이 다음 날부터 클라우드 코드보다도 못해졌다고 설명합니다.
커서에서 어제 변경사항이 있었고, 같은 프롬프트로 테스트해본 결과 10점 만점에서 5점으로 성능이 크게 떨어졌으며, AI 이미지 스튜디오 빌드를 VS Code 코파일럿으로 재생성했을 때 렌더링 오류까지 포함된 저품질 결과가 나왔다고 보고합니다.
화자는 Copilot과 Cursor로 생성한 UI 스크린샷들을 보여주며, 그라디언트가 제대로 적용되지 않고 버그가 있는 등 품질이 매우 떨어진다고 설명합니다.
원본 UI를 여러 모델들에게 개선해달라고 요청했지만, 처음 테스트했을 때보다 오히려 품질이 악화되었다고 말합니다. 특히 Horizon 모델은 추론 기능이 꺼져 있었음에도 더 나은 결과를 보여줬다고 언급합니다.
최근 생성물들은 무작위로 그라디언트를 적용하고 겹치는 등의 문제가 있어서, 이전 경험과는 완전히 다른 저품질 결과물을 보여준다고 불만을 표현합니다.
이런 충격적인 경험 때문에 영상을 만들게 되었고, GPT-5 사용 경험에 대한 솔직한 반응을 보여주려 했다고 설명합니다.
[00:08:37] 경쟁 모델 비교: Opus(Claude)·Sonnet

Opus(Claude)와 Sonnet에서 동일 프롬프트를 테스트한 결과, GPT-5가 실패한 문제를 더 잘 해결했음을 언급하며 성능 차이를 분석합니다.

같은 작업을 Claude Opus 4에 시도해봤지만 결과가 더욱 형편없었다고 말합니다. 대비 문제로 텍스트가 보이지 않고, 요청한 기능은 구현하지 않으면서 오히려 문제를 악화시켰다고 비판합니다.
Opus가 GPT-5보다 낫다는 주장을 받아들일 수 없지만, 현재 GPT-5의 경험이 나쁘다면 자신의 평가가 과했다고 느낄 수 있음을 이해한다고 말합니다.
자신이 경험한 것은 현재보다 훨씬 나았기 때문에 영상을 만든 것이 합리적이었다고 변호하며, 일부 사용자들은 이미 같은 경험을 했다고 언급합니다.
대부분의 사용자들이 좋은 경험을 못 하고 있는 것이 안타깝다며, 이는 주로 OpenAI의 책임이라고 비판합니다.
하지만 가장 큰 실수는 Anthropic에 대한 영상이라고 인정하며, 영상 자체가 실수는 아니지만 Anthropic과 여러 문제가 있었다고 설명합니다.
2월 T3 Chat 작업을 시도하며 OpenAI의 비즈니스 관행에 실망했을 때 이 비디오 컨셉을 생각해냈다고 설명합니다.
비디오 내용은 지지하지만 발행 시점은 변명의 여지가 없다고 인정하며, OpenAI 변호 의도가 아닌 콘텐츠 스케줄상 우연히 겹친 것이라고 해명합니다.
GPT-5 출시를 팀에 알리지 않아 특별한 의도 없이 예약된 영상이 출시되었고, 타이밍이 나빠 보일 수 있음을 인정합니다.
이 영상은 오래 전부터 계획된 것으로, 6월 10일 아이디어 트래커에 추가했고 2월부터 생각해왔던 내용이라고 강조합니다.
타이밍에 대한 책임은 지지만, 영상에서 한 모든 말을 지지한다고 재확인하며 Anthropic의 이상한 분위기와 비협조적 태도를 비판합니다.
자신과 같은 반발을 받고 있는 사람들이 많으며, 경험이 쌓이면서 생각을 바꾸고 있다고 언급합니다.
GPT-5가 대화용으로 좋지 않다는 원래 의견을 여전히 어느 정도 유지하며, 개선된 버전도 여전히 대화나 재미있는 상호작용에는 부족하다고 평가합니다.
클레어와의 경험을 예로 들며, GPT-5의 로봇 같은 특성과 대화의 친근함 부족을 설명합니다.
클레어가 자신의 제품에 GPT-5를 적용했지만 사용자 반응이 좋지 않아 GPT-4.1으로 다시 돌아간 사례를 소개합니다.
클레어의 제품이 대화형 출력에 초점을 맞추고 있으며, 클레어의 유료 협찬 여부는 확실하지 않다고 언급합니다.
화자는 OpenAI로부터 1000달러 제안을 받았지만 거절했다고 밝히며, 자신과 다른 리뷰어들 모두 OpenAI에게 좋게 보일 동기가 있음에도 불구하고 그렇게 하지 않았다고 주장합니다.
이전 영상들에서 OpenAI가 원하지 않았을 비판적 내용들을 많이 다뤘음에도 불구하고, 사람들이 자신을 OpenAI의 유료 홍보맨으로 의심한다는 것에 대해 당황스러워합니다.
모델 성능이 이전 테스트 때보다 떨어졌다고 직접적으로 비판한 게시물에 대해서도 여전히 OpenAI 찬양이라는 반응을 받는 상황에 좌절감을 표합니다.
비용, 미니 모델, 추론 매개변수, chatgpt.com 버전의 품질 등 세부사항을 모른 채 순수하고 자연스러운 첫 반응을 공유했다고 설명하며, 돈을 벌고 싶었다면 전혀 다른 방식으로 접근했을 것이라고 주장합니다.
T3 Chat 강력 홍보나 스폰서 광고 대신 손실을 감수했으며, 해당 영상으로 수천 달러 손해를 봤다고 밝힙니다.
유료 홍보맨이라는 비판이 자신의 게시 순서 선택 실수와 런칭일에 충분히 테스트하지 못한 점, 다른 사람들의 반응을 보기 전에 게시한 점에서 비롯된다고 인정합니다.
진솔함에 대해 정기적으로 처벌받는다고 느끼며, 솔직한 감정 표현보다는 다른 사람들의 의견을 기다렸다가 동조하는 것이 더 나은 결과를 가져온다는 교훈을 얻었다고 토로합니다.
만약 첫날부터 모델이 나쁘다고 비판했다면 현재보다 훨씬 더 많은 영향력을 얻었을 것이지만, 자신이 믿는 바를 말했으며 여전히 좋은 모델이 그 안에 있다고 확신한다고 강조합니다.
ChatGPT 웹사이트에 대한 문제점을 지적하며, T3 Chat이 더 나은 사용자 경험을 제공한다는 사용자들의 피드백을 받았다고 설명합니다.
사용자들의 피드백을 통해 뭔가 문제가 있다는 걸 깨닫고 더 적극적으로 조사하기 시작했으며, 실제로 테스트해보니 모델이 이전과 다르고 더 나빠진 것 같다고 느꼈다고 합니다.
첫 번째 영상과 현재 경험이 달라진 것에 대해 사과하며, 당시 자신이 가진 경험은 정말 놀라웠고 그 능력에 깜짝 놀랐다고 확신한다고 말합니다.
최근 며칠간 GPT-5와 Claude Opus를 비교 테스트한 결과, GPT-5가 실패한 문제를 Opus가 해결한 경우는 단 한 번도 없었으며, 오히려 Opus가 더 많은 실수를 하고 더 많은 토큰을 소모했다고 보고합니다.
솔직히 Opus 모델을 별로 좋아하지 않으며, Sonnet보다 충분히 나을 만큼 좋은 경우가 드물다고 평가합니다. Sonnet은 좋은 모델이지만 현재는 성능 대비 비싸다고 언급합니다.
GPT-5 High, Sonnet, Opus를 비교 테스트한 결과 전반적으로 모든 도구들의 품질에 만족하지 못하고 있으며, 현재 모두 다 별로라고 느끼고 있습니다.
현재 문제의 원인이 Cursor의 업데이트 문제인지, 모델이 성능 저하된 건지 알 수 없지만, OpenAI와 Cursor 모두 이 문제를 해결하려고 적극적으로 노력하고 있다고 합니다.
현재 사용자들이 겪고 있는 경험이 자신이 조기 액세스로 경험했던 것과 다르다는 점에 대해 사과하며, 더 나은 계획과 철저한 테스트, 백업 계획이 있었으면 좋았을 것이라고 반성합니다.
OpenAI가 GPT-5 출시에서 실수한 주요 문제들을 지적하며, 가장 큰 문제로 오토 라우터 시스템을 꼽습니다. 이전에 다양한 이름으로 GPT-5 reasoning 모델에 접근할 수 있었지만, 새로운 모델들을 충분히 테스트할 시간이 부족했다고 설명합니다.
오토 라우터의 작동 방식을 설명하며, 요청 내용을 분석해서 적절한 모델로 라우팅하는 시스템이라고 합니다. 하지만 대부분의 일반적인 요청에서는 가장 기본적인 GPT-5 버전을 제공받게 되어, 사용자들이 모델의 진정한 능력을 경험하지 못한다고 지적합니다.
오토 라우터가 비용과 속도 최적화를 위해 만들어졌다고 설명하며, ChatGPT 사용자들의 사용 패턴을 분석합니다. 놀랍게도 월 20달러를 지불하는 유료 사용자 중 30%도 안 되는 사람들만이 더 똑똑한 reasoning 모델을 사용한다고 밝힙니다.
사용자들이 즉시 응답받는 것에 익숙해져 있어서, OpenAI가 두 가지 해결책을 도입했다고 설명합니다. 프롬프트 복잡도에 따른 자동 reasoning 조절과 빠른 답변 버튼입니다. 하지만 이런 방식들을 '핵'이라고 부르며 사용자들에게 좋은 반응을 얻지 못하고 있다고 평가합니다.
더 큰 문제로 다른 모든 모델들을 숨긴 것을 지적합니다. 출시 당시 OpenAI가 기존 모델들을 폐기하고, UI에서 숨기며, 무료 사용자들에게는 완전히 비활성화할 것이라고는 전혀 예상하지 못했다고 놀라움을 표현합니다.
화자가 OpenAI의 결정을 이해할 수 있다고 설명하며, 기존 모델이 비용이 많이 들고 품질이 좋지 않으며 사용자들을 혼란스럽게 만드는 문제가 있었다고 지적합니다.
OpenAI가 복잡한 네이밍 체계를 단순화하려고 했지만 실패했다고 평가하며, 결과적으로 T3 Chat의 가입자가 급증하는 예상치 못한 결과를 가져왔다고 설명합니다.
다른 모델들을 제거한 것이 잘못이었고, 자동 라우터가 재앙이었으며, GPT-5의 다양한 버전들에 대한 설명이 불분명했다고 비판합니다.
[00:21:21] OpenAI의 출시 전략 문제점

오토라우터와 UI 변경, 모델 선택 숨김 등 출시 전략의 주요 결함이 사용자 경험을 저하시킨 원인임을 지적합니다.

현재 버전들 간의 차이를 이해하기 어렵고, 이전에 사용했던 엔드포인트가 더 좋았다고 평가하며, OpenAI에게 좋은 코드 도구가 없다는 점을 지적합니다.
Anthropic이 새로운 클라우드 모델을 클라우드 코드 지원 없이 출시할 리는 없다고 설명하며, OpenAI의 Codex와 비교하여 Codex의 한계점을 언급합니다.
Devon의 경쟁자인 백그라운드 에이전트와 클라우드 코드의 대안인 Codex CLI에 대해 설명하며, 오픈소스 프로젝트들의 장단점을 비교합니다.
GPT-5를 최대한 활용하기 위해서는 구현상의 변경이 필요하다고 강조하며, Anthropic 모델들이 이상한 동작을 하지 못하게 하려고 개발자들이 사용한 해킹 방법들을 소개합니다.
[00:23:02] 오토라우터와 모델 숨김

복잡도 자동 판단을 통한 모델 분배 로직과, chatgpt.com에서 다른 모델을 제거한 결정이 어떻게 품질 저하를 낳았는지 상세히 설명합니다.

Convex의 Chef 바이브 코딩 앱을 예로 들어, 모델이 건드리지 말아야 할 파일들을 고집스럽게 수정하는 문제를 해결하기 위해 파일 쓰기 권한을 잠그고 되돌리는 방법을 사용했다고 설명합니다.
GPT-5의 혁신적인 변화를 소개하며, 지시사항을 놀랍도록 잘 따른다는 점을 강조합니다. 하지만 OpenAI가 이런 중요한 변화를 충분히 명확하게 알리지 않았다고 비판합니다.
OpenAI와 Cursor 간의 사전 협력 사실이 공유되어야 했다고 지적하며, 새로운 모델 출시 시 단순히 문자열만 바꾸는 것으로는 충분하지 않다고 설명합니다.
GPT-5가 다른 모델들과 근본적으로 다르게 동작한다는 점을 강조하며, 이상한 방향으로 빠지지 않는 특성 때문에 프롬프팅, 시스템 설계, 도구 사용법이 모두 달라져야 한다고 설명합니다.
GPT-5가 OpenAI의 첫 번째로 도구 통합에 가치 있는 모델이라고 평가하며, 지금까지는 Anthropic 모델들이 에이전틱 작업에서 최고였지만, GPT-5가 그 격차를 좁히고 더 좋은 성능을 보이면서도 저렴하다고 결론짓습니다.
새로운 AI 모델이 출시되면 개발자들이 도구 내 문자열만 바꿔도 성능이 향상되지만, Sonnet에서 GPT-5로 단순 교체하면 즉시 개선되지 않는 이유를 설명합니다. 각 모델에 맞는 특별한 최적화가 필요하기 때문입니다.
Cursor 사용 경험을 통해 Sonnet과 GPT-5의 동작 방식이 완전히 다름을 보여줍니다. Cursor 팀이 GPT-5 최적화를 위해 내부 시스템을 새로 구축했고, 직원들은 GPT-5를 선호한다고 말하고 있습니다.
현재 상황에 문제가 있음을 인정하며, Cursor 직원이 실시간으로 문제 해결에 나서고 있다고 밝힙니다. OpenAI의 출시 과정과 ChatGPT 사이트에서의 문제점들을 비판합니다.
현재 Cursor 경험이 이전만큼 좋지 않음을 인정하면서도, 유료 홍보라는 비난을 강력히 반박합니다. 긍정적 리뷰를 한 사람들은 실제로 좋은 경험을 했다고 설명합니다.
모델을 비판했다면 더 많은 화제를 얻었을 것이라며, 정직한 리뷰로 인해 예상치 못한 비난을 받는 상황에 대한 복잡한 심경을 토로합니다.
부당한 비난에 대한 실망감과 동시에 시청자들의 실망감을 이해한다는 양면적 감정을 표현합니다. 다른 경험을 한 시청자들의 좌절감에 공감을 표합니다.
OpenAI가 의도적으로 다른 모델을 제공했다는 음모론을 강력히 부인하며, 여러 관계자들과의 대화를 통해 모든 쪽에서 혼란이 있다는 것을 확인했다고 밝힙니다.
화자가 자동 라우터가 좋지 않은 아이디어였다고 인정하며, 대부분의 사람들이 API를 통해 좋은 경험을 했다고 설명합니다.
투명성을 유지하려는 노력이 지난번보다 나아지길 바라며, 그렇지 않으면 사기꾼이 되어야 할지도 모른다고 고백합니다.
솔직함을 유지하기 위해 수백만 달러를 포기하고 있다며, 이로 인해 처벌받는 것이 불공평하다고 토로합니다.
사방에서 솔직하지 말라는 압박을 받고 있다며, 시청자들에게 솔직할 수 있도록 허용해달라고 요청합니다.
[00:28:00] 진정성과 투명성 딜레마

솔직한 경험 공유가 ‘정직 누수’로 오해받는 현실을 고백하며, 투명성 유지와 대중 기대 사이에서 느끼는 갈등을 토로합니다.

이것이 가장 솔직한 영상 중 하나라며, 스폰서도 없이 휴가를 포기하고 만들었다고 강조합니다.
돈을 받지 않고도 계속 의심받는다면 차라리 진짜로 돈을 받는 것을 고려하겠다고 말하며, 자신의 진정성을 강조합니다.
경험이 다르다면 그냥 말해달라고 요청하며, 단순히 돈받는 앞잡이라고 결론내리면 대화가 불가능하다고 설명합니다.
화자가 자신을 유료 후원자라고 비난하는 시청자들에 대해 반박하며, 진정한 대화보다는 분노에만 집중하고 있다고 지적합니다.
GPT-5 출시 이전에 미리 제작된 영상임을 강조하며, OpenAI로부터 어떤 금전적 지원도 받지 않았음을 명확히 합니다.
OpenAI가 자신을 인수할 이유가 없으며, 유튜브 채널에서 중립적 입장을 유지하는 것이 자신의 비즈니스에 중요하다고 설명합니다.
[00:30:16] 결론 및 향후 다짐

현재 사용자 경험과 초기 테스트의 격차를 인정하고, OpenAI와 서드파티 협업 툴 개선을 기대하며 지속 소통할 의지를 밝힙니다.

OpenAI가 실패했다고 직접적으로 비판하며, 유료 후원자였다면 이런 비디오를 만들지 않았을 것이라고 반박합니다.
OpenAI가 다른 회사들보다 자신을 잘 대해줘서 편향이 있을 수 있음을 솔직히 인정하면서도, 이것이 자연스러운 반응이라고 설명합니다.
우리는 GPT-5 출시에 대해
진지하게 대화를 나눠야 할 것 같습니다.
예상했던 것과는 조금 다르게 진행됐거든요.
제 최근 영상의 댓글을 보셨다면
사람들이 이 모델에 대해 얼마나
기대했던 것과 다르다고 느끼는지
알 수 있을 겁니다.
여기에는 여러 층위가 있고
그중 많은 부분이 사실 어느 정도는
제 잘못입니다. 시간을 내서
여러분과 함께
모든 세부사항을 살펴보고 싶습니다.
OpenAI와 함께 작업했던 제 경험부터
어떻게 보상을 받았는지,
출시 이후 어떻게 상황이 변했는지,
제 기대가 어떻게 충족되지 않았는지,
그리고 가장 중요하게는 현재 GPT-5를 사용하면서
겪고 있는 경험이 출시 전
테스트했을 때보다 상당히 나쁘다는 것까지 말이죠.
여기에는 파고들 내용이 정말 많고
사실 지금 휴가에서
돌아온 참이지만,
시간을 내서 이걸 설명하고 싶었습니다.
많은 혼란과 좌절감,
그리고 잘못된 정보가 퍼지고 있는 걸 보고 있고
최선을 다해 그런 일의
일부가 되고 싶지 않기 때문입니다.
먼저 가장 중요한 것은
아주 분명히 해두고 싶은 것이
여러분이 아마 지금 ChatGPT와 GPT-5로
경험하고 있는 것은
제가 처음 테스트했을 때의 경험과는 다르다는 것입니다.
이에 대한 세부사항은
잠시 후에 다루겠지만, 먼저
다른 몇 가지를 짚고 넘어가겠습니다.
많은 분들이 저를 OpenAI의
유료 홍보꾼이라고 비난하는 걸 보고 있습니다.
이건 너무나 우스울 정도로
사실이 아니어서 이런 일이 벌어지는 것 자체가
거의 화가 날 지경입니다. 하지만 왜 이런
반발을 받고 있는지는 이해합니다.
저는 그게 정말 좋다고 말했거든요.
저에게는 그랬습니다. 정말 놀라웠어요.
그리고 그것이 얼마나 강력한지 본 제 진짜
순수한 반응을 녹화하려고 노력했습니다.
여러분이 그걸 보길 원했거든요.
마케팅 헛소리가 아니라 말이에요.
OpenAI로부터 한 푼도 받지 않았습니다.
사실 지난 2-3주 동안
T3 Chat으로 추론 비용만 약 25,000달러
적자를 보고 있습니다.
그러니까, 아니에요. 그들이 저에게
돈을 주지 않았습니다. 오히려 많은 돈을 잃고 있어요.
제가 출연한 영상에 대해
1,000달러의 출연료는 제안했지만,
제가 출연한 그 영상을
더 잘 이해할 필요가 있다고 생각합니다.
최대한 투명하게 하기 위해
제가 그 출시에 어떻게 참여하게 되었는지
사건의 순서를 여러분께 말씀드리겠습니다.
GPT-5에 조기 접근 권한을 가진
친구들이 있었습니다.
그렇게 엄격하게 제한된 건 아니었어요.
특히 얼마나 많은 사람들과 회사들이
조기 접근 권한을 가지고 있었는지 알면 놀랄 겁니다.
저도 조기 접근을 원했습니다.
당연히 그러겠죠. 누가 새로운 걸
일찍 써보고 싶지 않겠어요?
그래서 OpenAI의 제 연락처들에게
연락했는데, 회사가 아니라
개인으로서 연락한 것이었기 때문에
다른 사람들이 받은 것 같은
조기 회사 접근 권한은 얻을 수 없었지만,
그들이 계획하고 있던 출시 영상이 있다는 걸
깨달았고 제가 거기 몰래 들어갈 수 있다고 했습니다.
사람들이 편견에 대해 우려할 것이라는 점을 고려했어요
제가 그런 일을 하는 것에 대한 내재된 편견 말이죠
하지만
제 친구 Simon Willis가
참여한다는 걸 알았을 때
아, 그럼 이건 아마 그렇게 큰 문제가 아닐 거야
라고 생각하며 참여하기로 결정했어요
정말 멋진 경험이었어요
더 합리적인 입장에서 참여하게 되어 흥미로웠어요
AI에 완전히 빠진 개발자가 아니라
이런 것들에 대한 자신만의 자연스러운 생각을 가진 사람으로서요
전날 밤에 일부러
여러 벤치마크들과
테스트에 사용할 수 있는 것들을
많이 준비했어요
영상에서 제가 사용한 것 중 어떤 것도
웹사이트를 통한 것은 없었어요. 웹사이트에서는 별로 좋지 않다고 생각했거든요
하지만 API를 통해서는 정말 놀라웠어요
그리고 커서에서는 더욱 놀라웠고요
하지만 그렇다고 해서 제가 잘못이 없다는 건 아니에요
제가 저지른 가장 큰 실수 중 하나는
단연코 그 영상을 올린 것이었어요
커뮤니티 반응에 주의를 기울일 수 없는 상황에서 말이죠
저는 그 목요일 데프콘에 있었는데
GPT-5가 출시됐을 때였어요
트위터를 빠르게 훑어보며
사람들이 어떻게 느끼는지 확인했어요
제 영상에 대한 승인을 받았는데
그들이 심지어 보지도 않은 것이었어요
OpenAI는 제가 게시하기 전에 제 영상을 보지 않았어요
제가 거친 전체 승인 과정의
스크린샷을 화면에 올려놓을게요
그러면 이해하실 수 있을 거예요
그들은 모델에 대한 조기 액세스를 제공하고
우리가 문제에 부딪히고
임의의 상황들을 겪을 때
피드백을 주는 것 외에는
어떤 것에도 개입하지 않았어요
하지만 저는 그 영상을 게시했어요
대중의 반응을 전혀 보지 않고서요
그리고 나서 두 번째 영상을 녹화하고 게시했는데
대중 반응을 살짝만 맛본 상태에서였어요
그런데 대중의 반응은
제가 경험한 것과 맞지 않았어요
왜 그런 일이 일어났는지에 대한 여러 이론이 있고
앞으로 계속 자세히 다뤄보겠어요
하지만 가장 큰 이유는 단연코
사람들이 사용한 모델이
제가 사용한 것만큼 좋지 않았다는 것이에요
그렇다고 해서 제가 사용한 모델이 사용할 수 없다는 건 아니에요
저는 GPT-5 고도 추론 API 엔드포인트를 통해
같은 모델을 사용할 수 있다고 생각해요
하지만 그건 사람들이 chatgpt.com에 가서
처음으로 모델을 시도해볼 때의 경험이 아니에요
또는 GPT-5 박스를 체크할 때나
커서나 다른 도구들을 사용할 때의 경험도 아니고요
그래서 제가 한 발 더 나아가서
지금 보기에 명백히
다소 무책임한 트윗을 만들었을 때
다른 모든 도구들이 더 이상 관련이 없다고 말이죠
만약 여러분의 경험이
제가 거기서 말한 것과 맞지 않는다면
저는 그냥 돈을 받고 하는 것처럼 느껴질 거예요
그리고 사람들이 왜 그렇게 생각하는지 알 수 있어요
분명히 그런 사람들은 제 이력을 잘 모르고
제가 얼마나 열심히 노력하는지 모르는 거죠
지금까지 저에게 돈을 지불한
모든 사람에 대해
투명하게 공개하려고 노력하는지를요
하지만 만약 여러분이 많은 사람들이 chatgpt.com에서 경험한
그 나쁜 경험을 했다면
그리고 트위터에 가서 불평하다가
제 게시물을 본다면
왜 여러분이 그렇게 의심스러워하는지 이해할 수 있어요
저를 신뢰하기 주저할 만하다고 생각합니다. 앞서 언급했듯이
대부분의 일들이 벌어지고 있을 때 저는 휴가 중이었습니다.
디프콘 대회 참가차 라스베이거스에 있었고,
온라인에는 별로 신경 쓰지 않았습니다.
가끔 확인할 때마다
사람들이 제가 모델을 좋아한다고
비난하는 글들만 보였습니다.
지난 며칠간 조금 사용해본 결과는
솔직히 디프콘에서
랜덤한 퍼즐을 풀기 위해 사용했던
작은 코드베이스에서였는데,
조금 나빠진 것 같지만 크게 나빠지지는 않았습니다.
그 당시에는 더 깊이 생각할 마음도 없었고
퍼즐 풀이에 바빴고
휴가를 즐기려 했습니다.
하지만 오늘 하루를 내서
더 많이 코딩해봤습니다.
그리고 처음 써봤을 때만큼
좋지 않습니다. 제가 여기 트윗한 것과 정확히 같습니다.
GPT-5를 사용하는 경험은
커서의 빠른 버전까지 포함해서도
제가 이전에 사용했던
넥타린 725 빌드만큼
좋지 않습니다. 모델 자체의 문제라기보다는
모델을 사용하는 경험이
확실히 나빠졌습니다.
커서와 OpenAI 모두와
이야기를 나눠봤는데, 이들은 사전에
이 모든 것이 잘 작동하도록
많은 협력을 했습니다. 거기에도 재미있는 이야기들이 많죠.
하지만 커서에서 GPT-5를
개선하려는 그들의 시도가 현재로서는 오히려 해가 되고 있는 것 같습니다.
앞서 언급했듯이, 지난주 수요일
GPT-5 출시 전날부터
일주일이 지난 지금 수요일까지
저는 코딩을 많이 하지 않았습니다.
휴식을 취하려고 했거든요.
그래서 그 기간 동안
경험이 나빠졌다면
저는 알 수 없었을 겁니다. 하지만 제가 지금 언급하고 있는
성능 저하 대부분은
출시일에는 없었던 것 같습니다. 실제로
많은 사람들이
제가 이야기했던 것과 같은
고품질 경험을 GPT-5를 사용한
첫 하루나 이틀 동안 했지만
이후로 성능이 저하되는 것을
목격했다고 말하는 것을 보고 놀랐습니다.
출시일에는 정말 놀라울 정도로 한 번에 성공했는데
다음 날에는
클라우드 코드보다 나빠진 것 같았습니다.
너무 나빠지고 느려져서
첫날과 지금 사이에 엄청난 차이가 있습니다.
커서에서 어제 뭔가 바뀌었습니다.
채팅 히스토리를 살펴보고 같은 프롬프트를 실행해봤는데
조금 다른 정도가 아닙니다.
10점 만점에서 5점으로 떨어졌습니다.
솔직히 저도
같은 경험을 했습니다. AI 이미지 스튜디오 빌드를
계속 재생성해봤습니다.
이것은 제가 사무실에서
만들었던 바로 그 코드입니다.
커서에서 사용했던 정확한 프롬프트가 있고
이 프롬프트를
다양한 빌드에 대해
재사용해왔습니다. VS Code에서
코파일럿과 함께 사용해봤는데, 정말 못생겼습니다.
여기 그래디언트를 처리한 방식에서
렌더링 오류까지 볼 수 있는데
정말 심각합니다. 이것은
같은 품질과는 거리가 멉니다.
다시 말하지만, 정확히 같은 프롬프트입니다.
제가 만든 모든 다른 빌드들을
열어보기에는 너무 게을러서
스크린샷들이에요. 여기 Copilot으로
만든 것도 있는데, 보시면
그라디언트조차 제대로 적용하지 못했어요.
이 박스에서 왼쪽으로 삐져나와 있죠.
정말 형편없어요. 버그투성이로 보이고
잘못 생성되었습니다. 여기
Cursor에서 생성한 또 다른 예시인데,
이전 것만큼 나쁘지는 않지만
여전히 이전만큼 좋지 않아요.
추론 단계에서
그라디언트를 사용해야 한다고 말하는 것까지 봤는데
실제로는 적용하지 않았어요. 대신
이런 걸 얻었죠. 이 모든 것은
여기서 시작되었는데,
이것이 원본이었어요. 제가
다양한 모델들과
모델의 다양한 버전들에게 건네주며
'이거 더 좋게 만들어줘'라고 했죠.
기본적으로 생성과 편집
플로우를 개선하고 더 나은 사용자
경험을 만들어달라고 했는데
무슨 이유에서인지
제가 처음 테스트했을 때보다 더 나빠졌어요.
심지어 Horizon보다도 나쁘죠. 여러분도
그때 제가 만든 생성물들을 봤잖아요.
정말 놀라웠었는데
지금 무슨 일이 일어나고 있는지 모르겠어요.
특히 Horizon 모델들은
추론 기능이 꺼져 있었던 것을 고려하면요.
정말, 이 생성물들 중 일부는 너무 형편없었어요.
그냥 무작위로 그라디언트를 여기저기 던져놓기 시작했는데
겹치고 제가 이전에 사용했던
모델과 전혀 다르게 보여요.
이전에 경험했던 것은
절대 이런 쓰레기같은 것을 생성하지 않았을 거예요.
훨씬 훨씬 나았거든요. 정말
충격적이었어요. 그래서 제가
그 영상을 만든 거예요. 여러분께
제 솔직한 반응을 보여드리려고 했어요.
오늘 GPT-5를 사용하면서 불만족스러웠거든요.
같은 작업들을 Claude에게
던져봤어요. Opus 4로 얻은 결과예요.
정말 형편없어요. 편집 텍스트조차
볼 수 없어요. 대비를
망쳐놨거든요. 완전 쓰레기예요.
상단 네비게이션을 제거하라고 했는데
하지 않았어요. 오히려 더 크고 번쩍거리게 만들었죠.
텍스트가 드롭다운 박스에서
넘쳐나와요. 제가 추가하라고 했던 건데
클릭하면 움직이기까지 해요.
Opus가 GPT-5만큼 좋다거나
더 낫다고 말한다면 진지하게 받아들일 수 없어요.
하지만 동시에
GPT-5 경험이 지금처럼 나쁘다면
많은 툴에서, 제가
과했다고 느끼시는 이유를 이해해요.
여러분께 약속드리는데, 제가
경험했던 것은 지금 이것보다 훨씬
나아서 제 영상이 이해가 되는 수준이었어요.
여러분 모두가 곧 그것을 보실 수 있기를 바라요.
몇 분은 이미 보셨거든요. 다양한
방법과 도구들, 여러 이유로
제가 본 것을 볼 수 있었던
사람들의 수에 놀랐어요.
대부분의 여러분이 보지 못하셔서 안타깝고
그 책임은 대부분 OpenAI에 있어요.
여기서 많은 것들을 망쳤거든요.
하지만 이런 것들 중 어느 것도
제가 저지른 가장 큰 실수는 아니에요.
가장 큰 것은 단연
이 특정 영상이에요. 영상 자체가
실수라는 게 아니라, 저는 진심으로
Anthropic이 이상한 분위기를 가지고 있다고 믿어요.
그들과 너무 많은 나쁘고 의심스러운
상호작용을 했는데, 그 중 많은 것들을
2월에 이 비디오 컨셉을 생각해냈는데
T3 Chat과 처음 작업을 시도하면서
그들의 비즈니스 관행에 정말 질려버렸거든요.
이 비디오에서 말한 모든 단어를 지지하지만
언제 발행했는지는 변명의 여지가 없죠.
발행 시점이 OpenAI를 변호하려는 의도는
전혀 아니었어요.
그냥 제 콘텐츠 스케줄의 특성상
그런 거였죠. 휴가 중이었고
몇 주 전에 찍어둔 영상들이
여러 개 있어서
평소처럼 올리고 있었던 거예요.
이 영상은 예약이 되어 있어서
그냥 올린 거죠. GPT 출시에 대해
팀에게 말하지 않았기 때문에
특별히 의도된 스케줄링은 아니었어요.
그냥 그 시간에 나갈
예정된 영상이었죠. 그런데
GPT-5가 출시되고 나서
다음으로 예약된 게 이 영상이었던 거예요.
왜 그게 안 좋아 보일지는 이해해요.
중간에 영상이 하나 있긴 했지만
여전히 충분히 가까워서
사람들이 나쁘게 받아들인 거죠.
이해합니다. 하지만 동시에
이 영상은 오래 전부터 계획했던 거예요.
6월 10일, 2달 전에 Notion의
영상 아이디어 트래커에 추가했어요.
2월부터 계속 생각하고 있었거든요.
OpenAI가 돈을 줘서
갑자기 결정한 게 아니라
타이밍이 안 좋았던 거고
그 부분은 제가 책임지겠습니다.
하지만 그 영상에서
한 말 한 마디 한 마디 다 지지해요.
Anthropic은 정말 이상한 분위기가 있고
제 경험상 그 분위기가
OpenAI보다 훨씬 더 이상해요.
사용량 제한을 늘리는 것조차
이를 뽑는 것 같아요. 제 경험상
유쾌하지 않은 회사예요
특히 우리가 이야기하는 다른 회사들과
비교해보면 말이죠. 그래도
저처럼 이런 반발을 받고 있는 사람이
저뿐만이 아니고, 더 많은 경험을 하면서
생각을 바꾸고 있는 것도 사실이에요.
원래 영상에서 GPT-5가 대화하기에
좋은 모델이 아니라고 했는데
아직도 어느 정도는 그렇게 생각해요.
GPT-5 채팅 모델은 사실 모델이 아니라
API로 접근할 수 있는
다른 파라미터 세트인데, 제가 사용했던
버전보다는 나아졌지만
여전히 대화나 재미있는 상호작용에는
그리 좋지 않았어요. 클레어는
그 영상에 저와 함께 나온
다섯 명 중 한 명이었는데
그때 이야기할 때도 똑같이 말했고
그 클립도 영상에 들어갔던 것 같아요.
정말 로봇 같은 모델이에요
시키는 대로 하죠. 그게
우리가 경험한 마법이었지만
대화하기에는 그리 친근하지 않았어요.
그래서 클레어가 자신의 제품에
적용했을 때도 실망했죠.
사용자들을 대상으로 조사했을 때
더 느리고, 말이 많고,
전반적으로 덜 사랑받는다는
반응이었어요. 그래서 결국
자신들의 제품에는 GPT-4.1으로
다시 돌아갔죠. 왜냐하면 그들의 제품은
카피라이팅이나 프레젠테이션,
대화형 출력에 훨씬 더 초점을 맞추거든요.
클레어가 돈을 받았는지는 확실히 말할 수 없어요.
달러였고, 나는 그것을 거절했습니다. 하지만
우리 둘 다 여기서 OpenAI에게 좋게 보이거나
아부할 동기는 충분합니다.
하지만 우리는 그렇게 하지 않았습니다. 솔직히
내 이전 영상들을 보고
"와, OpenAI가 이걸 위해 돈을 줬구나"라고
생각한 사람이 있다는 게 믿기지 않습니다.
제가 그 영상들에서 말한 것 중에는
분명히 OpenAI가 저에게
말해달라고 하지 않았을 것들이 너무 많거든요.
지금도 제가 이런 모델들이
제가 테스트했을 때만큼
성능을 보여주지 못하고 있다고 불만을 게시했을 때,
모델이 예전만큼 좋지 않다고
직접적으로 말했을 때,
OpenAI에 대해 제가 할 수 있는
가장 치명적인 말 중 하나였죠.
그런데 즉각적인 반응이
"OpenAI 찬양하는 거 안 지치냐?"입니다.
대체 제가 뭘 어떻게 하라는 겁니까?
모르겠습니다. 여기서 뭔가 다른 걸
시도했다는 게 좀 안타깝네요.
세부사항을 알기 전에
그냥 진솔하고 자연스러운
반응을 보여주려고 했습니다.
비용이 얼마나 드는지 몰랐고,
미니 모델들이 나올지도 몰랐으며,
사고와 추론 매개변수가
어떻게 작동할지도 몰랐습니다.
그리고 확실히 chatgpt.com 버전이
이렇게 심하게 안 좋을 줄은 몰랐죠.
T3 Chat을 추천하기 쉬울 정도로 말이에요.
모델을 실제로 경험할 수 있도록요.
그런 것들은 전혀 몰랐습니다.
만약 정말 그 영상으로
돈을 벌고 싶었다면,
아주 다르게 할 수 있었을 겁니다.
T3 Chat을 강하게 홍보할 수도 있었고,
스폰서를 가득 채울 수도 있었죠.
대신, 저는 손실을 감수했습니다.
그 영상은 아마 몇천 달러의
손실을 입혔을 겁니다.
그래서 저를 유료 홍보맨이라고
부르시고 싶으시면 그러세요.
그 말이 어디서 나오는지는 이해합니다.
제가 여기서 게시 순서를
잘못 선택한 실수에서 나온 거죠.
그리고 런칭 날에
더 많이 사용해보지 못해서
다른 반응을 보이지 못한 것도 있고요.
제가 경험한 대로 공유했고
세상의 나머지 사람들이
어떻게 반응했는지 보기 전에 게시했기 때문입니다.
여기서 제가 배운 교훈이 있다면,
진솔하게 굴지 말아야 한다는 것입니다.
진정으로 그렇게 느껴집니다.
저는 정기적으로 진솔하고 자연스럽게
제가 느끼는 방식으로
행동한다는 이유로 처벌받고 있습니다.
제가 그냥 제 감정을 솔직히 말할 때마다
기다리고 다른 사람들이 뭐라고 하는지 보고
그들과 함께 미소 짓는 것보다 훨씬 더 욕을 먹습니다.
만약 제가 나와서
"네, 모델이 구립니다"라고 말한 유일한 사람이었다면
얼마나 많은 영향력을 얻었을지 이해하시나요?
첫날에 "네, 저는 조기 액세스가 있었습니다.
구립니다"라고 했다면
제가 말한 것들로 얻은 것보다
훨씬 더 많이 얻었을 겁니다.
하지만 제가 말한 것은 제가 믿는 것이었습니다.
그리고 저는 여전히 좋은 모델이
그 안에 있다고 생각합니다.
진심으로 그렇게 믿습니다.
API를 통해 충분히 사용해봤고,
chatgpt.com을 바꾸었죠. 공정하게 말하자면,
저는 ChatGPT 사이트를 까내리는 걸 좋아해요.
그게 T3 Chat이 존재하는 큰 이유 중 하나죠.
하지만 거기서 이 모델로 경험하는 것은
정말 좋지 않아요. 그리고
뭔가 이상하다는 걸 알았죠.
사용자들로부터 점점 더 많은 피드백을 받았거든요.
T3 Chat이 새 모델과 함께
ChatGPT 웹사이트보다 훨씬 나은 경험을
제공한다는 피드백이었어요. 그게 바로
'아, 젠장 뭔가 문제가 있구나' 하는
순간이었습니다. 그때부터
더 적극적으로 조사해보기로 했죠.
그리고 지금 실제로 시간을 내서
더 많이 테스트해보니, 확실히 다르게 느껴져요.
더 나빠진 것 같아요.
제가 첫 번째 영상에서
이야기했던 것과는 다르게 느껴져요.
그래서 저에게 화가 나셨다면, 이해하고
죄송합니다. 저는 제가 가진 것을
보고한 것뿐이에요. 그리고 제가 가진 것은
정말 놀라웠어요. 그건 확신해요.
정말로 그 능력에 깜짝 놀랐거든요.
그리고 지난 며칠 동안도
프롬프트를 가져와서
GPT-5가 해결할 수 있는지 보면서,
때로는 해결했고, 때로는 못했어요.
못 푼 것들을 가져다가
Opus에 넘겨주면, 즉시
더 멍청하고 더 큰 실수를 하면서
헤매는 걸 보게 되죠. 게다가
그 과정에서 토큰도 훨씬 많이 쓰고요.
GPT-5가 실패한 질문을 Opus가
답한 경우는 단 한 번도 없었어요.
분명 그런 경우들이 많이 있겠지만,
제가 실제로 이런 것들을 사용한
경험으로는, 아직까지 GPT-5가
답하지 못했는데 Opus가 답한
경우는 단 한 번도 찾지 못했어요.
하지만 그 반대의 경우는 많이 찾았죠.
솔직히 말해서, 저는 Opus 모델을
별로 좋아하지 않아요. 그냥
Sonnet 사용하는 것보다
충분히 나을 만큼 좋은 경우가 드물어요.
Sonnet은 여전히 좋은 모델이지만,
지금은 성능 대비 비쌉니다.
오늘 GPT-5 High와 Sonnet, Opus를
비교 테스트하면서
전반적으로 도구들의 품질에
만족하지 못하고 있어요. 지금은
모두 다 좀 별로인 것 같아요.
이게 Cursor가 내부자 채널에
문제가 있는 업데이트를 푸시해서
뭔가 망가뜨린 건지, 아니면
제가 생각하지 못한
다른 숨겨진 문제가 있는 건지,
모델이 바보가 된 건지
모르겠어요. 뭐가 문제인지
알 수가 없어요. 저는
내부자가 아니거든요. 제가 아는 건
OpenAI와 Cursor와 나눈 대화에서
둘 다 적극적으로
이 문제를 해결하려고 노력하고 있다는 것뿐이에요.
하지만 지금 여러분이 겪고 있는 경험은
제가 겪었던 것과 다릅니다.
그에 대해 죄송해요.
더 잘 계획했으면 좋았을 텐데요.
이걸 더 철저히 테스트할 시간이
있었으면 좋았을 텐데요. 여러분이
겪게 될 모델과 경험이
제가 조기 액세스로 경험했고
공개한 것과 다를 때를 대비한
백업 계획이 있었으면 좋았을 텐데요.
경험하고 있는 것과 같았습니다. OpenAI가 여기서 망친 것들에 대해 이야기해야 합니다
몇 가지가 있거든요. 단연코 가장 큰 문제는
오토 라우터라고 말하겠습니다. 아직 익숙하지 않으시다면
제 두 번째 영상에서 이것에 대해 이야기했습니다
모델을 사용할 때
저는 다양한 이름으로 GPT-5에 접근할 수 있었습니다
reasoning 모델을 다양한 이름으로 말이죠
그 중 하나인 Nectarine이 제가
대부분의 시간에 사용했던 모델이었습니다
마지막 순간에 5 mini와 nano도
다른 이름으로 얻었습니다
하지만 테스트할 시간이 거의 없었습니다
벤치마크를 한두 번 정도 돌려봤을 뿐입니다
그런데 5 Mini에는 정말 놀랐습니다
언젠가는 그것만으로 영상을 만들 수도 있을 것 같아요
가격 대비 정말 좋은 모델입니다
하지만 우리가 제대로 하지 못한 것은
오토 라우터였습니다. 저는
ChatGPT 사이트를 사용하지 않았기 때문에
실제로 그것에 부딪힐 일이 없었죠
오토 라우터가 하는 일은
요청을 받아서 살펴본 다음
그 요청의 내용을 바탕으로 어디로 보낼지 결정하는 것입니다
따라서 '깊이 생각해라'라고 말하거나
어려운 수학 문제를 주면
reasoning을 켜고 필요에 따라
reasoning의 양을 늘리거나 줄입니다
이것이 의미하는 바는
대부분의 사용자들이 기본적으로
요청을 할 때 가장 멍청한 버전의
GPT-5를 받고 있다는 것입니다
특히 무료 사용자들의 경우에는 더욱 그렇죠
OpenAI가 이 모델에 대해
무료 사용량을 매우 관대하게 제공했기 때문입니다
오토 라우터는 비용과 속도 대비
경험의 품질을 최대화하기 위해 만들어졌습니다
왜냐하면 한동안 reasoning을 하면
잠시 동안 아무것도 보이지 않고
ChatGPT의 평균 사용자는
거의 독점적으로 4.0을 사용해왔기 때문입니다
제 생각에는 약 30%의 사용자만이
OpenAI 유료 서비스에서
reasoning 모델 중 하나라도 사용해본 적이 있다고 합니다
정말 미친 일이죠
생각해보세요. ChatGPT에 월 20달러를 지불하는
사용자의 30%도 안 되는 사람들이
더 똑똑한 모델들을 사용합니다
그들은 그냥 계속 4.0을 사용하죠
그 때문에 그들은 즉시 응답을 받는 것에
익숙해져 있습니다
따라서 4.0이 reasoning 모델로 대체되면
더 이상 그런 경험을 할 수 없게 됩니다
그래서 그들은 두 가지를 했습니다
첫 번째는 프롬프트와 요청의 복잡성에 따라
모델이 reasoning을 하거나 하지 않도록 만든 것입니다
다른 하나는 새로운 빠른 답변 버튼입니다
클릭하면 reasoning을 끄고
즉시 답변을 내놓습니다
이것들은 핵입니다
그리고 이런 핵들은 현재 좋은 반응을 얻지 못하고 있는 것 같고
사람들이 우리가 모델로 보고 있는 것을 보지 못하고 있습니다
그리고 아마도 더 큰 문제는
다른 모든 모델들을 숨긴 것입니다
그들이 이런 짓을 할 줄은 몰랐습니다
출시 당시에 그들이 다른 모든 모델을 폐기하고
UI에서 숨기고, 무료 사용자들에게는
완전히 비활성화하고
당시에는 플러스 사용자들에게도 그렇게 할 줄은
전혀 몰랐습니다
그럴 수 있다고 상상조차 할 수 없었습니다
정말로 그럴 거라고 믿지 않았습니다
진심으로 그런 일이 일어날 거라고
생각하지 못했습니다
그런 경우라는 걸 이해할 수 있습니다. 그들이
이렇게 한 이유를 약간은 공감할 수 있어요.
왜 그랬는지 알 것 같거든요.
그 모델이 문제가 많기 때문입니다. 실행하기에
비용이 많이 들어요. 필요 이상으로
크기 때문입니다. 출력 품질도
여러 다른 이유로 좋지 않습니다.
또한 사람들을 이상한 상황으로
몰아넣는 나쁜 습관이 있어요. ChatGPT가 유발하는
정신적 혼란 상태 말입니다. 아부하는 성향이
심하다고 가볍게 표현하는 거죠. 전 세계 사람들이
사용하기에는 좋지 않은 모델입니다.
그래서 OpenAI가 급하게 그 모델에서
벗어나려고 하면서 점점 복잡해지는
네이밍 체계, 모델 옵션들을
단순화하려고 했던 이유를 이해할 수 있습니다.
그들은 모델이 사용자를 위해 모든 걸
알아서 처리해서, 질문만 하면 적절한
결과를 얻을 수 있게 하고 싶었어요.
하지만 실패했습니다. 솔직히 말해서
전혀 성공하지 못했어요. 사람들이
겪고 있는 경험이 좋지 않습니다. 그 결과로
T3 Chat에서 가입자가 급증했어요.
전혀 예상하지 못했습니다. OpenAI가
우리에게 이런 기회를 그냥
줄 거라고는 생각도 못했어요.
그런데 그렇게 됐네요. 불만을 표하지는
않겠지만, 이런 식으로 될 거라고는
정말 예상할 수 없었습니다.
다른 모든 모델들을 없애면 안 되는 건데요.
그 이후로 되돌린 것 같습니다.
샘이 자신의 후회와 실수에 대해
많은 글을 올리고 있어요.
자동 라우터는 전반적으로 재앙이었습니다.
그들이 확실히 망친 또 다른 부분은
GPT-5의 다양한 버전들에 대한
명확성입니다. 사실 다른 버전이라고 할 수도
없어요. 모델을 쿼리할 때
사용하는 다른 매개변수들이에요.
모델에게 줄 수 있는 다양한 수준의
파워가 있는데, 이것이 모델이 허용되는
사고의 양이고, 이것이 모델을
완전히 다르게 작동하게 만듭니다.
그리고 빠른 버전이 있는데, 이는
트래픽이 우선 처리되는 것인데,
제가 테스트할 때는 그런 게 없었어요.
우리 모두 빠른 버전을 사용했거든요.
사용하는 사람이 소수였기 때문이죠.
네, 가볍게 말해서 그들의 실수였습니다.
저는 아직도 버전들 간의 차이가 뭔지
모르겠고, High Fast가 제가 이전에 사용하던
버전인지도 확실하지 않습니다.
전혀 명확하지 않아요. Mini와 Nano가
뭔지는 알지만, 이런 다양한 설정에
기반한 5의 다른 특성들은
잘 이해하지 못하겠습니다.
제가 아는 것은 이전에 사용해봤던
그 하나의 엔드포인트가
정말, 정말 좋았다는 것이고,
지금 사용하고 있는 버전들은
예전만큼 좋지 않다는 느낌이에요.
최소한 Cursor에서는 예전만큼
좋지 않게 느껴집니다. 일부는
Cursor의 문제일 수도 있고,
일부는 아마도 OpenAI의 문제일 거예요.
지금으로선 알 수 없지만,
네 번째 문제를 해결했다면
좋았을 텐데요. 훨씬 쉬웠을 거예요.
그들에게는 좋은 코드 도구가 없어요.
새로운 Claude 모델이 나온다면,
어떤 이유로 Cursor가 지원하지 않더라도
여전히 그 모델이 얼마나 좋은지
테스트할 수 있습니다.
클라우드 코드를 사용해서 코드를 테스트할 방법이 없습니다.
Anthropic이 새로운 버전의
클라우드 모델을 클라우드 코드 지원 없이
출시할 리는 없죠. 현 시점에서는요. OpenAI도
Codex로 같은 일을 했습니다. 차이점은
Codex는 그냥 별로라는 거죠. 먼저
어떤 버전의 Codex인지 물어봐야 해요
왜냐하면 지금 다섯 개나 있거든요.
중요한 건 두 개인데, 백그라운드
에이전트 Devon의 경쟁자로, Slack에서
실행하면 VM을 띄우고
코드를 대신 작성해주는 거죠.
그건 별로 신경 안 써요.
제가 말하는 건 Codex CLI인데,
클라우드 코드의 대안이죠. 오픈소스
GPL 라이센스예요. 멋진 프로젝트죠.
만드는 분들이 정말 자랑스러워요.
그 중 몇 분과는 친구이기도 하고요. 하지만
클라우드 코드만큼 좋지는 않아요
심지어 다른 오픈소스 옵션들인
Open Code나 Aider보다도 못해요. 그리고 이 모든
도구들은 GPT-5를 최대한 활용하려면
구현상의 변경이 필요해요. 제가 들은
이야기들이 얼마나 많은지 말할 수 없을 정도예요
여러 회사들이 만드는 것들 말이에요
바이브 코딩 앱이나 CLI 도구들을 만들면서
Anthropic 모델들이 이상한 짓을
하지 못하게 하려고 넣어야 했던 핵들 말이에요
예를 들어, Convex의 Chef에서,
Convex로 뭔가를 만드는
바이브 코딩 앱에서 안정적으로 만들기 위해
했던 일들 중 상당수는 여러 파일에 대한
쓰기 권한을 잠그는 것이었어요. 모델이
파일에 쓰도록 두고 나서
바로 작성한 내용을 되돌리는 거죠
제대로 하지 못할 거고
건드리지 말아야 할 것들을 고집스럽게
건드릴 거거든요. 시스템 프롬프트에
건드리지 말라고 넣어도
건드리죠. 이 지점에서 상황이
GPT-5와 함께 바뀝니다. 지시사항을 따르고
정말 놀랍도록 잘 따라요. 이건
OpenAI가 새로운 모델들을 출시할 때
충분히 명확하게 알리지 않았어요.
그들이 사전에 Cursor와
긴밀하게 협력해야 했다는 사실은
두 시스템이 잘 함께 작동하도록 하기 위해서였는데
이런 정보는 아마 공유되었어야
했을 거예요. 새로운 모델이 나오면
단순히 스트링을 바꾸는 것만으론
충분하지 않아요. 특히
GPT-5처럼 근본적으로
다르게 동작하는 변화에서는요. 이상한 방향으로
빠지거나 이상한 토끼굴로
파고들지 않는다는 사실은 거의 모든 다른
모델들이 하는 방식과 달라서 프롬프팅을
다르게 해야 한다는 뜻이에요. 시스템을
다르게 설계해야 한다는 뜻이고. 도구를
다르게 사용해야 한다는 뜻이에요.
많은 것들이 달라진다는 뜻인데
이런 것들이 사전에 미리
처리되지 않았어요. 솔직히 말해서
이건 OpenAI가 만든 모델 중에서
이런 도구들에 통합할 가치가 있는
첫 번째 모델이거든요. 지금까지는
Anthropic 모델들이 단연 최고의 선택이었어요
에이전틱 작업에서는 도구 호출에서
최고였거든요. GPT-5는 그 격차를
좁혔을 뿐만 아니라 실제로 여러 면에서
훨씬 좋고 상당히 저렴해요.
문제는 사람들이 그렇게
생각하지 않는다는 거예요. Claude 4 Sonnet이
새 모델이 나오면, 그들은 도구 안의 문자열을 바꾸기만 하면
갑자기 더 좋아집니다. 만약 그 동일한
문자열을 anthropic/claude-sonnet에서
OpenAI/GPT-5로 바꾼다고 해서
OpenAI/GPT-5로 바꾼다고 해서
즉시 더 좋은 경험을 갖게 되지는 않습니다
왜냐하면 당신은 그 도구에
Sonnet 모델을 올바른 방향으로 이끌기 위한
기능들을 구축해놓았기 때문입니다.
Cursor를 사용해봤다면 이미 보셨을 겁니다.
Cursor가 Sonnet 모델과 함께 동작하는 방식과
GPT-5와 함께 동작하는 방식이
완전히 다릅니다.
그들이 GPT-5가 잘 작동하도록 하기 위해
내부적으로 완전히 새로운 모든 것을 구축했다는 게 분명합니다.
동시에 Cursor 직원들은 모두
GPT-5가 현재 에디터에서 사용하기에
가장 좋아하는 모델이라고 말해왔습니다.
그런데 분명히 뭔가 잘못되고 있습니다.
그들이 그렇게 말했고, 지금도 그렇게 말하는데
경험이 퇴보했다면
그들이 해결하고 있을 겁니다.
실제로 지금 제 휴대폰에 불이 들어오는 걸 보고 있는데
이 문제를 해결하고 있는
Cursor 직원이 연락해오고 있습니다.
제가 목록에 적어둔 건 이게 전부인 것 같습니다.
저는 그냥 여러분께 여기서 무엇이 잘못되었는지에 대한
제 솔직한 견해를 말씀드리고 싶었습니다.
OpenAI가 출시를 망쳤다고 생각합니다.
그들이 ChatGPT 사이트에서 한 일들은
개탄스럽고 사람들을 매우 매우
우려하게 만들었는데, 그럴 만한
이유가 있습니다.
지금 Cursor에서 겪고 있는 경험은
제가 이전에 가졌던 경험만큼
좋지 않습니다.
목요일부터 일요일까지는 제가 가졌던 것과
비슷했을 가능성이 있지만, 저는 휴가 중이어서
알 수 없었습니다.
유료 홍보라는 비난은
터무니없다고 생각합니다. 긍정적인 말을 한 사람들은
긍정적인 경험을 했던 겁니다.
OpenAI는 자신들의 신뢰도를 죽이려 하지 않을 것이고
저 역시 여기 나와서
같은 일을 하지는 않을 겁니다.
여러분이 제가 나와서
모델이 형편없다고 말했다면 얼마나 많은
무료 화제거리를 얻었을지
이해하지 못하는 것 같습니다. 하지만 그렇지 않거든요.
적어도 그렇지 않았어요. 그리고 제가
가장 정직한 길을 택했는데
제가 Vercel과 결별하기 훨씬 전 이후로
받은 것보다 더 많은 비난을 받게 된 건
솔직히 말해서 좀 바보 같은 일입니다.
이 일은 정말 짜증나는데, 한편으로는
받을 자격이 없다고 생각하는 비난을 받아서
실망스럽고 좌절스럽지만,
다른 한편으로는 그것이 어디서 나왔는지
충분히 이해할 수 있습니다.
왜냐하면 그 영상을 보고
기대감을 갖고 시도해봤는데
저와 다른 경험을 했다면
왜 좌절스러워하는지 이해합니다.
그리고 제가 모든 댓글 중에서
OpenAI가 우리에게 의도적으로 다른 모델을 줘서
대중들에게는 더 저렴한 걸 줄 수 있도록
했다는 댓글들을 보기 전에 말씀드리자면,
절대 그럴 리 없습니다. 그런 경우는
절대 없습니다. 제가
충분히 많은 사람들과 이야기해봤기 때문에
모든 쪽에서 무슨 일이 일어나고 있는지에 대해
혼란이 있다고 확신할 수 있습니다.
특히 자동 라우터가
끔찍한 아이디어였고 추천할 만한 상태가
전혀 아니라는 걸 깨달았습니다.
추천할 만한 경로가 아니었어요.
제가 대화를 나눈 대부분의 사람들이
API를 사용하고 있었고 저도 마찬가지였는데
우리 모두의 경험이 정말 좋았거든요
그리고 그런 경험들은 여전히
API를 다른 도구에서 사용하면 확인할 수 있어요.
이번 투명성 시도가
지난번보다는 잘 되길 바라요.
만약 그렇지 않다면, 정말로 사기꾼이 되어야 할 것 같아요
왜냐하면 금전적 타격과
정신적 타격을 감당하는 게
제가 느낀 것에 대한 솔직한 콘텐츠를 만들 때
저와 제 팀이 받는 것이 전혀 가치가 없거든요
그리고 돌아오는 반응이 '당신은 돈받고 하는 거짓말쟁이다'
라는 것이니까요. 저는 지금 솔직하게 말함으로써
말 그대로 수백만 달러를 포기하고 있어요.
그리고 그것 때문에 처벌받는다는 게
정말 엿같다고 느껴져요.
사람들이 화나는 이유는 이해해요.
그냥 화낼 때 머리를 좀 더 써줬으면 좋겠어요.
네, 이 문제에 대해서는 더 이상
할 말이 없는 것 같아요.
그냥
여러분이 제가 솔직하게 있을 수 있게 해주셨으면 해요
왜냐하면 사방에서 솔직하지 말라는
압박을 받는 게 정말 힘들거든요.
저는 이런 회사들의 기회를
거절하고 있어요. 여러분에게 솔직할 수 있도록
그리고 여러분에게 솔직할 수 있도록
모든 증오를 무시하려고 최선을 다하고 있어요.
여러분에게요.
이것은 다시 한번 제가 만든 가장 솔직한
영상 중 하나예요. 그리고 만약
이것이 잘 되지 않는다면
많은 것들을 다시 생각해야 할 거예요. 왜냐하면
스폰서도 붙이지 않았거든요.
아마 직접 편집하고 있을 거예요,
비즈니스에 쓸 수 있는 엄청난 시간을 잃으면서요.
지금 아직 휴가 중이어야 하는데
대신 여기 앉아서
침실에서 제 진실성을 변호하고 있어요
OpenAI가 망쳤다고 설명하려고 노력하면서요.
모르겠어요. 이건
네, 솔직히 말하면 이거 정말 엿같아요.
그리고 여러분이 제가 누구도 속이려 하지 않는다는 걸
보셨으면 좋겠어요.
제 경험을 여러분과
최대한 자연스럽게 공유하려고 노력하고 있어요.
그리고 지금 당장은 돈을 줘도
다르게 할 수 없어요.
하지만 돈을 받은 것처럼
계속 처벌받는다면
진짜로 돈 받고 할 때가
됐을 수도 있어요. 왜냐하면 지금 제가
'이것은 스폰서 섹션입니다'라고 말하지 않으면
스폰서 섹션이 없는 거거든요.
제가 믿지 않는 것을 말하라고
돈을 줘도 할 수 없어요. 제 스폰서조차
제가 실제로 믿고 제 콘텐츠를 보는
대부분의 사람들에게
좋은 선택이라고 생각하는 회사들이에요.
저는 여기서 다르게 하고 있어요.
최대한 솔직할 수 있도록
많은 노력을 기울이고 있어요. 그리고 제 솔직함이
여러분의 경험과
맞지 않는다면, 그냥 그렇게 말씀해 주세요.
여러분이 시도해보고 다른 경험을 했을 때
제가 이렇게 느끼는 게 혼란스럽다고
말씀해 주세요. 그러면
대화를 나눌 수 있으니까요. 하지만 우리 경험이
다를 때 여러분의 결론이
제가 돈받고 하는 앞잡이라는 것이라면
여러분은 대화에 관심이 없는 거예요.
대화를 원하는 게 아니라 그냥 화를 내고 싶은 거죠.
사람들이 왜 화를 내고 싶어하는지 이해해요.
사람들이 이 모델에 대해 말했던 것과
실제로 경험한 것 사이의 괴리가
너무 커서 화가 날 만하다는 걸
충분히 이해할 수 있어요.
하지만 분노가 여러분을 이끌지 않도록 충분히 생각해보세요.
제가 이 모든 일이 일어나기 몇 주 전에 촬영하고
몇 달 전에 계획했던 비디오라는
사실을 받아들여보세요.
GPT-5에 관한 것도 아니고,
OpenAI가 제게 돈을 지불한 것과는
전혀 관련이 없습니다.
제가 빠른 돈벌이를 위해 제 신뢰성을
걸지 않는다는 것을 깨달으세요.
OpenAI가 저를 인수할 미래는
없다는 것도 깨달으세요. 그러면 제 수입의
거대한 원천이자 사업인
유튜브 채널을 잃게 되거든요.
저는 여기서 이런 다양한 것들에 대해
중립적으로 이야기하고 있어요.
제가 OpenAI에 제 의견을
팔 이유가 있는 세상은
존재하지 않아요. 어쨌든
그렇게 비난당하는 세상을 제외하고는요.
자, 여기 있습니다. 제 생각에는
OpenAI가 심하게 망쳤어요.
제가 그들의 급여를 받고 있다면
이런 비디오는 절대 만들지 않았을 거예요.
이 모든 것 후에도, 제가 첫 번째
비디오에서 그 모델을 자폐적이라고
불렀는데도 여전히 제가
부정직하고 돈을 받는 앞잡이라고
생각한다면, 뭐라고 말해야 할지 모르겠어요.
그럼 꺼져버리세요. 여기서 문제는 당신이에요.
당신이 절 그렇게 만들 거예요.
저는 정말 최선을 다하고 있거든요.
정말로요. OpenAI가 다른 회사들보다
저를 더 잘 대해줘서 어느 정도
편향된 게 있나요? 네, 아마도
다른 회사들이 저를 더 잘 대해주겠죠.
하지만 진짜로, 네, 저는 편향적이에요.
그 회사를 좋아하니까요.
그들이 저를 잘 대해주고, 투명하게
대해주고, 제가 좋다고 생각하는 걸 만들었으니까요.
제가 뭘 하길 기대하는 거예요?
모르겠어요. 이제 제 생각을 알려드렸으니
원하는 대로 하세요.
이 비디오 댓글을 보는 게
전혀 기대되지 않아요.
아예 댓글을 꺼버릴지도 모르겠어요.
솔직히 말하면 지금 번아웃되지 않으려고
최선을 다하고 있어요.
그러니, 어떻게 받아들이든 상관없어요.
모델이 나아질 때까지 기다리세요.
그때까지는 앤트로픽 모델에
계속 너무 많은 돈을 지불하세요.
이 모든 게 그냥 별로인 것 같아요.
적어도 제가 어디서 오는지 조금이라도
이해해주시길 바랍니다. 안녕히 가세요.