GPT-4.5: OpenAI의 가장 흥미로운 모델인가?

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

영상은 OpenAI가 새롭게 선보인 GPT-4.5 모델의 핵심 특징과 그 배경에 대해 설명합니다. GPT-4.5는 기존 GPT-4 대비 10배 이상의 컴퓨팅 효율성을 자랑하지만, 그만큼 비용이 30배 더 높다는 점을 강조합니다. 또한 모델이 단순한 추론 능력보다는 감성 지능(EQ)과 창의적 답변, 인간과의 협업 측면에서 강점을 보이며, 향후 이를 기반으로 한 다양한 응용 및 업그레이드 가능성을 내포하고 있음을 언급합니다. 마지막으로, 벤치마크 결과와 API, 가격 정책 등 실사용과 시장 경쟁 측면에서 고려해야 할 점들을 짚어봅니다.

주요 키워드

GPT-4.5 컴퓨팅 효율성 감성 지능 사전 학습 벤치마크 API 비용 모델 철학 창의성 툴 사용

하이라이트

  • 🔑 GPT-4.5는 GPT-4보다 약 10배 향상된 컴퓨팅 효율성을 보이나, 비용은 30배 더 높은 점이 중요한 트레이드오프로 언급됩니다.
  • ⚡️ 모델 개발 철학은 단순한 추론 능력보다는 감성 지능(EQ)과 인간의 의도, 창의적 'Vibes'를 중시하는 방향으로 설정되었습니다.
  • 🌟 GPT-4.5는 강력한 기본 모델로서, 후속 추론 모델과 툴 사용 에이전트 개발의 기반이 될 예정입니다.
  • 📌 벤치마크와 실사용 결과에서는 GPT-4.5가 특정 코딩이나 도구 사용 작업에서는 아직 미흡한 반면, 창의적 글쓰기와 인간과의 협업 면에서는 긍정적인 반응을 이끌어냅니다.
  • 🚀 API 사용과 가격 정책 면에서 매우 고가의 모델로, 일반 사용자보다는 프로 및 연구 목적의 한정적 접근이 예상됩니다.

용어 설명

GPT-4.5

GPT-4의 후속 모델로, 향상된 컴퓨팅 효율성과 감성 지능에 중점을 둔 OpenAI의 최신 언어 모델입니다.

컴퓨팅 효율성

주어진 자원으로 얼마나 많은 처리가 가능한지를 나타내며, GPT-4.5는 GPT-4보다 10배 이상 높은 효율성을 보입니다.

감성 지능(EQ)

모델이 인간의 감정과 뉘앙스를 이해하고 반응하는 능력으로, GPT-4.5는 이를 강화하여 보다 자연스러운 대화를 제공합니다.

사전 학습

대량의 데이터로 기본 패턴과 언어 이해를 습득하는 과정으로, 모델 성능에 큰 영향을 미칩니다.

체인 오브 쏘트

문제 해결 과정에서 모델이 여러 단계의 사고 과정을 생성하는 메커니즘을 의미합니다.

API

응용 프로그램 인터페이스로, 개발자가 모델의 기능을 응용프로그램에 통합하여 사용할 수 있도록 합니다.

[00:00:00] 모델 소개 및 성능 개요

영상은 GPT-4.5의 출시에 대해 소개하며, GPT-4 대비 10배 높은 컴퓨팅 효율성과 약 30배 높은 비용 구조를 설명합니다. 모델의 첫 인상이 제시되며, 초기 성능 및 비용 문제에 대해 언급됩니다.

OpenAI가 GPT-4.5를 출시했으며, 이는 연산 효율성이 10배 향상되었지만 가격은 30배 증가한 모델입니다.
전 OpenAI 최고연구책임자는 GPT-4.5가 강력한 기본 모델이 될 것이며, 이를 기반으로 한 추론 모델이 더욱 강력할 것이라고 설명했습니다.
[00:00:37] 모델 철학 및 기본 아이디어

GPT-4.5가 단순한 추론 모델이 아니라, 감성 지능과 창의적 'Vibes'를 강화한 기본 모델임을 강조합니다. 사전 학습 확장과 후속 추론 모델 개발의 토대로서의 역할이 부각됩니다.

이 모델은 OpenAI의 가장 큰 모델이며, 버전이 0.5 증가할 때마다 사전 학습 연산량이 10배씩 증가한다고 합니다.
Sam Altman은 GPT-4.5가 마치 신중한 사람과 대화하는 것 같은 경험을 제공하지만, GPU 부족으로 인해 서비스 제공에 제한이 있다고 밝혔습니다.
이 모델은 추론에 중점을 둔 것이 아니라 감성적 측면에 초점을 맞추고 있으며, 사전 학습과 사후 학습의 발전을 보여주는 모델입니다.
[00:02:57] 시스템 카드 및 기술 세부 정보

블로그 포스트와 시스템 카드를 통해 GPT-4.5의 훈련 방법론과 아키텍처, 벤치마크 결과가 상세하게 소개됩니다. 다양한 비교 사례와 실험 결과를 바탕으로 모델의 기술적 특성이 논의됩니다.

GPT-4.5는 추론보다는 패턴 인식과 창의적 통찰력 생성에 뛰어나며, IQ보다 EQ(감성지능)에 초점을 맞추고 있습니다.
대규모 언어 모델의 두 가지 훈련 패러다임: 1) Claude, Gemini 같은 추론 중심 모델과 2) 창의성과 직관을 위한 비지도 학습 모델
GPT-4.5는 확장성의 한계에 도달하지 않았으나, 벤치마크 성능은 기대에 미치지 못했습니다.
GPT-1(2018)부터 GPT-4.5까지의 발전 과정: GPT-2의 의미 있는 응답 생성, GPT-3.5의 AI 혁명 시작
GPT-4.5는 인간과의 협업과 감성적 교감에 초점을 맞추어 개발되었으며, 일부 사용자들은 GPT-4보다 선호합니다.
GPT-4.5의 실용성 한계와 OpenAI의 향후 발전 방향에 대해 논의합니다. 현재는 추론 모델이 아니지만, 사전 학습을 통해 더 스마트하고 지식이 풍부한 기반 모델로 발전할 것으로 기대됩니다.
ChatGPT에서의 GPT-4.5 사용법과 접근성에 대해 설명합니다. 프로 사용자는 즉시, 플러스 사용자는 다음 주부터 접근 가능하며, 검색, 이미지 업로드, 캔버스 기능을 지원하지만 멀티모달 기능은 미지원입니다.
[00:08:15] 응용 사례, 가격 및 시장 전망

API 접근성과 가격 정책, 도구 사용 한계 등이 소개되며, 실제 코딩 및 에이전트 응용 측면의 결과가 비교됩니다. 시장 내 경쟁 구도와 향후 발전 가능성에 대한 논의가 포함됩니다.

GPT-4.5의 비용 구조와 성능에 대해 분석합니다. 백만 토큰당 75달러로 매우 고가이며, 에이전트나 코드 관련 작업에서의 성능은 기대에 미치지 못합니다.
벤치마크 성능 테스트 결과를 설명합니다. SweepBench에서 GPT-4보다 나은 성능을 보이지만, 다른 오픈 웨이트 모델들과 비교했을 때 상대적으로 성능이 떨어지는 것으로 나타났습니다.
GPT-4.5의 추론 버전 R1은 6천억 개의 파라미터를 가지고 있어 GPT-4.0과 GPT-4.5에 비해 훨씬 작은 규모입니다.
벤치마크 성능은 좋지 않으며, 창의적 글쓰기에서만 장점을 보이고 코딩 능력은 전혀 데모되지 않았습니다.
이번 릴리즈는 혁신적이진 않지만 감성 지능 면에서 향상되었으며, 높은 API 가격으로 인해 실제 활용은 제한적일 것으로 예상됩니다.
AI 기초 모델 시장은 고급화 전략의 OpenAI와 무료 제공 전략의 구글로 양극화되고 있으며, Anthropic은 GPU 부족으로 중간 입지를 유지하고 있습니다.
OpenAI가 GPT-4.5를 출시했는데
지금까지 출시된 모델 중
가장 흥미로운 모델일 것 같습니다
OpenAI에 따르면 이것은 최첨단 모델은 아니지만
GPT-4의 연산 효율성을
10배 이상 향상시켰다고 합니다
하지만 가격은 GPT-4의
거의 30배에 달합니다
성능은 GPT-4보다 향상되었지만
다른 최신 모델들과 비교하면
그다지 근접하지 않습니다
그렇다면 왜 이 모델을 출시했을까요?
그 답은 이 게시물에서 찾을 수 있습니다
OpenAI의 전 최고연구책임자인
Bob M의 글에서 말이죠
그는 이렇게 말합니다
GPT-4.5가 Claude 2보다 똑똑하지 않다고 실망하지 마세요
사전 학습을 확장하면
전반적인 응답이 개선되고
추론 능력을 확장하면
생각할 시간이 필요한 응답은 크게 개선되지만
그렇지 않은 경우는 미미합니다
즉, GPT-4.5는
매우 강력한 기본 모델이 될 것이며
OpenAI는 이를 기반으로
추론 모델을 구축하여
지금까지 본 것보다
훨씬 더 강력한 성능을 보여줄 것입니다
이 모델은 매우 거대하며
OpenAI의 가장 크고 지식이 풍부한
모델입니다. 정확한 크기는 모르지만
참고로 한 트윗에 따르면
버전의 각 0.5 증가마다
사전 학습 연산량이 약 10배
증가한다고 합니다
이를 기준으로 생각해보면
GPT-4보다 10배 더 큰 규모이면서도
10배 더 연산 효율적이라는 것입니다
심지어 OpenAI도 이 10배 더 효율적인
모델을 서비스하는 데 어려움을 겪고 있습니다
Sam Altman의 트윗을 보면
GPT-4.5가 준비되었다고 합니다. 좋은 소식은
이 모델이 처음으로
신중한 사람과 대화하는 것처럼
느껴진다고 합니다. 그는
의자에 기대앉아
AI로부터 실제로 좋은 조언을
받고 놀란 순간들이 여러 번 있었다고 합니다
나쁜 소식은
처음에는 이 모델을 모든 사람에게
제공하지 않을 것이라는 점입니다
그는 이것이 거대하고 비용이 많이 드는 모델이라
Plus와 Pro 등급에 동시에
출시하고 싶었지만 성장이 빨라
GPU가 부족하다고 합니다
NVIDIA만이 승자가 될 것 같네요
다음 주에 수만 개의 GPU를 추가하고
Plus 등급으로 확장할 예정입니다
가장 흥미로운 점은
이것이 추론 모델이 아니며
벤치마크를 압도하지는 않을 것이라는 점입니다
하지만 이는 매우 강력한
추론 모델 학습을 위한
기본 모델이 될 것 같습니다
그들은 또한
블로그 포스트보다 더 많은 정보가 담긴
시스템 카드를 공개했습니다
먼저 블로그 포스트를 살펴보고
나중에 시스템 카드를 볼텐데
이는 GPT-4.5의 프리뷰이며
지금까지 나온 모델 중 가장 크고
채팅에 최적화되어 있다고 합니다
주목할 점은 실제 코딩 능력이 아닌
감성적인 측면에 초점을 맞추고 있다는 것입니다
그들에 따르면 이는 사전 학습과
사후 학습 확장의 진전이라고 합니다
패턴을 인식하고
다양한 연관성을 도출하며
창의적인 통찰력을 생성하는 데
추론 없이도 매우 뛰어납니다.
이는 추론 모델이 아니며
IQ보다는 감성지능(EQ)에
더 초점을 맞추고 있습니다.
대규모 언어 모델을 훈련시키는
두 가지 패러다임이 있는데,
하나는 추론 능력을 확장하는 것으로
Claude-1이나 Claude-3와 같은 새로운 세대의 모델이 있고
다른 예로는 크록 씽킹,
제미니 씽킹, R1이 있습니다.
이러한 모델들의 아이디어는
응답하기 전에
사고 과정을 거치며
복잡한 STEM 문제와
논리적 문제를 해결할 수 있습니다.
하지만 창의성과 더 나은 분위기를
원한다면 비지도 학습에
초점을 맞춰 세계 모델의 정확도와
직관을 높일 수 있습니다. GPT-4.5는
컴퓨팅 능력과 데이터를 확장하고
아키텍처와 최적화 혁신을 통해
이런 방식으로 훈련된 것 같습니다.
이제 우리가 궁금한 것은
확장성의 한계에 도달했는가 입니다.
이 모델을 보면 그렇지 않은 것 같지만
벤치마크 테스트에서의 성능이
기대에 미치지 못했습니다.
OpenAI는 GPT-1부터
GPT-4.5까지의 응답 샘플을
공개했는데, GPT-1은 2018년에
훈련된 모델입니다. 현재 모델인
GPT-4.5까지의 발전 과정을
확인해보시길 추천드립니다.
모델이 시간에 따라 어떻게 발전했는지
잘 보여주거든요. 질문은 이렇습니다:
'첫 번째 언어는 무엇인가요?' GPT-1은
단순히 같은 내용을 반복했습니다.
GPT-2가 처음으로 의미 있는 응답을
생성할 수 있었죠.
응답의 질이 높진 않았지만
더 일관된 응답을 생성할 수 있었습니다.
당시 OpenAI가 GPT-2를
공개하지 않으려 했던 이유는
너무 위험하다고 생각했고
사람들이 대규모 언어 모델을
악용할 것을 우려했기 때문입니다.
이후 GPT-3.5가 등장했고
응답이 훨씬 더 세련되어졌습니다.
이것이 세상을 흔들어 놓았고
AI 혁명을 시작했죠. GPT-4 터보는
상대적으로 장황했고,
이제 GPT-4.5가 나왔습니다.
개인의 취향에 따라 GPT-4.5의 응답을
GPT-4나 터보보다 선호할 수도 있고
그 반대일 수도 있습니다. 이 모델은
현재로서는 분위기에 중점을 두고 있고
분위기에 초점을 맞추다 보니
인간과의 협업에 특별히 집중했습니다.
모델이 인간의 니즈와
의도를 더 잘 이해하도록
훈련시켰고, 그 결과
일부 경우에는 GPT-4보다 GPT-4.5의
응답을 더 선호하는 것으로 나타났습니다.
이러한 인간 선호도 시스템을
조작할 수도 있는데, 챗봇 아레나
리더보드가 좋은 예시입니다.
일부 모델 개발자들은
모델이 더 자세한 응답을 생성하면
사람들이 일반적으로
더 선호한다는 것을 발견했죠.
챗봇 아레나 리더보드에서 높은 점수를 받는
이런 모델들의 실제 활용도는 제한적입니다
GPT-4.5가 어떻게 될지 지켜봐야 할 것 같습니다
앞서 여러 번 언급했듯이
이것은 추론 모델이 아닙니다
하지만 OpenAI가 제시하는 방향성을 보면
사전 학습을 통해 더 스마트하고
더 많은 지식을 습득할 수 있으며
이러한 모델들이
추론과 도구 사용 에이전트를 위한
더 강력한 기반 모델이 될 수 있다고 합니다
현재 상태로는
도구 사용에는 적합하지 않은데
이는
Windsurf 개발사인 Codium의 CEO
Von Moan의 트윗에서도 강조됩니다
그는 GPT-4.5가 Windsurf에 적용되고 있지만
제한된 테스트 결과를 보면
Claude와 같은 모델들보다
도구 호출 면에서 더 비싸고 느리며 성능도 떨어진다고 했습니다
ChatGPT에서 GPT-4.5를 어떻게 사용할 수 있을까요?
프로 사용자라면 이미 접근 권한이 있을 것이고
저처럼 플러스 사용자는
다음 주쯤 접근 권한을 받을 것 같습니다
검색 기능이 지원되고
이미지 업로드와 캔버스 기능도
사용할 수 있게 될 것입니다
하지만 현재로서는
음성, 비디오,
화면 공유와 같은 멀티모달 기능은
ChatGPT에서 지원되지 않습니다
개발자는 API를 통해 사용할 수 있지만
매우 크고 컴퓨팅 집약적인 모델이라
비용이 많이 들고
GPT-4를 대체할 수는 없다고 합니다
비용은 얼마나 들까요? 백만 토큰당
75달러입니다. 반면 GPT-4는
백만 토큰당 2.5달러에 불과합니다
아마도 제가 본 모델 중
가장 비싼 모델일 것 같습니다
사용 사례 측면에서는
창의적인 작업과 에이전트 계획을 위해 설계되었고
현재 연구 프리뷰로 제공되며
128,000 컨텍스트 윈도우를 지원합니다
에이전트나 코드 관련 작업에서
얼마나 좋은 성능을 보일까요?
결과는 그리 인상적이지 않습니다
시스템 카드에는
사전 중재와 사후 중재라는
두 가지 변형이 보고되었는데
전반적으로 원래의 GPT-4보다는
약간 나은 수준이지만
항상 O1과 O3 Mini보다는 뒤쳐집니다
이는 OpenAI 연구 엔지니어
인터뷰 문제의 예시입니다
객관식 문제에서는
GPT-4보다 확실히 더 나은 성능을 보이지만
O3 Mini와 비슷한 수준입니다
SweepBench에서는 GPT-4보다 훨씬 좋은 성능을 보이지만
OpenAI가 여기서 주목할 점은
오픈 웨이트나 다른 최신 모델들을
비교 대상에 포함시키지 않았다는 것입니다
예를 들어
DeepSeek-3와 같은 오픈 웨이트 모델과
비교해보면 두 가지를 알 수 있습니다
SweepBench에서
GPT-4.5는 38%의 점수를 받았고
원래 버전의 GPT-4는 31%,
최신 버전의 GPT-4는
38.8%를 기록했는데
이는 실제로 GPT-4.5보다 더 좋은 성능입니다
하지만 DeepSeek-3와 비교하면
다른 최신 오픈 웨이트 모델들보다
성능이 떨어지며
DeepSeek-3는 단순한 추론 모델이 아닙니다
추론 버전인 R1의 경우
약 6천억 개의 파라미터만을 가지고 있는데
이는 GPT-4.0과 GPT-4.5에 비해
규모면에서 몇 배나 작은 수준입니다
샘의 트윗으로 다시 돌아가보면
벤치마크 성능이 좋지 않은 것은 확실하고
아마도 더 나은 분위기를 가질 수 있겠지만
그것도 창의적인 글쓰기에만 해당됩니다
코딩은 해당되지 않죠. 실제로
라이브 데모에서도 단 한 번의
코딩 작업도 보여주지 않았고
블로그 포스트에서도
코딩 관련 데모를 전혀 볼 수 없었습니다
정리하자면, 이번 릴리즈는
매우 흥미로운 발표이긴 하지만
혁신적인 수준은 아니에요. 다만 이 모델은
지금까지 본 모델들과 비교해
더 나은 감성 지능을 가질 수 있습니다
API 가격을 고려하면
실제 프로덕션 환경에서
사용하기는 거의 불가능할 것이고
접근성과 가격 측면에서
기초 모델들은 현재
두 개의 그룹으로 나뉘고 있습니다
하나는 OpenAI처럼
점점 더 고급화되면서
더 비싼 기능을 제공하는 그룹이고
다른 한편으로는
구글처럼 최고의 모델은 아닐지 몰라도
거의 모든 모델을
무료로 제공하는 곳이 있는데
이는 정말 놀라운 일이죠
OpenAI는 더 많은 기능을
API 엔드포인트를 통해 제공하고 있고
중간에 위치한 Anthropic은
수요를 따라가지 못하고 있는데
이는 충분한 GPU를
확보하지 못하고 있기 때문입니다
그리고 중국에서 나오는
모델들도 있는데, 이들은 보통
웹 인터페이스를 무료로 제공하고
API 가격도 매우 경쟁력이 있죠
이 모든 것에 대해 여러분의 생각이 궁금합니다
정말 흥미로운 그룹들이
형성되고 있다고 생각합니다
이 영상이 도움이 되었길 바랍니다
시청해주셔서 감사하고 다음 영상에서 만나요