[00:00]
OpenAI가 GPT-4.5를 출시했는데
[00:03]
지금까지 출시된 모델 중
[00:05]
가장 흥미로운 모델일 것 같습니다
[00:07]
OpenAI에 따르면 이것은 최첨단 모델은 아니지만
[00:09]
GPT-4의 연산 효율성을
[00:12]
10배 이상 향상시켰다고 합니다
[00:14]
하지만 가격은 GPT-4의
[00:17]
거의 30배에 달합니다
[00:20]
성능은 GPT-4보다 향상되었지만
[00:22]
다른 최신 모델들과 비교하면
[00:26]
그다지 근접하지 않습니다
[00:27]
그렇다면 왜 이 모델을 출시했을까요?
[00:31]
그 답은 이 게시물에서 찾을 수 있습니다
[00:34]
OpenAI의 전 최고연구책임자인
[00:37]
Bob M의 글에서 말이죠
[00:40]
그는 이렇게 말합니다
[00:43]
GPT-4.5가 Claude 2보다 똑똑하지 않다고 실망하지 마세요
[00:47]
사전 학습을 확장하면
[00:50]
전반적인 응답이 개선되고
[00:52]
추론 능력을 확장하면
[00:54]
생각할 시간이 필요한 응답은 크게 개선되지만
[00:57]
그렇지 않은 경우는 미미합니다
[01:01]
즉, GPT-4.5는
[01:03]
매우 강력한 기본 모델이 될 것이며
[01:07]
OpenAI는 이를 기반으로
[01:10]
추론 모델을 구축하여
[01:11]
지금까지 본 것보다
[01:13]
훨씬 더 강력한 성능을 보여줄 것입니다
[01:16]
이 모델은 매우 거대하며
[01:18]
OpenAI의 가장 크고 지식이 풍부한
[01:20]
모델입니다. 정확한 크기는 모르지만
[01:23]
참고로 한 트윗에 따르면
[01:26]
버전의 각 0.5 증가마다
[01:30]
사전 학습 연산량이 약 10배
[01:32]
증가한다고 합니다
[01:34]
이를 기준으로 생각해보면
[01:37]
GPT-4보다 10배 더 큰 규모이면서도
[01:41]
10배 더 연산 효율적이라는 것입니다
[01:45]
심지어 OpenAI도 이 10배 더 효율적인
[01:48]
모델을 서비스하는 데 어려움을 겪고 있습니다
[01:50]
Sam Altman의 트윗을 보면
[01:53]
GPT-4.5가 준비되었다고 합니다. 좋은 소식은
[01:57]
이 모델이 처음으로
[01:58]
신중한 사람과 대화하는 것처럼
[02:01]
느껴진다고 합니다. 그는
[02:03]
의자에 기대앉아
[02:06]
AI로부터 실제로 좋은 조언을
[02:09]
받고 놀란 순간들이 여러 번 있었다고 합니다
[02:12]
나쁜 소식은
[02:13]
처음에는 이 모델을 모든 사람에게
[02:17]
제공하지 않을 것이라는 점입니다
[02:20]
그는 이것이 거대하고 비용이 많이 드는 모델이라
[02:22]
Plus와 Pro 등급에 동시에
[02:25]
출시하고 싶었지만 성장이 빨라
[02:27]
GPU가 부족하다고 합니다
[02:30]
NVIDIA만이 승자가 될 것 같네요
[02:32]
다음 주에 수만 개의 GPU를 추가하고
[02:35]
Plus 등급으로 확장할 예정입니다
[02:37]
가장 흥미로운 점은
[02:40]
이것이 추론 모델이 아니며
[02:41]
벤치마크를 압도하지는 않을 것이라는 점입니다
[02:43]
하지만 이는 매우 강력한
[02:46]
추론 모델 학습을 위한
[02:48]
기본 모델이 될 것 같습니다
[02:52]
그들은 또한
[02:53]
블로그 포스트보다 더 많은 정보가 담긴
[02:55]
시스템 카드를 공개했습니다
[02:57]
먼저 블로그 포스트를 살펴보고
[02:59]
나중에 시스템 카드를 볼텐데
[03:01]
이는 GPT-4.5의 프리뷰이며
[03:05]
지금까지 나온 모델 중 가장 크고
[03:07]
채팅에 최적화되어 있다고 합니다
[03:09]
주목할 점은 실제 코딩 능력이 아닌
[03:13]
감성적인 측면에 초점을 맞추고 있다는 것입니다
[03:16]
그들에 따르면 이는 사전 학습과
[03:19]
사후 학습 확장의 진전이라고 합니다
[03:22]
패턴을 인식하고
[03:24]
다양한 연관성을 도출하며
[03:27]
창의적인 통찰력을 생성하는 데
[03:29]
추론 없이도 매우 뛰어납니다.
[03:31]
이는 추론 모델이 아니며
[03:33]
IQ보다는 감성지능(EQ)에
[03:37]
더 초점을 맞추고 있습니다.
[03:40]
대규모 언어 모델을 훈련시키는
[03:42]
두 가지 패러다임이 있는데,
[03:45]
하나는 추론 능력을 확장하는 것으로
[03:46]
Claude-1이나 Claude-3와 같은 새로운 세대의 모델이 있고
[03:50]
다른 예로는 크록 씽킹,
[03:52]
제미니 씽킹, R1이 있습니다.
[03:57]
이러한 모델들의 아이디어는
[03:59]
응답하기 전에
[04:01]
사고 과정을 거치며
[04:04]
복잡한 STEM 문제와
[04:06]
논리적 문제를 해결할 수 있습니다.
[04:10]
하지만 창의성과 더 나은 분위기를
[04:12]
원한다면 비지도 학습에
[04:15]
초점을 맞춰 세계 모델의 정확도와
[04:18]
직관을 높일 수 있습니다. GPT-4.5는
[04:21]
컴퓨팅 능력과 데이터를 확장하고
[04:24]
아키텍처와 최적화 혁신을 통해
[04:26]
이런 방식으로 훈련된 것 같습니다.
[04:29]
이제 우리가 궁금한 것은
[04:31]
확장성의 한계에 도달했는가 입니다.
[04:34]
이 모델을 보면 그렇지 않은 것 같지만
[04:37]
벤치마크 테스트에서의 성능이
[04:39]
기대에 미치지 못했습니다.
[04:43]
OpenAI는 GPT-1부터
[04:46]
GPT-4.5까지의 응답 샘플을
[04:49]
공개했는데, GPT-1은 2018년에
[04:52]
훈련된 모델입니다. 현재 모델인
[04:55]
GPT-4.5까지의 발전 과정을
[04:57]
확인해보시길 추천드립니다.
[04:59]
모델이 시간에 따라 어떻게 발전했는지
[05:03]
잘 보여주거든요. 질문은 이렇습니다:
[05:05]
'첫 번째 언어는 무엇인가요?' GPT-1은
[05:08]
단순히 같은 내용을 반복했습니다.
[05:11]
GPT-2가 처음으로 의미 있는 응답을
[05:16]
생성할 수 있었죠.
[05:18]
응답의 질이 높진 않았지만
[05:20]
더 일관된 응답을 생성할 수 있었습니다.
[05:24]
당시 OpenAI가 GPT-2를
[05:27]
공개하지 않으려 했던 이유는
[05:29]
너무 위험하다고 생각했고
[05:32]
사람들이 대규모 언어 모델을
[05:34]
악용할 것을 우려했기 때문입니다.
[05:36]
이후 GPT-3.5가 등장했고
[05:40]
응답이 훨씬 더 세련되어졌습니다.
[05:43]
이것이 세상을 흔들어 놓았고
[05:45]
AI 혁명을 시작했죠. GPT-4 터보는
[05:49]
상대적으로 장황했고,
[05:52]
이제 GPT-4.5가 나왔습니다.
[05:55]
개인의 취향에 따라 GPT-4.5의 응답을
[05:59]
GPT-4나 터보보다 선호할 수도 있고
[06:03]
그 반대일 수도 있습니다. 이 모델은
[06:06]
현재로서는 분위기에 중점을 두고 있고
[06:09]
분위기에 초점을 맞추다 보니
[06:11]
인간과의 협업에 특별히 집중했습니다.
[06:14]
모델이 인간의 니즈와
[06:16]
의도를 더 잘 이해하도록
[06:19]
훈련시켰고, 그 결과
[06:21]
일부 경우에는 GPT-4보다 GPT-4.5의
[06:24]
응답을 더 선호하는 것으로 나타났습니다.
[06:28]
이러한 인간 선호도 시스템을
[06:30]
조작할 수도 있는데, 챗봇 아레나
[06:33]
리더보드가 좋은 예시입니다.
[06:36]
일부 모델 개발자들은
[06:37]
모델이 더 자세한 응답을 생성하면
[06:40]
사람들이 일반적으로
[06:42]
더 선호한다는 것을 발견했죠.
[06:44]
챗봇 아레나 리더보드에서 높은 점수를 받는
[06:47]
이런 모델들의 실제 활용도는 제한적입니다
[06:51]
GPT-4.5가 어떻게 될지 지켜봐야 할 것 같습니다
[06:55]
앞서 여러 번 언급했듯이
[06:58]
이것은 추론 모델이 아닙니다
[07:01]
하지만 OpenAI가 제시하는 방향성을 보면
[07:05]
사전 학습을 통해 더 스마트하고
[07:08]
더 많은 지식을 습득할 수 있으며
[07:11]
이러한 모델들이
[07:13]
추론과 도구 사용 에이전트를 위한
[07:15]
더 강력한 기반 모델이 될 수 있다고 합니다
[07:20]
현재 상태로는
[07:22]
도구 사용에는 적합하지 않은데
[07:25]
이는
[07:26]
Windsurf 개발사인 Codium의 CEO
[07:29]
Von Moan의 트윗에서도 강조됩니다
[07:32]
그는 GPT-4.5가 Windsurf에 적용되고 있지만
[07:35]
제한된 테스트 결과를 보면
[07:38]
Claude와 같은 모델들보다
[07:40]
도구 호출 면에서 더 비싸고 느리며 성능도 떨어진다고 했습니다
[07:43]
ChatGPT에서 GPT-4.5를 어떻게 사용할 수 있을까요?
[07:47]
프로 사용자라면 이미 접근 권한이 있을 것이고
[07:49]
저처럼 플러스 사용자는
[07:52]
다음 주쯤 접근 권한을 받을 것 같습니다
[07:56]
검색 기능이 지원되고
[07:58]
이미지 업로드와 캔버스 기능도
[08:00]
사용할 수 있게 될 것입니다
[08:03]
하지만 현재로서는
[08:06]
음성, 비디오,
[08:08]
화면 공유와 같은 멀티모달 기능은
[08:11]
ChatGPT에서 지원되지 않습니다
[08:15]
개발자는 API를 통해 사용할 수 있지만
[08:19]
매우 크고 컴퓨팅 집약적인 모델이라
[08:21]
비용이 많이 들고
[08:24]
GPT-4를 대체할 수는 없다고 합니다
[08:28]
비용은 얼마나 들까요? 백만 토큰당
[08:31]
75달러입니다. 반면 GPT-4는
[08:35]
백만 토큰당 2.5달러에 불과합니다
[08:38]
아마도 제가 본 모델 중
[08:40]
가장 비싼 모델일 것 같습니다
[08:42]
사용 사례 측면에서는
[08:45]
창의적인 작업과 에이전트 계획을 위해 설계되었고
[08:48]
현재 연구 프리뷰로 제공되며
[08:50]
128,000 컨텍스트 윈도우를 지원합니다
[08:54]
에이전트나 코드 관련 작업에서
[08:56]
얼마나 좋은 성능을 보일까요?
[08:59]
결과는 그리 인상적이지 않습니다
[09:01]
시스템 카드에는
[09:03]
사전 중재와 사후 중재라는
[09:06]
두 가지 변형이 보고되었는데
[09:09]
전반적으로 원래의 GPT-4보다는
[09:12]
약간 나은 수준이지만
[09:15]
항상 O1과 O3 Mini보다는 뒤쳐집니다
[09:18]
이는 OpenAI 연구 엔지니어
[09:22]
인터뷰 문제의 예시입니다
[09:24]
객관식 문제에서는
[09:27]
GPT-4보다 확실히 더 나은 성능을 보이지만
[09:30]
O3 Mini와 비슷한 수준입니다
[09:34]
SweepBench에서는 GPT-4보다 훨씬 좋은 성능을 보이지만
[09:37]
OpenAI가 여기서 주목할 점은
[09:40]
오픈 웨이트나 다른 최신 모델들을
[09:42]
비교 대상에 포함시키지 않았다는 것입니다
[09:45]
예를 들어
[09:48]
DeepSeek-3와 같은 오픈 웨이트 모델과
[09:51]
비교해보면 두 가지를 알 수 있습니다
[09:54]
SweepBench에서
[09:55]
GPT-4.5는 38%의 점수를 받았고
[10:00]
원래 버전의 GPT-4는 31%,
[10:03]
최신 버전의 GPT-4는
[10:07]
38.8%를 기록했는데
[10:10]
이는 실제로 GPT-4.5보다 더 좋은 성능입니다
[10:14]
하지만 DeepSeek-3와 비교하면
[10:18]
다른 최신 오픈 웨이트 모델들보다
[10:21]
성능이 떨어지며
[10:23]
DeepSeek-3는 단순한 추론 모델이 아닙니다
[10:27]
추론 버전인 R1의 경우
[10:30]
약 6천억 개의 파라미터만을 가지고 있는데
[10:33]
이는 GPT-4.0과 GPT-4.5에 비해
[10:35]
규모면에서 몇 배나 작은 수준입니다
[10:40]
샘의 트윗으로 다시 돌아가보면
[10:44]
벤치마크 성능이 좋지 않은 것은 확실하고
[10:47]
아마도 더 나은 분위기를 가질 수 있겠지만
[10:49]
그것도 창의적인 글쓰기에만 해당됩니다
[10:52]
코딩은 해당되지 않죠. 실제로
[10:55]
라이브 데모에서도 단 한 번의
[10:59]
코딩 작업도 보여주지 않았고
[11:02]
블로그 포스트에서도
[11:04]
코딩 관련 데모를 전혀 볼 수 없었습니다
[11:07]
정리하자면, 이번 릴리즈는
[11:09]
매우 흥미로운 발표이긴 하지만
[11:12]
혁신적인 수준은 아니에요. 다만 이 모델은
[11:17]
지금까지 본 모델들과 비교해
[11:20]
더 나은 감성 지능을 가질 수 있습니다
[11:23]
API 가격을 고려하면
[11:25]
실제 프로덕션 환경에서
[11:27]
사용하기는 거의 불가능할 것이고
[11:30]
접근성과 가격 측면에서
[11:32]
기초 모델들은 현재
[11:34]
두 개의 그룹으로 나뉘고 있습니다
[11:37]
하나는 OpenAI처럼
[11:39]
점점 더 고급화되면서
[11:42]
더 비싼 기능을 제공하는 그룹이고
[11:44]
다른 한편으로는
[11:46]
구글처럼 최고의 모델은 아닐지 몰라도
[11:49]
거의 모든 모델을
[11:51]
무료로 제공하는 곳이 있는데
[11:54]
이는 정말 놀라운 일이죠
[11:57]
OpenAI는 더 많은 기능을
[12:00]
API 엔드포인트를 통해 제공하고 있고
[12:02]
중간에 위치한 Anthropic은
[12:05]
수요를 따라가지 못하고 있는데
[12:08]
이는 충분한 GPU를
[12:11]
확보하지 못하고 있기 때문입니다
[12:15]
그리고 중국에서 나오는
[12:17]
모델들도 있는데, 이들은 보통
[12:19]
웹 인터페이스를 무료로 제공하고
[12:23]
API 가격도 매우 경쟁력이 있죠
[12:26]
이 모든 것에 대해 여러분의 생각이 궁금합니다
[12:29]
정말 흥미로운 그룹들이
[12:31]
형성되고 있다고 생각합니다
[12:33]
이 영상이 도움이 되었길 바랍니다
[12:35]
시청해주셔서 감사하고 다음 영상에서 만나요