OpenAI GPT 4.5: 이 모델은 어떤 용도로 사용해야 할까? - 테스트

채널 아이콘
All About AI 구독자 189,000명

요약

본 영상은 OpenAI가 최근 출시한 GPT 4.5 모델의 특징과 활용 가능성을 다양한 각도에서 검토하는 내용을 담고 있다. 가격이 상당히 높은 점을 고려해 코딩이나 과학적 추론 같은 전통적 용도보다는 창의적 작업, 비즈니스 기획 등 대안적 활용 사례에 주목하는 모습을 보여준다. 또한, 내부 평가 자료와 시스템 카드 분석을 통해 모델의 대화 자연스러움, 낮은 환각률, 그리고 안전성 문제에 대한 논의도 병행된다. 마지막으로, 실제 비즈니스 플랜과 이메일 아웃리치 예제를 통해 실무 적용 가능성을 시도하며, 향후 활용 대상에 대해 시청자 의견을 물어보는 것으로 마무리한다.

주요 키워드

GPT 4.5 가격 창의적 작업 비즈니스 플랜 코딩 추론 환각률 안전성 시스템 카드 아웃리치

하이라이트

  • 🔑 GPT 4.5 출시와 함께 기존 모델 대비 높은 가격이 주요 고민 거리로 등장합니다.
  • ⚡️ 코딩이나 STEM 추론보다는 창의적 작성 및 비즈니스 기획과 같은 영역에 적합한 활용 방안을 모색합니다.
  • 🌟 내부 시스템 카드와 블로그 평가를 통해 대화의 자연스러움, 낮은 환각률, 그리고 개선된 의도 파악 능력이 강조됩니다.
  • 📌 실제 비즈니스 플랜 생성 및 이메일 아웃리치 예제를 진행하며 모델의 실무 적용 가능성을 시험합니다.
  • 🚀 향후 모델의 안전성 및 사용 범위 확대에 대해 개발자들과 커뮤니티의 의견 수렴이 필요함을 시사합니다.

용어 설명

GPT 4.5

OpenAI에서 출시한 최신 대규모 언어 모델로, 대화형 인터페이스 및 창의적 작업에 강점을 보이는 모델입니다.

추론 (Reasoning)

문제 해결이나 논리적 사고를 통해 답변을 도출하는 과정으로, 모델의 경우 복잡한 계산이나 논리 전개에 사용됩니다.

환각 (Hallucination)

모델이 실제와 다르거나 부정확한 정보를 생성하는 현상을 의미하며, 낮은 환각률은 모델의 신뢰도를 높이는 요소입니다.

Agentic workflows

고도의 자율성과 의사결정이 필요한 업무 프로세스를 의미하며, 비용 대비 효율성이 중요한 평가 기준입니다.

LLM (대규모 언어 모델)

대량의 텍스트 데이터를 학습하여 인간과 유사한 언어 이해 및 생성 능력을 갖춘 인공지능 모델을 칭합니다.

[00:00:00] 모델 출시 및 활용 고민

영상은 GPT 4.5의 출시와 이로 인한 가격 상승 문제를 소개합니다. 모델의 높은 비용 때문에 코딩이나 STEM 추론 대신 창의적 작업에 활용할 방안을 고민하는 내용이 전개됩니다.

OpenAI가 GPT-4.5를 출시했으며, 이 모델은 GPT-3.5보다 34배 비싼 가격으로 인해 활용 사례를 찾기 어렵다는 고민을 설명합니다.
코딩, STEM 추론, 생성 AI 워크플로우에는 가격 때문에 사용하지 않을 것이며, 대신 창작 작업과 사업 계획 작성에 활용해보려고 합니다.
OpenAI는 이 모델이 추론 모델이 아니라서 토큰 소비가 적다고 하지만, 여전히 큰 프로젝트에 사용하기에는 비용 부담이 크다고 설명합니다.
[00:02:12] 평가 자료 및 시스템 카드 분석

블로그 포스트와 시스템 카드 분석을 통해 GPT 4.5의 대화 자연스러움, 낮은 환각률, 개선된 의도 파악 등을 평가합니다. 내부 테스트 결과와 비교 평가를 바탕으로 모델의 강점과 위험 요소가 함께 논의됩니다.

GPT-4.5는 채팅에 특화된 최고의 모델로, 자연스러운 상호작용, 넓은 지식 기반, 향상된 감정 지능을 특징으로 하며 환각 현상도 감소했다고 합니다.
GPT 4.5의 성능 개선: 환각 현상이 감소했으며, 인간의 의도와 암시적 단서를 더 잘 이해하고 해석하는 능력이 향상되었습니다.
GPT 4.5와 다른 모델들의 비교: Claude-01, 03과 달리 즉각적인 응답을 하며, 더 범용적이고 똑똑한 모델로 평가받고 있습니다.
안전성 평가: 계획 추론, 생물학적 위협, 설득력 등에서 중간 정도의 위험도를 보이며, Claude-01보다 낮은 위험성을 나타냅니다.
양날의 검으로서의 GPT 4.5: 기술적 성과는 긍정적이나, 잠재적 위험성에 대한 우려도 존재합니다.
에이전트 작업 성능: GPT 4.0과 비교해 큰 향상이 없으며, Deep Research가 더 좋은 성능을 보여주고 있습니다.
실제 작업 성능 평가: S Lancer 벤치마크에서 GPT 4.5는 이전 모델들과 비슷한 수준의 성능을 보여주고 있습니다.
GPT 4.5의 평가와 위험도에 대한 논의를 시작합니다. 4.5는 기능과 안전성이 향상되었지만, 여전히 중간 정도의 위험이 있다고 평가되었습니다.
OpenAI는 실제 환경에서의 반복적인 테스트와 배포를 통해 AI 안전성을 검증하고 개선하려는 접근 방식을 취하고 있습니다.
[00:07:04] 비즈니스 플랜 및 이메일 아웃리치 예제

실제 비즈니스 플랜 생성 예제를 통해 GPT 4.5를 활용한 실무 적용 가능성을 시험합니다. 이어서 자연스러운 아웃리치 이메일 작성 테스트를 진행하며 모델의 활용 범위를 구체적으로 제시합니다.

발표자는 Chat GPT Pro 구독 대신 API를 통해 GPT 4.5를 활용한 사업 계획 수립 예시를 보여주려 합니다.
AI를 활용한 사업 구축 과정을 다루는 새로운 유튜브 시리즈 계획을 소개합니다.
노르웨이 기업들을 대상으로 한 교육 및 컨설팅 사업 계획을 설명하며, AI 도구를 활용한 빠른 사업 구축 방안을 모색합니다.
강력한 마케팅 자료 준비와 컨텍스트 수집에 대한 계획을 수립합니다.
온라인 프로필 업데이트, 랜딩 페이지 제작, LinkedIn 타겟 아웃리치 리스트 작성 계획을 검토합니다.
미디어 노출, 강연 기회, 워크숍 제안을 위한 대규모 아웃리치 이메일 전략을 논의합니다.
실제 아웃리치 이메일 작성 테스트를 진행하며, 자연스럽고 효과적인 제안서 작성 방법을 탐구합니다.
AI 업스킬링 관련 협력 제안 이메일을 작성하고 그 결과를 분석합니다.
GPT 4.5의 이메일 작성 능력을 긍정적으로 평가하며, 향후 활용 방안을 논의합니다.
OpenAI가 GPT 4.5를 출시했습니다
어제 출시됐는데
이번에는 영상을 어떻게 만들어야 할지
좀 고민이 되네요. 왜냐하면
가격을 보면 GPT-3.5보다 34배나
더 비싸거든요
이 모델의 좋은 활용 사례를
찾기가 정말 어렵습니다
그래서 이 모델을 어디에 써야 할까요?
코딩에는 사용하지 않을 겁니다
그리고 STEM 관련 추론에도
사용하지 않을 것 같아요. GPT-3.5도 있고
Grok이나 Claude도 있으니까요
그리고 생성 AI 워크플로우에도
절대 사용하지 않을 겁니다
다시 말하지만 가격 때문이죠
너무 비쌀 것 같아서요
고민하다가 어떤 사람들이
창작 작업에 좋다고 하는 걸 봤고
제가 앞으로 만들 영상 시리즈를 위한
사업 계획을 만들어야 해서
이걸로 한번 테스트해보려고 합니다
그게 제가 유일하게
테스트해보고 싶은 부분이에요
사업 계획 프롬프트를 시도해보고
정말 좋은 결과가 나오는지
확인해보려고 합니다. 그것 말고는
판단하기가 좀 어렵네요
하루 만에 이 모델을 어디에
써야 할지 모르겠어요
좋은 아이디어 있으시면
댓글로 알려주세요. 가격이 문제인데
OpenAI가 말하길
이건 추론 모델이 아니라서
토큰 소비가 많지 않다고 했지만
그래도 이 가격으로는
큰 프로젝트에
사용하기 어려울 것 같아요
일부 사람들은 이 모델이
Claude나 다른 모델들이
학습 데이터를 만드는 데
GPT-4.5를 사용했다고 주장하는데
확실하진 않습니다
자, 이제
대시보드와 플레이그라운드를
살펴보면서
제 사업 계획 프롬프트를 테스트해보고
창의적인 작업도
몇 가지 시도해보겠습니다
코딩이나 추론
생성 AI 워크플로우는
시도하지 않을 거구요
제 예시를 보기 전에
블로그 포스트를 먼저 보면서
시스템 카드에서
몇 가지 중요한 내용을 살펴보겠습니다
자 이제
블로그 포스트에서
흥미로운 부분을 보시죠
시스템 카드를 보면
GPT-4.5가 채팅을 위한 최고의
최대 규모 모델이라고 합니다
흥미로운 점은 STEM이나
코딩을 위한 최고의 모델이 아니라
채팅용이라는 거죠. 초기 테스트 결과
GPT와의 상호작용이 더 자연스럽고
지식 기반이 넓어졌으며
의도 파악과 감정 지능이 향상되었고
글쓰기, 프로그래밍, 실용적인
문제 해결에 유용하다고 합니다
환각 현상도 줄었고
흥미로운 점은
통계를 보면 단순 QA에서
환각 발생률이 낮아졌다는 겁니다
환각이 덜 발생한다는 점이
어느 정도 좋은 진전이라고 생각합니다.
또한 GPT 4.5는 인간의 의도를 더 잘 이해하고
암시적인 단서와
기대사항을 더 섬세하게 해석한다고 합니다.
4.5는 응답하기 전에 깊이 생각하지 않는데,
이는 Claude-01과 같은
추론 모델과는 다른
특별한 강점을 가지고 있습니다.
Claude-01, Claude-03 mini와 비교했을 때
더 범용적이고 본질적으로 더 똑똑한 모델이라고
추론 능력 면에서 믿고 있습니다.
이들은 이제 추론 모델과
기본 모델을 구분하기 시작했는데,
앞으로 출시될 GPT-5에서도 보듯이
이 두 가지 유형의 모델을 확실히 구분하려 노력하고 있습니다.
만약 AI 안전성 분야를 지켜보셨다면,
Anthropic Apollo 연구팀이
4.5가 계획 추론 평가에서
Claude-01보다는 낮지만
4.0보다는 높은 점수를 받았다고 발표했습니다.
따라서 4.5의 계획 관련 위험이
Claude-01보다 낮다고 판단됩니다.
같은 맥락에서 화학 및 생물학적
위협 생성 점수는 중간 수준으로
최소한 '높음'은 아니라서 다행입니다.
설득력 측면에서도
중간 정도의 점수를 받았습니다.
4.5는 맥락적 설득력 평가에서
최첨단 성능을 보여주었습니다.
성공률을 비교해보면
4.5는 녹색 그래프에서
57%를 기록했고
사기꾼 모델은 8%를 기록했습니다.
이 보고서 부분을 Grok에 입력했더니
요약하자면 이것이 양날의 검이라고 합니다.
4.5의 설득력은 기술적 성과이지만
잘못된 사람의 손에 들어갔을 때
발생할 수 있는 잠재적 위험을
무시할 수 없다는 것입니다.
개발자들도 이를 인식하고 있어
공개 접근 방식을
실제 위험을 고려해 재검토하고 있습니다.
기술적으로는 긍정적 성과지만
누군가를 설득해 어리석은 일을 하게 만든다는
관점에서 보면 부정적입니다.
이 채널에서 우리가
관심을 갖는 것 중 하나는
에이전트 작업인데, 점수를 보면
오른쪽에 있는 4.5가
4.0보다 거의 나아지지 않았고
거의 동일한 수준입니다.
Claude Deep Research가 여기서
큰 도약을 보여주는 게 흥미롭네요.
다음 영상에서는
Deep Research를 사용해서
코딩 작업을 시도해볼 예정입니다.
흥미로울 것 같은데,
4.5는 에이전트 작업에는 사용하지 않을 것 같습니다.
도입부에서 언급했듯이
가격 때문이기도 하고
매우 비쌀 것으로 예상되기 때문입니다.
제가 정말 좋아하는 벤치마크는
S Lancer인데, 이는 Upwork의
실제 작업들을 테스트하는 것입니다.
실제 사례를 다루는 벤치마크죠.
이게 제가 가장 좋아하는 벤치마크 중 하나입니다.
Upwork 작업에서
최대한 많은 수익을 내는 것을 목표로 하는데
여기서도 Deep Research가
꽤 좋은 성과를 보여주고 있습니다.
논문에서 Claude 3.5가
이 벤치마크에서 매우 잘 수행했던 것으로 기억하는데
오른쪽의 4.5를 보면
Claude-01과 비슷하고 4.0과도 거의 비슷한 수준으로
큰 향상은 보이지 않습니다.
이 작업은 4.5로도
시도해보지 않을 것 같은데, 그들의
결론에 따르면 GPT 4.5는 주목할 만한
기능과 안전성 향상을 가져왔지만
동시에 특정 위험도 증가했다고 합니다.
그들은 내부 및 외부
평가를 수행했고, 전반적으로 4.5는
적절한 안전장치가 있다면
중간 정도의 위험도로 평가되었습니다.
우리는 실제 세계에서의
반복적인 배포가 이해관계자들과
AI 안전성을 촉진하는 최선의 방법이라 믿습니다.
기본적으로 그들은
이러한 모델들을 계속해서 공개하여
테스트하고 이 모델들이
안전한지 아닌지 더 잘 이해하려고 합니다.
아직도 중간 정도의 위험이 있다는 게
흥미롭네요. 그리고
4.5에 대해 더 이상 할 말은 없을 것 같고
이제 제가 준비한 예시로 넘어가보겠습니다.
4.5를 사용해서 사업 계획을
만들어보고 싶은데, Chat GPT Pro
구독권이 없어서
플레이그라운드로 가서
API를 활용해보도록 하겠습니다.
여기 GPT 4.5 프리뷰를 보면
네, 프리뷰를 클릭하고
온도를 0.5 정도로
낮추고, 최대 토큰 수를
좀 늘려보겠습니다.
기본적으로 API를 통해 실행할 건데
Pro 구독을 하지 않을 거라서
그렇습니다.
지금 시점에서는 제게
가치가 크지 않다고 생각해서요.
네, 제가 말씀드렸듯이 특별한 아이디어는 없지만
새로운 유튜브 시리즈를
준비하고 있습니다.
AI를 활용해서 처음부터
사업을 만들어가는 과정을 다룰 예정입니다.
이 프롬프트를
한동안 작업해왔는데
자세한 내용은 생략하고,
제가 할 수 있는 것들에 대한
많은 정보를 입력했고, 여기 제 계획이
있습니다. 제가 하고 싶은 것과
현명하다고 생각되는 것들이죠.
노르웨이 기업들에 대한 아웃리치를 통해
더 많은 노출을 얻고 싶습니다.
노르웨이 전역에서 직원들을 대상으로
강연, 웨비나, 워크숍을 진행하는 것이
제 아이디어입니다. 여기에
LLM이 도움을 줄 수 있는 작업들을
정리했습니다. LLM과 AI 도구들을
활용하고 싶고, 짧은 시간 안에
이 AI 모델들을 활용해서
진행하고 싶습니다. 계획에는
LLM과 AI 도구들을 어떻게 활용할지,
하루 안에 또는 더 빠르게 대부분의 작업을
AI로 처리하는 방법이 포함되어야 하며,
비즈니스를 빠르게 시작하기 위한
상세한 단계별 실행 계획이 필요합니다.
시스템 메시지나
구조화된 출력은 사용하지 않고
4.5 모델로만
실행해볼 건데요, 이건 매우
큰 모델이라서 그들이 말하는
많은 지능을 가지고 있어야 하지만
가격대비 똑똑한지는
잘 모르겠네요. 한번 실행해서
어떤 결과가 나오는지 보겠습니다.
자, 결과를 볼까요.
3일 계획이 나왔네요. 괜찮습니다.
첫 번째 단계부터 보면
첫 번째 단계로 우리가 해야 할 것은
강력한 마케팅
자료를 준비하는 것입니다.
우리는 먼저 컨텍스트를 수집해야 합니다.
기본적으로 제가 하는 일과 AI 기반
카피라이팅에 대한 모든 것을 통해
LinkedIn 아웃리치 이메일에 필요한 모든 카피를 작성할 겁니다.
그렇죠, 좋습니다. 온라인 프로필도
업데이트하고 랜딩 페이지도 만들고
LinkedIn 타겟 아웃리치 리스트도 만들어야 합니다.
제가 마음에 드는 점은
노르웨이 기업들을 제안했다는 것인데
사실 꽤 괜찮은 것 같네요. 파워풀한
아웃리치 이메일을 작성하고
미디어 노출, 강연 기회,
대면 워크숍에 대해 문의하고
대규모 아웃리치 이메일을 보내서 많은
기업들을 찾아야 합니다. 기존
LinkedIn 네트워크를 활용하는 것도 좋죠.
조금 일반적이긴 하지만, 후속 이메일
시퀀스와 빠른 성과를 위해 직접 이메일을 보내고
금융 신문사와 일부 기자들에게
스토리를 제안하고 독점 인터뷰나
특집 기사를 제안합니다. AI 전문가로서
구독자
15만 명을 보유한
전문가라는 점을 강조하면 좋겠네요.
음, 그리고 우리는 일별
계획도
있네요. 다른 LLM들에서도 많이 본 것 같은데
다른 것을 시도해볼까요?
아웃리치 이메일을 한번 작성해보고
제가 어떻게 생각하는지 확인해보죠.
컨텍스트를 수집해서
아웃리치 이메일을 작성해볼까요.
제 아이디어를 제안하는 이메일을 써봅시다.
자연스럽고 효과적인 아웃리치 이메일,
흥미롭게 들리도록 만들어보죠.
강연 제안과 함께 직원들의
AI 역량 강화를 위한 협력을 제안하고
제 배경과 경험을 언급하되
짧고 흥미롭게 읽을 수 있도록
만들어보죠. 제가 보고 싶지 않은 건
너무 일반적인 내용입니다.
그런 내용이 나오면 쓸모없다고 판단할 겁니다.
너무 일반적이면
의미가 없으니 temperature를
좀 올려보고 토큰 수는
4K로 줄여보죠. 제목이
'AI 업스킬링: 잠재적 협력 제안'이네요.
노르웨이 기반 AI 교육자로서
기업들이 AI 도구를 실용적으로 적용하여
생산성을 향상시키고 일상 업무를
간소화하도록 돕고 있습니다. 워크숍과
웨비나, 기업 교육을 제공하고 있죠.
좋네요. 협력할
기회를 모색하고 싶습니다.
맞춤형 강연이나 워크숍, 웨비나를 통한
역량 강화 이니셔티브에 대해 제 작업을
여기서 더 자세히 보실 수 있습니다.
앞으로 며칠 내에 짧은 통화로
이에 대해 더 논의해보시겠습니까?
좋습니다. 마음에 드네요.
꽤 괜찮은 것 같아요.
좋은 아웃리치 메일이에요.
너무 길지 않고 핵심을 잘 짚었으며
레퍼런스도 포함되어 있어서
좋은 것 같네요.
괜찮아 보이네요.
4.5로 아웃리치 이메일 작성하는 것에 대해 긍정적입니다만
아직 다른 모델과
비교해보진 않았기 때문에
제 주관적인 평가일 뿐이에요. 하지만 느낌상
꽤 괜찮은 것 같네요.
앞으로 진행할 시리즈에서
4.5를 이런 용도로 사용해볼 것 같아요.
현재로서는 더 이상
테스트해보고 싶은 것이 없네요.
코딩이나 추론, 복잡한 워크플로우는
하지 않을 거니까요.
이것에 대해 좀 더
생각해봐야 할 것 같고
나중에 다시 돌아와서
다른 영상을 찍어볼 수 있겠죠.
아마도 앞으로의 비즈니스 시리즈에
4.5를 포함시켜볼 수 있을 것 같네요.
그 외에는 특별히 할 말이 없는데
비용이 매우 비싸다는 것과
성능은 좋지만
이 가격이 정당화될 수 있는지는
아직 판단하기 이르네요.
좀 더 지켜봐야 할 것 같아요.
댓글로 여러분의 생각을 알려주세요.
이 모델을 사용하실 건가요?
아직 Plus 사용자들은 이용할 수 없는 것
같아요. 저도 없거든요.
Pro 버전으로 먼저 나오고
나중에 Plus에 추가될 것 같아요.
앞으로 어떻게 발전할지
지켜보고 나중에 다시
다뤄보도록 하죠. 시청해주셔서 감사합니다.
가장 심도있는 영상은 아니었지만
유익한 부분들이 있었길 바랍니다.
곧 다시 만나요.
안녕히 계세요.