GPT-4o의 대담한 업그레이드: 코딩, 이미지, 미친 모드?

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

이 영상은 GPT-4o의 최신 업데이트에 대해 상세히 소개하며, 모델의 코딩 능력, 이미지 생성, 그리고 ‘unhinged mode’와 같은 자유로운 응답 모드의 도입을 중심으로 설명합니다. 영상에서는 특히 JavaScript를 활용한 애니메이션, TV 채널 전환, SVG 및 랜딩 페이지 제작 등 다양한 코딩 테스트를 진행하며 Gemini 2.5, Claude 등 타 모델과의 성능 비교도 진행합니다. 또한, 철학적 문제와 창의적 사고를 자극하는 trolley 문제, 슈뢰딩거의 고양이 실험 등을 통해 모델의 직관과 윤리적 판단 능력도 살펴봅니다. 전반적으로 업데이트된 GPT-4o가 기술적 문제 해결뿐 아니라 창의적인 응답에서도 발전된 모습을 보여준다는 점이 주요 메시지입니다.

주요 키워드

GPT-4o 업데이트 코딩 unhinged mode 이미지 생성 JavaScript SVG 랜딩 페이지 토큰 철학적 문제

하이라이트

  • 🔥 GPT-4o 업데이트는 'unhinged mode'를 도입하며, 필터가 완화되어 보다 직설적이고 자유로운 표현이 가능해졌습니다.
  • 🛠️ 향상된 코딩 성능이 두드러지며, 복잡한 애니메이션과 인터랙티브 기능들을 구현하는 테스트가 진행되었습니다.
  • 🚀 TV 채널 전환, 낙하하는 문자 애니메이션 등 다양한 코딩 프롬프트를 통해 다른 모델과 비교 시 GPT-4o의 효율성이 확인되었습니다.
  • 🎨 이미지 생성 및 SVG 코드 테스트에서 모델이 창의적인 시각적 결과물을 도출하는 모습을 볼 수 있습니다.
  • 🤖 Gemini 2.5, Claude 등 다른 LLM과의 비교를 통해 GPT-4o의 개선된 토큰 처리와 긴 컨텍스트 유지 능력이 강조됩니다.
  • 💡 철학적 문제(트롤리 딜레마, 슈뢰딩거의 고양이)를 활용하여 모델의 직관과 윤리적 판단, 그리고 창의적 사고를 시험합니다.
  • ⚙️ 코드 오류 수정 및 디버깅 과정에서 GPT-4o가 반복적인 피드백을 통해 개선된 결과를 보여줍니다.

용어 설명

Unhinged mode

자유로운 언어 사용과 제한이 적은 응답을 생성하도록 한 모드로, 보다 창의적이고 때로는 직설적인 표현을 이끌어냅니다.

Canvas

HTML5에서 그래픽을 그리기 위한 영역으로, 애니메이션이나 시각적 인터랙션 구현 시 활용됩니다.

Token

대규모 언어 모델(LLM)에서 텍스트를 처리하는 가장 작은 단위로, 모델의 컨텍스트 처리 능력과 직접 연결됩니다.

p5.js

JavaScript 기반의 크리에이티브 코딩 라이브러리로, 인터랙티브 아트와 애니메이션 제작에 널리 사용됩니다.

[00:00:00] 업데이트 개요 및 기능 소개

영상은 GPT-4o의 최신 업데이트와 함께 unhinged mode 도입, 코딩 및 이미지 생성에서의 향상된 성능을 설명합니다. 모델이 채팅 리더보드에서 급격한 순위 상승을 이루며, 새로운 자유로운 표현 방식을 특징으로 합니다.

GPT-4가 대대적인 업데이트를 했으며, 특히 코딩 지시사항 수행과 자유도가 크게 향상되었다는 소식이 전해졌습니다.
'언힌지 모드'라는 새로운 기능이 추가되었고, Grock에서 영감을 받은 이 모드는 기존의 제약에서 벗어난 더 자유로운 표현이 가능합니다.
챗봇 아레나 리더보드에서 4-5위에서 2위로 큰 성능 향상을 보여주었으며, Gemini 2.5 Pro에 이어 두 번째로 좋은 모델이 되었습니다.
필터링이 완화되어 더 자유로운 표현이 가능해졌으며, 이는 텍스트 생성뿐만 아니라 이미지 생성에도 적용되었습니다.
코딩 능력이 크게 향상되었다는 OpenAI의 발표에 따라, 실제 테스트를 통해 성능을 확인하기로 했습니다.
첫 번째 테스트로 물리 효과가 적용된 낙하하는 글자 애니메이션을 자바스크립트로 구현하는 과제를 진행했습니다.
테스트 결과, GPT-4는 초록색 박스를 사용하여 물리 엔진 기반의 matter.body로 글자를 표현하는 방식을 채택했습니다.
[00:03:00] 코딩 테스트 및 디버깅 과정

JavaScript를 활용한 낙하하는 문자 애니메이션, TV 채널 전환 프롬프트 등 다양한 코딩 테스트가 진행됩니다. 발생한 코드 오류와 디버깅 과정을 통해 GPT-4o가 점진적으로 수정 및 개선되는 모습을 보여줍니다.

GPT-4가 생성한 코드의 초록색 사각형 문제를 해결하고, 글자들이 떨어지는 물리 효과와 충돌 감지가 정상적으로 작동하는 것을 확인했습니다.
TV 채널 변경 기능을 구현하는 새로운 과제를 시작했습니다. 0-9까지의 숫자 키로 채널을 변경하고, 각 채널마다 고유한 애니메이션과 콘텐츠를 보여주는 것이 목표입니다.
Gemini는 571줄의 코드로 실제 작동하는 TV 채널 변경 기능을 구현했으며, 각 채널은 실제 TV 채널에서 영감을 받은 고유한 콘텐츠를 보여줍니다.
GPT-4는 200줄 정도의 더 짧은 코드를 생성했지만, 키 입력에 반응하지 않고 여러 에러가 발생하는 등 제대로 작동하지 않았습니다.
코드 오류를 수정하기 위해 재시도하면서, 에러 대신 실수로 코드를 복사했지만 일부 기능이 개선되었습니다.
채널 구현이 시작되어 첫 번째 채널 '튠 블리츠'가 정상 작동하고, 일부 채널들은 색상 문제로 보이지 않는 상황입니다.
제미니 2.5 프로보다 적은 코드 라인으로 구현했으나, 여러 번의 시도가 필요했습니다.
API 사용 관련 정보를 공유하며, GPT4나 latest 이름으로 현재 모델을 사용할 수 있다고 설명합니다.
모델의 공간 추론 능력을 테스트하기 위해 자전거 타는 펠리컨 SVG 생성을 요청했습니다.
[00:09:00] 이미지 생성 및 인터페이스 구현

SVG 생성, 랜딩 페이지 제작 등 시각적 인터페이스에 대한 테스트가 이루어집니다. 짧은 코드와 다양한 디자인 접근법을 통해 모델의 창의성과 직관적인 디자인 감각을 평가합니다.

클로드는 토큰 제한으로 인해 완전한 코드 생성에 실패했으며, 곧 출시될 50만 토큰 컨텍스트 윈도우 버전에 대해 언급했습니다.
GPT40이 생성한 펠리컨 SVG는 몇 가지 누락된 부분이 있지만 전반적으로 괜찮은 결과를 보여주었습니다.
단일 HTML 파일로 랜딩 페이지를 생성하려 했으나 일부 문제가 발생했습니다. 이를 통해 AI 모델이 현대적인 랜딩 페이지를 어떻게 이해하고 있는지 파악할 수 있었습니다.
AI 모델들이 생성하는 랜딩 페이지들은 대체로 비슷한 구조를 가지며, 주로 전형적인 SaaS 랜딩 페이지의 형태를 따르고 있습니다.
Claude가 생성한 코드는 약 1000줄로 길지만 일부 함수가 누락되어 제대로 작동하지 않았습니다.
GPT-4가 생성한 랜딩 페이지는 매우 미니멀한 구성을 보여주었으며, 더 많은 컨텍스트가 필요해 보입니다.
DeepSeek V3는 같은 프롬프트로 더 풍부한 콘텐츠와 시각적으로 뛰어난 완성도의 랜딩 페이지를 생성했습니다.
Claude의 제한적인 결과는 토큰 제한(일반 모드 8,000, 확장 모드 64,000) 때문이며, 현재 버전 변경에 대한 불확실성이 있습니다.
회전하는 육각형과 튕기는 공을 구현하는 바이럴 프롬프트 테스트를 진행. 코드 생성 및 실행 결과가 예상보다 안정적이었습니다.
장시간 테스트에서도 물리 법칙이 안정적으로 유지되며, 이전 LLM들과 달리 공이 육각형 밖으로 이탈하지 않았습니다.
GPT-4의 새로운 기능 중 향상된 직관력과 창의성을 테스트하기 위해 수정된 트롤리 문제를 시도했습니다.
[00:15:20] 창의력과 철학적 질문 테스트

트롤리 딜레마와 슈뢰딩거의 고양이 같은 철학적 문제를 통해, 모델의 윤리적 판단과 직관적인 사고 능력이 시험됩니다. 동시에 이 과정에서 이모지 사용과 말투 변화 등을 관찰하며, GPT-4o의 전반적 업그레이드를 종합적으로 평가합니다.

AI의 응답 톤이 변화했으며, 더 깊은 윤리적 추론과 세부사항 파악 능력을 보여주었습니다.
트롤리 문제의 숨겨진 세부사항(이미 죽은 사람들)을 정확히 파악하고, 윤리적 판단을 논리적으로 제시했습니다.
슈뢰딩거의 고양이 실험 변형에 대한 AI의 반응을 설명합니다. AI는 이미 죽은 고양이를 사용한 실험의 특성을 정확히 이해하고, 확률이 0이 된다는 논리적 결론을 도출했습니다.
AI의 대화 스타일 변화를 분석합니다. 특히 이모지 사용 증가와 Claude와 유사한 대화 톤으로의 변화를 지적합니다.
OpenAI의 이미지 생성 기능 변화를 설명합니다. 더 유연해진 기능과 함께 여전히 존재하는 안전 규칙에 대해 논의합니다.
GPT-4가 업데이트되었는데
이 새로운 업데이트가 정말 대단해요. 샘 알트만이
새로운 버전의 GPT-4에 대해 트윗했는데
특히 코딩 지시사항 수행과
자유도가 크게 향상되었다고 합니다.
새로운 '언힌지 모드'가 추가되었는데
'언힌지 모드 활성화'를 요청하면
이 모드는 Grock에서 영감을 받은 것 같고
마치 취한 GPT 같은 느낌입니다. 또한
챗봇 아레나 리더보드에서
4-5위에서 2위로 올라서며
큰 성능 향상을 보여주었죠.
이는 어떤 모델에서든 엄청난 발전이에요.
전반적으로 이제 Gemini 2.5 Pro에 이어
두 번째로 좋은 모델이 되었습니다.
언힌지 모드를 활성화하면
필터링이 많이 줄어들고
요청하면 다양한
언어 표현을 사용합니다. 예시는
보여드리지 않겠지만 직접 테스트해보세요.
이는 OpenAI의 기존 스타일과는 매우 다릅니다.
제가 개인적으로
관심 있는 부분은 코딩 능력인데요.
OpenAI에 따르면 코딩 문제 해결
능력이 향상되었다고 합니다.
그래서 꼭 테스트해보고 싶고
필터링 완화는 이미지 생성
부분에도 적용된 것 같아요.
샘이 언급했듯이 이전보다
자유도가 많이 높아졌습니다.
물론 노골적인 콘텐츠에 대해서는
여전히 필터링이 있는데
이는 좋은 일이죠. 콘텐츠 필터가
여전히 있지만
이 모델은 코딩에
특히 뛰어나다고 하니
몇 가지 코딩 프롬프트로 테스트해보겠습니다.
최근에 Gemini 3.5에
사용했던 프롬프트들인데요.
원래는 Claude와 Gemini 2.5를 비교하려 했지만
이 모델도 함께
테스트해보려고 합니다. 첫 번째 프롬프트는
자바스크립트로 실제 물리 효과가 적용된
낙하하는 글자 애니메이션을 만드는 것입니다.
여러 가지 요구사항이 있는데
화면 상단에서 무작위로 나타나고
크기가 다양해야 하며, 지구 중력의 영향을 받고
실제 글자 모양을 기반으로
충돌 감지가 되어야 합니다.
다른 글자, 바닥, 화면 경계와 상호작용하고
물과 비슷한 밀도 속성을 가지며
화면 크기가 동적으로 변할 때도 대응하고
어두운 배경에 표시되어야 합니다.
모든 것이 하나의 HTML 파일에
들어가야 하죠. 이게 제가
원래 버전에서 사용했던 프롬프트인데
정확한 코드를 제공하지 못했어요.
Gemini 2.5는 작동하는 코드를 제공했는데
이 새로운 GPT-4는 어떨지 봅시다.
캔버스에 대한 접근 권한도 여전히
있는 것 같네요. 정말 좋습니다.
단순히 업데이트된 모델이네요.
GPT가 미리보기를 보여주는데
출력이 어떤지 살펴보죠. 음, 초록색 박스만
보이네요. 글자들이 있는 것 같은데
아마도 초록색 박스로
둘러싸여 있고
글자를 표시하는데도 초록색을
사용하는 것 같네요. 실제로
그게 맞았어요.
코드에서 글자들이
초록색 박스 안에 있냐고 물어보니
물리 엔진 측면에서 각 글자가
matter.body로 표현된 직사각형이라고 하네요.
이게 사용하는 패키지인데,
그래서 내부적으로는 초록색 사각형이고
그 초록색 상자를 숨기는 방법에 대한 코드를 제공했어요.
코드 업데이트를 요청했더니
모든 작업이 완료되었고 초록색 사각형이 숨겨졌다고 하네요.
자, 실제로 작동하는지 한번 볼까요?
좋아요, 글자들이 떨어지는 게 보이네요.
크기도 각각 다르고
충돌 감지도 예상대로 잘 작동하고 있어요.
이거 꽤 멋진데요. 정말 인상적이에요.
자, 이제 크기를 변경하면 어떻게 되는지
한번 살펴보겠습니다.
이것도 잘 작동하네요.
GPT-4가 이 특정 작업을 정말 잘 해냈어요.
다음 테스트는 모델의 창의성과
코딩 능력을 모두 시험해볼 거예요.
이건 구글 팀이 공유한
프롬프트에서 영감을 받았는데요,
프롬프트는 '0부터 9까지의 숫자 키로
채널을 변경할 수 있는 TV를 코딩하라'입니다.
모든 숫자에 대해 아이디어를 제시하고
클래식 TV 채널 장르에서 영감을 받아
흥미로운 애니메이션과
쇼를 보여주고
컨셉이나 콘텐츠에 대한 상세한 애니메이션과
화면에 창의적인 채널명을 표시해야 해요.
그리고 800x800 크기의
p5.js 스케치를 반환해야 합니다.
HTML은 사용하지 않고,
검은 배경에 모든 채널의 콘텐츠가
TV 화면 영역 안에 마스킹되어야 해요.
이 프롬프트에는 매우 구체적인
요구사항들이 있지만,
동시에 모델에게 창의성을 발휘할
여지도 주고 있죠.
지금 이 프롬프트를 Gemini에
사용했을 때, Gemini는 571줄의
코드를 생성했어요.
실행해보면 실제로 작동하는 TV 화면이 보이죠.
보시다시피 채널 번호와
채널 제목이 있고,
1부터 9까지 숫자를 누르면
각 채널이 실제로 변경됩니다.
채널마다 다른 내용을 보여주고
실제 TV 채널에서 영감을 받은 것 같네요.
Gemini가 정말 잘 해냈어요.
이제 같은 프롬프트로 GPT-4도
시도해보고 어떤 결과가 나오는지
보겠습니다. 토큰 수가
꽤 많이 필요할 텐데,
Claude로 시도했을 때는
코드를 완성하기도 전에
토큰이 부족했거든요.
GPT-4가 어떻게 처리하는지 보면 재미있겠네요.
자, 여기 생성된 코드가 있네요.
이걸 복사해서
p5.js 에디터에 붙여넣어 보겠습니다.
지금 코드가 약 200줄 정도네요.
Gemini보다 훨씬 짧은데,
어떻게 작동하는지 볼까요?
뭔가 보이긴 하는데
키를 눌러도 아무 반응이 없고
에러도 몇 개 보이네요.
이 특정 에러를
복사해서
GPT-4가 고칠 수 있는지 확인해보죠.
GPT-4가 수정했다고 하는데,
전체 코드를 다시 달라고 했더니
새로운 코드를 줬어요.
이 전체 코드를 복사해서
이미 실행해봤지만, 한 번 더 붙여넣어 보죠.
여전히 문제가 있네요.
이번엔 'callback is not a function' 에러가 발생했고,
Gemini 2.0 Pro처럼
제대로 된 결과를 내지 못했네요.
한 번에 해결하려고 하는데
한 번 더 시도해보고
어떻게 되는지 확인해볼게요
실수로 에러 대신 코드를 복사했네요
어떻게 되는지 봅시다
기본적으로 지원되지 않아서
클립이 사라졌고 이제
createGraphics와 mask를
제대로 사용하고 있어요
실제로 작동하는지 봅시다
코드를 교체했더니
코드 라인 수가 늘어났네요. 좋아요
뭔가가 보이기 시작하네요
첫 번째 채널이 작동합니다. 튠 블리츠군요
이거 좋네요, 꽤 고무적입니다
자, 스페이스 와이어가 아무것도 보이지 않네요
4번인데 채널 이름을 놓쳤어요
5번에는 뭔가 있는 것 같은데
아마도 같은 색상이네요
6번도 마찬가지고요
6번
좋아요
7번
8, 9, 그리고 이건 0번이었네요. 잘했어요
제미니 2.5 프로보다
더 적은 라인으로 해결했지만
한 번에 되진 않았어요
그래도 정말 인상적이네요
이제 클로드로도
시도해보고 결과를 확인해볼게요
3.57 버전으로 시도해볼 건데
이전에 시도했을 때는
토큰 제한에 걸려서 문제가 있었는데
이번엔 한 번에 완성된 코드를
받을 수 있길 바랍니다
클로드가 작업하는 동안 말씀드리면
API로 사용하고 싶으시다면
GPT4나 latest라는 이름으로 사용하실 수 있어요
나중에 날짜가 포함된 모델 버전이 추가될 예정이지만
현재 모델은
GPT40이나 GPT40 latest로 사용 가능합니다
자, 몇 가지 빠른 테스트를 더 해볼게요
자전거를 타는 펠리컨의
SVG를 만들어달라고 할 건데
이건 정말 좋은 테스트예요
모델의 공간 추론 능력을
평가하기에 좋거든요
SVG 대신 이미지를 만들기 시작했네요
원하던 게 아니긴 하지만
자전거 타는 펠리컨이긴 해요
한 번 더 요청해볼게요
기다리는 동안
클로드를 확인해보니
최대 메시지 길이에 도달해서 멈췄네요
계속하려면 'continue'를
입력하라고 하네요
자 계속해보면
코드가 완성되지 않았어요
여기서 확인할 수 있죠
이래서 긴 컨텍스트를 가진
LLM이 프로그래밍에
중요한 거예요. 현재 클로드는
20만 토큰의 컨텍스트 윈도우를 가지고 있고
50만 토큰 컨텍스트 윈도우를 가진
버전이 곧 출시될 것으로
예상되고 있어요
이건 정말 큰 도움이 될 거예요
자, 이번에는
GPT40이 SVG 코드를 제공했는데
나쁘지 않네요. 펠리컨이
실제로 자전거 위에 있어요
다리는 잘 안 보이지만
자전거 프레임의 일부가 없긴 하지만
전반적으로 나쁘지 않은 결과예요
또 다른 재미있는 테스트로
HTML, CSS, JS로 모던한 랜딩 페이지를 만들어달라고 했는데
모든 것을 단일 HTML 파일이나
하나의 파일로 만들어달라고 했는데
문제가 좀 생겨서
다시 시도해보려고 합니다. 이를 통해
모델이 현대적인 랜딩 페이지를
어떻게 이해하고 있는지 알 수 있죠
대부분의 경우 AI 모델들이 생성하는
랜딩 페이지들은 매우 비슷한 형태를 보입니다
시각적 구성요소나 디자인만
약간의 차이가 있을 뿐
나머지는 거의 동일한 섹션들로 구성되어 있고
제가 보기에는
전형적인 SaaS 랜딩 페이지에서
영감을 받은 것 같네요. 자, 계속 진행하면서
기다리는 동안
Claude가 전체 코드를 생성한 것 같네요
복사해서 결과를 한번 확인해보겠습니다
지금까지 GPT-4의 출력도
마음에 들었는데, 단지 몇 개의 채널에서
채널 이름이 제대로 표시되지 않았던 것만 빼면요
이제 Claude가 생성한 코드를 보면
코드의 길이가
훨씬 더 긴데, 약 천 줄 정도입니다
이게 실제로 작동하는지 확인해보죠
음, 작동하지 않네요
몇 가지 오류가 있는데
일부 함수들을 생성하는 것을
잊은 것 같아서 다시 복사하고
Claude가 어떻게 처리하는지 보겠습니다
Claude의 작업이 끝나기를 기다리는 동안
GPT-4가 생성한 HTML 페이지를 보여드리겠습니다
왠지 두 버전이 있네요
아, 제가 두 번 실행했기 때문이군요
두 번째 버전을 복사해서
랜딩 페이지가 어떻게 생겼는지
한번 확인해보겠습니다
자, 여기 랜딩 페이지가 있는데
전형적인 SaaS 기업의 랜딩 페이지처럼 보이지만
매우 미니멀한 구성이네요
특별한 것이 없고 단 두 개의
섹션만 있는데, 더 많은 컨텍스트를
제공하면 훨씬 더 나은 결과를
만들 수 있을 것 같습니다. 비교를 위해
DeepSeek V3가 생성한 랜딩 페이지를 보면
정확히 같은 프롬프트로 만들었는데
훨씬 더 많은 콘텐츠가 있고
시각적으로도 훨씬 더 보기 좋습니다
사실 대부분의 사람들이 이걸 보면
실제 기업의 완전한 기능을 갖춘 SaaS 웹사이트라고
생각할 것 같네요. DeepSeek V3는
이런 특정 프롬프트에서 정말 좋은 성능을 보여줍니다
Gemini도 꽤 괜찮은 결과를 보여주는데
GPT-4는 아마도 더 자세한 지시가 필요할 것 같네요
Claude에게 다시 한 번 요청했는데
그들이 추가하기 시작한 이 작은 애니메이션이
정말 마음에 듭니다. 꽤 깔끔하네요
하지만 다시 한번 보니
코드가 완성되지 않았네요
계속 진행하라고
한 번 더 요청해야 할 것 같습니다
Claude에게는 좋지 않은 모습이네요
Claude가 완전한 코드를 제공하지 못한 이유는
Claude 3.7의 최대 토큰 수 때문인데
일반 모드에서는 8,000개의 토큰까지 생성 가능하고
확장된 사고 모드에서는
64,000개의 토큰까지
생성할 수 있습니다. 하지만 지금 보니
Claude 3.5 Sonnet이 보이고 사고 버전은 안 보이네요
이 변경이 언제 일어났는지
잘 모르겠네요. 아마도 이제는
자동으로 사고 모드를 사용하도록
결정하는 것 같은데 확실하지 않습니다
여러분도 같은 현상을 보시는지 알려주세요
코딩 능력을 테스트하기 위해
LLM의 테스트를 위한 바이럴 프롬프트를 하나 더 시도해봤는데요
회전하는 육각형을 생성하고
공이 벽면에 튕기도록 하는 것입니다
공이 육각형의 면에 부딪혀 튕기는 코드를 만들어보죠
여기 생성된 코드가 있네요
이 코드를 복사해서
HTML 에디터로 돌아가
붙여넣고 실행해 보겠습니다
보시다시피 육각형이 회전하고
공이 모서리에 부딪혀 튕기고 있네요
모든 것이 잘 작동하는 것 같습니다
다만 공이 실제 중력 효과보다
더 많이 튀는 것 같긴 하네요
그리고 제가 항상 하는 것처럼
이걸 좀 더 오래 실행해 보려고 합니다
보통 제가 경험한 바로는
LLM들이 처음에는 잘 작동하다가
공이 잘 튕기다가도
시간이 지나면 육각형에서 벗어나
굴러떨어지곤 했거든요
하지만 여기서는 그런 현상이 보이지 않네요
물리 법칙도 꽤 잘 구현된 것 같습니다
면에 부딪힐 때마다
올바른 방향으로 튕겨나가고 있어요
모든 게 잘 작동하는 것 같네요
사실 GPT-4가 이 프롬프트를 봤을 가능성이 높습니다
최근에 업데이트되었고 이게 바이럴로 퍼졌기 때문이죠
이런 테스트가 viral하게 퍼졌거든요
새로운 기능에서는
복잡한 기술적 문제와
코딩 문제 해결 능력 외에도
직관력과 창의성이 향상되었다고 하고
이모지 사용도 줄었다고 하네요
그래서 이 모델의 직관력이나
추론 능력을 시험해보겠습니다
이를 위해
misguided attention 레포로 가서
수정된 트롤리 문제를
테스트해보도록 하겠습니다
바로 눈에 띄는 것은
톤의 변화입니다. '아, 고전적인 트롤리 문제군요'
일반적인 철학이 기차 참사와 만나는
레버를 당기면 다섯 명을 구하기 위해
한 명에게 직접적인 해를 끼치는 거고
레버를 당기지 않으면 다섯 명의 죽음을
수동적으로 허용하는 것이 됩니다
이것을 보면 우리가 도입한 변화를
고려하지 않고 전통적인 트롤리 문제로
돌아가는 것 같아요
하지만 톤이 기존 GPT-4와는
매우 다릅니다
마지막에는 단순히
'결과를 최대화하는 것과 도덕적 원칙을
존중하는 것 중 어느 것을 선택하시겠습니까?
직관적으로 어떠신가요, 레버를 당기시겠습니까?'
라고 제게 묻더군요
그래서 제가 다섯 명에 대해
프롬프트에서 특이한 점을 발견했냐고 물었더니
트롤리가 이미 죽은
다섯 명을 향해 달려간다고 했다면서
이것이 일반적인 트롤리 문제를 완전히 뒤집었다고 하더군요
이미 죽은 사람들이라면
레버를 당겨 한 명의 생명을 앗아가는 것은
윤리적으로 전혀 말이 안 된다고 했습니다
생명을 구하는 것도 아닌데 한 명을 죽이는 셈이라고요
아주 좋은 반전이라며, 이런 상황에서는
전체적인 계산이 달라진다고 했어요
이 버전에서 올바른 선택은
확실히 레버를 당기지 않는 것이라고 했죠
그리고는 제가 이걸 일부러
눈치챌 수 있는지 테스트한 거냐고 물었고
이모지도 하나 넣었더니
톤은 확실히 다르지만
이모지 사용이 줄었다는 건 모르겠네요
그래서 수정된 슈뢰딩거의 고양이 역설을 입력했습니다
고양이가 이미 죽어있는
같은 채팅 세션에서 이렇게 답변했어요.
알겠습니다. 제가 이해했어요.
이건 유명한 슈뢰딩거의 고양이 실험의 변형이군요.
양자역학의 사고 실험인데,
고양이가 이미 죽어있다는 걸 인식했네요.
그래서 상자를 열었을 때 고양이가 살아있을 확률은
0이라는 거죠.
같은 프롬프트를 완전히 새로운 채팅 세션에서도 시도해봤는데
여기서도 마찬가지로
고양이가 이미 죽어있는 상태로 상자에 들어갔기 때문에
이 설정은 결과와 무관하다고 했어요.
하루 뒤에 고양이가 살아있을 확률은
0이라는 거죠.
이건 고전적인 슈뢰딩거의 고양이 실험의
재미있는 변형이에요.
이제 AI가 기회만 있으면
이모지를 사용하려고 시도하고 있어요.
그리고 톤이 매우 다른데,
'하지만 당신의 버전에서는
불쌍한 고양이가 처음부터 죽어있네요'라고 말하죠.
확실히 Claude의 대화 스타일을 모방하려고 하는 것 같아요.
이런 톤 변화 외에도
이미지 생성 기능도
OpenAI나 GPT-4에 비해
훨씬 더 유연하고 자유로워진 것 같아요.
OpenAI가 일부 안전 규칙을 변경하고 있는데,
GPT-4 이미지 생성 블로그 포스트에서
언급했던 일부 규칙들이
여전히 남아있어요.
그래서 안전 규칙 위반 여부에 따라
일부 콘텐츠가 차단될 수 있죠.
OpenAI의 이번 업데이트는
매우 흥미로운 발전이에요.
앞으로 더 자세히 테스트해볼 예정인데,
특히 코딩 기능을
더 철저히 테스트해볼 거예요.
그 영상도 기대해주세요.
벌써 이 모델의 글쓰기 스타일이 마음에 드는데,
GPT-4.5의 톤을 가지고 있어요.
GPT-4.5와 매우 비슷한 톤을 보이고,
일반적인 GPT-4처럼 느껴지지는 않네요.
여러분들의 새 모델 사용 경험과
특별히 눈에 띄는 점이 있다면
알려주시면 좋겠어요.
이 영상이 도움이 되었길 바랍니다.
시청해주셔서 감사하고,
다음 영상에서 만나요!