왜 모두가 Claude 4에 열광하는가 (사례로 살펴보기)

The AI Advantage 구독자 356,000명

요약

Anthropic의 최신 Claude 4(Opus 4·Sonnet 4)는 글쓰기 품질과 코드 생성 능력에서 경쟁 모델을 압도합니다. 웹 인터페이스와 API를 통해 전달되는 다채로운 예제로 실제 사용성도 검증했습니다. 특히 SWE Bench 벤치마크와 자연스러운 톤, 장시간 실행 에이전트 기능, 프롬프트 캐싱 등 개발자 도구 업그레이드가 인상적입니다. 이메일 작성부터 3D 게임·재무 대시보드·크롬 확장까지 원샷으로 동작하는 모습이 놀라움을 선사합니다.

주요 키워드

Claude 4 Opus 4 Sonnet 4 SWE Bench Prompt Caching Cloud Code Model Context Protocol Extended Runtime Thinking Models 개발자 툴킷

하이라이트

🔑 Claude 4(Opus 4·Sonnet 4)는 이전 모델을 뛰어넘는 자연스러운 글쓰기와 뛰어난 코드 생성 능력을 모두 갖췄다.
🚀 SWE Bench 벤치마크에서 Sonnet 4는 72~80%로 세계 최고 성능을 기록하며 가격 경쟁력도 확보했다.
⚡️ Opus 4는 이메일·유튜브 인트로·스크립트 등 다양한 텍스트 생성에서 거의 사람이 쓴 듯한 자연스러움을 보여준다.
🌟 API로 실행 시간이 최대 7시간까지 지원돼 복잡한 에이전트를 장시간 운용할 수 있다.
📌 프롬프트 캐싱 기능으로 반복 토큰 비용을 줄이고 장기 워크플로우를 효율화할 수 있다.
🎮 웹 인터페이스 예시에서 3D 행성 모델링 앱, 3D RPG 게임, 인터랙티브 재무 대시보드를 원샷으로 완성했다.
💻 Cloud Code CLI를 통해 모델 전환이 간단해지고, 개발자 툴킷으로 데이터 분석·코드 실행·웹 검색 기능 등이 추가됐다.
⚙️ MCP(Model Context Protocol)를 통해 유튜브 API·슬랙 채널·웹 검색 등 외부 도구 연동이 쉬워졌다.

용어 설명

Opus 4

Anthropic의 고성능 사상(思考) 모델로, 자연스러운 문체와 복잡한 코드 생성을 모두 지원한다

Sonnet 4

Opus 4보다 경량화된 모델로, 비용 효율적이면서도 높은 코딩·글쓰기 성능을 제공한다

SWE Bench

실제 소프트웨어 엔지니어링 과제를 기반으로 모델 성능을 측정하는 벤치마크

Cloud Code

CLI 기반 Claude 개발 도구로, 터미널에서 모델 전환과 에이전트 실행을 손쉽게 제어한다

Prompt Caching

에이전트가 반복 컨텍스트를 캐시에 저장해 토큰 비용을 줄이고 장기 워크플로우를 가능하게 하는 기술

Model Context Protocol (MCP)

HTTP 프로토콜처럼 에이전트에 외부 API·서비스를 연결할 수 있게 하는 범용 커넥터

Thinking Models

장시간 복잡한 문제를 단계별로 해결하도록 설계된 차세대 AI 모델 계열

Extended Runtime

에이전트가 API를 통해 최대 수시간에서 수시간 이상 실행될 수 있도록 지원하는 기능

Opus 4·Sonnet 4 출시와 인터넷 반응 소개 • 글쓰기·코딩ㆍ컨텍스트 유지 등 성능 요약 • Anthropic 스폰서십·솔직 리뷰 약속

[00:00] Anthropic에서 새로운 Claude 4 모델들(Opus와 Sonnet)을 출시했으며, 인터넷에서 큰 화제가 되고 있다. 글쓰기, 코딩, 맥락 유지 등에서 기존 모델들을 능가하는 성능을 보여준다.

[00:41] 중요한 것은 벤치마크 성능이 아니라 실제 사용에서의 유용성이다. 이 모델이 일상적인 AI 도구로 사용할 만한지가 핵심 질문이며, 사용자가 직접 테스트해볼 것을 권장한다.

[01:26] 이 영상은 Anthropic의 후원을 받았지만, 리뷰어는 솔직한 의견 표현의 자유를 보장받았다고 명시한다. 출시 전에 미리 액세스를 받아 실제 경험에 기반한 리뷰를 제공할 예정이다.

[02:02] Claude 4 Opus와 Sonnet이 모든 플랫폼에 출시되었다. 웹 플랫폼 Claude.ai와 Claude.dev에서 유료 플랜 사용자들이 이용 가능하며, API도 즉시 사용할 수 있다. 출시 과정이 매우 순조롭게 진행되었다.

웹 플랫폼(claude.ai) 및 API 공개 일정 안내 • 유료 플랜에서 Opus/Sonnet 접근 방법 • 초기 롤아웃의 매끄러운 진행 평가

[02:55] Claude 4는 코딩과 글쓰기 성능이 크게 향상되었으며, 개발자들이 실제로 마주하는 소프트웨어 엔지니어링 문제들을 담은 SWE 벤치마크에서 세계 최고 성능을 보여줍니다.

SWE Bench에서 실전 소프트웨어 과제 성능 측정 • Sonnet 4가 Opus 4보다 약간 우수 • 과거 OpenAI 모델 대비 72~80% 달성

[03:45] 6개월 전 OpenAI의 o1 모델이 30-40% 문제 해결률로 혁신적이라 여겨졌던 것과 비교해, 현재 Claude는 72-80%의 놀라운 성능을 달성했습니다.

[04:24] 구글이 새로운 딥서치 모델을 발표했지만 아직 사용할 수 없고 제한적인 정보만 공개되어, 현재로서는 Claude가 시장 최고의 모델로 평가됩니다.

[04:53] 벤치마크 수치보다 중요한 것은 실제 사용감과 성능이며, 실제 테스트에서 Claude는 매우 인상적인 결과를 보여주고 있습니다.

“부서진 커피 머신 이메일” 예시로 자연스러움 평가 • Claude 기존 모델과 GPT-4.5 비교 • Opus 4 문체가 더 인간적이고 일관성 있음

[05:26] 실제 예시 검토에 앞서, 코드가 아닌 일반 텍스트 작성에서의 톤과 스타일이 개인적으로 가장 중요하게 여기는 부분이라고 강조합니다.

[05:44] 화자가 Claude의 이메일 작성 능력을 시연하며, AI답지 않은 자연스러운 톤에 대해 설명합니다. 커피머신 고장에 대한 이메일 예시를 통해 Claude가 사람처럼 자연스럽게 문제 상황을 설명하고 해결책을 제시하는 방식을 보여줍니다.

[06:15] 실제 이메일 내용을 읽어주며 'Hi, boss'로 시작하는 자연스러운 문체를 강조합니다. 문제 상황 설명, 시도한 해결책, 그리고 세 가지 제안된 옵션까지 포함된 완전한 이메일 구조를 보여줍니다.

[06:43] Claude Opus 4의 글쓰기가 얼마나 인간적이고 자연스러운지 강조하며, 이상한 단어나 AI 특유의 어색함이 전혀 없다고 평가합니다. 기본 모델임에도 불구하고 특별한 스타일 프롬프트 없이도 뛰어난 결과를 보여준다고 설명합니다.

Cloud Code CLI로 모델 전환 지원 • 데이터 분석·코드 실행·웹 검색 도구 통합 • 디벨로퍼 워크플로우 효율화

[07:10] 화자가 자신의 비디오 스크립트로 파인튜닝한 모델에서 사용하는 프롬프트를 소개하며, YouTube 비디오 인트로 작성 예시를 보여줍니다. AI 아트 생성기에 대한 개인적 경험담을 자연스럽게 풀어낸 인트로 문장들을 읽어줍니다.

[07:56] Claude Opus 4로 작성된 텍스트가 얼마나 자연스럽고 인간적으로 들리는지 재차 강조하며, GPT-4.5와의 비교를 언급합니다. 글쓰기 용도로는 Opus 4에서 다른 모델로 돌아가기 어려울 정도로 만족스럽다고 평가합니다.

[08:24] 화자는 AI 아트를 처음 발견했을 때의 마법 같은 경험을 회상하며, 기존 AI 모델들의 글쓰기 한계점을 지적합니다. 자동 생성된 텍스트가 부자연스럽고 실제 사람이 말하는 방식과 다르다는 문제를 강조합니다.

[08:54] Claude 4의 글쓰기 능력이 기존 모델들과 차별화되는 점을 설명합니다. 특별한 프롬프팅 없이도 자연스럽고 훌륭한 텍스트를 생성하며, AI 텍스트에 대한 인식 자체를 바꾸고 있다고 평가합니다.

API에서 최대 7시간 실행 가능 • 프롬프트 캐싱으로 비용 절감·컨텍스트 유지 • MCP로 외부 서비스 연동 플랫폼화

[09:06] API의 변화와 소프트웨어 엔지니어링 벤치마크를 주요 개선점으로 소개합니다. 개발자가 아닌 사람들도 작은 애플리케이션이나 도구를 만들 수 있는 능력의 중요성을 강조하며, 이것이 대부분 사람들에게 과소평가되고 있다고 지적합니다.

[09:37] 기존 AI 모델들의 한계를 솔직하게 인정합니다. 바이브 코딩을 시도해도 버그가 있고 제대로 작동하지 않는 결과물이 나와서, 대부분의 사람들에게는 그럴 가치가 없었다고 설명합니다.

[10:13] Claude 4가 O3와 Gemini 2.5 Pro를 넘어서는 변화를 가져왔다고 주장합니다. 실제 예시들을 한 번만 실행했는데도 정확히 예상대로 작동했다는 경험을 공유하며, 작은 게임과 대시보드 제작 능력을 언급합니다.

[10:35] Anthropic이 출시한 개발자 도구들의 패키지를 소개합니다. Claude Opus 4와 Sonnet 4가 데이터 분석 등 다양한 도구와 함께 제공되며, 코드 작성뿐만 아니라 API를 통한 코드 실행까지 가능하다고 설명합니다.

웹 앱으로 태양계 모델링·3D RPG 게임 생성 • 학생용 인터랙티브 재무 대시보드 완성 • 크롬 확장 제작까지 원샷 수행

[11:09] O3의 강력함을 설명하며 OpenAI가 출시한 O3의 놀라운 기능들을 소개합니다. 코드 작성과 실행, 이미지 생성, 수학 문제 해결, 데이터 분석 등 다양한 도구들을 갖춘 사고하는 모델이라고 설명합니다.

[11:39] Claude Code의 핵심 변화 사항을 설명합니다. 터미널에서 실행되는 명령줄 인터페이스로서, 작업 실행 시간이 기존 1-5분에서 15-20분으로 늘어났고, 키노트에서는 API를 통해 최대 7시간까지 실행 가능하다고 발표했다고 합니다.

[12:15] AI 발전의 역사적 관점을 제시합니다. 2년 전 ChatGPT가 10분짜리 작업을 10초 만에 해결하던 시대에서, 사고하는 모델들이 1-2분 고민하며 더 어려운 문제를 해결하는 시대로, 그리고 딥 리서치로 몇 시간에서 수십 시간을 절약하는 시대로 발전했다고 설명합니다.

[13:08] 7시간 실행 에이전트의 혁신적 의미를 강조합니다. 이는 단순히 몇 시간이 아닌 수십, 수백 시간을 절약할 수 있는 수준이라고 평가하며, Anthropic CEO가 2026년에 한 사람이 10억 달러 회사를 만들 수 있을 것이라고 예측했다고 언급합니다.

[13:34] AI 발전 속도의 예측 불가능성을 강조합니다. 2025년 5월에 이미 7시간 실행 에이전트가 나온 것은 아무도 예측하지 못했으며, 포켓몬 같은 복잡한 문제 해결과 자체 코딩을 통한 막힘 해결 프로토콜까지 개발하는 수준에 도달했다고 설명합니다.

[13:57] Claude 코드에서 에이전트를 시작하여 몇 시간 동안 자동으로 문제를 해결할 수 있게 되었다. 코드 실행, 웹 검색, API 접근 등이 모두 가능하며, 이를 위해 MCP(Model Context Protocol)가 범용 커넥터 역할을 한다.

[14:20] MCP는 HTTP가 인터넷에 했던 역할과 같이 에이전트들을 위한 범용 프로토콜이다. Google, OpenAI, Microsoft 등 주요 기업들이 모두 채택했으며, 다양한 도구들을 연결할 수 있다.

[14:48] 새로운 API는 웹 검색, 프롬프트 캐싱, MCP 서버들, 코드 실행 등 다양한 기능을 제공한다. 프롬프트 캐싱은 비용 절약을 위한 핵심 기술이다.

Claude 4를 일상 드라이버로 도입 추천 • 작가·개발자 생산성 혁신 예측 • 다양한 앱·서비스에 에이전트 통합 제안

[15:10] 기존 에이전트들이 3-10분 정도만 작동했던 이유는 상호작용 히스토리를 계속 전달해야 해서 비용이 급증했기 때문이다. 프롬프트 캐싱은 특정 컨텍스트를 한 번 기억해서 캐시에 저장함으로써 토큰 비용을 절약한다.

[16:00] 프롬프트 캐싱 시간이 기존 5분에서 1시간으로 확장되었고 여러 개선사항이 추가되었다. 이제 에이전트들이 어디서나 실행될 수 있으며, API로 오늘부터 사용 가능하다.

[16:24] Claude는 글쓰기와 코딩 모두 뛰어나며, 특히 에이전트들이 이제 몇 분이 아닌 장시간 실행될 수 있게 되었다. Cursor, Lovable 등의 인기 코딩 앱들도 모두 Claude 모델을 기반으로 구축되었다.

[16:42] 현재 인기 있는 코딩 앱들인 Cursor, Lovable 등은 사실 Claude 모델을 기반으로 한 래퍼들입니다. 로직과 파인튜닝, 독점 데이터가 추가되어 있지만 핵심은 Claude 모델입니다.

[16:50] 이제 Claude 모델들이 대규모 업그레이드를 받아 5분이 아닌 한 시간 동안 저렴하게 실행할 수 있게 되었습니다. 이는 게임 체인저급 변화로, 시간이 지나면서 큰 파급효과를 가져올 것입니다.

[17:05] 구체적인 예시를 통해 Claude의 능력을 보여드리겠습니다. 특히 웹 인터페이스에서 간단한 프롬프트로 즉시 경험할 수 있는 코딩 능력과 아티팩트 기능에 초점을 맞추겠습니다.

[17:26] 비교를 위해 실행한 테스트들의 프롬프트는 매우 간단합니다. 누구든 재현 가능하며, 모델이 의도를 잘 파악해 백그라운드에서 투두 리스트를 만들며 작업하기 때문에 복잡한 프롬프트가 필요하지 않습니다.

[17:48] Google IO와 O3에서 테스트했던 것과 같은 내용을 프롬프트했습니다. 다른 모델들의 캔버스에서는 잘 되지 않았던 것이 Claude에서는 매우 잘 작동하며, 행성들을 애니메이션으로 표현하는 등 추가 기능까지 제공합니다.

[18:03] 토성을 클릭하면 세부 정보가 표시되고 속도 조절도 가능합니다. '모든 행성을 한 번에 보여달라'는 단 한 번의 후속 프롬프트만으로 개선했으며, 약 20단어 정도의 간단한 지시로 이런 결과를 얻었습니다.

[18:34] 게임 제작 예시도 보여드리겠습니다. 게임이 단순해 보일 수 있지만 실제로는 복잡한 로직이 많이 들어가는 훌륭한 예시입니다. '간단한 3D RPG를 만들어달라'고 시작했더니 움직임과 공격이 가능한 게임이 바로 생성되었습니다.

[18:57] 적과 전투, 그리고 무기로 황금 삽을 추가해달라고 했습니다. 황금 삽을 선택한 이유는 확실하지 않지만, 아마도 현재가 AI의 황금 시대이고 이런 도구들이 곡괭이와 삽 같은 역할을 한다는 의미일 수도 있습니다.

[19:14] 개발자가 Claude Opus로 만든 간단한 게임이 잘 작동함을 보여주며, Q와 E키로 시점 변경과 미적 개선을 요청하는 과정을 시연합니다.

[19:32] 게임을 더 밝게 만들고 장식을 추가하도록 요청했더니 샹들리에까지 포함된 개선된 버전이 나왔고, R키로 삽 기능을 추가하여 완전한 게임을 구현했습니다.

[20:13] 다른 AI 모델들과 달리 Claude는 버그 수정 없이 처음부터 모든 기능이 완벽하게 작동했으며, 이는 기존 모델 경험과는 전혀 다른 놀라운 결과였습니다.

[20:47] 적들을 타코로 바꿔달라는 요청도 즉시 구현되어 눈까지 있는 귀여운 타코 적들이 게임에 나타났습니다.

[21:06] 단순한 게임 예제를 넘어 실제 실용적인 애플리케이션으로, Claude 3.5 Sonnet으로 학생용 가계부 대시보드를 제작하는 과정을 보여줍니다.

[21:28] 간단한 프롬프트만으로 로깅, 현금 흐름 관리, 예산 기능을 포함한 완전히 작동하는 인터랙티브 가계 대시보드가 완성되었으며, 이는 모델의 뛰어난 해석 능력을 보여줍니다.

[21:52] 프롬프팅 팁을 공유하며 사이트를 리셋하여 로그인 관리 기능을 시연합니다. 로그인 과정에서 demo 123을 입력하여 성공적으로 접속합니다.

[22:08] 이전에 앱을 만들어본 경험을 바탕으로 보통 발생하는 문제들(그래프 오류, 달러 기호 위치 등)을 설명하며, 현재 버전은 이런 문제가 전혀 없다고 강조합니다.

[22:30] 거래 추가 기능을 시연하며 인터페이스의 완벽함에 놀라움을 표현합니다. 보통은 10개 정도의 추가 프롬프트와 버그 수정이 필요했는데, 이번에는 단 두 번의 시도로 완성되었다고 설명합니다.

[23:14] 예산 탭 기능과 웹 공개 가능성을 소개하며, 월간 예산 변경과 엔터테인먼트, 교통비 등의 항목들이 자동으로 합계되는 기능을 보여줍니다.

[23:42] 최근 개발한 음성 기반 HTML 애플리케이션 사례를 소개합니다. GitHub 튜토리얼 예정이며, 음성 인식 API를 사용하는 웹 앱을 크롬 확장 프로그램으로 변환하지 못했던 문제를 Claude Opus가 한 번에 해결했다고 설명합니다.

[24:22] 오랜만에 정말 혁신적인 변화를 다룬 영상이라고 평가하며, 소프트웨어 업계뿐 아니라 넷플릭스 같은 온라인 서비스들이 주문형 대시보드를 제공할 가능성에 대해 언급합니다.

[00:00] 좋아요, 우리는 방금 Anthropic의 완전히 새로운

[00:01] Claude 모델들을 받았습니다.

[00:03] 인터넷이 난리가 났네요. 구체적으로

[00:05] Claude 4 Opus와

[00:07] Claude 4 Sonnet에 대해 얘기하고 있죠. 지금의 흥분이

[00:10] 실제로 정당하다고 생각하는 이유는

[00:13] 우리가 이것을 사용하는 다양한

[00:15] 방법들과 경쟁 모델들과 비교해서

[00:17] 어떤 성능을 보이는지를

[00:19] 이 영상에서 직접 살펴볼 거거든요. 하지만

[00:21] 먼저 말씀드리면, 글쓰기 스타일은

[00:23] 타의 추종을 불허합니다. 코딩 능력은, 글쎄요

[00:26] 우리가 Google I/O에서 본 데모와

[00:28] 일치합니다. 웹 인터페이스로도 말이죠.

[00:30] 하지만 거기서 그치지 않아요. 훨씬 더

[00:32] 복잡한 것들을 한 번에

[00:33] 문제없이 만들어냅니다. 더 똑똑해요.

[00:37] 벤치마크에서 더 좋은 성능을 보이고

[00:38] 전반적으로 매우 견고해 보입니다.

[00:41] 하지만 진짜 문제는 벤치마크가 좋냐가 아니라

[00:43] 진짜 질문은 이것이 실제로

[00:45] 실용적으로 좋은가? 하는 거죠. 이것이 여러분의

[00:47] 새로운 일상 도구가 되어야 할까요?

[00:49] 짧은 답은 아마도 그렇다는 겁니다.

[00:52] 그리고 최소한 여러분이 직접 고려하고

[00:55] 철저히 테스트해봐야 합니다. 왜냐하면 이것은

[00:58] 우리가 다른 모든 모델들에서 본 것을

[01:01] 뛰어넘기 때문이죠. 글쓰기, 코딩,

[01:02] 맥락 유지 같은 것들에서 말이에요.

[01:05] 개발자 측면에서도 얘기할 예정이지만

[01:08] 주로 웹 인터페이스의

[01:10] 예시들에 집중할 거예요. 그리고

[01:12] 본격적으로 들어가기 전에, 저는 정말

[01:14] 흥미진진하거든요. 이것은

[01:16] 여러 예시와 이 모델들에 대한

[01:18] 경험에 기반할 거고, 새로운

[01:20] 출시가 있을 때마다 그렇게

[01:22] 얘기하는 거지만, 한 가지

[01:24] 지적하고 싶은 것은 Anthropic이 실제로

[01:26] 출시 며칠 전에 미리 이것에 대한

[01:29] 액세스를 저에게 주었다는 거예요. 그리고 그것은

[01:30] 이 영상이 실제로 Anthropic의

[01:32] 후원을 받는다는 것을 의미합니다.

[01:34] 하지만 저는 그들에게 솔직히 말했어요

[01:36] 제가 이런 영상들을 만드는 건

[01:38] 제 의견을 자유롭게 표현할 수 있을 때뿐이라고요. 만약 그

[01:41] 의견이 그들이 원하는 것과 일치하지 않는다면

[01:45] 그건 안됐지만 어쩔 수 없다고요. 이런 걸

[01:47] 할 수 없을 거라고 했죠. 왜냐하면

[01:48] 이런 리뷰들을 정직하고

[01:51] 실례에 기반해서 유지해야 하거든요. 그래서 이

[01:54] 영상이 여러분에게 다양한

[01:57] 예시들과 사용 사례들을 보여주길 바랍니다

[02:00] 정말 인상적이거든요. 하지만 먼저

[02:02] 여기서 무엇이 출시되었는지 살펴봐야겠어요.

[02:05] 제가 말했듯이, 이것은 그들의 모든 플랫폼에

[02:08] 배포되었습니다. 제가 언급한 두 모델이요.

[02:11] Claude 4 Opus와

[02:13] Claude 4 Sonnet이죠.

[02:15] 웹 플랫폼인 Claude.ai를 보시면

[02:19] 즉시 이것들이 여러분에게

[02:20] 유료 플랜 중 하나를 사용하시는 경우

[02:23] 사용 가능하다는 것을 볼 수 있습니다.

[02:25] 지금 저는 여기서 Max 플랜을

[02:27] 사용하고 있어요. Claude.dev를 사용하시면

[02:30] 슬래시 모델을 입력하고

[02:33] 여기서 바로 Opus로 전환할 수 있습니다.

[02:35] 그것도 사용 가능하고, 오늘부터

[02:37] API를 통해서도 사용할 수 있어요. 정말 놀랍죠.

[02:40] 별다른 문제없이 출시가 정말

[02:43] 순조롭게 진행되었어요. 자, 그럼 뭐가 새로운가요?

[02:45] 이 부분은 사실 꽤 간단해요. 가장

[02:47] 인상적인 것은 실제로 모델

[02:49] 성능입니다. 하지만

[02:51] 기본적으로 그들이 이 새로운

[02:52] 모델들을 출시했죠. 여기 몇 가지 예시들이 있지만

[02:55] 주로 코딩 성능이 더 좋아졌고,

[02:58] 글쓰기 성능도 향상되었습니다.

[03:00] 그들이 이런 주장들을 하는데, 실제로 맞습니다.

[03:02] 자, 먼저 여기서 제시한

[03:05] 벤치마크 중 하나를 살펴보겠습니다.

[03:07] 이건 SWE 벤치입니다. 실제 현실에서

[03:10] 나오는 실용적인 소프트웨어 엔지니어링

[03:12] 예시들이죠. 그리고 이건

[03:14] 모든 새로운 모델들, 즉 생각할 수 있는

[03:16] 최신 프론티어 모델들이 자신을

[03:18] 측정하는 하나의 기준입니다.

[03:20] 기본적으로 여기 있는 건

[03:22] 개발자들이 실제로 마주하는 다양한 코딩 문제들입니다.

[03:26] 자, 이게 어떻게 생겼냐면,

[03:28] 그들이 세계 최고입니다.

[03:30] 솔직히 말해서요. 소넷 모델이

[03:32] 실제로 약간 더 좋은 성능을 보이는데,

[03:34] 이건 흥미로운 일이에요. 왜냐하면

[03:36] 훨씬 저렴하거든요.

[03:38] 하지만 기본적으로 이 벤치마크들을

[03:40] 완전히 압도해버렸습니다. 참고로,

[03:43] 6개월 전 o1 모델이 있었을 때를

[03:45] 한번 보여드리고 싶어요.

[03:47] OpenAI에서 나온 첫 번째 사고 모델 말이죠.

[03:51] 그게 언제였더라? 2024년 11월이었죠.

[03:53] 만약 이걸 나란히 놓고 비교해보면,

[03:55] 이런 짧은 시간에 우리가

[03:57] 얼마나 멀리 왔는지 빠르게 깨달을 거예요.

[04:00] 당시에는 이런 문제들의 30~40%를

[04:02] 해결하는 것만으로도 혁신적이라고

[04:05] 여겨졌습니다. 소프트웨어 엔지니어들이

[04:08] 직면하는 이런 작업들의 대부분을 할 수 있다는 게

[04:11] 정말 놀라웠거든요. 하지만 지금은

[04:15] 72%에서 80%까지 보고 있습니다.

[04:19] 물론 여기에 몇 가지 주의사항이 있지만요.

[04:22] 정말 놀랍습니다. o3를 이기고

[04:24] 오늘날 시장에서 구할 수 있는

[04:26] 최고의 모델입니다. 이 시점에서

[04:30] 저는 지적해야 할 게 있는데,

[04:32] 구글 IO에서 새로운 딥서치 모델을

[04:34] 발표했지만 오늘 현재로서는

[04:36] 사용할 수 없습니다.

[04:37] 그리고 일부 벤치마크에서는

[04:39] 아무것도 공개하지 않았어요.

[04:41] 보여준 것도 매우 선별적이었고,

[04:44] 직접적인 비교도 없었습니다.

[04:46] 하지만 그게 이것의 좋은 경쟁자가

[04:49] 될 수도 있고, 미래의 릴리스도

[04:51] 그럴 수 있겠지만, 미래에 무슨 일이

[04:53] 일어날지는 누가 알겠어요.

[04:54] 지금 당장은 이게 압도적이지만,

[04:56] 아시다시피 벤치마크가 전부는 아닙니다.

[04:58] 정말 중요한 건 실제로 어떻게

[05:00] 작동하느냐는 거예요. 어떤 느낌인지가 중요해요.

[05:03] 사람들이 말하는 '바이브'가 중요하죠.

[05:05] 자, 그래서 여기 초기 테스트에서

[05:07] 몇 가지 예시를 준비했고,

[05:09] 오늘 플랫폼에서 다시 실행해봤습니다.

[05:12] 이런 것들이 여전히 유효하고

[05:13] 지금 배포된 최종 프로덕션 모델들이

[05:16] 제가 이전에 경험했던 것과

[05:18] 비슷한 수준을 유지하는지

[05:19] 확인하기 위해서였어요.

[05:21] 그리고 말씀드리건대, 이 모델은

[05:23] 정말 놀라운 성능을 보여줍니다.

[05:26] 몇 가지 예시를 살펴보고,

[05:27] 개발자 도구에 대해 더 얘기하고,

[05:29] 다른 예시들도 다룰 예정입니다.

[05:30] 하지만 먼저 톤에 대해

[05:32] 얘기하고 싶어요. 이게 제가 개인적으로

[05:35] 이런 모델들로 글을 쓸 때

[05:37] 가장 신경 쓰는 부분 중 하나거든요.

[05:40] 코드를 쓰는 게 아니라

[05:41] 그냥 텍스트를 쓰는 거예요.

[05:44] 여기에서 실행해보고 이 이메일을 읽어보면,

[05:46] 잠깐 시간을 내서 이것이 얼마나

[05:48] AI답지 않게 들리는지 감상해보세요. 그리고 여러분은

[05:52] Claude가 이전에 이미

[05:53] 많은 사람들에 의해 어느 정도

[05:57] 톤의 왕으로 인정받았다는 사실에 익숙할 것입니다. 많은

[05:59] 사람들이 Claude를 사용하는 이유는 단순히

[06:02] 그 톤을 매우 좋아하기 때문입니다. 그런데 Opus 4는 어느 정도

[06:08] 그것을 능가한다고 말하고 싶습니다. 솔직히

[06:09] 말하면, 그냥 봐보세요. 이것은

[06:11] AI 같지 않게 들리는데, 여러분이 판단해보세요.

[06:14] 이건 제 의견일 뿐입니다. 그래서,

[06:15] 봐보세요. 안녕하세요, 사장님. 저는

[06:16] 주의를 끌고 싶었습니다. 음, 저는 사무실

[06:20] 커피머신이 오늘 아침

[06:22] 작동을 멈췄다는 것을

[06:23] 알려드리고 싶었습니다. 전혀 전원이 켜지지 않습니다.

[06:25] 제대로 플러그가 꽂혀 있는지 확인했고

[06:26] 다른 콘센트도 시도해봤습니다. 마치

[06:28] 사람이 말하는 것 같습니다. 우리 중 많은 사람들이

[06:30] 그것에 의존하고 있으니까요. 어쩌고저쩌고.

[06:32] 제가 해드릴까요? 그리고 세 가지

[06:33] 옵션이 있습니다. 제조업체에

[06:35] 보증 수리 옵션에 대해 연락하기. 교체품

[06:37] 찾아보기. 지역 가전제품

[06:40] 수리 서비스에 전화하기. 그동안 저는

[06:41] 뒷사무실을 준비해놨습니다. 정말

[06:43] 사람이 쓴 것처럼 읽힙니다. 이상한

[06:46] 단어는 전혀 없습니다. 그냥, 이게

[06:48] 문제입니다. 해결책을 시도해봤습니다. 여기 몇 가지

[06:50] 제안된 해결책이 있습니다. 이것은 정말

[06:53] 사람이 쓴 것처럼 읽힙니다. 전혀

[06:55] 이상하지 않습니다. 그리고 저는 많은 예시를 실행해봤습니다. 그냥

[06:58] 계속해서, 그리고 이건 심지어

[06:59] 어떤 스타일에 대한 프롬프트도 없습니다. 그냥

[07:01] 기본 모델입니다. 훨씬 더

[07:03] 인간적입니다. 정말 멋지죠. 음, Sonnet 4는

[07:06] 실제로 이 글쓰기 톤에서는 Opus 4만큼 좋지 않습니다. 이것은

[07:10] Opus 4의 독특한 능력입니다. 좋아요, 또 뭐가

[07:11] 있을까요? 저는 실제로 파인튜닝된 모델과 함께

[07:14] 사용하는 작은 프롬프트가 있습니다.

[07:16] 제가 많은

[07:17] 비디오 스크립트로 파인튜닝한 모델입니다. 그리고 그것은 그냥

[07:19] 약간의, 알다시피, 맥락을

[07:22] 어떻게 행동해야 하는지에 대해 제공합니다. 비록 이미

[07:24] 많은 예시들로 훈련되어 있지만요. 그리고

[07:26] 여기서, 저는 그냥 첫 두 문장을 보고 싶고 그다음에

[07:29] 스타일에 대한 이 섹션을 마무리할 수 있습니다. 여러분은

[07:30] 제 생각에는 훌륭하게 들린다는 것을 볼 수 있습니다.

[07:32] 좋아요, 이것은 최고의 그리고 최악의 무료 AI 아트

[07:34] 생성기에 대한 YouTube 비디오 인트로입니다.

[07:36] 그리고 그냥 시작합니다.

[07:38] 머릿속에 이 놀라운 이미지가 있는데

[07:40] 목숨을 걸고도 그릴 수 없는 그 느낌 알죠? 그게

[07:42] 6개월 전 빈

[07:43] 캔버스 앱을 바라보며 좌절하고 있던

[07:44] 바로 저였습니다.

[07:46] 제 막대기 인형들이 왜

[07:48] 실제 사람보다는 추상적인 재앙처럼

[07:50] 보이는지 궁금해하면서요. 그때 저는

[07:52] AI 아트 생성기를 발견했습니다.

[07:54] 잘 모르겠지만,

[07:56] 저에게는 이게 사람이 쓴 것처럼 읽힙니다. 이건

[07:59] 그냥 자연스럽게 들립니다. 저는 도저히

[08:02] 참을 수가 없어서 여기에

[08:04] 비교를 끌어왔습니다.

[08:06] GPT4.5와 함께요. 저도 글쓰기에

[08:07] 정말 좋아했었는데요. 하지만 이것을 나란히

[08:11] 보면서, 저는 매우

[08:12] 어려울 것 같습니다. 음, 글쓰기를 위해

[08:15] Opus 4 모델에서 돌아가는 것이

[08:18] 어려울 것 같습니다. 왜냐하면

[08:20] 이것을 보세요. 알다시피, 제가 처음

[08:22] AI 아트를 발견했을 때, 저는 일반적으로 생각했습니다

[08:24] 마법을 발견했다고 생각했어요. 가장 기발한 아이디어를

[08:26] 눈앞에서 생생하게 구현되는 모습을 상상해보세요.

[08:28] 하지만 아무도 그렇게 말하지 않죠. 제가 말하는 건

[08:30] 이게 그들이 글쓰기용으로 제공하는

[08:31] 최고 모델이라는 거예요. 정말 좋긴 하지만

[08:33] 여전히 문제가 있어요. 하지만 보세요.

[08:35] 일부는 저를 말문이 막히게 하는

[08:38] 놀라운 이미지들을 만들어줬어요.

[08:39] 하지만 다른 것들은 제가 올바른 언어로

[08:41] 말하고 있는지 의문이 들게 했죠.

[08:43] 그런데 보세요. 오늘은

[08:45] 정말 최고의 것들을 깊이 들여다볼 거예요.

[08:47] 그냥 깊이 들어가는 거죠. 다시 말하지만

[08:50] 이런 식으로는 안 돼요. 자연스럽게 들리고

[08:52] 특별한 프롬프팅 없이도 훌륭하게 들려요.

[08:54] 이것이 정말로 AI 텍스트에 대한

[08:56] 인식을 바꾸고 있다고 생각해요.

[08:59] 만약 AI로 글을 쓴다면

[09:01] 적어도 한 번은 써보시길 강력히 권합니다.

[09:04] 자, 또 뭐가 있을까요? API에

[09:06] 많은 변화가 있고 코드로 실제로

[09:08] 할 수 있는 것들에도 많은 변화가 있어요.

[09:10] 분명히 소프트웨어 엔지니어링 벤치마크를

[09:12] 주요 판매 포인트 중 하나로 내세웠죠.

[09:15] 개발자가 아니더라도

[09:16] 이것은 정말 중요해요. 왜냐하면

[09:19] 작은 애플리케이션이나 스크립트,

[09:21] 도움이 되는 기능적 도구들을

[09:23] 만들 수 있는 능력이 대부분의 사람들에게

[09:25] 심각하게 과소평가되고 있기 때문이에요.

[09:28] 호기심이 있고 기술적이거나

[09:31] 컴퓨터 활용 능력이 있어서

[09:33] 이런 것들을 만들 수 있는

[09:37] 대부분의 사람들이 많은 모델들의

[09:38] 무능함 때문에 심각하게

[09:41] 방해받아왔다는 게 이유죠.

[09:44] 이건 사실이에요. 바이브 코딩에 대해

[09:45] 들어보셨죠. 뭔가를 만들려고 시도했지만

[09:48] 만들어지긴 하는데 제대로 작동하지 않아요.

[09:50] 버그가 있고 버튼이 작동하지 않고

[09:51] 이것저것 손봐야 하죠.

[09:53] 물론 결국 작동하게 만들 수 있고

[09:55] 월 5달러나 10달러를 내고

[09:57] 사용해야 할 것의 조잡한 버전을

[09:59] 만들 수는 있지만, 대부분의 사람들에게는

[10:01] 그럴 가치가 없어요.

[10:04] 하지만 여기서 처음으로 O3를 넘어서,

[10:05] Gemini 2.5 Pro도 넘어서

[10:07] 그것이 바뀌었다는 느낌이 들어요.

[10:09] 여기 몇 가지 예시가 있는데,

[10:13] 이 예시들을 여러 번 실행하지 않았어요.

[10:16] 한 번만 실행했는데 정확히

[10:20] 예상대로 작동했어요.

[10:22] 작은 게임들, 작은 대시보드들이요.

[10:24] 잠시 후에 살펴볼 건데요.

[10:26] 그 전에 이 블로그 포스트를

[10:28] 간단히 훑어보면서 여기서 무엇이

[10:31] 바뀌었는지 보여드리고 싶어요.

[10:33] 기본적으로 그들이 출시한 것은

[10:35] 개발자 도구들의 묶음이에요.

[10:37] 단순히 모델이 개발자들에게

[10:40] 정말 좋다는 것뿐만 아니라

[10:41] 여기서 이야기한 것처럼

[10:42] 포켓몬도 정말 잘하고

[10:44] Claude Code에서도 사용할 수 있고

[10:45] 이 모든 것들이 완전히 다른 차원이에요.

[10:48] 나중에 이것에 대해 더 이야기할 수 있지만

[10:49] API에서는 Claude Opus 4와

[10:51] Sonnet 4를 데이터 분석 같은

[10:53] 다양한 도구들과 함께 출시했어요.

[10:57] 코드를 작성할 수 있을 뿐만 아니라

[11:00] API를 통해 코드를 실행할 수도 있어요.

[11:02] 그리고 이런 것들이

[11:04] O3를 그렇게 강력하게 만든

[11:06] 요소들이에요.

[11:09] 이것이 O3를 그렇게 강력하게 만든 요소들입니다.

[11:10] 혹시 모르시는 분들을 위해 설명하면, OpenAI가

[11:12] 얼마 전에 O3를 출시했는데, 모든 사람들이

[11:15] 깜짝 놀랐습니다. 왜냐하면 이 모든 도구들을 가지고 있었거든요.

[11:17] 코드를 작성하고, 코드를 실행할 수 있었고,

[11:19] 음... 이제 이미지도 생성할 수 있게 되었죠.

[11:22] 사실 이건 그렇게

[11:23] 중요하지 않아요. 여기서는

[11:25] 그런 기능이 없거든요. 하지만 가장 핵심적인

[11:27] 것은 실제로 이런

[11:28] 수학 문제들을 해결할 수 있다는 것입니다.

[11:30] 필요하다고 판단되면 혼자서 데이터 분석도 할 수 있어요.

[11:34] 좋아요, 이것들이 바로 사고하는 모델들입니다.

[11:36] 그리고 이제 제가 가장 좋아하는 부분으로 넘어가겠습니다.

[11:39] 여기서 두 가지가 바뀌었습니다.

[11:42] 좋아요, Claude Code에서 말이죠. 이건

[11:45] 기본적으로 Claude를 위한 명령줄 인터페이스입니다.

[11:47] 터미널에서 이렇게 실행하는 거예요.

[11:50] 이렇게요.

[11:52] 이 작업들이 실행될 수 있는 시간의 길이를

[11:54] 변경했습니다. 좋아요. 그리고 이 영상은

[11:57] 그것에 초점을 맞춘 건 아니지만, 몇 가지 프로젝트를 실행해보고

[11:59] 몇 가지를 만들어 보려고 했습니다.

[12:01] 이전에는 1분에서 5분 정도였는데,

[12:04] 이제는 보통 15분, 20분씩 실행됩니다.

[12:06] 그리고 오늘 키노트에서

[12:09] 최대 7시간까지도

[12:11] 실행될 수 있다고 발표했습니다.

[12:12] 허락한다면 API를 통해서 말이죠. 좋아요,

[12:15] 우리는 말 그대로 2년 전 ChatGPT가

[12:18] 손으로 하면 한 10분 정도 걸릴 문제들을

[12:20] 해결하던 시절에서

[12:23] 즉시 해결하는 시대로 왔잖아요?

[12:25] 한 10초 만에 말이죠. 놀라웠습니다.

[12:28] 그 다음에는 이런 사고하는 모델들이 나왔고

[12:30] 1-2분 정도 고민하면서 더 어려운 문제들을 해결했습니다.

[12:33] 수학을 할 수 있게 되었고, 이전에는

[12:35] 상상도 할 수 없었던 코딩을

[12:36] 할 수 있게 되었습니다. 갑자기

[12:38] SWB bench에서 정말 높은 성능을 보여주면서

[12:41] 와, 이것들이 실제

[12:43] 업무와 실제 문제들,

[12:45] 어려운 문제들에 정말 유용해지고 있구나 싶었습니다.

[12:47] 단순히 영감을 주거나

[12:49] 보조 역할이나 코파일럿 역할이 아니라

[12:52] 수십 분을 절약해줄 수 있게 되었죠.

[12:54] 그 다음에 딥 리서치가 나왔고, 그건

[12:56] 정말 충격적이었습니다. 이 채널을 팔로우하시는 분들은

[12:57] 아시겠지만, 저는 모든 앱에서

[12:59] 딥 리서치 기능을 극찬했는데

[13:01] 그건 정말 몇 시간을 절약해주는 기능이었거든요.

[13:04] 경우에 따라서는 기술적 능력에 따라

[13:05] 수십 시간까지도 절약할 수 있었습니다.

[13:08] 하지만 이것은, 에이전트가

[13:11] 무려 7시간이나 실행된다면, 이건 몇 시간을

[13:15] 절약해주는 게 아니라 수십 시간,

[13:17] 어쩌면 수백 시간을 절약해주는 겁니다.

[13:19] 그리고 키노트에서 흥미로운 부분이 있었는데

[13:20] Anthropic의 키노트를 꼭 확인해보시길 추천하는데

[13:22] CEO에게 "언제쯤 한 사람이

[13:25] 10억 달러 회사를

[13:27] 처음으로 만들어낼 것 같냐고" 물었고

[13:29] 그는 실제로 2026년이라고 답했습니다.

[13:31] 그게 실현될지는 모르겠지만,

[13:34] 2025년 5월에 이미 에이전트가 7시간씩

[13:36] 실행되고 있다면, 아무도 이걸 예측하지 못했을 겁니다.

[13:39] 아무도 우리가 이렇게 이른 시기에

[13:41] 이런 점수들을 얻을 거라고 생각하지 못했습니다.

[13:44] 좋아요? 아무도 이것이

[13:46] 포켓몬을 해결하는 방법에 대한 계획을 세우고

[13:48] 이런 복잡한 문제들을 다루면서

[13:50] 막혔을 때 해결하는 프로토콜을

[13:53] 스스로 코딩하고 따라할 거라고

[13:55] 생각하지 못했습니다. 아무도 우리가

[13:57] 클라우드 코드에서 이런 에이전트들을 시작할 수 있다는 것은

[13:59] 몇 시간 동안 계속 실행하면서

[14:02] 마주치는 모든 문제를 스스로 해결하게 할 수 있다는 거죠.

[14:05] 코드 실행이 필요하면, 바로 그걸 해냅니다.

[14:07] 웹 검색이 필요하면, 그것도 할 수 있어요.

[14:09] 유튜브 API나 슬랙 채널 접근이 필요하다면,

[14:11] 바로 그때 모델 컨텍스트 프로토콜(MCP)이

[14:14] 그 역할을 해주죠.

[14:15] MCP는 범용 커넥터 같은 건데,

[14:18] 혹시 잘 모르신다면, HTTP 프로토콜이

[14:20] 인터넷에 했던 역할과 같다고 보시면 됩니다.

[14:22] 이건 에이전트들을 위한 똑같은 역할을 하는 거죠.

[14:25] 그래서 어떤 것이든 연결할 수 있고,

[14:27] 이제 거의 모든 곳에서 채택되고 있어요.

[14:29] 혹시 모르실 수도 있는데,

[14:31] 구글도 이번 주 I/O에서 이걸 채택했고,

[14:32] OpenAI도 이번 주에 자신들의

[14:34] API에 이걸 도입했어요.

[14:36] 정말 어디든지 있는 것 같아요.

[14:38] 마이크로소프트도 MCP를

[14:41] 윈도우에 내장할 거라고 발표했거든요.

[14:43] 그러니까 정말 범용적이라고 할 수 있죠.

[14:45] 이런 다른 도구들을 모두

[14:47] 여기에 연결할 수 있거든요.

[14:48] 이제 API에는 웹 검색 기능이 있고,

[14:52] 프롬프트 캐싱도 있는데, 이건 잠시 후에 얘기하겠고,

[14:56] 이런 모든 MCP 서버들과

[14:58] 코드 실행 등등이 가능해요.

[15:01] 마지막으로 얘기해야 할 건

[15:03] 이렇게 계속 실행되면서 놀라운 일들을 해내는

[15:05] 맥락에서 프롬프트 캐싱입니다.

[15:07] 혹시 잘 모르신다면, 이건 본질적으로

[15:09] 비용을 절약하는 기술이에요.

[15:10] API를 실행하고 한동안 돌려두면,

[15:13] 바로 이것 때문에 지금까지

[15:16] 이런 게 제대로 작동할 수 없었던 거예요.

[15:17] 대부분의 에이전트들이 50분 동안

[15:18] 작동하는 게 아니라 3분 정도,

[15:20] 아니면 경우에 따라서는

[15:22] 10분 정도 작동하다가 끝나버렸거든요.

[15:23] 문제는 정말 비싸지기 시작한다는 거예요.

[15:26] 왜냐하면 상호작용의 전체 히스토리를

[15:28] 에이전트에게 계속 전달해야 하거든요.

[15:30] 그래야 40분 전에 뭘 했는지

[15:32] 기억할 수 있으니까요.

[15:34] 40분 동안 작동한다면 말이에요.

[15:36] 그러면 그게 계속 쌓이기 시작해요.

[15:38] 리스트가 점점 길어지는 거죠.

[15:39] 프롬프트 캐싱이 하는 일은

[15:41] 특정 컨텍스트 영역이나

[15:44] 특정 양의 컨텍스트를 주면

[15:46] 한 번 기억해서 에이전트의

[15:48] 캐시에 저장해두는 거예요.

[15:51] 그러면 그 토큰들에 대해서는

[15:54] 계속 비용을 지불할 필요가 없어지죠.

[15:56] 그래서 비용을 절약하고

[15:58] 장기간 워크플로우를 가능하게 하는 방법이에요.

[16:00] 그리고 지금까지 프롬프트 캐싱을 확장했어요.

[16:02] 지금까지는 5분이었는데

[16:04] 이제는 1시간까지 늘어났고

[16:08] 여러 다른 개선사항들도 함께 있어요.

[16:11] 정말 대단해요. 이런 에이전트들이

[16:15] 이제 정말 어디든지

[16:16] 실행될 거예요.

[16:18] 오늘부터 API로 사용할 수 있어요.

[16:20] 그래서 사람들이 이걸

[16:21] 여러 곳에 구축할 거예요.

[16:24] 몇 가지 예시를 보기 전에 결론부터 말하면

[16:26] 글쓰기도 정말 잘하고, 코딩도 정말 잘해요.

[16:28] 하지만 주로 이런 에이전트들이 지금까지처럼

[16:31] 몇 분만 실행되는 게 아니라는 거예요.

[16:35] 혹시 잘 모르실 수도 있는데,

[16:36] Cursor나 Lovable 같은

[16:39] 이런 바이브 코딩 앱들과

[16:41] 다른 모든 앱들은 Claude 모델로 만들어졌어요.

[16:42] 이것들은 그냥 Claude 래퍼에

[16:44] 로직과 파인튜닝, 그리고

[16:46] 독점 데이터 같은 것들이

[16:48] 백그라운드에 있지만, 이 모델들

[16:50] 위에서 실행됩니다. 그리고 이제 모델들이

[16:52] 대규모 업그레이드와 기능을 얻었고

[16:55] 5분이 아니라 한 시간 동안

[16:58] 저렴하게 실행할 수 있습니다. 게임 체인저급

[17:01] 변화죠. 그리고 우리는

[17:03] 시간이 지나면서 이것의 파급효과를 볼 것입니다.

[17:05] 더 구체적인 느낌을 주기 위해

[17:06] 실제로 몇 가지 예시를 보여주며

[17:08] 이 비디오를 마무리하고 싶습니다.

[17:10] 좋아요, 우리가 이야기한

[17:12] 글쓰기 스타일 같은 것들이

[17:14] 정말 훌륭하지만, 실제로는

[17:16] 웹 인터페이스에서 즉시

[17:18] 경험할 수 있는 코딩 능력에

[17:19] 집중하고 싶습니다. 뭔가를 프롬프트하고

[17:22] 그것이 실제로 작동하는 것을 보고

[17:24] 여기서 아티팩트를 보는 것이죠.

[17:26] 이것은 제가 비교를 위해

[17:27] 실행한 것입니다. 프롬프트를

[17:28] 보여드릴게요. 정말 간단합니다.

[17:30] 누구든지 이것들을 재현할 수 있습니다.

[17:33] 또한 이런 긴 프롬프트들을

[17:34] 여기서 전달하기도 어렵고

[17:36] 그렇게 큰 차이를

[17:37] 만들지도 않습니다. 왜냐하면

[17:38] 이 모델들이 당신이 의미하는 바를

[17:40] 파악하고 백그라운드에서 투두 리스트를

[17:42] 만들어가며 생각하는 것이

[17:44] 정말 잘 되어서

[17:46] 이런 간단한 프롬프트만 해도 됩니다.

[17:48] 그래서 제가 기본적으로

[17:50] Google IO 비디오에서 보여준 것과

[17:52] O3에서도 테스트한 것과 같은

[17:54] 것을 프롬프트했습니다. 그들의 캔버스에서는

[17:56] 그렇게 잘 되지 않았죠. 이것은

[17:58] 정말 잘 됩니다. 게다가 실제로

[18:01] 다른 행성들을 애니메이션으로 만들어

[18:03] 정말 놀랍습니다. 여기서

[18:04] 토성을 클릭할 수 있습니다. 네, 그러면

[18:07] 세부 정보가 보이고 속도를

[18:09] 높일 수도 있습니다. 좋은

[18:11] 간단한 웹 앱이죠. 한 번 후속

[18:13] 질문을 했던 것 같네요. 그랬나요? 네.

[18:16] 모든 행성을 한 번에 보여달라고요.

[18:17] 더 좋게 만들기 위해 해야 했던

[18:20] 유일한 후속 프롬프트였습니다. 이전에는

[18:23] 한 번에 하나의 행성만 보이는

[18:25] 이런 모습이었고, 첫 번째 버전에서는

[18:27] 3D로 하라고 말하지 않아서

[18:30] 이런 모습이었지만, 네, 약 20단어 정도로

[18:32] 이런 결과를 얻었습니다. 다음으로는

[18:34] 게임을 만들었습니다. 그리고 아이고르,

[18:37] 게임이라니, 누가 간단하고 바보 같은

[18:39] 게임이 필요하냐고 말할 수도 있지만

[18:42] 실제로는 훌륭한 예시라고 생각합니다.

[18:43] 왜냐하면 꽤 복잡하고 로직이 많이 들어가고

[18:46] 보여주기에 정말 좋거든요.

[18:47] 바로 그렇게 해보겠습니다. 간단한 3D RPG를

[18:50] 만들어달라고 시작했습니다. 짠!

[18:53] 갑자기 이걸 얻었습니다. 움직일 수 있고

[18:55] 공격도 할 수 있습니다. 좋아요,

[18:57] 계속해봅시다. 적과 전투, 그리고

[18:59] 무기로 황금 삽을 추가해달라고 했습니다.

[19:01] 왜 황금 삽인지는 모르겠습니다.

[19:03] 아마도 우리가 AI의 황금 시대에

[19:05] 있고 이런 도구들이 곡괭이와

[19:07] 삽이라는 의미일 수도 있겠네요.

[19:09] 그런 의미일 수도 있지만

[19:12] 모르겠어요. 그냥 떠오른 생각이었습니다.

[19:14] 잘 작동하죠? 나쁘지 않아요. 이제 어떻게 더 개선할 수 있을까요?

[19:16] 정말 복잡하겠죠?

[19:18] Q와 E키로 주변을 둘러볼 수 있게 하고

[19:20] 더 미적으로 만들어보세요.

[19:22] 와, 제가 정말 재능 있는 코더네요.

[19:25] 더 미적으로 만들어달라고 했어요.

[19:27] 그리고 이런 결과가 나왔어요. 좋네요.

[19:28] 이제 돌아다닐 수 있고, 네, 좋아 보여요.

[19:32] 하지만 더 잘할 수 있어요.

[19:33] 아니, 더 밝게 만들고

[19:35] 장식을 더 추가해 주세요. 오케이, 여러 가지로 개선됐네요.

[19:38] 그런데 전 이 모든 걸

[19:40] 확장된 사고 기능이 활성화된

[19:42] Claude Opus로 하고 있어요.

[19:45] 그리고 여기서 바로 그렇게 했어요. 훌륭해요.

[19:48] 제게는 좋아 보여요.

[19:49] 장식이 더 많아졌어요.

[19:51] 저 샹들리에들 보세요.

[19:52] 간단한 작은 게임이 있지만

[19:54] 이보다 더 잘할 수 있어요.

[19:56] 삽을 R키로 설정하세요.

[19:58] 오케이, 전 그냥 키보드의 모든 키를 사용하고 싶었거든요.

[20:00] 그래서 그렇게 했어요.

[20:01] 좀 더 확장해 볼게요. 이렇게 할 수 있나요?

[20:04] 오케이, 좋아요. 이제

[20:06] 실제로 게임을 해봅시다.

[20:08] 뛰어다녀 봅시다. 이 적들이

[20:10] 저를 압도하고 있네요. 어느 정도

[20:13] 모든 게 작동하는 걸 볼 수 있어요. 그리고 중요한 건

[20:16] 이상한 점이 없다는 거예요. 패배했네요.

[20:18] 오케이, 작동하려면 새로고침이 필요해요.

[20:20] 물론이죠. 이 공이 좀 더 높이 있을 수도 있겠지만

[20:23] 네, 하지만 모든 게 작동해요.

[20:25] 경험, 품질, 활력, 적들,

[20:27] 모든 것이 예상대로 작동해요.

[20:30] 제가 처음 이걸 시도했을 때는

[20:32] 조금 의심스러웠어요.

[20:34] 전 그런 거에 익숙하지 않거든요.

[20:35] 전 이런 것들이 나타나면

[20:37] 제대로 작동하는 버전을 얻기 전에

[20:38] 20분 동안 버그 수정을 해야 하는 걸

[20:40] 당연하게 여겼거든요. 다른 모든 모델이

[20:42] 그런 식이었어요. 하지만 이건 다르네요.

[20:45] 그냥 작동해요. 음, 그리고

[20:47] 네, 적들을 타코로 만들어달라고 했어요.

[20:49] 녹화를 시작하기 1분 전에 실행했거든요.

[20:51] 실제로 그렇게 했는지 한번 봅시다.

[20:54] 오케이, 전 말 그대로 이걸 확인하지 않았어요.

[20:57] 아, 오케이. 네, 타코 적들이 있네요.

[20:58] 저것 보세요. 오, 전술적 1번이에요.

[21:00] 심지어 눈도 있어요. 정말 좋아해요.

[21:03] 하지만 이렇게 말할 수도 있겠죠. "오케이, 이고르,

[21:06] 타코, 황금 삽 같은 건

[21:08] 정말 실용적이지 않은 것 같은데요."

[21:10] 오케이, 실제로 편리한 건 어떨까요?

[21:11] 여러분이 실제로 필요할 수 있는 간단한 것

[21:14] 가계부 추적기 같은 거 말이에요.

[21:17] 오케이, 이런 대시보드들은

[21:18] 사람들이 Claude 3.5 Sonnet으로

[21:20] 가장 먼저 만들기 시작한 것들 중 하나였어요.

[21:22] 3.5 Sonnet과 3.7 Sonnet도 이미

[21:25] 인기 있는 모델들 중 일부였죠.

[21:28] 하지만 이제 실제로 대시보드를 만들면

[21:30] 정말로 작동해요.

[21:32] 그냥 어느 정도 작동하거나 대부분 작동한다는 게 아니라

[21:35] 모든 게 작동해요. 오케이, 전 그냥

[21:37] 직관적이면서도 기능적인

[21:38] 학생용 인터랙티브

[21:40] 가계 대시보드를 만들어달라고 했어요.

[21:42] 로깅, 현금 흐름 관리,

[21:44] 예산 기능을 포함해서요.

[21:46] 정말 간단한 프롬프트예요.

[21:48] 해석할 여지가 많죠. 이런 게 바로

[21:50] 이 모델들이 정말 잘하는 거예요. 목표만 주면

[21:52] 그게 다예요. 그런데

[21:52] 이게 제가 드리고 싶은 프롬프팅 팁이에요. 이전에도 얘기했지만요. 사이트를 리셋하면,

[21:56] 로그인 관리 기능이 있어요

[21:59] 로그인 정보로 여기서 로그인합니다.

[22:03] 앗, demo 123을 잘못 입력했나 봐요.

[22:06] 완벽해요. 들어왔네요. 그런데 말이에요.

[22:08] 이런 앱들을 이전에 만들어봤다면,

[22:10] 보통 이상한 문제들이 있었다는 걸 아실 거예요

[22:13] 대개 그래프가 조금 어긋나거나,

[22:16] 초록색 선이 이렇게

[22:18] 여기서 끝나거나 달러 기호가

[22:20] 제자리에 없거나 뭔가 이상해 보였죠.

[22:23] 여기서 뭐가 이상해 보이는지 보여주세요. 그리고

[22:27] 이걸 10번 다시 실행해도

[22:29] 그냥 작동해요. 제가

[22:30] 말하고 싶은 게 바로 이거예요.

[22:34] 거래를 추가할 수도 있어요. 예시로 뭐든지 금액 50 날짜

[22:39] 봐요, 전체 인터페이스가

[22:40] 단 하나의 오류도 없어요 그리고

[22:42] 이건 제가 이런 도구들을

[22:44] 너무 많이 써서 익숙하지 않은 거예요

[22:48] 솔직히 놀랐고 좀 이상하다고

[22:50] 생각해요. 어떻게

[22:52] 이게 그냥 작동하는 거죠? 왜 다

[22:55] 작동하는 거예요? 이건 작동하면 안 되는데

[22:57] 보통은 10개 정도 더

[22:59] 프롬프트를 써서 모든 버그를

[23:01] 수정해야 하는데

[23:02] 지금 상태가 될 때까지 말이에요

[23:04] 사실 한 번에 한 건 아니에요

[23:06] 두 번에 걸쳐 했거든요. 이 메시지를 주고나서

[23:09] 여기서 예산용 탭을 추가하고

[23:10] 편집 가능하게 만들고 홈페이지에

[23:12] 모의 데이터로 시각화를 추가하라고 했어요.

[23:14] 그랬더니 그렇게 했어요.

[23:16] 여기 예산 탭이 있고요. 원한다면 웹에

[23:20] 공개해서 여러분과 공유할 수도 있어요.

[23:21] 실제로 그렇게 할 거예요.

[23:23] 링크를 아래 설명란에

[23:24] 넣어둘 테니까 직접

[23:26] 테스트해보고 작동하는지 확인해보세요.

[23:28] 기본적으로 월간 예산을

[23:29] 바꿀 수 있고, 0을 하나 더 추가하면

[23:32] 좋은 삶이 되죠. 그리고 보시면

[23:35] 엔터테인먼트, 교통비,

[23:38] 이 모든 것들이 합계가 나와요. 그냥 작동해요.

[23:42] 마무리하자면, 최근에 이런 작은

[23:45] 애플리케이션을 만들었어요.

[23:47] 곧 채널에 튜토리얼이 올라올 예정이에요.

[23:49] GitHub 튜토리얼 같은

[23:50] 단계별 가이드 말이에요. 요점은,

[23:52] 순수 HTML로 이 애플리케이션을

[23:54] 만들고 있었는데, 곧 들으시겠지만

[23:57] 정말 멋져요. 음성을 받아서

[23:58] 그 위에 프롬프트를 할 수 있고

[24:00] 음성 인식 API를 사용해요. 그런데

[24:02] 아무리 해도 그걸

[24:04] 크롬 확장 프로그램으로 만들지 못했어요.

[24:06] 웹 앱으로만 작동했는데

[24:07] 정말 크롬 확장 프로그램으로 만들고 싶었거든요.

[24:09] 그런데 맞춰보세요? Claude Opus가

[24:11] 한 번에 해냈어요.

[24:13] 크롬 확장 프로그램으로 바꾸라고 했더니 바로 해냈어요.

[24:16] 작동해요. 정확히 어떻게, 왜 되는지는 모르겠지만

[24:20] 결과는 거기 있어요. 정말

[24:22] 인상적이에요. 채널을

[24:23] 구독하고 계셨다면

[24:24] 정말로 '와, 이건

[24:25] 정말 모든 걸 바꾼다'는 영상을 만든 지 꽤 되었어요.

[24:31] 소프트웨어 업계뿐만 아니라

[24:33] 여러분이 사용하는 모든

[24:34] 앱들, 구독 앱들 말이에요.

[24:36] 이건 영원히 얘기할 수 있는 주제고

[24:37] 앞으로도 그럴 거예요. 하지만

[24:39] 넷플릭스 같은 다양한 온라인 서비스들이

[24:42] 필요할 때 주문형으로 이런 대시보드들을

[24:45] 생성한다고 생각해보세요. 한번 봐보세요.

[24:47] Claude에게 감사드려요

[24:49] 미리 체험할 수 있게 해줘서

[24:50] 평소보다 더 많이 가지고 놀 수 있었어요.

[24:52] 이제 가서 뭔가 만들어보세요, 글을 써보세요,

[24:56] 코딩하고 앱도 만들고 재미있게 놀아보세요.

[25:00] 저와 같은 경험을

[25:02] 하시길 바라요. 얼마나 신뢰할 만한지

[25:04] 놀라실 거예요. 오늘은

[25:06] 여기까지입니다. 좋은 하루 보내세요.