클로드 4는 당신이 생각하는 것과 다릅니다

Matthew Berman 구독자 419,000명

요약

앤트로픽이 새롭게 공개한 Claude 4는 Sonnet과 Opus 두 가지 모델로 제공되며, 특히 긴 시간 이어지는 작업(Long Horizon Tasks) 처리와 병렬 도구 사용, 메모리 관리에서 큰 개선을 이뤘습니다. 즉각 응답과 확장 사고(Extended Thinking)를 모두 지원하는 하이브리드 모델로 복잡한 과제도 끊김 없이 처리하며, 코드 실행 툴·MCP 커넥터·파일 API·프롬프트 캐싱 등 네 가지 주요 API 기능으로 개발자 친화성을 높였습니다. 벤치마크에서는 Sonnet 4가 최대 80.2%, Opus 4가 최대 79.4% 성능을 기록하며 이전 세대 대비 최대 10% 향상되었고, 앤트로픽은 챗봇 경쟁을 포기하고 인프라 회사로 전환해 최고의 코딩 에이전트 구축에 집중합니다.

주요 키워드

Claude 4 Opus Claude 4 Sonnet Extended Thinking Hybrid Model Parallel Tool Usage MCP Framework Long Horizon Tasks Prompt Caching

하이라이트

🔑 Claude 4는 Sonnet과 Opus 두 가지 사이즈로 출시되며, Opus가 자체 테스트에서 세계 최고 코딩 모델로 소개됐다.
⚡️ 확장 사고 모드로 수십 분에서 수시간에 걸친 장기 과제도 끊김 없이 처리할 수 있는 Long Horizon Tasks 기능이 핵심이다.
🌟 하이브리드 구조로 즉시 응답 모드와 확장 사고 모드를 모두 지원하며, 필요에 따라 도구 사용(Tool Use)을 선택할 수 있다.
🚀 새로운 API에는 코드 실행 툴(Code Execution Tool), MCP 커넥터, 파일 API, 최대 1시간 프롬프트 캐싱(Prompt Caching) 기능이 포함된다.
📌 벤치마크 결과 Sonnet 4는 80.2%, Opus 4는 79.4%까지 기록하며 이전 세대 대비 최대 10% 성능 향상을 달성했다.
🛠️ 앤트로픽은 챗봇 경쟁에서 물러나 인프라 회사로 전환, GitHub Copilot·Cursor·Windsurf 등 주요 플랫폼과 코딩 에이전트를 통합한다.
🔍 병렬 도구 사용(Parallel Tool Usage)으로 동시다발적 요청을 처리하고 자체 메모리 관리 기능도 대폭 강화됐다.
💼 Box AI와 통합해 기업 문서에서 메타데이터 추출·질의응답·워크플로우 자동화를 간단히 구현할 수 있다.
💰 Opus 모델은 최대 20만 토큰 컨텍스트 윈도우(Context Window)를 제공하며 입력 15달러·출력 75달러(백만 토큰 기준)에 배치 할인도 적용된다.

용어 설명

Extended Thinking(확장 사고)

Claude 4가 복잡한 작업을 수행할 때 시간을 두고 심층적인 추론을 진행하는 모드

Hybrid Model(하이브리드 모델)

즉각 응답 모드와 확장 사고 모드를 모두 지원해 상황에 맞게 전환하는 구조

MCP Framework

앤트로픽이 개발한 도구 통합 프레임워크로, 다양한 툴을 API로 연결해 주는 구조

Parallel Tool Usage(병렬 도구 사용)

여러 개의 도구 요청을 동시에 보내 효율성을 극대화하는 기능

Prompt Caching(프롬프트 캐싱)

같은 프롬프트를 일정 시간(최대 1시간) 동안 캐시해 토큰 비용과 응답 지연을 줄이는 기법

Claude 4 Sonnet과 Opus라는 두 가지 모델이 출시됐다. Opus는 세계 최고 코딩 모델로 소개됐으며, 특히 장기 과제(Long Horizon Tasks) 처리 능력을 강조한다.

[00:00] Claude 4가 Sonnet과 Opus 두 버전으로 출시되었으며, Anthropic이 새로운 방향으로 전환했다고 소개합니다. Claude 4 Opus는 세계 최고의 코딩 모델로 주장되며, 특히 수십 분에서 몇 시간에 걸친 장기간 작업을 완료할 수 있는 능력이 특별합니다.

즉각 응답과 확장 사고 모드를 모두 지원하는 하이브리드 모델로, 필요에 따라 웹·드라이브·Gmail·캘린더 검색 등 다양한 도구를 활용할 수 있다. 확장 사고 중에도 도구를 병렬로 호출해 효율성을 높인다.

[00:36] 두 모델 모두 확장된 사고 기능을 가진 하이브리드 모델로, 즉시 응답과 복잡한 작업을 위한 사고 모드를 선택할 수 있습니다. 도구 사용 기능도 포함되어 있으며, 발표자는 이미 테스트해보다가 사용 제한에 걸려 추가 테스트를 위해 Max 구독을 고려하고 있습니다.

[01:10] Claude 4는 웹 검색, 드라이브 검색, Gmail 검색, 캘린더 검색 등의 도구를 제공하며, Anthropic이 만든 MCP 프레임워크가 API에 깊이 통합되어 있습니다. 이 프레임워크는 OpenAI, Microsoft, Google 등 많은 회사들이 채택했습니다.

[01:43] 두 모델의 독특한 특징은 도구를 병렬로 사용할 수 있다는 점으로, 동시에 여러 도구에 요청을 보낼 수 있어 순차 처리보다 훨씬 효율적입니다. 또한 자체 메모리 처리 능력도 향상되었으며, 이 모든 기능은 Claude Code에서 사용 가능합니다.

코드 실행 툴(Code Execution Tool)을 통한 Python 코드 실행, 전세계 MCP 서버와 연결하는 MCP 커넥터, 로컬 파일을 읽는 파일 API, 최대 1시간 프롬프트 캐싱 기능을 소개한다.

[02:08] 오늘 아침 키노트에서 Anthropic의 최고 제품 책임자는 장기간 작업에 대해 설명하며, 한 회사가 Claude 4를 사용해 7시간에 걸친 작업을 완료한 사례를 제시했습니다. 새로운 API에는 코드 실행 도구, MCP 커넥터, 파일 API, 프롬프트 캐시 기능 등 네 가지 새로운 기능이 포함되어 있습니다.

[02:45] MCP 커넥터와 파일 API를 통해 클로드가 로컬 파일과 전 세계 MCP 도구에 접근할 수 있게 되었고, 프롬프트 캐싱 기능으로 비용 효율적인 사용이 가능해졌습니다.

앤트로픽은 챗봇 경쟁에서 물러나 인프라 회사로 전환, 최고의 코딩 에이전트를 구축해 GitHub Copilot, Cursor, Windsurf 등 주요 플랫폼에 통합하고 있다.

[03:13] 클로드는 챗봇 경쟁에서 포기하고 인프라 회사로 전환했으며, OpenAI와 구글, 마이크로소프트가 개인 비서 경쟁에서 승리했습니다. Anthropic은 이제 최고의 코딩 에이전트 도구 제공에 집중하고 있습니다.

Box AI와 연계해 계약서·송장·이력서 등 기업 문서에서 메타데이터를 추출·자동화할 수 있다. RAG 파이프라인을 손쉽게 구성하며 엔터프라이즈 보안·거버넌스도 제공한다.

[03:48] GitHub CEO 토마스 돈키가 클로드 포 소네트를 GitHub Copilot의 기본 옵션으로 발표했고, 초기 평가에서 에이전틱 시나리오에서 뛰어난 성능을 보여 이전 세대 대비 최대 10% 성능 향상을 제공합니다.

소프트웨어 엔지니어링 벤치마크에서 Sonnet 4는 80.2%, Opus 4는 79.4%로 이전 세대 대비 10% 성능 향상을 기록했다. OpenAI Codex 1과 비교해도 우위에 있다.

[04:39] 클로드 4의 장기 과제 수행 능력, 우수한 메모리, 병렬 도구 사용 기능이 Box AI와 잘 어울릴 것이며, Box AI를 통해 계약서, 송장 등에서 메타데이터를 추출하고 워크플로우를 자동화할 수 있습니다.

일부 벤치마크 항목은 Sonnet 3.7 대비 성능이 하락한 경우도 발견됐다. 제출된 지표가 모든 사용 시나리오를 반영하지 못한다는 지적이 제기된다.

[05:17] 개발자들은 Box AI의 완전한 RAG 파이프라인을 통해 벡터 데이터베이스나 청킹에 대한 걱정 없이 쉽게 구축할 수 있으며, 엔터프라이즈급 보안과 컴플라이언스를 제공받을 수 있습니다.

[05:37] Box SDK와 Claude Code의 쉬운 연동 방법을 설명하며, Box의 백엔드 계약 생성 도구 데모를 소개합니다.

[06:02] Claude 4 모델의 공식 발표로 돌아가서, Claude Opus 4와 Sonnet 4의 네이밍 변화와 하이브리드 모델의 두 가지 모드를 설명합니다.

모델의 우회·단축 행동을 65% 줄였으며, 반복 사용 시 메모리 파일을 관리해 사용자 맞춤 성능을 높인다. Opus 입력 15달러·출력 75달러(백만 토큰 기준)에 배치 할인 지원.

[06:24] SWE-Bench Verified 벤치마크에서 Claude 4가 압도적인 성능을 보였으며, OpenAI CodeX 1의 72%를 뛰어넘어 Sonnet 4가 80.2%를 기록했습니다.

[07:02] Parallel test time compute 방식을 설명하고, 흥미롭게도 Sonnet이 Opus보다 높은 점수를 기록했으며 실제 사용에서는 Opus가 더 빠른 코드 출력을 보인다고 언급합니다.

[07:37] TauBench, GPQA Diamond, Agentic Tool Use 등 다양한 벤치마크 결과를 제시하며, Gemini 2.5 Pro가 여전히 선호하는 코딩 모델임을 밝힙니다.

[08:22] John Shonith의 분석을 인용하여 Claude Sonnet 4가 3.7 버전보다 향상된 벤치마크들을 초록색 박스로 표시했다고 설명합니다.

[08:35] Claude 4의 벤치마크 결과를 분석하면서, 노란색은 성능이 비슷했던 부분이고 빨간색은 실제로 성능이 떨어진 부분을 나타낸다고 설명합니다. 놀랍게도 제출된 모든 벤치마크 중 절반이 실제로 하락했다고 지적하며, 엄청난 향상이라는 주장과 벤치마크 결과 사이의 불일치에 대해 의문을 표합니다.

[09:05] Claude 모델들의 코딩 행동 변화에 대해 설명합니다. Claude 3는 코딩에서 게을렀고, Claude 3.5와 3.7은 반대로 너무 열심히 해서 과도한 코드를 출력했다고 언급하며, Claude 4에서는 이를 잘 조정했다고 설명합니다.

[09:26] Anthropic의 안전성 개선 노력에 대해 설명하며, 모델이 지름길이나 허점을 이용하는 행동을 크게 줄였다고 합니다. 포켓몬 예시를 들어 두 모델 모두 Sonnet 3.7보다 이런 행동에 관여할 가능성이 65% 적다고 구체적인 수치를 제시합니다.

[09:49] Claude Opus 4의 향상된 메모리 기능에 대해 설명합니다. 100번째 사용할 때는 첫 번째보다 훨씬 더 좋고 효율적이며 간결해진다고 하며, 이는 모델이 학습하고 사용자와 단축어를 개발하기 때문이라고 설명합니다. 주요 정보를 저장하는 메모리 파일 생성과 유지에 능숙해진다고 덧붙입니다.

[10:30] 사고 요약 기능과 원시 사고 체인 접근에 대해 설명합니다. 더 작은 모델을 사용하여 긴 사고 과정을 압축하는 기능을 도입했지만, 기본적으로는 사고 과정이 보이지 않으며, 고급 프롬프트 엔지니어링을 위한 원시 사고 체인이 필요한 사용자는 세일즈팀에 문의해야 한다고 안내합니다.

[10:54] Claude Code의 일반 출시에 대해 발표합니다. VS Code와 JetBrains를 위한 새로운 확장 프로그램으로 Claude Code를 IDE에 직접 통합할 수 있게 되었으며, 이는 기존 코딩 도구들과의 직접적인 경쟁이라고 설명합니다. Claude가 제안하는 편집 사항이 파일에 인라인으로 나타나 검토와 추적을 간소화하며, 클라우드 코드 SDK를 통해 개발자들이 자체 코딩 에이전트를 구축할 수 있다고 안내합니다.

[11:22] Anthropic은 에이전틱 코딩의 인프라 계층을 구축하고 있으며, GitHub에서 클로드 코드를 출시했습니다. 개발자들은 PR에서 클로드를 태그하여 리뷰어 피드백 처리, CI 오류 수정, 코드 수정 등을 자동화할 수 있습니다.

[11:40] 실제 사용 예시로, PR 댓글에서 클로드를 태그하면 자동으로 피드백을 수집하고 처리하여 새로운 풀 리퀘스트를 생성하고 테스트까지 완료하여 리뷰 준비된 상태로 만들어줍니다.

[12:00] Anthropic의 최고 과학 책임자 Jared Kaplan은 회사가 2024년 말 챗봇 투자를 중단하고 복잡한 작업 수행 능력 향상에 집중하기로 했다고 발표했습니다. 클로드가 ChatGPT나 Gemini와의 챗봇 경쟁에서 필요한 시장 점유율을 달성하지 못했기 때문입니다.

[12:25] 챗봇 시장을 포기하고 에이전트 기능에 집중한 것은 현명한 전략적 선택으로, 집중이야말로 승리를 위해 필요한 요소라고 평가됩니다.

[00:00] Claude 4가 드디어 출시되었습니다. Sonnet과

[00:03] Opus 두 가지 버전으로 나왔고, Anthropic이

[00:06] 완전히 새로운 방향으로 전환한 것 같습니다.

[00:09] 잠시 후에 이에 대해 설명드리겠습니다.

[00:11] 모든 세부사항을 알려드리겠습니다.

[00:12] 우선 Claude 4 Opus가 세계 최고의

[00:15] 코딩 모델이라고 주장하는데,

[00:18] 이것은 그들이 나아가고 있는

[00:19] 방향에 대한 힌트입니다.

[00:22] 정말 특별하게 만드는 것은

[00:24] 장기간 작업을 완료하는 능력입니다.

[00:27] 즉, 수십 분에서 몇 시간에 걸친

[00:30] 작업을 맥락을 잃지 않고

[00:32] 실제 현실 작업을 완료할 수 있다는 것입니다.

[00:34] 두 모델에 대한 몇 가지 세부사항을

[00:36] 설명하고 벤치마크로

[00:37] 넘어가겠습니다. 먼저 두 모델 모두

[00:39] 확장된 사고 기능이 있고

[00:42] 하이브리드 모델입니다. 즉,

[00:44] 사고 없이 즉시 응답할 수도 있고

[00:45] 복잡한 작업을 위해 사고 기능을

[00:48] 켤 수도 있습니다. 그리고 사고 중에

[00:50] 도구 사용 기능이 있는데,

[00:53] 물론 정말 좋지만 이제는

[00:54] 기본 기능 정도로 여겨집니다.

[00:57] 저는 이미 사용해보다가

[00:58] 오늘 오후 2시까지 사용 제한에

[01:00] 걸렸는데, 몇 시간 남았습니다.

[01:03] 실제로는 몇 개의 프롬프트만

[01:05] 제출했을 뿐입니다. 그래서

[01:06] Max 구독을 하고 여러분을 위해

[01:09] 철저한 테스트를 준비해야 할 것 같습니다.

[01:10] 여기서 Claude 4 Opus와

[01:13] Claude 4 Sonnet을 볼 수 있습니다.

[01:14] 여기 검색과 도구를 클릭하면

[01:15] 사용 가능한 다양한 도구를

[01:17] 볼 수 있습니다. 스타일을 선택하고

[01:19] 확장된 사고 기능을 켜고 끌 수 있습니다.

[01:22] 웹 검색, 드라이브 검색,

[01:23] Gmail 검색, 캘린더 검색 기능이 있습니다.

[01:26] 현재로서는 이런 도구들이 사용 가능합니다.

[01:29] 하지만 그들은 MCP 프레임워크를

[01:31] API에 더 깊이 통합했습니다.

[01:33] 기억하세요, Anthropic은 MCP 프레임워크를

[01:36] 만든 회사이고, 이제 OpenAI,

[01:38] Microsoft, Google 그리고 수많은

[01:41] 다른 회사들이 이를 채택했습니다.

[01:43] 다른 곳에서는 정말 본 적 없는

[01:45] 독특한 점은 두 모델 모두

[01:47] 도구를 병렬로 사용할 수 있다는 것입니다.

[01:49] 즉, 동시에 여러 도구에

[01:52] 요청을 보낼 수 있습니다.

[01:53] 정말 멋지고 모든 것을

[01:55] 순차적으로 하는 것보다 훨씬 효율적입니다.

[01:58] 그리고 자체 메모리 처리도

[02:00] 훨씬 잘하는 것 같습니다.

[02:02] 이 모든 기능은 Claude Code에서

[02:04] 사용할 수 있으며, 이제 일반적으로

[02:06] 사용 가능하고 Claude 4 모델을

[02:08] 제공합니다. 오늘 아침 라이브로

[02:11] 스트리밍된 키노트에서 Anthropic의

[02:14] 최고 제품 책임자는 장기간 작업에

[02:16] 대해 많은 시간을 할애하여

[02:18] 이를 어떻게 달성했는지 설명했고,

[02:21] Claude 4를 사용하여 7시간에 걸친

[02:24] 작업을 완료할 수 있었던 회사의

[02:26] 예시도 제시했습니다. Claude의 새로운

[02:28] API의 일부로 코드 실행 도구,

[02:31] MCP 커넥터, 파일 API,

[02:33] 그리고 최대 1시간까지 프롬프트를

[02:35] 캐시할 수 있는 네 가지 새로운 기능이 있습니다.

[02:38] 코드 실행 도구는 이렇게 생겼습니다.

[02:40] 간단히 프롬프트를 입력하면

[02:42] Claude가 사고를 시작하고 코드를 작성하며

[02:45] 실행할 수 있습니다. MCP 커넥터를 사용하면

[02:48] 모든 MCP 서버를 클라우드 API에 연결할 수 있습니다.

[02:51] 이제 클라우드 API가 전 세계의

[02:54] 모든 MCP 도구에 액세스할 수 있게 되었습니다.

[02:56] 또한 파일 API도 제공합니다. 클로드에게

[02:58] 로컬 파일에 대한 접근 권한을 부여하는 것,

[03:01] 특히 코드 파일이나

[03:03] 리포지토리에 대한 접근이 훨씬 쉬워졌습니다.

[03:05] 그리고 프롬프트 캐싱 기능도 있습니다.

[03:07] 가장 효율적인 사용을 원하고

[03:09] 가장 저렴한 가격을 원한다면

[03:10] 캐싱이 바로 그 방법입니다.

[03:13] 이 모든 것들로 미루어 볼 때

[03:15] 어디로 향하고 있는지 짐작할 수 있을 겁니다.

[03:18] 클로드는 기본적으로 챗봇 경쟁에서 포기했습니다.

[03:20] OpenAI와 주요 기술 기업들인

[03:24] 구글, 마이크로소프트, 그리고

[03:27] 안타깝게도 애플은 아니지만, 이들이 모두

[03:30] 챗봇 경쟁에서 승리했다는 것이 분명합니다.

[03:31] 개인 비서 경쟁에서 말이죠. 이제 Anthropic은

[03:34] 인프라 회사로 전환했습니다.

[03:36] 최고의 코딩 에이전트를 만들기 위해

[03:39] 필요한 도구들을 제공하고 있습니다.

[03:42] 최고의 에이전트를 구축하고 있습니다.

[03:43] 최고의 코딩 에이전트를 구축하고

[03:45] 이를 모든 곳에 연결하고 있습니다.

[03:48] GitHub의 CEO인 토마스 돈키가

[03:51] 클로드 포 소네트의 출시를 발표했습니다.

[03:52] GitHub Copilot에서 사용할 수 있으며

[03:55] 기본 옵션으로 설정되어 있습니다.

[03:57] 참고로 마이크로소프트 빌드에서

[03:59] 토마스를 인터뷰했습니다.

[04:01] 곧 그 인터뷰를 공개할 예정이니

[04:03] 이 채널을 구독해주세요.

[04:05] 비디오가 올라올 때 알림을 받을 수 있습니다.

[04:07] 정말 놀라운 내용입니다. 하지만 이것을 보세요.

[04:09] 초기 평가에서 이 모델은

[04:12] 에이전틱 시나리오에서 뛰어난 성능을 보였습니다. 이것이 핵심입니다.

[04:15] 우리가 계속 듣고 있는 것이죠. 메모리 도구,

[04:17] 장기 과제, 모든 것이 클로드 4로 구동되는

[04:20] 이러한 에이전트들에 의해 수행되어

[04:23] 이전 세대 대비 최대 10%의

[04:25] 성능 향상을 제공합니다. 더 정확한

[04:27] 도구 사용, 더 엄격한 지시 사항 준수,

[04:29] 그리고 더 강력한 코딩 직관력에 의해 구동됩니다.

[04:32] 물론 Cursor와 Windsurf,

[04:34] 그리고 기본적으로 모든 주요

[04:36] 코딩 플랫폼에서도 사용할 수 있습니다.

[04:39] 이제 클로드 4가 특히 장기 과제에 뛰어나고

[04:41] 우수한 메모리 기능과

[04:43] 내장된 병렬 도구 사용 기능을 갖추고 있어

[04:46] Box AI와 특히 잘 어울릴 것입니다.

[04:49] 오늘 비디오의 스폰서입니다.

[04:50] 정말 기대됩니다.

[04:51] 곧 새로운 클로드 4 모델을 사용해서

[04:53] Box AI를 기반으로 구축할 수 있게 될 것입니다.

[04:56] Box AI를 통해 인공지능을 사용해서

[04:58] 계약서, 송장, 재무 문서,

[05:00] 이력서 등에서 핵심 메타데이터

[05:02] 필드를 추출할 수 있습니다.

[05:05] 워크플로우도 매우 쉽게 자동화할 수 있고

[05:08] 메타데이터뿐만 아니라 질문도 할 수 있습니다.

[05:10] 회사 고유 데이터에 대해 정말 깊이 있는

[05:13] 분석을 할 수 있습니다. 다시 말하지만,

[05:16] 개발자라면 Box AI를 기반으로

[05:17] 구축하는 것이 쉽습니다. 전체 RAG 파이프라인을

[05:20] 대신 처리해주기 때문에

[05:22] 벡터 데이터베이스에 대해 생각할 필요가 없습니다.

[05:24] 청킹에 대해서도 생각할 필요가 없습니다.

[05:26] 그냥 완료되고 작동합니다.

[05:28] 물론 Box이기 때문에

[05:30] 엔터프라이즈급 보안, 거버넌스,

[05:32] 컴플라이언스를 제공합니다.

[05:35] 클라우드 코드 출시와 함께, 클라우드 코드를

[05:37] Box SDK를 사용하는 것은 정말 쉽습니다. 간단히

[05:40] Claude Code에 Box 개발자 문서 링크를 제공하면

[05:42] 바로 빌드 방법을 알아냅니다.

[05:45] Box의 Claude Code 출시에 대한 블로그 포스트를 확인해보세요.

[05:47] 그들이 Box Docgen과

[05:49] Claude Code를 사용해서 백엔드

[05:51] 계약 생성 도구를 만드는 데모를 볼 수 있습니다.

[05:53] 모든 링크는 아래 설명란에 올려두겠습니다.

[05:55] Box와 Box AI로 문서와 데이터의

[05:57] 힘을 unlock하세요.

[05:59] 이 영상을 후원해주신 Box에 다시 한번 감사드립니다.

[06:02] 자, 이제 공식 발표 블로그 포스트로

[06:04] 돌아가보겠습니다.

[06:05] Claude Opus 4와 Sonnet 4입니다.

[06:08] 그런데 네이밍이 좀 바뀌었죠.

[06:10] 이전에는 Claude 3.5 Opus, Claude 3.5 Sonnet이었는데

[06:13] 이제는 반대가 되었습니다.

[06:15] Claude Opus 4와 Sonnet 4로 말이죠.

[06:18] 어쨌든 이들은 두 가지 모드를 제공하는 하이브리드 모델입니다.

[06:20] 거의 즉시 응답하는 모드와

[06:22] 깊이 있는 추론을 위한 확장 사고 모드 말이죠.

[06:24] 벤치마크가 궁금하시겠죠.

[06:25] 벤치마크가 전부는 아니니

[06:27] 적당히 걸러서 보시고

[06:28] 결과를 보여드리겠습니다.

[06:30] SWE-Bench Verified에서 Claude 4가 압도적으로 이겼습니다.

[06:34] 일주일 전에 발표된 OpenAI CodeX 1이

[06:37] SWE-Bench Verified에서 72%를 기록했는데

[06:39] Sonnet 3.7은 62.3%였고

[06:42] parallel test time compute로는

[06:44] 70.3%였습니다.

[06:46] 하지만 이제 80.2%까지

[06:48] 크게 점프했습니다.

[06:52] Sonnet 4가 parallel test time compute로 80.2%이고

[06:55] Opus 4는 72.5%에서 parallel test time compute로

[06:58] 79.4%를 기록했습니다.

[07:02] 그리고 parallel test time compute가 뭔지

[07:04] 모르시는 분들을 위해 설명드리면

[07:06] 기본적으로 하나의 프롬프트에 대해

[07:08] 몇 가지 test time compute 솔루션을 샘플링해서

[07:11] 그 중 가장 좋은 것을 선택하는 방식입니다.

[07:13] 이걸 보시면 저와 같은 생각을

[07:15] 하실 겁니다.

[07:17] Sonnet이 Opus보다 점수가 높네요?

[07:19] 네, 맞습니다.

[07:22] 제가 처음 사용해봤을 때는

[07:26] 실제로 Opus가 Sonnet보다 빠르다고 느꼈습니다.

[07:28] 물론 이건 제가 몇 번 써본

[07:30] 개인적인 경험일 뿐이니까

[07:32] 더 많이 테스트해봐야겠지만

[07:34] 코드를 훨씬 빠르게 출력하는 것 같습니다.

[07:36] 다른 벤치마크들도 보시죠.

[07:37] TauBench에서는 Claude Opus 4가

[07:39] 43.2%로 승리했고 Sonnet 4는 35%였습니다.

[07:43] O3 모델은 30%, GPT-4o는 30%, Gemini 2.5 Pro는 25%인데

[07:48] 현재까지 Gemini 2.5 Pro가 제가 가장 좋아하는

[07:52] 코딩 모델입니다.

[07:54] GPQA Diamond은 대학원 수준 추론이고

[07:56] Agentic Tool Use에서도

[07:58] 다른 모델들에 비해 꽤 좋은 성능을 보입니다.

[08:00] 한 가지 더 눈에 띄는 것은

[08:02] Sonnet 3.7이 여전히 꽤 좋은 성능을 보인다는 점입니다.

[08:04] 곧 보여드리겠습니다.

[08:07] 다국어 Q&A에서도

[08:08] 좋은 향상을 보였습니다.

[08:10] 시각적 추론에서는 비슷한 점수를 받았고

[08:14] 고등학교 수학 경시대회 AMC 2025에서는

[08:17] Claude 3.7보다 상당한 향상을 보였습니다.

[08:19] 잠깐 멈춰서 하나 보여드리겠습니다.

[08:22] John Shonith의 포스트인데

[08:24] 그가 실제로 지적한 내용입니다.

[08:25] 초록색 박스는 Claude Sonnet 4가

[08:28] Claude Sonnet 3.7보다 더 좋은 성능을

[08:30] 보인 벤치마크들입니다.

[08:35] 노란색은 성능이 비슷했던 부분이고

[08:36] 빨간색은 실제로 성능이 떨어진 부분입니다

[08:39] 이는 정말 놀라운 일이죠

[08:41] 그들이 제출한 모든 벤치마크 중에서

[08:43] 절반이 실제로 하락했습니다

[08:46] 그래서 이걸 어떻게 받아들여야 할지 모르겠어요

[08:48] 그들은 엄청난 향상이라고 말하지만

[08:50] 벤치마크는 실제로 그것을 반영하지 않습니다

[08:52] 그리고 벤치마크는 보통

[08:54] 사람들이 실제 사용 경험을 시작하기 전까지

[08:57] 이런 모델들의 가장 좋은 모습을 보여주죠

[08:59] 정말 흥미롭습니다

[09:01] 그리고 물론 저는 철저히 테스트해볼 예정입니다

[09:03] 지켜보죠

[09:05] 이제 오늘 기조연설에서

[09:06] 그들이 언급한 또 다른 내용은

[09:09] Claude 3가 출시되었을 때는

[09:12] 코딩에서 다소 게을렀고

[09:15] 그 다음 Claude 3.5와 3.7은

[09:18] 반대 방향으로 갔다는 것입니다

[09:20] 너무 열심히 하려고 해서 하지 말아야 할 일까지 하고

[09:22] 너무 많은 코드를 출력했습니다

[09:24] 그리고 그들은 Claude 4에서 이를 정말 잘 조정했다고 생각합니다

[09:26] 그들은 또한 Anthropic답게 안전성에 많이 집중했습니다

[09:29] 그래서 모델이 지름길이나 허점을 이용해

[09:31] 작업을 완료하는 행동을 크게 줄였습니다

[09:33] 그리고 물론 여기서 포켓몬 예시를 사용하고 있습니다

[09:35] 두 모델 모두 지름길이나 허점에

[09:37] 특히 취약한 에이전틱 작업에서

[09:41] Sonnet 3.7보다 이런 행동에 관여할 가능성이

[09:43] 65% 적습니다

[09:46] Claude Opus 4는 또한 메모리 기능에서

[09:49] 이전 모델들을 모두 크게 앞섭니다

[09:50] 이는 제가 이미 언급한 내용입니다

[09:52] 하지만 제가 말했듯이 에이전트를 위한 메모리는

[09:54] 하이퍼 개인화를 만드는 핵심 요소입니다

[09:58] 그리고 그들은 오늘 기조연설에서

[10:00] Cloud 4를 100번째 사용할 때는

[10:02] 첫 번째 사용할 때보다 훨씬 더 좋고

[10:04] 훨씬 더 효율적이고, 훨씬 더 간결해야 한다고

[10:07] 언급했습니다

[10:09] 그것은 바로 학습하고 있고

[10:11] 당신이 원하는 것을 이해하고 있기 때문입니다

[10:13] 사용자인 당신과 단축어를 개발하고 있습니다

[10:15] Opus 4는 주요 정보를 저장하기 위한

[10:18] 메모리 파일을 생성하고 유지하는 데 능숙해집니다

[10:20] 이는 더 나은 장기 작업 인식

[10:23] 일관성, 그리고 에이전트 작업에서의

[10:25] 성능을 가능하게 합니다

[10:27] 그리고 여기가 포켓몬 벤치마크의 예시입니다

[10:30] 그들은 또한 더 작은 모델을 사용하여

[10:31] 클라우드 폼 모델을 위한 사고 요약을 도입했습니다

[10:34] 긴 사고 과정을 압축하는 것이죠

[10:36] 저는 사고 과정을 보고 싶지만

[10:38] 기본적으로 아무것도 보이지 않습니다

[10:40] 이제 여기가 핵심입니다

[10:42] 고급 프롬프트 엔지니어링을 위한

[10:45] 원시 사고 체인이 필요한 사용자는

[10:47] 세일즈팀에 문의할 수 있습니다

[10:50] 따라서 원시 사고 체인을 보고 싶다면

[10:52] 아마 돈을 지불해야 할 것입니다

[10:54] 좋습니다, 다음 큰 발표는

[10:55] 제가 언급했던 내용입니다

[10:56] 더 자세히 들어가보죠

[10:58] Claude Code가 이제 일반적으로 사용 가능합니다

[11:00] 그들은 VS Code와 JetBrains를 위한

[11:02] 새로운 확장 프로그램을 갖고 있어

[11:05] Claude Code를 IDE에 직접 통합할 수 있습니다

[11:07] 이는 꽤 좋습니다

[11:10] 이는 모든 코딩 도구들과의 직접적인 경쟁입니다

[11:12] Claude가 제안하는 편집 사항이

[11:14] 파일에 인라인으로 나타나

[11:15] 익숙한 편집기 인터페이스로 검토와 추적을 간소화합니다

[11:18] 그리고 그들은 클라우드 코드 SDK를 출시해

[11:20] 여러분만의 코딩 에이전트를 구축할 수 있게 했습니다

[11:22] 다시 말하지만, 그들은 정말로

[11:24] 에이전틱 코딩의 인프라 계층을 구축하고 있습니다.

[11:27] 그래서 GitHub의 클로드 코드가 이제 사용 가능하고

[11:30] 이것이 가능한 것의 한 예입니다

[11:31] SDK로 PR에서 클로드 코드를 태그하면

[11:34] 리뷰어 피드백에 응답하고, CI 오류를 수정하거나

[11:37] 코드를 수정할 수 있습니다. 여기 예시가 있습니다.

[11:40] 여기 바로 PR이 있습니다.

[11:42] 댓글로 들어가서

[11:43] 클로드를 태그하면서 '이 피드백 댓글을

[11:45] 처리해 주실 수 있나요?'라고 하면

[11:47] 바로 점프해서 작업을 시작합니다.

[11:49] 이슈와 댓글 맥락을 수집하고

[11:51] 피드백을 처리하고, 풀 리퀘스트를 생성하고

[11:52] 린트를 확인하고, 테스트를 만들고

[11:54] 등등의 작업을 합니다. 그러면 리뷰 준비된 PR이 나옵니다.

[11:58] 이제 Anthropic의 최고 과학 책임자가

[12:00] TechCrunch에 따르면 말했습니다.

[12:02] Anthropic의 Jared Kaplan은 회사가

[12:05] 2024년 말에 챗봇 투자를 중단하고

[12:07] 대신 복잡한 작업을 수행하는

[12:10] 클로드의 능력 향상에 집중했다고 했습니다.

[12:12] 이는 말이 됩니다.

[12:15] 클로드는 챗봇 게임에서 승리하는 데

[12:18] 필요한 마음가짐을 달성하지 못하고 있습니다.

[12:20] 그건 ChatGPT이고 Gemini입니다.

[12:22] 앞으로는 희망적으로 Siri도 될 것입니다.

[12:25] 그래서 그들은 그것을 포기하고

[12:27] 에이전트 기능에 집중했습니다.

[12:29] 그리고 아시겠지만? 잘한 일입니다.

[12:32] 집중이 승리하는 데 필요한 것입니다.

[12:35] 그리고 가격은 어떨까요? 확인해보겠습니다.

[12:37] 클로드 4 Opus, 복잡한 작업을 위한

[12:39] 가장 지능적인 모델입니다.

[12:41] 20만 컨텍스트 윈도우를 가지고 있는데, 여전히 상대적으로 작습니다.

[12:45] 그리고 배치 처리로 50% 할인을 받을 수 있습니다.

[12:47] 입력 토큰 백만 개당 15달러이고

[12:50] 출력 토큰 백만 개당 75달러입니다.

[12:54] 그게 전부입니다.

[12:55] 저는 테스트해볼 예정입니다. 곧 테스트 영상을 기대해 주세요.

[12:58] 이 영상을 즐겼다면

[12:59] 좋아요와 구독을 눌러주시기 바랍니다.