[00:00]
Claude 4가 드디어 출시되었습니다. Sonnet과
[00:03]
Opus 두 가지 버전으로 나왔고, Anthropic이
[00:06]
완전히 새로운 방향으로 전환한 것 같습니다.
[00:09]
잠시 후에 이에 대해 설명드리겠습니다.
[00:11]
모든 세부사항을 알려드리겠습니다.
[00:12]
우선 Claude 4 Opus가 세계 최고의
[00:15]
코딩 모델이라고 주장하는데,
[00:18]
이것은 그들이 나아가고 있는
[00:19]
방향에 대한 힌트입니다.
[00:22]
정말 특별하게 만드는 것은
[00:24]
장기간 작업을 완료하는 능력입니다.
[00:27]
즉, 수십 분에서 몇 시간에 걸친
[00:30]
작업을 맥락을 잃지 않고
[00:32]
실제 현실 작업을 완료할 수 있다는 것입니다.
[00:34]
두 모델에 대한 몇 가지 세부사항을
[00:36]
설명하고 벤치마크로
[00:37]
넘어가겠습니다. 먼저 두 모델 모두
[00:39]
확장된 사고 기능이 있고
[00:42]
하이브리드 모델입니다. 즉,
[00:44]
사고 없이 즉시 응답할 수도 있고
[00:45]
복잡한 작업을 위해 사고 기능을
[00:48]
켤 수도 있습니다. 그리고 사고 중에
[00:50]
도구 사용 기능이 있는데,
[00:53]
물론 정말 좋지만 이제는
[00:54]
기본 기능 정도로 여겨집니다.
[00:57]
저는 이미 사용해보다가
[00:58]
오늘 오후 2시까지 사용 제한에
[01:00]
걸렸는데, 몇 시간 남았습니다.
[01:03]
실제로는 몇 개의 프롬프트만
[01:05]
제출했을 뿐입니다. 그래서
[01:06]
Max 구독을 하고 여러분을 위해
[01:09]
철저한 테스트를 준비해야 할 것 같습니다.
[01:10]
여기서 Claude 4 Opus와
[01:13]
Claude 4 Sonnet을 볼 수 있습니다.
[01:14]
여기 검색과 도구를 클릭하면
[01:15]
사용 가능한 다양한 도구를
[01:17]
볼 수 있습니다. 스타일을 선택하고
[01:19]
확장된 사고 기능을 켜고 끌 수 있습니다.
[01:22]
웹 검색, 드라이브 검색,
[01:23]
Gmail 검색, 캘린더 검색 기능이 있습니다.
[01:26]
현재로서는 이런 도구들이 사용 가능합니다.
[01:29]
하지만 그들은 MCP 프레임워크를
[01:31]
API에 더 깊이 통합했습니다.
[01:33]
기억하세요, Anthropic은 MCP 프레임워크를
[01:36]
만든 회사이고, 이제 OpenAI,
[01:38]
Microsoft, Google 그리고 수많은
[01:41]
다른 회사들이 이를 채택했습니다.
[01:43]
다른 곳에서는 정말 본 적 없는
[01:45]
독특한 점은 두 모델 모두
[01:47]
도구를 병렬로 사용할 수 있다는 것입니다.
[01:49]
즉, 동시에 여러 도구에
[01:52]
요청을 보낼 수 있습니다.
[01:53]
정말 멋지고 모든 것을
[01:55]
순차적으로 하는 것보다 훨씬 효율적입니다.
[01:58]
그리고 자체 메모리 처리도
[02:00]
훨씬 잘하는 것 같습니다.
[02:02]
이 모든 기능은 Claude Code에서
[02:04]
사용할 수 있으며, 이제 일반적으로
[02:06]
사용 가능하고 Claude 4 모델을
[02:08]
제공합니다. 오늘 아침 라이브로
[02:11]
스트리밍된 키노트에서 Anthropic의
[02:14]
최고 제품 책임자는 장기간 작업에
[02:16]
대해 많은 시간을 할애하여
[02:18]
이를 어떻게 달성했는지 설명했고,
[02:21]
Claude 4를 사용하여 7시간에 걸친
[02:24]
작업을 완료할 수 있었던 회사의
[02:26]
예시도 제시했습니다. Claude의 새로운
[02:28]
API의 일부로 코드 실행 도구,
[02:31]
MCP 커넥터, 파일 API,
[02:33]
그리고 최대 1시간까지 프롬프트를
[02:35]
캐시할 수 있는 네 가지 새로운 기능이 있습니다.
[02:38]
코드 실행 도구는 이렇게 생겼습니다.
[02:40]
간단히 프롬프트를 입력하면
[02:42]
Claude가 사고를 시작하고 코드를 작성하며
[02:45]
실행할 수 있습니다. MCP 커넥터를 사용하면
[02:48]
모든 MCP 서버를 클라우드 API에 연결할 수 있습니다.
[02:51]
이제 클라우드 API가 전 세계의
[02:54]
모든 MCP 도구에 액세스할 수 있게 되었습니다.
[02:56]
또한 파일 API도 제공합니다. 클로드에게
[02:58]
로컬 파일에 대한 접근 권한을 부여하는 것,
[03:01]
특히 코드 파일이나
[03:03]
리포지토리에 대한 접근이 훨씬 쉬워졌습니다.
[03:05]
그리고 프롬프트 캐싱 기능도 있습니다.
[03:07]
가장 효율적인 사용을 원하고
[03:09]
가장 저렴한 가격을 원한다면
[03:10]
캐싱이 바로 그 방법입니다.
[03:13]
이 모든 것들로 미루어 볼 때
[03:15]
어디로 향하고 있는지 짐작할 수 있을 겁니다.
[03:18]
클로드는 기본적으로 챗봇 경쟁에서 포기했습니다.
[03:20]
OpenAI와 주요 기술 기업들인
[03:24]
구글, 마이크로소프트, 그리고
[03:27]
안타깝게도 애플은 아니지만, 이들이 모두
[03:30]
챗봇 경쟁에서 승리했다는 것이 분명합니다.
[03:31]
개인 비서 경쟁에서 말이죠. 이제 Anthropic은
[03:34]
인프라 회사로 전환했습니다.
[03:36]
최고의 코딩 에이전트를 만들기 위해
[03:39]
필요한 도구들을 제공하고 있습니다.
[03:42]
최고의 에이전트를 구축하고 있습니다.
[03:43]
최고의 코딩 에이전트를 구축하고
[03:45]
이를 모든 곳에 연결하고 있습니다.
[03:48]
GitHub의 CEO인 토마스 돈키가
[03:51]
클로드 포 소네트의 출시를 발표했습니다.
[03:52]
GitHub Copilot에서 사용할 수 있으며
[03:55]
기본 옵션으로 설정되어 있습니다.
[03:57]
참고로 마이크로소프트 빌드에서
[03:59]
토마스를 인터뷰했습니다.
[04:01]
곧 그 인터뷰를 공개할 예정이니
[04:03]
이 채널을 구독해주세요.
[04:05]
비디오가 올라올 때 알림을 받을 수 있습니다.
[04:07]
정말 놀라운 내용입니다. 하지만 이것을 보세요.
[04:09]
초기 평가에서 이 모델은
[04:12]
에이전틱 시나리오에서 뛰어난 성능을 보였습니다. 이것이 핵심입니다.
[04:15]
우리가 계속 듣고 있는 것이죠. 메모리 도구,
[04:17]
장기 과제, 모든 것이 클로드 4로 구동되는
[04:20]
이러한 에이전트들에 의해 수행되어
[04:23]
이전 세대 대비 최대 10%의
[04:25]
성능 향상을 제공합니다. 더 정확한
[04:27]
도구 사용, 더 엄격한 지시 사항 준수,
[04:29]
그리고 더 강력한 코딩 직관력에 의해 구동됩니다.
[04:32]
물론 Cursor와 Windsurf,
[04:34]
그리고 기본적으로 모든 주요
[04:36]
코딩 플랫폼에서도 사용할 수 있습니다.
[04:39]
이제 클로드 4가 특히 장기 과제에 뛰어나고
[04:41]
우수한 메모리 기능과
[04:43]
내장된 병렬 도구 사용 기능을 갖추고 있어
[04:46]
Box AI와 특히 잘 어울릴 것입니다.
[04:49]
오늘 비디오의 스폰서입니다.
[04:50]
정말 기대됩니다.
[04:51]
곧 새로운 클로드 4 모델을 사용해서
[04:53]
Box AI를 기반으로 구축할 수 있게 될 것입니다.
[04:56]
Box AI를 통해 인공지능을 사용해서
[04:58]
계약서, 송장, 재무 문서,
[05:00]
이력서 등에서 핵심 메타데이터
[05:02]
필드를 추출할 수 있습니다.
[05:05]
워크플로우도 매우 쉽게 자동화할 수 있고
[05:08]
메타데이터뿐만 아니라 질문도 할 수 있습니다.
[05:10]
회사 고유 데이터에 대해 정말 깊이 있는
[05:13]
분석을 할 수 있습니다. 다시 말하지만,
[05:16]
개발자라면 Box AI를 기반으로
[05:17]
구축하는 것이 쉽습니다. 전체 RAG 파이프라인을
[05:20]
대신 처리해주기 때문에
[05:22]
벡터 데이터베이스에 대해 생각할 필요가 없습니다.
[05:24]
청킹에 대해서도 생각할 필요가 없습니다.
[05:26]
그냥 완료되고 작동합니다.
[05:28]
물론 Box이기 때문에
[05:30]
엔터프라이즈급 보안, 거버넌스,
[05:32]
컴플라이언스를 제공합니다.
[05:35]
클라우드 코드 출시와 함께, 클라우드 코드를
[05:37]
Box SDK를 사용하는 것은 정말 쉽습니다. 간단히
[05:40]
Claude Code에 Box 개발자 문서 링크를 제공하면
[05:42]
바로 빌드 방법을 알아냅니다.
[05:45]
Box의 Claude Code 출시에 대한 블로그 포스트를 확인해보세요.
[05:47]
그들이 Box Docgen과
[05:49]
Claude Code를 사용해서 백엔드
[05:51]
계약 생성 도구를 만드는 데모를 볼 수 있습니다.
[05:53]
모든 링크는 아래 설명란에 올려두겠습니다.
[05:55]
Box와 Box AI로 문서와 데이터의
[05:57]
힘을 unlock하세요.
[05:59]
이 영상을 후원해주신 Box에 다시 한번 감사드립니다.
[06:02]
자, 이제 공식 발표 블로그 포스트로
[06:04]
돌아가보겠습니다.
[06:05]
Claude Opus 4와 Sonnet 4입니다.
[06:08]
그런데 네이밍이 좀 바뀌었죠.
[06:10]
이전에는 Claude 3.5 Opus, Claude 3.5 Sonnet이었는데
[06:13]
이제는 반대가 되었습니다.
[06:15]
Claude Opus 4와 Sonnet 4로 말이죠.
[06:18]
어쨌든 이들은 두 가지 모드를 제공하는 하이브리드 모델입니다.
[06:20]
거의 즉시 응답하는 모드와
[06:22]
깊이 있는 추론을 위한 확장 사고 모드 말이죠.
[06:24]
벤치마크가 궁금하시겠죠.
[06:25]
벤치마크가 전부는 아니니
[06:27]
적당히 걸러서 보시고
[06:28]
결과를 보여드리겠습니다.
[06:30]
SWE-Bench Verified에서 Claude 4가 압도적으로 이겼습니다.
[06:34]
일주일 전에 발표된 OpenAI CodeX 1이
[06:37]
SWE-Bench Verified에서 72%를 기록했는데
[06:39]
Sonnet 3.7은 62.3%였고
[06:42]
parallel test time compute로는
[06:44]
70.3%였습니다.
[06:46]
하지만 이제 80.2%까지
[06:48]
크게 점프했습니다.
[06:52]
Sonnet 4가 parallel test time compute로 80.2%이고
[06:55]
Opus 4는 72.5%에서 parallel test time compute로
[06:58]
79.4%를 기록했습니다.
[07:02]
그리고 parallel test time compute가 뭔지
[07:04]
모르시는 분들을 위해 설명드리면
[07:06]
기본적으로 하나의 프롬프트에 대해
[07:08]
몇 가지 test time compute 솔루션을 샘플링해서
[07:11]
그 중 가장 좋은 것을 선택하는 방식입니다.
[07:13]
이걸 보시면 저와 같은 생각을
[07:15]
하실 겁니다.
[07:17]
Sonnet이 Opus보다 점수가 높네요?
[07:19]
네, 맞습니다.
[07:22]
제가 처음 사용해봤을 때는
[07:26]
실제로 Opus가 Sonnet보다 빠르다고 느꼈습니다.
[07:28]
물론 이건 제가 몇 번 써본
[07:30]
개인적인 경험일 뿐이니까
[07:32]
더 많이 테스트해봐야겠지만
[07:34]
코드를 훨씬 빠르게 출력하는 것 같습니다.
[07:36]
다른 벤치마크들도 보시죠.
[07:37]
TauBench에서는 Claude Opus 4가
[07:39]
43.2%로 승리했고 Sonnet 4는 35%였습니다.
[07:43]
O3 모델은 30%, GPT-4o는 30%, Gemini 2.5 Pro는 25%인데
[07:48]
현재까지 Gemini 2.5 Pro가 제가 가장 좋아하는
[07:52]
코딩 모델입니다.
[07:54]
GPQA Diamond은 대학원 수준 추론이고
[07:56]
Agentic Tool Use에서도
[07:58]
다른 모델들에 비해 꽤 좋은 성능을 보입니다.
[08:00]
한 가지 더 눈에 띄는 것은
[08:02]
Sonnet 3.7이 여전히 꽤 좋은 성능을 보인다는 점입니다.
[08:04]
곧 보여드리겠습니다.
[08:07]
다국어 Q&A에서도
[08:08]
좋은 향상을 보였습니다.
[08:10]
시각적 추론에서는 비슷한 점수를 받았고
[08:14]
고등학교 수학 경시대회 AMC 2025에서는
[08:17]
Claude 3.7보다 상당한 향상을 보였습니다.
[08:19]
잠깐 멈춰서 하나 보여드리겠습니다.
[08:22]
John Shonith의 포스트인데
[08:24]
그가 실제로 지적한 내용입니다.
[08:25]
초록색 박스는 Claude Sonnet 4가
[08:28]
Claude Sonnet 3.7보다 더 좋은 성능을
[08:30]
보인 벤치마크들입니다.
[08:35]
노란색은 성능이 비슷했던 부분이고
[08:36]
빨간색은 실제로 성능이 떨어진 부분입니다
[08:39]
이는 정말 놀라운 일이죠
[08:41]
그들이 제출한 모든 벤치마크 중에서
[08:43]
절반이 실제로 하락했습니다
[08:46]
그래서 이걸 어떻게 받아들여야 할지 모르겠어요
[08:48]
그들은 엄청난 향상이라고 말하지만
[08:50]
벤치마크는 실제로 그것을 반영하지 않습니다
[08:52]
그리고 벤치마크는 보통
[08:54]
사람들이 실제 사용 경험을 시작하기 전까지
[08:57]
이런 모델들의 가장 좋은 모습을 보여주죠
[08:59]
정말 흥미롭습니다
[09:01]
그리고 물론 저는 철저히 테스트해볼 예정입니다
[09:03]
지켜보죠
[09:05]
이제 오늘 기조연설에서
[09:06]
그들이 언급한 또 다른 내용은
[09:09]
Claude 3가 출시되었을 때는
[09:12]
코딩에서 다소 게을렀고
[09:15]
그 다음 Claude 3.5와 3.7은
[09:18]
반대 방향으로 갔다는 것입니다
[09:20]
너무 열심히 하려고 해서 하지 말아야 할 일까지 하고
[09:22]
너무 많은 코드를 출력했습니다
[09:24]
그리고 그들은 Claude 4에서 이를 정말 잘 조정했다고 생각합니다
[09:26]
그들은 또한 Anthropic답게 안전성에 많이 집중했습니다
[09:29]
그래서 모델이 지름길이나 허점을 이용해
[09:31]
작업을 완료하는 행동을 크게 줄였습니다
[09:33]
그리고 물론 여기서 포켓몬 예시를 사용하고 있습니다
[09:35]
두 모델 모두 지름길이나 허점에
[09:37]
특히 취약한 에이전틱 작업에서
[09:41]
Sonnet 3.7보다 이런 행동에 관여할 가능성이
[09:43]
65% 적습니다
[09:46]
Claude Opus 4는 또한 메모리 기능에서
[09:49]
이전 모델들을 모두 크게 앞섭니다
[09:50]
이는 제가 이미 언급한 내용입니다
[09:52]
하지만 제가 말했듯이 에이전트를 위한 메모리는
[09:54]
하이퍼 개인화를 만드는 핵심 요소입니다
[09:58]
그리고 그들은 오늘 기조연설에서
[10:00]
Cloud 4를 100번째 사용할 때는
[10:02]
첫 번째 사용할 때보다 훨씬 더 좋고
[10:04]
훨씬 더 효율적이고, 훨씬 더 간결해야 한다고
[10:07]
언급했습니다
[10:09]
그것은 바로 학습하고 있고
[10:11]
당신이 원하는 것을 이해하고 있기 때문입니다
[10:13]
사용자인 당신과 단축어를 개발하고 있습니다
[10:15]
Opus 4는 주요 정보를 저장하기 위한
[10:18]
메모리 파일을 생성하고 유지하는 데 능숙해집니다
[10:20]
이는 더 나은 장기 작업 인식
[10:23]
일관성, 그리고 에이전트 작업에서의
[10:25]
성능을 가능하게 합니다
[10:27]
그리고 여기가 포켓몬 벤치마크의 예시입니다
[10:30]
그들은 또한 더 작은 모델을 사용하여
[10:31]
클라우드 폼 모델을 위한 사고 요약을 도입했습니다
[10:34]
긴 사고 과정을 압축하는 것이죠
[10:36]
저는 사고 과정을 보고 싶지만
[10:38]
기본적으로 아무것도 보이지 않습니다
[10:40]
이제 여기가 핵심입니다
[10:42]
고급 프롬프트 엔지니어링을 위한
[10:45]
원시 사고 체인이 필요한 사용자는
[10:47]
세일즈팀에 문의할 수 있습니다
[10:50]
따라서 원시 사고 체인을 보고 싶다면
[10:52]
아마 돈을 지불해야 할 것입니다
[10:54]
좋습니다, 다음 큰 발표는
[10:55]
제가 언급했던 내용입니다
[10:56]
더 자세히 들어가보죠
[10:58]
Claude Code가 이제 일반적으로 사용 가능합니다
[11:00]
그들은 VS Code와 JetBrains를 위한
[11:02]
새로운 확장 프로그램을 갖고 있어
[11:05]
Claude Code를 IDE에 직접 통합할 수 있습니다
[11:07]
이는 꽤 좋습니다
[11:10]
이는 모든 코딩 도구들과의 직접적인 경쟁입니다
[11:12]
Claude가 제안하는 편집 사항이
[11:14]
파일에 인라인으로 나타나
[11:15]
익숙한 편집기 인터페이스로 검토와 추적을 간소화합니다
[11:18]
그리고 그들은 클라우드 코드 SDK를 출시해
[11:20]
여러분만의 코딩 에이전트를 구축할 수 있게 했습니다
[11:22]
다시 말하지만, 그들은 정말로
[11:24]
에이전틱 코딩의 인프라 계층을 구축하고 있습니다.
[11:27]
그래서 GitHub의 클로드 코드가 이제 사용 가능하고
[11:30]
이것이 가능한 것의 한 예입니다
[11:31]
SDK로 PR에서 클로드 코드를 태그하면
[11:34]
리뷰어 피드백에 응답하고, CI 오류를 수정하거나
[11:37]
코드를 수정할 수 있습니다. 여기 예시가 있습니다.
[11:40]
여기 바로 PR이 있습니다.
[11:42]
댓글로 들어가서
[11:43]
클로드를 태그하면서 '이 피드백 댓글을
[11:45]
처리해 주실 수 있나요?'라고 하면
[11:47]
바로 점프해서 작업을 시작합니다.
[11:49]
이슈와 댓글 맥락을 수집하고
[11:51]
피드백을 처리하고, 풀 리퀘스트를 생성하고
[11:52]
린트를 확인하고, 테스트를 만들고
[11:54]
등등의 작업을 합니다. 그러면 리뷰 준비된 PR이 나옵니다.
[11:58]
이제 Anthropic의 최고 과학 책임자가
[12:00]
TechCrunch에 따르면 말했습니다.
[12:02]
Anthropic의 Jared Kaplan은 회사가
[12:05]
2024년 말에 챗봇 투자를 중단하고
[12:07]
대신 복잡한 작업을 수행하는
[12:10]
클로드의 능력 향상에 집중했다고 했습니다.
[12:12]
이는 말이 됩니다.
[12:15]
클로드는 챗봇 게임에서 승리하는 데
[12:18]
필요한 마음가짐을 달성하지 못하고 있습니다.
[12:20]
그건 ChatGPT이고 Gemini입니다.
[12:22]
앞으로는 희망적으로 Siri도 될 것입니다.
[12:25]
그래서 그들은 그것을 포기하고
[12:27]
에이전트 기능에 집중했습니다.
[12:29]
그리고 아시겠지만? 잘한 일입니다.
[12:32]
집중이 승리하는 데 필요한 것입니다.
[12:35]
그리고 가격은 어떨까요? 확인해보겠습니다.
[12:37]
클로드 4 Opus, 복잡한 작업을 위한
[12:39]
가장 지능적인 모델입니다.
[12:41]
20만 컨텍스트 윈도우를 가지고 있는데, 여전히 상대적으로 작습니다.
[12:45]
그리고 배치 처리로 50% 할인을 받을 수 있습니다.
[12:47]
입력 토큰 백만 개당 15달러이고
[12:50]
출력 토큰 백만 개당 75달러입니다.
[12:54]
그게 전부입니다.
[12:55]
저는 테스트해볼 예정입니다. 곧 테스트 영상을 기대해 주세요.
[12:58]
이 영상을 즐겼다면
[12:59]
좋아요와 구독을 눌러주시기 바랍니다.