[00:00]
오늘 Anthropic이 마침내
[00:02]
새로운 AI 모델 Claude 3.7 Sonnet을 출시했는데
[00:05]
이번에는 정말 많은 내용을 담고 있습니다.
[00:07]
이는 일반적인 LLM이 아닌
[00:09]
하이브리드 추론 모델로
[00:12]
벤치마크 측면에서
[00:14]
많은 것을 제공합니다. 실제로
[00:16]
여기 살펴보면
[00:17]
오늘 우리는 Claude 3.7 Sonnet을 발표합니다.
[00:19]
지금까지 가장 지능적인 모델이며
[00:22]
시장 최초의 하이브리드 추론 모델입니다.
[00:24]
여기에 명시된 대로 Claude 3.7 Sonnet은
[00:25]
거의 즉각적인 응답이 가능하며
[00:27]
단계별 사고 과정을
[00:29]
사용자에게 보여줄 수 있습니다.
[00:31]
API 사용자들은 모델의
[00:33]
사고 시간을 세밀하게
[00:36]
제어할 수 있으며, 이 하이브리드
[00:37]
추론에 대해 이야기하자면
[00:38]
시스템 1과 시스템 2 사고를 포함하는데
[00:40]
이는 잠시 후에 설명하겠습니다.
[00:42]
기본적으로 이 하이브리드 추론은
[00:43]
모델이 복잡한 질문과
[00:47]
즉각적인 응답이 필요한
[00:49]
간단한 질문 모두에 적합한
[00:51]
응답을 제공할 수 있다는 것을 의미합니다.
[00:53]
그들은 Claude 3.7 Sonnet을
[00:54]
시장의 다른 추론 모델들과는
[00:57]
다른 철학으로 개발했다고 설명합니다.
[00:58]
인간이 빠른 응답과 깊은 성찰을
[01:00]
하나의 뇌로 처리하는 것처럼
[01:02]
추론은 별도의 모델이 아닌
[01:04]
최첨단 모델의 통합된
[01:06]
기능이어야 한다고 믿습니다.
[01:08]
이러한 통합적 접근방식은
[01:10]
사용자에게 더 매끄러운 경험을 제공합니다.
[01:14]
여기서 설명하는 것이 바로
[01:16]
시스템 1과 시스템 2입니다.
[01:17]
시스템 1은
[01:21]
직관과 본능을 다루는데
[01:23]
인간처럼 LLM도 즉각 응답이 가능하지만
[01:25]
시스템 2는 훨씬 더 논리적이고
[01:27]
느린 사고 과정을 통해
[01:30]
문제를 해결하고
[01:31]
더 복잡한 해결책을 도출합니다.
[01:33]
이것이 바로 모델에 통합된 기능입니다.
[01:36]
이제 Claude 3.7 Sonnet에서는
[01:37]
사고 시간을 실제로 제어할 수 있습니다.
[01:40]
개발자라면
[01:42]
이 모델의 커스터마이징에 대해
[01:43]
생각해보셨을 텐데
[01:46]
Claude에게 특정 토큰 수 이상
[01:48]
생각하지 않도록 지시할 수 있고
[01:50]
얼마나 오래 생각할지는 여러분이 정할 수 있습니다.
[01:52]
이것은 정말 가치있는 기능이라고 생각합니다.
[01:54]
왜냐하면
[01:56]
Claude가 문제에 대해
[01:58]
생각하는 시간을 제어할 수 있기 때문입니다.
[02:00]
다른 사고 모델들의 경우
[02:01]
때로는 모델이 문제를
[02:03]
10초 정도만 생각하지만
[02:05]
우리는 100초나
[02:07]
200초 정도 생각하기를 원할 때가 있습니다.
[02:09]
그래서 이것은 정말 유용한 기능이 될 것입니다.
[02:11]
곧 유명한 벤치마크 결과를 보여드리겠지만
[02:13]
Claude 3.7과
[02:16]
Claude 3.5를 표준 모델에서 비교해보면
[02:19]
Claude 3.7은
[02:21]
이전 버전보다 훨씬 더 스마트합니다.
[02:25]
본질적으로 이 버전은
[02:27]
이전 Claude 3.6보다 더 뛰어나며
[02:30]
확장된 사고 기능을
[02:32]
활성화할 수 있습니다
[02:34]
물론 답변하기 전에 자기 성찰을 하는
[02:36]
확장 사고 모드를 활성화할 수 있는데,
[02:38]
이는 수학, 물리학, 명령 수행,
[02:40]
코딩 및 다른 많은 작업에서
[02:42]
성능을 향상시키며, 일반적으로
[02:44]
두 모드에서 모델 프롬프팅이
[02:46]
비슷하게 작동한다는 것을 발견했습니다.
[02:48]
따라서 Claude 3.6 Sonnet에서 작동하던
[02:49]
프롬프트들이 Claude 3.7에서도
[02:52]
동일하게 작동할 가능성이 매우 높습니다.
[02:55]
즉, 프롬프팅 방식에는 변화가 없을 것입니다.
[02:57]
이제 제가 정말 흥미롭게 발견한 점이자
[02:59]
AI 기업이 마침내 이렇게 한 것이 기쁜 점은
[03:01]
바로 실제 세계에 초점을 맞춰
[03:04]
최적화를 하고 있다는 사실입니다.
[03:07]
그들은 추론 모델을 개발하면서
[03:09]
수학과 컴퓨터 과학 경진대회 문제에 대한
[03:11]
최적화를 다소 줄이고
[03:13]
대신 기업들이 실제로 LLM을
[03:16]
사용하는 방식을 더 잘 반영하는
[03:18]
실제 업무에 초점을 맞췄다고 밝혔습니다.
[03:21]
이것이 게임체인저가 될 것이라고 생각하는 이유는
[03:23]
기업들이 종종 일상적으로 사용되지 않는
[03:25]
분야의 벤치마크에 집착하는 것을
[03:27]
보기 때문입니다. 예를 들어,
[03:30]
Claude 3.7의 벤치마크를 보면
[03:33]
여전히 매우 인상적이지만
[03:36]
많은 영역들이 실제 비즈니스 사용에
[03:37]
직접적으로 연결되지 않습니다.
[03:41]
일반 사용자들이 모델로부터
[03:42]
가치를 얻을 수 있는 영역과는
[03:44]
거리가 있죠.
[03:47]
이것이 바로 Claude 3.7과
[03:49]
Claude 3.6가 전통적으로 ChatGPT와
[03:51]
경쟁 모델들보다 더 나은 이유라고 봅니다.
[03:53]
그들은 실제 사용에 좋은 모델을
[03:55]
만드는 데 집중했고
[03:57]
경쟁 문제에는 덜 집중했기 때문이죠.
[03:58]
이것이 Claude 3.7 Sonnet의 벤치마크이고
[04:00]
여기서 우리는 Claude 3.7 Sonnet이
[04:02]
어떤 부분에서 뛰어난지 볼 수 있습니다.
[04:04]
먼저 주목할 만한 점은
[04:06]
Claude 3.7 Sonnet이 벤치마크에서
[04:08]
다른 기업들을 압도하지는 않는다는 것입니다.
[04:11]
최근에 Grok 3 베타가 출시된 것을
[04:13]
기억하실 텐데, Claude 3.7이
[04:16]
어떻게 했는지 정확히 모르겠지만
[04:18]
여러 벤치마크에서
[04:20]
선두를 차지했습니다. 예를 들어
[04:22]
에이전트 코딩과 도구 사용 분야에서인데,
[04:24]
이에 대해 좀 더 자세히 설명하겠습니다.
[04:26]
이것들이 실제 사용 사례입니다.
[04:27]
이 두 영역이 매우 중요하지만,
[04:29]
다른 영역들, 예를 들어
[04:32]
시각적 추론이나 고등학교 수학 경시대회
[04:34]
같은 분야에서는
[04:36]
최상위 모델들이 모두
[04:37]
비슷한 수준으로 수렴하는 것처럼 보입니다.
[04:39]
약 86% 정도에서요.
[04:41]
하지만 GP QA에서는
[04:43]
Claude 3.7 Sonnet이
[04:45]
Grok 3 베타를 약간 앞서고 있습니다.
[04:46]
이 부분이 더 흥미로운 이유는
[04:48]
Claude 3.7 Sonnet은 단순히 벤치마크만으로
[04:50]
판단할 수 없는 모델이기 때문입니다.
[04:53]
직접 사용해봐야 하는 모델이죠.
[04:56]
AI 커뮤니티에서 보이는 트윗들을 보면
[04:59]
이것이 더욱 흥미롭습니다.
[05:01]
왜냐하면 Claude 3.7 Sonnet은
[05:03]
정말로 벤치마크만으로는 판단할 수 없고
[05:06]
직접 사용해봐야 하는 모델이기 때문이며,
[05:07]
AI 커뮤니티에서 나오는
[05:09]
몇몇 트윗들을 보면
[05:11]
이를 확인할 수 있습니다.
[05:13]
이는 분명히 많은 사람들이
[05:15]
즉시 전환할 모델이 될 것이라는 점을
[05:16]
보여주고 있습니다. 저는
[05:18]
Claude가 아마도 처리 용량이 부족할 것 같습니다
[05:20]
이전 버전도 이미 많은 사람들이
[05:22]
사용했던 것을 고려하면 말이죠
[05:24]
앞서 말씀드렸듯이 물론
[05:26]
벤치마크에 너무 집중하고 싶지는 않지만
[05:27]
우리가 주목해야 할
[05:29]
벤치마크를 보여드리겠습니다
[05:31]
여기 이 벤치마크는 물론
[05:33]
도구 사용에 대한 것입니다. 이것이 TOW
[05:36]
벤치마크인데, 이는 본질적으로
[05:39]
실제 사용자와 도구 상호작용을 통해
[05:41]
AI 에이전트를 테스트하는 프레임워크입니다
[05:44]
따라서 이것은 기본적으로
[05:46]
실제 현실에서 사용될 수 있는
[05:48]
벤치마크이며, 이 TOW 벤치마크는
[05:50]
여기서 보시는 것처럼 매우
[05:52]
중요합니다. 제가 말씀드렸듯이
[05:54]
이것은 실제 사용 사례에서
[05:57]
정말로 필요한 것이기 때문입니다
[06:00]
이 벤치마크는 기본적으로 AI 에이전트가
[06:02]
얼마나 일관되게 동일한 작업을 수행할 수 있는지
[06:04]
여러 시도에 걸쳐 평가합니다
[06:05]
pass@k라는 메트릭을 사용하여
[06:08]
기본적으로 여러 번의 시도에서
[06:10]
얼마나 안정적으로 수행하는지를
[06:11]
측정하는 것입니다. 이런 것들이
[06:14]
중요한 이유는 실제 세계에서
[06:15]
작동하는 벤치마크가 필요하기 때문입니다
[06:17]
물론 수학 경진대회나
[06:19]
GP QA는 AI가 얼마나 똑똑한지
[06:21]
평가하는 데는 좋지만
[06:23]
실제 세계에서 AI를 사용하려면
[06:25]
실제 사용 사례가 필요합니다
[06:27]
따라서 이 벤치마크처럼
[06:30]
도구 사용에 초점을 맞추면
[06:31]
기본적으로 일관된 행동을
[06:34]
찾고 이러한 AI 에이전트들이
[06:35]
고객 서비스나 의료와 같은
[06:37]
민감한 분야에 배포될 준비가
[06:39]
되어있는지 확인합니다
[06:41]
물론 벤치마크라면 SWE Bench Verified도
[06:43]
봐야겠죠. 이 벤치마크는
[06:45]
소프트웨어 개발 분야를 위한 것이며
[06:47]
이 모델은 실제로 이 벤치마크에서
[06:49]
최첨단(state-of-the-art) 성능을 달성했습니다
[06:52]
이 벤치마크에서 최고 성능을 보여주는 것은
[06:55]
이 모델이 얼마나 뛰어난지를
[06:57]
보여줍니다. OpenAI의 GPT-3보다
[07:00]
훨씬 더 좋은 성능을 보이는 것을
[07:02]
여기서 직접 확인할 수 있습니다. DeepSeek에 대한
[07:04]
많은 관심과 GPT-3에 대한 기대가 있었지만
[07:06]
Claude 3.7은 실제로 이러한 모델들을
[07:11]
상당한 차이로 뛰어넘었습니다
[07:13]
이것은 단순히 벤치마크 결과만이 아닌
[07:15]
실제로 제가 직접 본 것입니다
[07:17]
현재 Claude Code를 Claude 3.7 Sonnet과
[07:18]
함께 사용하고 있는 사람들의 경험을 보면
[07:20]
그들이 말하는 모든 것이 기본적으로
[07:23]
이 모델이 정말 뛰어나다는 것입니다
[07:25]
우리가 볼 수 있듯이
[07:27]
GPT-3는 49%, GPT-1은
[07:29]
48%, Claude 3.5 Sonnet도 모두
[07:32]
대략 49% 수준입니다. 하지만 그 다음
[07:35]
62.3%로 큰 도약을 보이고
[07:37]
커스텀 스캐폴딩을 사용하면 70.3%까지 올라갑니다
[07:41]
이는 정말 엄청난 도약이며
[07:44]
이것은 2024년 10월 기준으로
[07:46]
4개월 만에 거의
[07:48]
12%의 성능 향상을 보였다는 것을
[07:51]
의미합니다
[07:54]
얼핏 보기에는 큰 차이가 없어 보이지만,
[07:56]
실제 일상적인 사용에 있어서는
[07:58]
다양한 사용 사례에서 훨씬 더 유용한 모델이 될 것입니다.
[08:01]
웹 관련 작업에서도 마찬가지죠.
[08:03]
물론 데본을 사용하시는 분들은
[08:06]
아시겠지만,
[08:07]
에이전틱 코딩 평가에서
[08:10]
이 모델이 실제로
[08:12]
다시 한 번 67%까지 상승했습니다.
[08:15]
이를 보면 매우 분명한데,
[08:17]
GPT 4.0이 49%에서 시작해서
[08:19]
이제 Claude Sonnet 3.7이
[08:22]
이미 67%에 도달했다는 점을 보면,
[08:25]
앞으로 몇 년 후에는
[08:27]
어떻게 될지 상상이 되시나요?
[08:30]
미래가 정말 흥미진진하고,
[08:31]
Claude 코딩에 대해 궁금하시다면
[08:34]
이 영상을 보시면 좋을 것 같습니다.
[08:36]
이 영상에서는
[08:37]
새로운 에이전틱 코딩 도구를 소개하는데,
[08:39]
터미널에서 직접 Claude와
[08:42]
작업할 수 있게 해줍니다.
[08:43]
이것은 코딩 기능을 향상시키기 위한
[08:45]
연구 프리뷰로 출시되었습니다.
[08:47]
이 도구의 주요 특징으로는
[08:49]
코드베이스를 이해하고
[08:51]
저장소를 분석하며
[08:53]
구조에 대한 인사이트를 제공하고
[08:54]
사용자가 변경을 요청할 수 있으며
[08:56]
사고 과정을 표시하고
[08:59]
테스트를 생성하고 실행하며
[09:00]
오류를 자동으로 해결하고
[09:02]
빌드 이슈를 감지하고 해결하며
[09:05]
반복적으로 문제를 해결할 수 있습니다.
[09:07]
GitHub에 변경사항을
[09:09]
명확한 요약과 함께 푸시할 수 있죠.
[09:11]
이 영상은
[09:12]
Claude를 코딩에 사용하시는 분들이
[09:14]
꼭 보셔야 할 영상입니다.
[09:16]
큰 미소를 지어야 할까요? 아니요, 그건 좀 섬뜩할 것 같네요.
[09:19]
안녕하세요, 저는 엔지니어 보리스입니다.
[09:22]
저는 캣이고, 프로덕트 매니저입니다.
[09:24]
우리는 사람들이 Claude로
[09:26]
특히 코딩에서 무언가를 만드는 것을
[09:27]
보는 것을 좋아하며, 모든 사람을 위해
[09:29]
Claude의 코딩 능력을 개선하고 싶습니다.
[09:31]
우리가 만든 도구 중 하나를 오늘 공개하는데,
[09:33]
바로 Claude Code를
[09:34]
연구 프리뷰로 출시합니다.
[09:38]
Claude Code는 에이전틱 코딩 도구로
[09:41]
터미널에서 직접 Claude와
[09:43]
작업할 수 있게 해줍니다.
[09:44]
실제 작동하는 예시를 보여드리겠습니다.
[09:46]
여기 Next.js 앱 프로젝트가 있습니다.
[09:50]
Claude Code 인스턴스에서 이것을 열어보겠습니다.
[09:55]
이제 Claude Code가
[09:57]
이 저장소의 모든 파일에 접근할 수 있습니다.
[09:59]
이 코드베이스에 대해 잘 모르지만,
[10:01]
고객 지원 상담원과
[10:03]
채팅하는 앱인 것 같네요.
[10:06]
Claude에게 이 코드베이스를
[10:08]
설명해달라고 해보겠습니다.
[10:10]
Claude가 상위 레벨 파일들을 읽기 시작하고
[10:12]
더 깊이 들어가고 있습니다.
[10:15]
이제 프로젝트의 모든
[10:18]
컴포넌트들을 살펴보고 있네요.
[10:23]
좋습니다, 최종 분석 결과가 나왔네요.
[10:30]
왼쪽 사이드바를 채팅 히스토리로 교체하고
[10:33]
새로운 채팅 버튼도 추가하고 싶은데,
[10:35]
Claude에게 도움을 요청해보겠습니다.
[10:37]
우리가 특정 파일이나 경로를 지정하지 않았는데도
[10:40]
Claude가 이미 알아서
[10:43]
올바른 파일을 찾고 있습니다.
[10:45]
Claude는 자신의 사고 과정도 보여줄 수 있어서
[10:48]
이 문제를 어떻게 해결하기로 했는지
[10:50]
확인할 수 있습니다.
[10:57]
클로드가 이 문제를 해결하기 위해
[10:59]
변경 사항을 수락할지 물어보네요. 수락하겠습니다.
[11:02]
클로드가 네비게이션 바를 업데이트하고
[11:04]
버튼과 아이콘을 추가하고 있습니다.
[11:10]
다음으로 저장 상태가
[11:12]
제대로 작동하도록 로직을 업데이트하고 있습니다.
[11:17]
잠시 후 클로드가 작업을 완료했고
[11:19]
수행한 작업의 요약을 보여줍니다.
[11:22]
살펴보니 왼쪽에
[11:25]
새로운 채팅 버튼과
[11:28]
채팅 기록 섹션이 보이네요.
[11:30]
이전 채팅을 유지하면서
[11:32]
새로운 채팅을 시작할 수 있는지
[11:34]
새 채팅 버튼을 테스트해보겠습니다.
[11:39]
좋습니다. 모두 잘 작동하네요. 이제
[11:43]
클로드에게 방금 추가한 기능들이
[11:45]
제대로 작동하는지 확인하기 위한
[11:48]
테스트를 추가해달라고 하겠습니다.
[11:50]
클로드가 명령어 실행 권한을 요청하네요.
[11:55]
승인하겠습니다. 클로드가 테스트를 위해
[11:58]
변경사항을 만들고 있습니다.
[12:04]
결과를 받은 후에도
[12:06]
모든 테스트가 통과할 때까지 계획을 계속 진행합니다.
[12:11]
몇 분 후에 보니
[12:14]
모든 게 잘 된 것 같네요.
[12:19]
이제 클로드에게 앱을 컴파일하고
[12:22]
빌드 에러가 있는지
[12:24]
확인해달라고 하겠습니다.
[12:27]
클로드가 빌드 에러를 찾아내고
[12:30]
수정하고 있습니다.
[12:32]
그리고 다시 빌드를 시도하죠.
[12:34]
성공할 때까지 계속 시도할 겁니다.
[12:41]
이제 마무리 작업으로
[12:43]
클로드에게 변경사항을 커밋하고
[12:45]
깃허브에 푸시하라고 하겠습니다.
[12:47]
클로드가 변경사항에 대한 요약과 설명을 작성하고
[12:53]
깃허브에 변경사항을 푸시합니다.
[12:57]
이것이 클로드 코드가 할 수 있는 일의 예시입니다.
[13:00]
사람들이 어떻게 활용할지 기대되네요.
[13:02]
그리고 제가 언급하지 않은
[13:03]
벤치마크가 있는데,
[13:05]
그들이 실제로 모델을 위한
[13:07]
포켓몬 플레이 클로드 벤치마크를 도입했습니다.
[13:10]
클로드 3.7 소넷이
[13:13]
지금까지의 소넷 모델 중에서
[13:15]
포켓몬 레드를 가장 잘 플레이한다고 합니다.
[13:17]
제가 포켓몬을 안 해봤지만,
[13:19]
그들이 말하길 포켓몬이
[13:21]
클로드 3.7 소넷의 능력을
[13:23]
이해하는 재미있는 방법이라고 합니다.
[13:26]
하지만 이런 능력들이
[13:28]
게임을 넘어서 실제 세계에
[13:30]
영향을 미칠 수 있죠. 모델이
[13:32]
집중력을 유지하고
[13:34]
개방형 목표를 달성하는 능력은
[13:36]
개발자들이 다양한
[13:37]
최첨단 AI 에이전트를
[13:39]
개발하는 데 도움이 될 것입니다.
[13:42]
이것이 그들이 이걸 한 이유이고
[13:43]
이런 새로운 벤치마크들이
[13:44]
매우 재미있고 흥미로울 것 같네요.
[13:46]
물론 우리는 미래를 위한
[13:49]
이것도 가지고 있습니다.
[13:51]
여기서 그들이 인용한 내용은
[13:52]
'클로드 3.7 소넷과 클로드 코드는
[13:56]
AI 시스템이 진정으로
[13:57]
인간의 능력을 향상시킬 수 있는
[13:59]
중요한 단계를 나타냅니다.
[14:01]
깊이 있는 추론, 자율적인 작업,
[14:03]
효과적인 협업 능력으로
[14:05]
AI가 인간의 성과를 풍부하게 하고
[14:07]
확장하는 미래에 한걸음 더 가까워졌습니다.'
[14:09]
여기서 그들은 기본적으로
[14:10]
2027년까지 클로드가
[14:13]
개척자가 될 것이라고 말하고 있습니다.
[14:15]
2024년에는 어시스턴트로 시작해서
[14:18]
2025년에는 협력자가 되어
[14:20]
클로드가 전문가 수준으로
[14:21]
독립적인 작업을 수행하며
[14:23]
개인이나 팀의 능력을 확장시키고
[14:25]
2027년에는 개척자가 되어
[14:27]
팀이 몇 년이 걸릴 만한
[14:29]
도전적인 문제에 대해
[14:31]
혁신적인 해결책을 찾을 수 있을 것으로
[14:33]
예측하고 있습니다.
[14:34]
클로드의 미래는 밝아 보이는데
[14:37]
여러분이 이미 사용해보셨다면
[14:38]
알려주세요. 여기를 보시면
[14:40]
클로드 3.7 소넷이 있고
[14:42]
생각 모드도 볼 수 있습니다.
[14:44]
일반 모드와
[14:46]
확장 모드가 있어서
[14:47]
원하는 대로 선택할 수 있습니다.
[14:49]
여러분이 이 영상을 즐기셨길 바라며
[14:51]
다음 영상에서 뵙겠습니다.
[14:52]
감사합니다.