[00:00]
Claude 3.7 Sonic이 방금 출시되었고
[00:02]
제가 방금 테스트를 마쳤는데요.
[00:05]
두 개의 AI 뱀이 서로 대결할 수 있는
[00:08]
복잡한 스네이크 게임을 만들었습니다.
[00:10]
뱀을 파괴할 수 있는 블록을 생성하는 슈퍼푸드를 추가했고
[00:13]
이 블록은 실제로 뱀을 따라다니면서
[00:16]
움직이도록 만들었습니다.
[00:18]
이 모든 것이 첫 시도에서 이루어졌고
[00:21]
이에 대해서는 나중에 더 자세히
[00:22]
영상에서 보여드리겠습니다. 지금은
[00:24]
Claude 3.7에 대해 설명해드리겠습니다.
[00:26]
실제로 두 가지가 방금 출시되었는데요.
[00:29]
하나는 Claude 3.7 Sonnet입니다.
[00:32]
Claude 시리즈의 중요한 점진적 업그레이드이며,
[00:35]
또 다른 하나는
[00:37]
Clay Code입니다. 이것은
[00:40]
에이전트 코딩을 위한 명령줄 인터페이스입니다.
[00:43]
Claude 3.7 Sonnet은
[00:46]
'사고형' 모델이며
[00:47]
이는 Anthropic의 첫 사고형 모델입니다.
[00:50]
이것이 Claude 4가 아니라는 점이 꽤 놀랍고
[00:52]
3.5에서 4가 아닌
[00:54]
3.7로 넘어간 것이 약간 이상하게 느껴집니다.
[00:58]
이는 Claude 4가
[01:00]
개발 중이며 훨씬 더 나아질 것이라고
[01:02]
생각하게 만들지만, 확실하진 않습니다.
[01:04]
하지만 우리가 확실히 아는 것은
[01:06]
이 마이너 버전 업그레이드가
[01:09]
큰 도약이라는 점입니다. 이는 시장 최초의
[01:12]
하이브리드 추론 모델입니다.
[01:15]
Claude 3.7은 기존 LLM 방식처럼
[01:18]
어떤 프롬프트에도 거의 즉각적으로
[01:21]
응답을 생성할 수 있으며
[01:23]
동시에 사고도 할 수 있어서
[01:25]
응답하기 전에 사고의 연쇄를 통해
[01:27]
시간을 들여 생각할 수 있습니다. 이는 O1-03과
[01:31]
Grock-3와 매우 유사하지만, 이 둘은
[01:34]
단일 모델에서 나온 것입니다.
[01:36]
다른 사고형 모델들처럼 Claude 3.7도
[01:39]
사고의 연쇄를 수행하는
[01:41]
스크래치패드를 가지고 있어서
[01:43]
실제로 생각을 반복하고 성찰하며
[01:45]
다양한 잠재적 결과를 시도한 다음
[01:47]
최종적으로 모든 것을 요약하거나
[01:49]
최선의 것을 선택하여
[01:51]
보여줍니다. 그들은 실제로
[01:53]
사고의 연쇄를 보여주는데
[01:55]
이는 꽤 놀라운 일입니다. Anthropic이
[01:57]
매우 폐쇄적이고
[01:59]
보안에
[02:00]
중점을 두는 것으로 알려져 있기 때문입니다.
[02:03]
실제로 진정한 전체
[02:05]
사고의 연쇄를 보여주는 것인지는
[02:07]
확실하지 않지만, 그렇게 보입니다.
[02:09]
API 접근 권한이 있다면
[02:12]
Claude 3.7에게 얼마나 오래
[02:14]
생각할지 조정할 수 있는 다이얼이 있고
[02:17]
실제로 토큰 수를
[02:18]
컨텍스트 윈도우 최대치까지 지정할 수 있습니다.
[02:21]
이는 128,000 토큰으로
[02:24]
컨텍스트 윈도우 중에서는
[02:26]
확실히 작은 편입니다. API 사용자라면
[02:28]
API 애플리케이션을 구축하고
[02:30]
Claude 3.7 Sonnet으로 구동할 때
[02:32]
최대 토큰 수를 지정하여
[02:35]
하룻밤 사이에 예산이
[02:37]
초과되지 않도록 해야 합니다.
[02:40]
이 결과들을 살펴보겠습니다. 이것은 SBench
[02:42]
검증 결과입니다. 여기 Claude 3.7 Sonnet이
[02:46]
다른 모델들보다 20% 향상된 성능을 보여줍니다.
[02:49]
여기 있는 Claude 3.5 Sonnet,
[02:52]
새로운
[02:53]
O1-03 Mini High와 DeepSeek R1, 이 네 모델은
[02:57]
모두 약 49% 정도의 성능을 보이는 반면
[02:59]
Claude 3.7 Sonnet은
[03:02]
70%에 도달했습니다. 하지만 여기에는 주의사항이 있는데요
[03:05]
이 연한 분홍색 영역은
[03:08]
맞춤형 스캐폴딩을 사용했다는 의미입니다. 이는
[03:10]
사고 연쇄(Chain of Thought) 기법을
[03:12]
최적화하고 커스터마이징해서
[03:14]
특정 모델에 맞게
[03:16]
조정했다는 뜻입니다. 맞춤형 스캐폴딩 없이도
[03:18]
성능이 12% 이상 향상되었지만
[03:20]
맞춤형 스캐폴딩을 적용하면
[03:24]
70%까지 도달했습니다.
[03:26]
또한 도구 사용 능력도 뛰어난데
[03:29]
여기 보시는 것처럼
[03:31]
TWW 벤치마크의 소매 부문과
[03:32]
항공사 부문 결과입니다.
[03:35]
이것들은 실제 환경에서 AI 에이전트가
[03:37]
소매 API나 항공사 API와 같은
[03:39]
시스템과 상호작용하는 과제입니다.
[03:41]
여기서 볼 수 있듯이
[03:43]
Claude 3.7 Sonnet이 3.5와 0.1 버전을 모두 능가했습니다.
[03:48]
현재 Claude 3.7은
[03:52]
최첨단 기술을 보여주고 있습니다. 더 전통적인
[03:54]
벤치마크에서도, 비록 이것들이
[03:56]
모두 매우 어려운 과제이지만, GPT QA Diamond,
[04:00]
다국어 Q&A, 시각적 추론,
[04:01]
수학 500, AMI 2024 등에서
[04:05]
Claude 3.7은 확장된 사고 능력으로
[04:09]
최고 수준의 모델들과 경쟁력을 보여줍니다.
[04:12]
여기에는 Grok 3 베타와 03 Mini가
[04:15]
향상된 사고 능력으로 포함됩니다. 이러한
[04:18]
사고형 모델들은 제 평가 기준을 통과했고
[04:21]
이제 공식적으로 은퇴할 시기입니다.
[04:23]
재미있는 여정이었지만 이제 은퇴하고
[04:26]
새로운 기준을 만들 때입니다. 현재 Alex와
[04:28]
저는 새로운 평가 기준을
[04:30]
만드는 중이지만, 그동안
[04:31]
이 영상에서 몇 가지 새로운 테스트를 통해
[04:34]
Claude 3.7의 한계를 시험해보겠습니다.
[04:36]
만약 여러분이 새로운 평가 기준에
[04:38]
포함시킬만한 좋은 테스트 제안이 있다면
[04:40]
아래 댓글로 알려주세요.
[04:42]
자, 이것이 Claude Coder
[04:44]
연구 프리뷰입니다. 설치가
[04:46]
정말 쉽습니다. 설치 방법은
[04:48]
아래 링크에서 확인할 수 있고
[04:50]
단 3단계밖에 안 됩니다. 솔직히
[04:52]
말씀드리면, 새로운 평가 기준을 만드는 중에
[04:55]
Grok 3를 테스트했는데
[04:56]
충분히 한계를 시험해보지 못했고
[04:59]
많은 분들이 댓글에서
[05:01]
그 점을 지적해주셨습니다. 그래서
[05:03]
이번 영상에서는
[05:04]
이러한 테스트들을 Grok 3와 03 Mini와
[05:07]
비교해보면서 어떤 차이가 있는지 살펴보겠습니다.
[05:09]
물론 Claude 3.7은 쉽게 스네이크 게임을
[05:12]
만들 수 있습니다. 여기 있네요. 정말
[05:15]
몇 초 만에 완성했고
[05:17]
완벽하게 작동합니다. 하지만
[05:20]
이게 다가 아닙니다. 이제
[05:21]
발전시켜 보겠습니다.
[05:24]
먼저 AI가 스네이크를 직접 조종하도록
[05:26]
해보겠습니다. 얼마나 쉽게 추가할 수 있는지
[05:28]
봅시다. AI로 스네이크를
[05:30]
조종하게 만들어보죠. 한 가지 아쉬운 점은
[05:32]
AI가 생각하거나 코드를 작성할 때
[05:33]
실시간으로 진행 상황을 볼 수 없다는 겁니다.
[05:35]
코드 작성이 완료되고
[05:37]
최종 출력이 나올 때만
[05:39]
변경사항을 확인할 수 있죠.
[05:41]
자, 여기 결과가 나왔네요.
[05:44]
모든 코드가 작성되었고
[05:46]
snake_ai.py가 있습니다. 아래로
[05:49]
스크롤해서 게임을
[05:50]
만들까요? 네, 진행하죠.
[05:54]
이제 제 코드베이스에
[05:56]
모든 변경사항을 추가하고 있고 곧 준비될 겁니다.
[05:59]
자, 이제 AI를 켜고 끌 수 있습니다.
[06:01]
AI를 켜거나 끌 수 있고, 속도를
[06:03]
조절할 수 있습니다. 한번 시도해볼게요.
[06:06]
자, 이제 AI가 제어하고 있습니다.
[06:08]
보세요, 제가 아무것도 하지 않는데 AI가 켜진 상태로 움직이고 있어요.
[06:12]
정말 잘 작동하네요. AI가
[06:15]
A* 알고리즘을 사용해서 다음 먹이를 찾고 있다고 합니다.
[06:19]
아
[06:20]
방금 실수를 했네요, 게임 오버입니다.
[06:22]
이제 계속 기능을 추가해보겠습니다.
[06:25]
이번에는 AI가 제어하는
[06:26]
두 번째 뱀을 추가해보겠습니다.
[06:29]
자, 여기 있습니다. 두 개의
[06:31]
뱀이 서로를 향해 움직이고 있네요. 뱀 2가
[06:34]
이겼습니다. 다시 한번 해볼까요.
[06:36]
이미 몇 가지 개선할 점이
[06:38]
떠오르네요. 다음으로는
[06:40]
여러 개의 먹이를 동시에 배치하고
[06:42]
가끔 등장하는 슈퍼푸드를 추가해서
[06:44]
먹은 뱀이 임시로
[06:46]
4x4 블록을 만들어 다른 뱀이 부딪히면 죽도록 하되
[06:48]
생성한 뱀은 영향을 받지 않게 하겠습니다.
[06:51]
이 슈퍼푸드 블록은
[06:52]
7초 동안 필드를 천천히
[06:54]
이동하도록 하겠습니다. 자, 보세요.
[06:56]
저기
[06:57]
슈퍼푸드가 있네요. 정말 멋지죠! 보세요
[07:01]
실제로 아주 잘 작동합니다.
[07:04]
한 번 더 플레이해보죠.
[07:06]
보세요, 슈퍼푸드로 만든
[07:08]
블록이 움직이고 있고 두 뱀은
[07:10]
각자 먹이를 찾아다니고 있습니다.
[07:12]
그리고 결국 뱀 2가 승리했네요.
[07:16]
정말 인상적입니다. 이제 코더의 능력을 확인했으니
[07:19]
Claude 3.7 Sonnet으로 넘어가보겠습니다.
[07:21]
정말 어려운 수학 문제로 시작해보죠. Claude 3.7이
[07:24]
풀 수 있는지 확인해보겠습니다. 이건 정말
[07:26]
인상적이네요. 모든 이런
[07:28]
표기법을 쉽게 처리할 수 있다니요.
[07:30]
흥미롭게도, 이 문제를 낸
[07:32]
Grok 3은 -1/27을 답으로 냈고
[07:34]
Claude 3.7 Sonnet은 적분 결과로 -1/9를
[07:38]
제시했습니다.
[07:42]
어느 것이 맞는지 헷갈려서
[07:44]
Claude 3을 확인해봤는데
[07:46]
미니도 -1/9라고 답했습니다. 그래서 Claude가 맞았다고
[07:51]
생각합니다. 여기서 한 가지,
[07:53]
확장 사고 모드를 사용하려면
[07:55]
유료 계정이 필요합니다. 방금 전
[07:57]
수학 문제는 확장 사고 모드를
[07:59]
사용하지 않았는데도
[08:02]
정답을 맞췄습니다. 이제
[08:03]
확장 사고 모드가 있는 Claude 3.7에게
[08:06]
바젤 문제를 풀어보게 하죠. 이건 제가
[08:08]
풀 수 없는 문제라서
[08:09]
온라인에서 답을 찾아봐야 했습니다.
[08:11]
자, 이제 실제로 사고 과정을 볼 수 있네요.
[08:14]
즉시 눈에 띄는 점은
[08:16]
꽤 빠르긴 하지만 Grok 3만큼
[08:18]
빠르진 않다는 것입니다.
[08:20]
자, 답이 나왔네요.
[08:23]
흥미롭게도 이 결과는
[08:24]
처음 증명되었을 때를 언급하고 있습니다.
[08:27]
1735년에 증명되었고 답은 π²/6입니다.
[08:33]
해답을 보니
[08:35]
이미 답을 알고 있었던 것 같은데,
[08:37]
이제 단계별로
[08:39]
설명해달라고 해보겠습니다.
[08:41]
이제 실제로 단계별
[08:42]
풀이 과정을 보고 있습니다.
[08:44]
아까는 단순히 답을 알고 있었던 것 같은데,
[08:46]
이건 꽤 유명한
[08:48]
문제니까요. 자, 여기 있네요.
[08:50]
정확히 어떻게 답을 도출했는지
[08:52]
보여주고 있어요. 정말 인상적입니다.
[08:54]
이제 실시간 웹 정보에
[08:55]
접근할 수 있는지 확인해보겠습니다. 아직
[08:57]
어디에도 언급되어 있지 않아서
[08:59]
안 된다고 가정해야 할 것 같네요.
[09:00]
이건 이 모델의 큰 단점이 될 것 같습니다.
[09:03]
Apple이 방금 AI 인프라에
[09:04]
5천억 달러를 투자한다고 발표했는데
[09:07]
이것을 알고 있는지 확인해보죠.
[09:09]
보세요, 정말 큰 단점이네요.
[09:13]
2024년 10월까지의 정보만 있다는 게
[09:16]
이제는 당연히 있어야 할 기능 같은데요.
[09:19]
웹 접근이 필요하고
[09:21]
곧 추가되길 바랍니다. 자, 이게 전부입니다.
[09:24]
몇 가지 단점이 있는 훌륭한 모델이지만
[09:26]
코딩을 위해 사용한다면
[09:27]
만족할 것 같습니다. 이 영상이
[09:29]
마음에 드셨다면 좋아요와
[09:31]
구독 부탁드립니다.
[09:32]
다음 영상에서 만나요.