Claude 3.7 '생각하는' 슈퍼 코더... 한 가지 큰 결점과 함께?!

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이 영상은 Anthropic의 최신 AI 모델 Claude 3.7 Sonic의 놀라운 코딩 능력을 다양한 사례로 시연하면서, 체인 오브 쏘트(Chain of Thought)를 통한 하이브리드 사고방식과 성능 향상을 집중적으로 소개합니다. 복잡한 스네이크 게임 제작, API 활용 및 벤치마크 테스트를 통해 모델의 고도화된 기능을 상세히 보여주며, 기존 모델과의 비교도 진행합니다. 또한 확장 사고 모드를 활용한 수학 문제 해결 과정을 통해 그 실제 활용 예와 한계점, 특히 최신 웹 정보 접근성 부재에 대한 단점을 지적합니다. 전반적으로 Claude 3.7의 강력한 능력과 함께 개선해야 할 중요한 부분이 무엇인지 균형 있게 전달합니다.

주요 키워드

Claude 3.7 Sonic 체인 오브 쏘트 하이브리드 사고 API 확장 사고 모드 커스텀 스캐폴딩 벤치마크 AI 코딩 슈퍼푸드

하이라이트

  • 🚀 Claude 3.7 Sonic은 단 한 번의 시도로 복잡한 스네이크 게임을 구현하며 AI 코딩의 새로운 가능성을 보여줍니다.
  • ⚙️ 모델은 전통적인 LLM의 즉각적인 답변 생성과 함께 체인 오브 쏘트를 통한 심도 있는 사고 과정을 동시에 수행할 수 있습니다.
  • 📊 벤치마크 테스트에서는 기존 모델 대비 20%에서 최대 70%까지 성능이 향상되었음을 확인할 수 있습니다.
  • 📝 커스텀 스캐폴딩을 적용해 모델의 사고 과정을 최적화함으로써 성능 부스트를 실현한 점이 인상적입니다.
  • 🤖 스네이크 게임의 기능 확장을 통해 AI가 직접 게임 내 에이전트로 작동하며, 게임 환경에서의 동적 코드 변화를 확인할 수 있습니다.
  • 🔢 확장 사고 모드를 사용하여 어려운 수학 문제를 단계별로 해결하는 모습을 시연, 타 AI 모델과의 비교를 통해 신뢰도를 높였습니다.
  • 🌐 단점으로는 실시간 웹 정보 접근성이 없어 최신 정보 반영에 한계가 있다는 점이 언급되었습니다.

용어 설명

체인 오브 쏘트 (Chain of Thought)

여러 단계의 사고 과정을 통해 최종 결과를 도출하는 모델의 내부 연산 과정을 의미합니다.

하이브리드 사고 모델 (Hybrid Reasoning Model)

즉각적인 답변 생성과 심도 있는 사고 과정을 동시에 수행할 수 있는 AI 모델을 지칭합니다.

커스텀 스캐폴딩 (Custom Scaffolding)

모델의 성능 최적화를 위해 특정 상황에 맞게 추가적으로 적용하는 구조적 기법을 말합니다.

확장 사고 모드 (Extended Thinking Mode)

문제 해결 시 보다 긴 사고 과정을 거치며 세부 과정을 단계별로 보여주는 기능을 의미합니다.

컨텍스트 윈도우 (Context Window)

모델이 한 번에 처리할 수 있는 최대 토큰 수를 나타내며, 이번 버전은 128,000 토큰을 지원합니다.

[00:00:00] 초반 소개 및 스네이크 게임 시연

영상은 Claude 3.7 Sonic의 처음 공개와 함께 복잡한 스네이크 게임을 성공적으로 구현하는 장면으로 시작됩니다. AI가 직접 게임을 진행하고 경쟁하는 모습이 처음부터 눈에 띕니다.

Claude 3.7 Sonic이 출시되어 테스트를 진행했으며, AI 뱀들이 대결하는 복잡한 스네이크 게임을 첫 시도에 성공적으로 구현했습니다.
[00:00:24] Claude 3.7 Sonic의 특징 및 하이브리드 사고

모델의 '생각하는' 능력과 체인 오브 쏘트를 통한 하이브리드 사고 방식이 소개됩니다. 기존 모델과의 버전 차이 및 향상된 성능에 대해 언급됩니다.

두 가지 새로운 출시: Claude 3.7 Sonnet(주요 업그레이드)과 Clay Code(에이전트 코딩용 CLI)가 발표되었습니다.
Claude 3.7은 Anthropic의 첫 '사고형' 모델로, 3.5에서 4가 아닌 3.7로의 업그레이드는 향후 Claude 4 출시 가능성을 시사합니다.
시장 최초의 하이브리드 추론 모델로, 즉각적인 응답과 체계적인 사고 과정을 모두 수행할 수 있습니다.
스크래치패드를 통한 사고 연쇄 과정을 보여주며, 이는 Anthropic의 일반적인 폐쇄적 접근과는 다른 특징입니다.
[00:02:05] 성능 벤치마크 및 API 활용

다양한 벤치마크 테스트 결과와 맞춤형 스캐폴딩이 적용된 성능 향상 수치가 설명됩니다. API 사용자들을 위한 토큰 사용량 관리의 중요성도 강조됩니다.

API 사용자는 128,000 토큰의 컨텍스트 윈도우 내에서 생각 시간을 조절할 수 있습니다.
SBench 검증 결과에서 Claude 3.7 Sonnet은 다른 모델들보다 20% 향상된 70%의 성능을 보여줍니다.
Claude 3.7의 성능 향상에 대해 설명합니다. 맞춤형 스캐폴딩을 통해 70%의 성능 향상을 달성했으며, 기본 설정에서도 12% 이상의 성능 향상을 보였습니다.
TWW 벤치마크에서 소매 및 항공사 API 상호작용 테스트를 통해 Claude 3.7 Sonnet이 이전 버전들을 능가하는 성능을 보여주었습니다.
GPT QA Diamond, 다국어 Q&A, 시각적 추론, 수학 500, AMI 2024 등 다양한 벤치마크에서 Grok 3 베타와 03 Mini와 같은 최고 수준의 모델들과 경쟁력을 보여주고 있습니다.
새로운 평가 기준을 개발 중이며, Claude 3.7의 한계를 시험하기 위한 새로운 테스트를 진행할 예정입니다.
Claude 3.7의 코딩 능력을 시연하기 위해 스네이크 게임을 제작하고, AI가 직접 게임을 조종하는 기능을 추가하는 과정을 보여줍니다.
[00:05:15] 스네이크 게임 기능 확장 시연

AI가 스네이크 게임 내에서 직접 제어를 수행하며, 속도 조절, 두 마리의 뱀이 경쟁하는 모습과 슈퍼푸드 기능이 추가되는 과정을 상세히 시연합니다. 게임의 동적 변화가 눈에 띕니다.

AI 제어 기능을 테스트하며 속도 조절이 가능한 것을 확인합니다.
AI가 자동으로 게임을 플레이하며 A* 알고리즘을 사용해 먹이를 찾아다닙니다.
AI가 제어하는 두 번째 뱀을 추가하여 두 뱀이 서로 경쟁하도록 업그레이드했습니다.
여러 개의 먹이와 특수 효과가 있는 슈퍼푸드를 추가하여 게임성을 향상시켰습니다.
[00:07:00] 복잡한 수학 문제 해결 시연

확장 사고 모드를 활성화해 어려운 수학 문제를 단계별로 해결하는 과정이 소개됩니다. 모델이 구체적인 연산 과정을 드러내며 신뢰도를 높이는 모습을 보여줍니다.

Claude 3.7 Sonnet으로 수학 문제를 풀어보며 성능을 테스트합니다.
Claude 3.7의 확장 사고 모드는 유료이지만, 기본 모드에서도 뛰어난 수학 문제 해결 능력을 보여줍니다.
[00:08:00] 단점 및 최종 의견

실시간 웹 정보 접근성이 없어 최신 정보 반영에 한계가 있음을 지적하며, Claude 3.7 Sonic의 강력한 기능과 단점을 함께 정리합니다. 영상은 최종 의견과 함께 구독 및 좋아요를 권유하며 마무리됩니다.

타임라인 정보가 없습니다.

Claude 3.7 Sonic이 방금 출시되었고
제가 방금 테스트를 마쳤는데요.
두 개의 AI 뱀이 서로 대결할 수 있는
복잡한 스네이크 게임을 만들었습니다.
뱀을 파괴할 수 있는 블록을 생성하는 슈퍼푸드를 추가했고
이 블록은 실제로 뱀을 따라다니면서
움직이도록 만들었습니다.
이 모든 것이 첫 시도에서 이루어졌고
이에 대해서는 나중에 더 자세히
영상에서 보여드리겠습니다. 지금은
Claude 3.7에 대해 설명해드리겠습니다.
실제로 두 가지가 방금 출시되었는데요.
하나는 Claude 3.7 Sonnet입니다.
Claude 시리즈의 중요한 점진적 업그레이드이며,
또 다른 하나는
Clay Code입니다. 이것은
에이전트 코딩을 위한 명령줄 인터페이스입니다.
Claude 3.7 Sonnet은
'사고형' 모델이며
이는 Anthropic의 첫 사고형 모델입니다.
이것이 Claude 4가 아니라는 점이 꽤 놀랍고
3.5에서 4가 아닌
3.7로 넘어간 것이 약간 이상하게 느껴집니다.
이는 Claude 4가
개발 중이며 훨씬 더 나아질 것이라고
생각하게 만들지만, 확실하진 않습니다.
하지만 우리가 확실히 아는 것은
이 마이너 버전 업그레이드가
큰 도약이라는 점입니다. 이는 시장 최초의
하이브리드 추론 모델입니다.
Claude 3.7은 기존 LLM 방식처럼
어떤 프롬프트에도 거의 즉각적으로
응답을 생성할 수 있으며
동시에 사고도 할 수 있어서
응답하기 전에 사고의 연쇄를 통해
시간을 들여 생각할 수 있습니다. 이는 O1-03과
Grock-3와 매우 유사하지만, 이 둘은
단일 모델에서 나온 것입니다.
다른 사고형 모델들처럼 Claude 3.7도
사고의 연쇄를 수행하는
스크래치패드를 가지고 있어서
실제로 생각을 반복하고 성찰하며
다양한 잠재적 결과를 시도한 다음
최종적으로 모든 것을 요약하거나
최선의 것을 선택하여
보여줍니다. 그들은 실제로
사고의 연쇄를 보여주는데
이는 꽤 놀라운 일입니다. Anthropic이
매우 폐쇄적이고
보안에
중점을 두는 것으로 알려져 있기 때문입니다.
실제로 진정한 전체
사고의 연쇄를 보여주는 것인지는
확실하지 않지만, 그렇게 보입니다.
API 접근 권한이 있다면
Claude 3.7에게 얼마나 오래
생각할지 조정할 수 있는 다이얼이 있고
실제로 토큰 수를
컨텍스트 윈도우 최대치까지 지정할 수 있습니다.
이는 128,000 토큰으로
컨텍스트 윈도우 중에서는
확실히 작은 편입니다. API 사용자라면
API 애플리케이션을 구축하고
Claude 3.7 Sonnet으로 구동할 때
최대 토큰 수를 지정하여
하룻밤 사이에 예산이
초과되지 않도록 해야 합니다.
이 결과들을 살펴보겠습니다. 이것은 SBench
검증 결과입니다. 여기 Claude 3.7 Sonnet이
다른 모델들보다 20% 향상된 성능을 보여줍니다.
여기 있는 Claude 3.5 Sonnet,
새로운
O1-03 Mini High와 DeepSeek R1, 이 네 모델은
모두 약 49% 정도의 성능을 보이는 반면
Claude 3.7 Sonnet은
70%에 도달했습니다. 하지만 여기에는 주의사항이 있는데요
이 연한 분홍색 영역은
맞춤형 스캐폴딩을 사용했다는 의미입니다. 이는
사고 연쇄(Chain of Thought) 기법을
최적화하고 커스터마이징해서
특정 모델에 맞게
조정했다는 뜻입니다. 맞춤형 스캐폴딩 없이도
성능이 12% 이상 향상되었지만
맞춤형 스캐폴딩을 적용하면
70%까지 도달했습니다.
또한 도구 사용 능력도 뛰어난데
여기 보시는 것처럼
TWW 벤치마크의 소매 부문과
항공사 부문 결과입니다.
이것들은 실제 환경에서 AI 에이전트가
소매 API나 항공사 API와 같은
시스템과 상호작용하는 과제입니다.
여기서 볼 수 있듯이
Claude 3.7 Sonnet이 3.5와 0.1 버전을 모두 능가했습니다.
현재 Claude 3.7은
최첨단 기술을 보여주고 있습니다. 더 전통적인
벤치마크에서도, 비록 이것들이
모두 매우 어려운 과제이지만, GPT QA Diamond,
다국어 Q&A, 시각적 추론,
수학 500, AMI 2024 등에서
Claude 3.7은 확장된 사고 능력으로
최고 수준의 모델들과 경쟁력을 보여줍니다.
여기에는 Grok 3 베타와 03 Mini가
향상된 사고 능력으로 포함됩니다. 이러한
사고형 모델들은 제 평가 기준을 통과했고
이제 공식적으로 은퇴할 시기입니다.
재미있는 여정이었지만 이제 은퇴하고
새로운 기준을 만들 때입니다. 현재 Alex와
저는 새로운 평가 기준을
만드는 중이지만, 그동안
이 영상에서 몇 가지 새로운 테스트를 통해
Claude 3.7의 한계를 시험해보겠습니다.
만약 여러분이 새로운 평가 기준에
포함시킬만한 좋은 테스트 제안이 있다면
아래 댓글로 알려주세요.
자, 이것이 Claude Coder
연구 프리뷰입니다. 설치가
정말 쉽습니다. 설치 방법은
아래 링크에서 확인할 수 있고
단 3단계밖에 안 됩니다. 솔직히
말씀드리면, 새로운 평가 기준을 만드는 중에
Grok 3를 테스트했는데
충분히 한계를 시험해보지 못했고
많은 분들이 댓글에서
그 점을 지적해주셨습니다. 그래서
이번 영상에서는
이러한 테스트들을 Grok 3와 03 Mini와
비교해보면서 어떤 차이가 있는지 살펴보겠습니다.
물론 Claude 3.7은 쉽게 스네이크 게임을
만들 수 있습니다. 여기 있네요. 정말
몇 초 만에 완성했고
완벽하게 작동합니다. 하지만
이게 다가 아닙니다. 이제
발전시켜 보겠습니다.
먼저 AI가 스네이크를 직접 조종하도록
해보겠습니다. 얼마나 쉽게 추가할 수 있는지
봅시다. AI로 스네이크를
조종하게 만들어보죠. 한 가지 아쉬운 점은
AI가 생각하거나 코드를 작성할 때
실시간으로 진행 상황을 볼 수 없다는 겁니다.
코드 작성이 완료되고
최종 출력이 나올 때만
변경사항을 확인할 수 있죠.
자, 여기 결과가 나왔네요.
모든 코드가 작성되었고
snake_ai.py가 있습니다. 아래로
스크롤해서 게임을
만들까요? 네, 진행하죠.
이제 제 코드베이스에
모든 변경사항을 추가하고 있고 곧 준비될 겁니다.
자, 이제 AI를 켜고 끌 수 있습니다.
AI를 켜거나 끌 수 있고, 속도를
조절할 수 있습니다. 한번 시도해볼게요.
자, 이제 AI가 제어하고 있습니다.
보세요, 제가 아무것도 하지 않는데 AI가 켜진 상태로 움직이고 있어요.
정말 잘 작동하네요. AI가
A* 알고리즘을 사용해서 다음 먹이를 찾고 있다고 합니다.
방금 실수를 했네요, 게임 오버입니다.
이제 계속 기능을 추가해보겠습니다.
이번에는 AI가 제어하는
두 번째 뱀을 추가해보겠습니다.
자, 여기 있습니다. 두 개의
뱀이 서로를 향해 움직이고 있네요. 뱀 2가
이겼습니다. 다시 한번 해볼까요.
이미 몇 가지 개선할 점이
떠오르네요. 다음으로는
여러 개의 먹이를 동시에 배치하고
가끔 등장하는 슈퍼푸드를 추가해서
먹은 뱀이 임시로
4x4 블록을 만들어 다른 뱀이 부딪히면 죽도록 하되
생성한 뱀은 영향을 받지 않게 하겠습니다.
이 슈퍼푸드 블록은
7초 동안 필드를 천천히
이동하도록 하겠습니다. 자, 보세요.
저기
슈퍼푸드가 있네요. 정말 멋지죠! 보세요
실제로 아주 잘 작동합니다.
한 번 더 플레이해보죠.
보세요, 슈퍼푸드로 만든
블록이 움직이고 있고 두 뱀은
각자 먹이를 찾아다니고 있습니다.
그리고 결국 뱀 2가 승리했네요.
정말 인상적입니다. 이제 코더의 능력을 확인했으니
Claude 3.7 Sonnet으로 넘어가보겠습니다.
정말 어려운 수학 문제로 시작해보죠. Claude 3.7이
풀 수 있는지 확인해보겠습니다. 이건 정말
인상적이네요. 모든 이런
표기법을 쉽게 처리할 수 있다니요.
흥미롭게도, 이 문제를 낸
Grok 3은 -1/27을 답으로 냈고
Claude 3.7 Sonnet은 적분 결과로 -1/9를
제시했습니다.
어느 것이 맞는지 헷갈려서
Claude 3을 확인해봤는데
미니도 -1/9라고 답했습니다. 그래서 Claude가 맞았다고
생각합니다. 여기서 한 가지,
확장 사고 모드를 사용하려면
유료 계정이 필요합니다. 방금 전
수학 문제는 확장 사고 모드를
사용하지 않았는데도
정답을 맞췄습니다. 이제
확장 사고 모드가 있는 Claude 3.7에게
바젤 문제를 풀어보게 하죠. 이건 제가
풀 수 없는 문제라서
온라인에서 답을 찾아봐야 했습니다.
자, 이제 실제로 사고 과정을 볼 수 있네요.
즉시 눈에 띄는 점은
꽤 빠르긴 하지만 Grok 3만큼
빠르진 않다는 것입니다.
자, 답이 나왔네요.
흥미롭게도 이 결과는
처음 증명되었을 때를 언급하고 있습니다.
1735년에 증명되었고 답은 π²/6입니다.
해답을 보니
이미 답을 알고 있었던 것 같은데,
이제 단계별로
설명해달라고 해보겠습니다.
이제 실제로 단계별
풀이 과정을 보고 있습니다.
아까는 단순히 답을 알고 있었던 것 같은데,
이건 꽤 유명한
문제니까요. 자, 여기 있네요.
정확히 어떻게 답을 도출했는지
보여주고 있어요. 정말 인상적입니다.
이제 실시간 웹 정보에
접근할 수 있는지 확인해보겠습니다. 아직
어디에도 언급되어 있지 않아서
안 된다고 가정해야 할 것 같네요.
이건 이 모델의 큰 단점이 될 것 같습니다.
Apple이 방금 AI 인프라에
5천억 달러를 투자한다고 발표했는데
이것을 알고 있는지 확인해보죠.
보세요, 정말 큰 단점이네요.
2024년 10월까지의 정보만 있다는 게
이제는 당연히 있어야 할 기능 같은데요.
웹 접근이 필요하고
곧 추가되길 바랍니다. 자, 이게 전부입니다.
몇 가지 단점이 있는 훌륭한 모델이지만
코딩을 위해 사용한다면
만족할 것 같습니다. 이 영상이
마음에 드셨다면 좋아요와
구독 부탁드립니다.
다음 영상에서 만나요.