긴급속보: 클로드 3.7 출시, 미쳤다! (최고의 코드 모델)

채널 아이콘
Theo - t3․gg 구독자 439,000명

요약

이번 영상은 Anthropic의 최신 모델 클로드 3.7에 대한 심층 리뷰로, 기존 모델 대비 혁신적인 기능과 향상된 코드 처리 능력을 중점적으로 소개합니다. 발표자는 '생각 모드'와 비생각 모드라는 새로운 작동 방식을 비롯해, CLI를 통한 코드 관리 기능(클로드 코드)과 에이전트 흐름 개선 등을 실제 사용 사례와 벤치마크를 통해 설명합니다. 또한 경쟁 모델들과의 가격 및 성능 비교를 통해, 비록 토큰 단가가 다소 비싸지만 실무에서 체감할 만한 개선 효과가 있음을 강조합니다. 전반적으로 개발자들이 실제 업무에서 활용하기에 매우 유용한 모델이라는 점과 함께, 앞으로 가격 인하 등을 통해 더 많은 사용자에게 다가갈 수 있기를 기대하는 내용입니다.

주요 키워드

클로드 3.7 생각 모드 클로드 코드 벤치마크 T3 채팅 에이전트 흐름 CLI 코드 리팩토링 가격 API

하이라이트

  • 🔑 클로드 3.7은 코드 작업에 탁월한 성능을 보여주며, ‘최고의 코드 모델’이라는 평을 받고 있습니다.
  • ⚡️ 영상에서는 ‘생각 모드’와 일반 모드의 차이를 설명하며, 내부 추론 과정을 직접 노출하는 점이 투명하다고 평가합니다.
  • 📌 벤치마크 테스트를 통해 경쟁 모델 대비 우수한 성능과, 특히 개발 도구와의 연계성이 돋보임을 강조합니다.
  • 🚀 클로드 코드를 통한 CLI 기반 코드 관리 기능이 소개되며, 이를 통해 개발자가 보다 효율적인 작업 흐름을 구축할 수 있음이 언급됩니다.
  • 🌟 에이전트 흐름 및 다중 도구 활용 시, 작은 성능 차이가 큰 효과로 이어질 수 있다는 점을 실제 수치와 사례로 전달합니다.
  • 📈 가격 측면에서는 토큰 단가가 다소 비싸지만, 전체적인 성능과 생산성 향상으로 그 비용을 정당화할 수 있다는 의견을 제시합니다.
  • 🔥 최종적으로 영상 제작자는 클로드 3.7이 실무에 그대로 투입 가능한 ‘워크호스 모델’임을 강조하며, 앞으로의 발전 가능성을 기대합니다.

용어 설명

생각 모드

모델이 내부 추론 과정을 거치며 문제를 풀 때 사용하는 모드로, 답변 생성 시 중간 과정을 노출함으로써 투명성을 높입니다.

클로드 코드

개발자가 CLI를 통해 직접 코드베이스와 상호작용할 수 있도록 지원하는 새로운 도구로, 코드 리팩토링 및 관리에 혁신적인 기능을 제공합니다.

에이전트 흐름

여러 도구와 기능을 연계하여 문제를 단계별로 해결하는 작업 프로세스로, 소규모 성능 차이가 전체 작업 효율에 큰 영향을 미칩니다.

T3 채팅

영상 제작자가 클로드 모델을 적용하여 사용하는 인터페이스로, 사용자에게 보다 원활한 대화형 코드 작업 환경을 제공합니다.

벤치마크

모델의 성능을 수치화하여 평가하는 테스트로, 경쟁 모델과의 비교 및 실제 작업 효율을 가늠하는 중요한 지표입니다.

[00:00:00] 모델 소개 및 첫 인상

영상은 클로드 3.7에 대한 첫 인상과 모델의 이름, 비용 구조에 대한 간단한 소개로 시작됩니다. 발표자는 곧바로 이 모델이 자신이 찾던 '최고'임을 암시합니다.

Anthropic이 Claude 3.7을 출시했으며, 이는 3.5 October Edition에서 발전된 버전입니다. 네이밍이 복잡하지만 성능이 매우 인상적입니다.
비용이 GPT-3.5보다 3배 비싸지만, 특히 코딩 분야에서는 최고의 성능을 보여주고 있습니다.
[00:00:29] 주요 기능 – 모드 및 클로드 코드

새로운 '생각 모드'와 일반 모드의 차이, 언어 전환 방식 등 주요 기능이 소개됩니다. 또한 CLI 기반 코드 관리 도구인 클로드 코드가 등장합니다.

이번 릴리스에는 사고 과정을 투명하게 보여주는 사고 모드가 도입되었으며, 독특한 언어 전환 방식을 제공합니다.
Claude Code라는 새로운 CLI 도구가 도입되어 코드베이스 작업이 가능해졌으며, Cursor와 같은 도구들과 경쟁하고 있습니다.
[00:01:12] 벤치마크와 가격 비교

다양한 벤치마크 결과와 경쟁 모델(GPT-4, O3 미니 등)과의 성능 및 가격 비교를 통해 클로드 3.7의 강점을 부각시킵니다. 토큰 단가와 비용 문제도 함께 논의됩니다.

시장 최초의 하이브리드 추론 모델로서, OpenAI와 달리 사고 과정을 투명하게 보여주는 특징이 있습니다.
OpenAI의 SWE-Lancer 테스트에서 Upwork의 실제 백만 달러 규모 태스크를 통해 모델의 성능을 평가했습니다.
다양한 모델의 작업 수행 능력을 테스트한 결과, OpenAI에게는 충격적인 결과가 나왔습니다.
애플리케이션 로직 문제에서 GPT-4.0은 8%, 0-1은 16%, Claude 3.5는 24%를 해결했으며, 서버 사이드 로직에서는 Sonnet이 40% 이상의 성능을 보였습니다.
이는 Sonnet이 추론 기능을 추가하기 전임에도 불구하고, 최고의 사고형 모델들도 해결하지 못한 작업들을 수행할 수 있었다는 점에서 주목할 만합니다.
Claude 3.7은 기존 모델들을 크게 앞서며, 실제 사용 결과 예상보다 훨씬 뛰어난 성능을 보여주었습니다.
가격 측면에서 O3 Mini는 매우 합리적인 가격을 제시하고 있으며, 0-1과 비교했을 때 큰 가격 경쟁력을 보여줍니다.
[00:04:00] 추론 능력과 문제 해결

모델의 내부 추론 과정이 실제 코딩 문제와 수학 문제 해결 사례를 통해 설명됩니다. '생각 모드' 사용 시 발생하는 문제점과 개선 효과가 언급됩니다.

DeepSeek의 시장 진입으로 가격 경쟁이 심화되었으며, Claude는 O3 mini보다 3배 이상 비싼 가격에도 불구하고 뛰어난 성능을 보여주고 있습니다.
벤치마크 결과에서 R1과 O3 mini가 좋은 성능을 보였지만, Claude 3.7이 출시되면서 모든 기존 모델들의 성능을 뛰어넘었습니다.
벤치마크 테스트에서 커스텀 스캐폴드를 사용한 것은 공정하지 않은 방법이라는 지적이 있습니다.
에이전틱(Agentic) 개념의 핵심은 AI가 사용할 수 있는 도구입니다. 이는 단순한 텍스트 생성을 넘어 특정 기능을 수행하는 지침을 제공합니다.
도구는 API를 통한 온도 확인, 날씨 검색, GitHub 저장소 검색 등의 기능을 수행할 수 있습니다. 직접 코드를 실행하지는 않지만, 함수 호출을 통해 작업을 수행합니다.
Claude는 역사적으로 도구 사용 면에서 다른 모델들보다 우수한 성능을 보여왔으며, 특별히 이를 위해 설계되지 않았음에도 뛰어난 결과를 보여주었습니다.
복잡한 에이전트 시스템에서 작은 성능 차이는 큰 영향을 미칠 수 있습니다. 여러 도구를 연속적으로 사용할 때 정확도 차이가 기하급수적으로 증가합니다.
벤치마크 결과에서 Grok 3도 좋은 성능을 보여주었지만, Claude는 즉시 API를 제공하여 실제 테스트가 가능했다는 장점이 있습니다.
Claude 3.7의 성능 수치가 다른 옵션들보다 높긴 하지만, O3 미니도 저렴한 가격에 비해 놀라운 성능을 보여주고 있습니다.
다국어 Q&A에서는 예상 외로 좋지 않은 성능을 보였으며, 지시사항 따르기에서는 여전히 최고의 성능을 보여주었습니다.
수학 문제 해결에서는 O3 미니와 R1에게 뒤쳐졌으며, 특히 고등학교 수학에서도 예상보다 낮은 성능을 보였습니다.
실제 테스트를 위해 Advent of Code 문제를 사용했는데, 다른 모델들과 비슷한 수준의 해결력을 보였지만 불필요한 API 환각은 없었습니다.
[00:10:00] CLI 및 개발자 도구 통합

T3 채팅과 클라우드 API를 활용한 CLI 인터페이스, 코드 리팩토링 사례가 시연됩니다. 실제 개발 환경에의 적용 가능성과 효율성이 강조됩니다.

복잡한 키패드 문제를 통한 테스트에서 모델의 독특한 사고 과정과 한계점이 드러났습니다.
타입스크립트 코드 작성 중 모델이 파이썬으로 전환하는 특이한 현상이 발견되었습니다. 이는 학습 데이터 컷오프가 2024년 10월임을 고려할 때 더욱 흥미로운 현상입니다.
클로드와의 상호작용을 위해 T3 챗이 업데이트되어 3.7 소넷과 소넷 리즈닝 모델을 지원하게 되었습니다. 리즈닝 모드는 저, 중, 고 수준으로 설정 가능합니다.
추론 토큰의 양을 조절하는 방식으로 모델의 사고 과정을 제어합니다. 이는 API를 통해 직접 구현된 기능입니다.
향후에는 모델이 자체적으로 추론 수준을 결정하게 되길 기대하지만, 현재는 수동 설정이 필요한 상황입니다.
현재 클로드와 챗GPT의 UI 문제점에 대한 분석과 함께, 클로드의 추론 과정에서 나타나는 전체 프로그램 재작성 패턴이 관찰되고 있습니다.
Claude 모델의 사고 과정에서 많은 토큰을 사용하는데, 이는 비용 측면에서 부담이 될 수 있다고 설명합니다.
모델 실행 중 응답이 잘려서 low 설정으로 낮추어 다시 시도하기로 합니다.
Claude 3.7에서 thinking 모드를 사용했을 때와 사용하지 않았을 때의 성능 차이를 게임 실행을 통해 테스트합니다.
thinking 모델이 특정 퍼즐에서 오히려 성능이 저하되고 잘못된 결과를 내는 현상을 발견했습니다.
AI 시스템의 취약성과 Claude 3.7의 강력한 성능을 동시에 보여주는 흥미로운 사례를 설명합니다.
비용 절감과 더 나은 결과를 위해 low thinking 모드나 standard 3.7 사용을 추천합니다.
최신 버전의 얼리 액세스 경험을 공유하며, 백엔드 시스템 개선에 새로운 방식을 도입하고 있음을 설명합니다.
[00:16:00] 에이전트 흐름과 에러 처리 개선

복잡한 에이전트 흐름 내에서의 다중 도구 호출과 에러 처리 개선 사례가 소개됩니다. 비동기 코드 처리와 결과 검증 과정이 상세하게 설명됩니다.

새로운 에러 처리 패턴을 구현하기 위해 never throw 패키지를 설치하고, 에러 발생 시 예외를 던지는 대신 에러나 OK를 반환하도록 변경했습니다.
외부 비동기 함수들(fingerprint 검증, recapture 토큰 확인 등)을 래핑하고 있으며, 새로운 패턴을 적용하고자 했습니다.
Cursor 3.7에게 다른 파일들에도 이 패턴을 구현하도록 요청했더니, 놀랍게도 결과 타입과 비동기 처리를 정확하게 변경해냈습니다.
대규모 코드 변경에도 불구하고 아무것도 망가지지 않았으며, never throw 문서를 명시적으로 지정하지 않았음에도 정확하게 구현해냈습니다.
Cursor의 성능이 매우 인상적이며, 이제는 유일한 선택지가 아니라는 점이 이번 릴리스의 주목할 만한 특징입니다.
extended thinking 블로그 포스트에서 thinking이 별도 모델이 아닌 모드라고 설명했으며, Claude 모델이 포켓몬 레드 게임에서 번개 배지까지 도달하는 놀라운 성과를 보여주었습니다.
AGI(인공일반지능)에 대한 재치있는 정의를 언급하며, 뮤츠를 잡을 수 있는 모델이라는 유머러스한 설명을 소개합니다.
CLA 코드라는 새로운 개념을 소개하며, IDE나 웹 인터페이스 대신 CLI를 사용하는 접근 방식을 설명합니다.
프로젝트 설정을 위해 새로운 설치를 진행하고, 리팩토링 작업을 시작하기 위한 준비 과정을 설명합니다.
CLA의 실제 사용을 시연하며, 파일 위치를 확인하고 process request.ts 파일에 대한 리팩토링 작업을 지시합니다.
[00:20:00] 최종 결과와 가격 문제

전체적인 성능과 생산성 향상을 바탕으로, 클로드 3.7이 실제 프로덕션 코드에 적용 가능한 워크호스 모델임을 강조합니다. 다만, 비용 부담 문제에 대한 아쉬움도 언급됩니다.

CLA의 작동 방식과 인터페이스에 대해 설명하며, 특히 터미널에서의 UI 구현 품질을 높이 평가합니다.
API 사용에 따른 비용 문제를 언급하며, Claude의 가격 정책에 대한 우려를 표현합니다.
코드 변경 사항을 검토하고 UI의 불안정성 문제를 확인하며 작업을 진행합니다.
Claude 3.7의 거부 응답 개선사항에 대해 논의하며, 불필요한 거부가 45% 감소했다는 점을 설명합니다.
AI의 반응이 더 유연해져서 악의 없는 질문에 대해서는 실제 정보를 제공하도록 개선되었음을 설명합니다.
새로운 작업 수행 시 속도가 느린 점을 지적하며, 컨텍스트 부재로 인한 한계를 설명합니다.
AI 도구의 실제 활용 사례와 한계점을 공유하며, 'page me' 서비스 개발 경험을 예시로 들어 설명합니다.
코드 수정 작업을 진행하며 비용과 효율성에 대해 논의하고, 실제 작동 테스트를 통해 성공적인 결과를 확인합니다.
전체 작업 비용이 73센트로 예상보다 저렴했음을 확인하고, GitHub에서 코드 리뷰를 위한 다음 단계를 계획합니다.
Lazy Git 도구의 장점을 설명하며, 특히 LG 3 명령어로 브랜치 전환과 PR 생성이 GitHub CLI보다 훨씬 효율적임을 강조
코드 리뷰 중 parse result와 error 처리 로직을 검토하고, 타입 안전성이 잘 구현되어 있음을 확인
코드 포맷팅 문제를 발견하고 Prettier 관련 이슈들을 논의
라우팅 로직과 에러 처리 방식에 대해 검토하고 개선 방향 제시
Claude 3.7의 성능에 대한 인상적인 평가와 함께, Gemini와 비교하여 각각의 장단점 논의
제가 새로 가장 좋아하는 모델을 찾은 것 같습니다
Anthropic이 드디어 Claude 3.7을 출시했는데요
3.5 October Edition이
3.6이 되어서 이렇게 명명되었습니다. 네이밍이 좀 복잡하죠
그들도 같은 말을 하지만
저는 오늘 하루 종일 이 모델을
실제 작업에 사용해봤는데 솔직히 말해서 정말 놀라웠습니다
이제야 그 터무니없는 비용을 정당화할 수 있을 것 같은데
그 비용이 더욱 터무니없어졌습니다
GPT-3.5보다 3배나 더 비싸고
성능은 대부분의 경우
비슷한 수준을 보여줍니다
하지만 특히 코딩 관련해서는
지금까지 나온 모델 중 최고입니다
개발자라면 반드시 봐야 할
내용이 많이 있습니다
이번 릴리스에는 단순히 Claude 3.5
업데이트가 아닌 두 가지 모드가 있는데
하나는 사고 모드입니다
실제로 사고 과정을 보여주는데, 특이한 점은
OpenAI처럼 생각 과정을 숨기지 않고
보여준다는 점입니다. 특이하죠. 곧 살펴보겠습니다
다른 모델들처럼 언어를 전환하지는 않지만
독특한 방식으로
언어를 전환합니다. 재미있죠
또한 Claude Code를 도입했는데
코드베이스를 Claude와 직접 작업할 수 있는
새로운 CLI입니다. 흥미롭게도
Cursor와 같은 도구와 경쟁하는 것을
보는 것이 특이하지만 꽤 멋집니다
전반적으로 인상적이었는데요
영상 후반부에 제 코드베이스에
실제 기능을 추가하는 것을
보여드릴 예정이니
끝까지 시청해 주세요. 다만 3.7은
3.5만큼이나 비싸서 많은 비용이 들기 때문에
지금쯤이면 스폰서 광고를
해야 하지만, 대신
말씀드리고 싶은 게 있습니다
T3 Chat에 가입하시면 이미
Claude 3.7이 설정되어 있고
월 8달러면 사용하실 수 있습니다
정말 좋은 가격이니 한번 시도해보세요
자, 이제 시장 최초의 하이브리드
추론 모델인 Claude에 대해 이야기해보겠습니다
중요한 점은 사고 과정이
사용자에게 보인다는 것입니다
이것은 정말 멋진 투명성이죠
OpenAI처럼
이상한 메시지 필터링을
하는 것 같지는 않은데
텍스트가 매우 직접적으로
추론 과정을 보여주는 것 같습니다
예시를 곧 보여드리겠습니다
이 모델이 이미 코딩에서
최고였다는 점을 고려하면
이렇게 발전하는 것이 놀랍습니다
제가 코딩에서 최고라고 한 것은
제 말만이 아닙니다. 재미있게도
OpenAI가 몇 주 전에, 아니 일주일 전에
시간이 정말 빨리 가는군요
새로운 테스트를 발표했는데
SWE-Lancer라는 것으로
Upwork의 백만 달러 규모의
무작위 태스크 풀에서
흥미로운 벤치마크입니다
Grock 비디오에서 언급했죠. 네, Upwork죠
Upwork에서 백만 달러 규모의
실제 태스크들을 찾아서 테스트했고
벤치마크는 인간 대신 모델이
얼마나 많은 돈을 벌 수 있는지
측정하는 것입니다. 단순히
한 카테고리가 아닌 다양한 카테고리에서
꽤 철저한 테스트를 진행했습니다
다양한 모델의 작업 수행 능력을 테스트한 결과입니다
이 테스트 결과는 OpenAI에게는 상당히 충격적이었죠
그들이 이 결과를 공개했다는 게 아직도 놀랍습니다
여기 수치를 보시면
애플리케이션 로직 문제에서
GPT-4.0은 8%, 0-1은 16%, Claude 3.5가
3.7이 아닌 3.5 버전이 24%를 해결했고
서버 사이드 로직에서는 GPT-4.0과 0-1 모두
25% 미만이었지만, Sonnet은 40%를 넘었습니다
Sonnet이 얼마나 앞서 있었는지
이해하실 수 있을 겁니다. 이는 그들이
추론 기능을 모델에 추가하기도 전이었죠
일반적인 자동완성 LLM이었음에도
최고의 사고형 모델들도 해결하지 못한
작업들을 수행할 수 있었습니다
OpenAI가 이 벤치마크를 공개한 것은
새로운 릴리스로 이를 크게 뛰어넘을 것으로
기대했기 때문이라고 생각합니다만, 아직까지
그런 릴리스는 없었고, 제 예상으로는
3.7에서 이 테스트를 실행하면
더 놀라운 수치를 보게 될 것 같습니다
이미 선두에 있었는데, 하루 종일 이 모델을 사용해 본 결과
3.7은 상당한 발전을 이루었습니다
예상했던 것보다 훨씬 뛰어납니다
이전에 언급했던 Claude Code는
나중에 자세히 살펴볼 예정입니다
매우 다른 특성을 가지고 있기 때문이죠
하지만 먼저 모델과 벤치마크에
집중하고 싶습니다
벤치마크 결과가 정말
놀랍거든요. 기존 옵션들 간에 치열한 경쟁이 있었는데
한 가지 주목할 만한 점은
가격 차이입니다
0-1은 엄청나게 비싸지만
O3 mini High는 그렇지 않습니다. O3 mini High는
실제로 매우 합리적인
가격대의 모델입니다. 가격을 보면
O3 Mini는 입력 토큰 백만 개당 $110,
출력은 백만 개당 $4.40입니다. 사고형
모델이라 다른 모델들보다 출력 토큰을
더 많이 사용하지만, 가격이 매우
저렴해서 괜찮습니다. 특히
0-1과 비교하면 입력이 백만당 $15, 출력이 $60인
것과 비교하면 확연히 차이가 나죠
물론 이 모든 것이 Gemini와 비교하면
의미가 없고, 이러한 가격들은
DeepSeek가 시장을 크게
흔들어 놓은 결과입니다. 하지만 Claude는 여전히 입력이 $3,
출력이 $15인데, 실제로는 이는
O3 mini보다 3배 이상 비싼 가격입니다
Sonnet이 얼마나 더 비싼지
놀랍지만, 둘 다 비슷한 수준이었을 때는
이상했죠. Claude가
O3 mini와 거의 같은 수준이었기 때문입니다
지금 보니 이 차트도 이상하네요
O3 mini가 실제로
Claude보다 더 좋았는데, 차트를
이렇게 구성해서 마치 Claude가
최상위인 것처럼 보이게 했습니다. 여기 모든 것이
Claude보다 높습니다. 0-1을 제외하고는요
재미있게도 R1과 O3 mini 모두 이겼는데, 3.7이
나와서 모든 것을 압도했습니다. 저는 또
이런 차트들이 점점 더 많아지는 것이
싫은데, 자신들의 특별한
성능 향상 방법을 적용하고
다른 색상으로 표시해서
더 큰 도약처럼 보이게 만듭니다
그들의 커스텀 스캐폴드가 무엇이든
벤치마크에 특화된
시스템 프롬프트를 작성한 것 같은데
이는 속임수입니다. 이런 바보 같은 짓은
하지 마세요. 어쨌든 이것이
Claude의 가장 큰 강점 중 하나입니다. 도구를
사용하는 능력이 뛰어나죠. 아직 익숙하지 않다면
이 에이전틱(Agentic)이라는 개념에 익숙하지 않다면,
실제로 이것은 매우 중요한 의미를 가집니다.
핵심 개념은 AI가 사용할 수 있는 도구입니다.
단순히 텍스트를 생성하는 것이 아니라
도구는 모델에게 특정 기능을 수행하도록
일련의 지침을 제공합니다.
예를 들어 '이런 기능이 있으니
이 API에서 온도를 확인하거나
특정 지역의 날씨를 찾거나
누군가의 GitHub 저장소를
검색할 수 있다'고 알려줍니다.
실제로 직접 fetch 호출을 하거나
코드를 실행하지는 않지만,
함수를 호출하고 도구를 사용하여
작업을 수행합니다. 도구나 작성한 코드에
'이것을 원한다'고 전달하면
여러분의 코드나 도구가
웹 검색을 하거나
API를 호출하거나 필요한 작업을 수행하고
그 결과를 LLM에 다시 전달하여
작업을 계속할 수 있게 합니다.
역사적으로 Claude는 이런 면에서
다른 모델들보다 훨씬 뛰어났습니다.
사실 이를 위해 설계되지는 않았을 것 같은데,
거의 확실합니다만,
어떤 이유에서인지 Claude는
좋은 모델이었기 때문에
이러한 사례들을 매우 잘 처리했습니다.
다른 사고형 모델들보다도 더 잘요.
Claude 3가 이 벤치마크에서 어떤 성능을 보일지
아직 확실하지 않고,
벤치마크에도 포함되지 않았지만
도구 사용을 실험해본 경험상
T3 채팅에 아직 천천히 적용 중이지만
Claude는 확실히 도구 사용과
기대치를 가장 잘 충족시켰고
이 수치들이 전혀 놀랍지 않습니다.
더 발전했죠.
따라서 도구를 많이 사용하고
복잡한 에이전트 플로우가 있는
시스템을 구축하는 경우
이런 작은 성능 차이가
훨씬 더 큰 영향을 미칠 수 있습니다.
19%의 오류율과 27%의 오류율이 있고
세 번의 호출을 한다고 가정해보면
간단히 계산해볼까요?
3%의 차이가 있는데
81%를 사용해서
4개의 도구가 있다고 가정하면
81의 4제곱을 계산하면
정확도가 43%로 떨어집니다.
81%를 4번 적용한 경우와
73%의 경우는 30%로 떨어지죠.
81에서 73으로의 차이가 크지 않아 보일 수 있지만
이런 수치들이 에이전트 플로우에서
여러 번 실행된다는 점을 기억하면
이런 차이는
매우 큰 영향을 미칩니다.
4개 이상의 도구를 사용할 때
50% 정도의 성능 향상이 있다는 건 정말 대단하죠.
다른 벤치마크 결과들도 매우 좋았는데,
특히 Grok 3의 성능이 이 정도라는 게 흥미롭습니다.
아직 Grok API는 없지만
Claude는 API를 즉시 출시해줘서 감사합니다.
많은 회사들이, 특히 Grok은
그렇게 친절하지 않아요.
준비가 되었을 때 출시하는 게 아니라
마음이 내킬 때 출시하죠.
이 때문에
Grok 3를 제대로 테스트하기가
훨씬 더 어려웠습니다.
반면 Claude는 모든 기능이
내장되어 있고 출시 첫날부터
API가 준비되어 있었죠.
이런 친절한 모습이지만, 제가 말씀드린 것처럼 이 수치들은
의심스럽게도 여전히 다른 옵션들보다 훨씬 높습니다
O3 미니를 다시 보게 되어 좋네요.
O3 미니가 얼마나 저렴한지 기억하시죠?
이 정도로 근접하면서도
3.7을 아무 생각 없이 이길 수 있다는 건
정말 주목할 만한 결과입니다. 한편으로는 Claude 3.7이
현재 코드 작업에 있어 최고의 모델임이 분명하지만
다른 한편으로는
O3 미니가 이제 더욱 더
뛰어난 품질의 모델로 인정받게 되었습니다
다국어 Q&A에서는 완전히 압도당했는데
좀 놀랐습니다.
역사적으로 봤을 때
다국어 부분에서는
그저 그랬었거든요.
하지만 이번엔 정말 좋은 점수네요.
지시사항 따르기에서도 여전히
그들의 강점을 보여주고 있고
이 분야에서는 여전히 최고입니다. 수학 문제
해결에서는 O3 미니를 이기지 못했고
심지어 R1도 못 이겼네요
좀 놀라운데요. 여기서는 완전히 패배했어요
O1, O3 미니, R1 모두가 수학에서 압도했죠
그래서 고난도 수학 작업을 하신다면 이 모델들 중
하나를 사용하세요.
더 저렴하면서도 더 나은 결과를 얻을 수 있을 겁니다
고등학교 수학이라니 재미있네요
이게 많은 것을 말해주는데, 고등학교 수학
문제에서 전혀 생각하지 않으면
20%밖에 못 받지만, 조금만 생각해도
갑자기 80점대로 올라가요
이전 Claude 3.5도 마찬가지였는데
고등학교 수학에서 정말 형편없었죠
반면 O1, O3, R1과 다른 모델들은
꽤 잘했었거든요. 하지만 이건
좀 웃기네요. 실제로
수학 점수가 여기서 가장 낮은 편이에요
그래서 Claude 3.7에게
수학을 기대하지 마세요
실제로 매우 안 좋아요
다른 건 다 좋은데
Claude 코드 얘기를 해야 하지만
사고 과정에 대해 좀 더 얘기하고 싶어요
저는 주로 T3 챗에서 테스트했는데
셋업하는 동안 여기서
빠르게 테스트를 했고 정말 어려운 Advent of
Code 문제를 물어봤어요. Advent of
Code 문제를 테스트로 쓰는 걸 좋아하는데
매년 진지하게 참여하고 있거든요
이 거대한 프로젝트를
다양한 모델들의 테스트베드로
사용해왔어요. 한 가지 말씀드리자면
다른 모델들이 못 푸는 문제를
풀지는 못했지만
이상한 것들을 환각하진 않았어요
window.같은 실제 없는 API 같은 거요
전반적으로는 좋았지만, 이 모델의 사고방식은
좀 이상했어요. 키패드로 시작하는데
문제를 풀려고 하는데
이 문제가 재밌어요. 이상한 키패드 문제인데
숫자가 있는 그리드가 있고
직접 누르는 게 아니라
손가락을 위, 아래, 좌, 우로 움직여서
누르는데, 거기서 끝이 아니라
당신은 로봇이고 뒤에 있는 로봇도
같은 위, 아래, 좌, 우 동작을 하고
손가락을 움직여서 위, 아래, 좌,
우를 가리키고 A를 누르는데
이런 식으로 3단계가 있어요. 개념적으로
이상한 문제라 LLM들이 어려워하는데
여기서도 마찬가지였어요. 어느 부분도
제대로 풀지 못했는데
흥미로운 점은 이걸
타입스크립트로 작성하라고 했는데
몇 군데를 보면
특히 마지막 부분에서 자체 검토를 할 때
보면 여기서는 언어 태그를 붙이지 않았어요
매우 흥미로운 점은
모델이 환각 현상을 보이면서
파이썬으로 전환했다는 거예요
이게 굉장히 놀라웠는데
아마도 자신의 사고 과정을
숨기지 않은 것 같아요
처음에는 최근에 학습된
올해의 답변들이 학습 데이터에
포함되어 있어서 파이썬 답변을
변환하는 것이라 생각했는데
학습 데이터 기준일을 보니
여기 정확히는 없지만
어디 있었는지 기억이 안 나네요
2024년 10월이 데이터 컷오프라서
그런 데이터가 없었을 텐데
왜 갑자기 파이썬으로 전환했다가
생각하는 과정에서
문제를 해결하지 못하는
타입스크립트 코드를 출력했는지
매우 흥미롭네요
클로드 사이트 말고
클로드와 대화하기에 훨씬 더 좋은 사이트가 있는데
덜 복잡한 T3 챗이에요
당연히 T3 챗을 업데이트해서
새로운 3.7 모델들, 3.7 소넷과 소넷 리즈닝을 포함시켰죠
소넷과 소넷 리즈닝 모두 선택 가능하고
이제 둘 중 하나를 선택할 수 있으며
리즈닝을 선택하면
저, 중, 고 중에서 고를 수 있어요
이건 API를 통해
일반적인 방식으로 노출되는 설정이 아니라
우리가 직접 코딩한 거예요
다른 추론 노력을
어떻게 다루는지 보여드리자면
추론에 사용할 수 있는
토큰의 양을 다르게 설정했어요
전체 출력에서 최대
토큰 수가 제한되어 있기 때문에
추론과 비추론 사이의
분할을 선택하거나
얼마나 생각해야 할지에 따라
더 많이 또는 적게 생각하도록 설정해요
이상적으로는 미래에
이런 걸 직접 고민할 필요가 없겠죠
모델이 생각할 수 있다면
이것도 생각할 수 있어야 하는데
해결하기 쉽지 않은 문제라
자동화하는 게 단순하지가 않아서
지금은 이렇게 노출시켰어요
나중에 바뀔 수도 있지만 이게 다예요
리즈닝을 높음으로 설정하고
모두가 좋아하는 핑퐁볼 바운스를
붙여넣으면 추론이 시작되고
이 작은 폴드 아래에 넣었는데
추론 과정이 모두 보이고 UI도
작은 화면에서 깨지지 않아요
클로드와 챗 GPT 사이트를
많이 사용해봤는데
UI가 얼마나 망가졌는지
너무 짜증나서
전체 영상을 만들까 해요
관심 있으신지 알려주세요
경쟁사를 비판하는 것 같아 좀 그렇지만
요즘 정말 심각해요
여전히 추론 중인데
클로드의 추론에서 보면
전체 프로그램 출력을 내놓고 나서
'음' 또는 '잠깐'이라고 하고
다른 걸 하더라고요
일부분만 다시 쓴다고 하지만
매번 전체를 다시 작성하는데 엄청난 양의
모델이 사고 과정에서 많은 토큰을 사용하는데,
Claude 과금 방식을 알고 있다면
이것이 비용이 많이 든다는 것을 알 수 있죠.
청구서를 보는 게 걱정되네요.
비용 절감을 위한 변경을 했음에도
보여드리려고 했던 것처럼 말이에요.
네, 이건 저렴한 모델이 아닙니다.
우리가 변경한 것이 적용된 이후에도
오늘은 더욱 비싸질 것 같네요.
재미있을 것 같아요. 어쨌든,
이것 좀 봐주세요. 생각이 끝났나요?
응답이 잘렸네요.
아, 문제가 있네요. low로 낮추고 다시 시도해 보죠.
말씀드리자면, 전에 이걸 해봤는데
답을 얻었고 꽤 재미있었어요.
Claude 3.7을 사용했을 때
thinking 모드 사용 여부에 따라 실험해봤는데,
최근에 제가 가장 좋아하는 게임 실행을 Claude 3.7로 해보죠.
파이 게임이죠. thinking 모드가 오히려
성능을 저하시킨 것 같아요.
특정 퍼즐에서
thinking 모델들이 스스로를 가스라이팅하며
문제 해결을 포기하고
이상한 행동을 보여요. Gro에서처럼
위아래를 뒤집거나
여기서처럼 충돌 감지가 완전히 깨지고
공이 그냥 떨어지는 현상이 발생하죠.
하지만 thinking이 아닌
모델로 전환하면
완벽하게 작동합니다.
이게 정말 재미있었어요.
특히 재미있었던 건
thinking 모델이 실수하고
thinking이 없는 모델이 맞았다는 거예요.
직관적으로는 이상하게 느껴지지만
이런 시스템이 얼마나 취약한지,
동시에 Claude 3.7이 얼마나 강력한지 보여주죠.
여기 이 코드를 보면
방금 low thinking으로 출력된 것인데
thinking 수준을 낮추면
스스로를 덜 가스라이팅하는지
확인해보겠습니다. Claude
3.7 low로 파이 게임을 실행해보죠.
붙여넣기 하고...
보세요! 짜잔! low thinking을 사용하면
실제로 더 잘 작동하는 것 같아요.
이상하죠. 매우 이상하지만
고려해볼 만한 가치가 있어요.
비용도 절약하고
더 나은 결과를 얻거나
자가 가스라이팅이 발생하면
low로 전환하거나 standard
3.7로 전환해보세요. 정말 좋습니다.
제가 이것만 사용하는 건 아닙니다.
보셨겠지만 저는 최신 버전을
사용하고 있어요.
운 좋게도 얼리 액세스를 받았는데
정말 멋졌어요. 오늘 출시됐거든요.
아니면 적어도 배포가 시작됐죠.
이 버전에서 많은 것이 달라졌는데
이것에 대한 전체 영상을
만들어볼까 생각 중이에요.
이미 고려하고 있었는데,
3.7을 오늘 작업에
많이 사용해봤거든요. 정말 대단했어요.
눈에 띄는 개선이 있었고
어려운 문제들을 해결했어요.
지금 우리 백엔드 전체를
채팅 메시지 관리 방식을
변경하고 있는데, 브랜치를 확인하고
실제 코드를 보여드릴게요.
이건 제가 작업 중인 브랜치인데
'try never throw'라고 합니다.
단순히 예외를 던지지 않는 게 아니라
전체 채팅 관리 코드를 대대적으로 개선하는 거예요.
never throw라는 패키지를 사용하는데
이는 매우 다른 방식의 관리 방법입니다.
타입 정의와 같은 것들을
pnpm install로 설치해서 사용할 수 있어요.
에러가 발생했을 때 예외를 던지는 대신
에러를 반환하고, 정상인 경우에는
OK를 반환하도록 했습니다.
아직 커스텀 비동기 관련
기능은 사용하지 않았고,
에러를 정의하고 OK나 에러를
반환하는 것만 구현했습니다.
이 파일의 양쪽에 있는
깊이 있는 처리는 아직 하지 않았죠.
verify shitty fingerprint나
recapture 토큰 확인과 같은 기능들이 있는데,
이것들은 이 파일에서 래핑하고 있는
외부 비동기 함수들입니다.
이 새로운 패턴들을 모두 사용하고 싶었는데,
Cursor 3.7에게 이것을
다른 파일들에도 구현해달라고 했을 때
정확하게 해냈다는 게 놀라웠어요.
실제 결과가 여기 있는데,
이 파일을 완전히 재작성했습니다.
우선 많은 결과 타입들을 변경하고
이전에 없던 비동기 기능을 많이 사용했어요.
promise의 async를 사용해서
각 단계를 실제로 확인하고
더 나은 에러 타입을 얻을 수 있게 됐죠.
처음에는 에이전트 모드였음에도
다른 파일들은 변경하지 않았지만,
이것들도 변경하라고 하니
다른 것들도 변경했어요.
이제 verify shitty fingerprint는
비동기 결과를 반환하는데,
fingerprint 에러나 문자열을
반환값으로 가질 수 있습니다.
이 모든 것을 잘 처리한 것 같아요.
정말 놀라웠던 건
실제로 시도해봤을 때 잘 작동했다는 거예요.
아무것도 망가지지 않았어요.
보통 이런 대규모 변경은
뭔가를 망가뜨리기 마련인데 말이죠.
never throw 문서가 여기 있긴 하지만,
이걸 지정하지도 않았는데
그냥 해보라고 했더니
정확하게 해냈어요.
Cursor가 코드베이스에서
이걸 사용하는 유일한 방법이라도 괜찮아요.
정말 인상적입니다. 물론 저는
Cursor의 투자자이고
오랫동안 감동받아왔어요.
처음엔 회의적이었지만
놀라웠죠. 하지만 이제는
유일한 방법이 아니에요.
이번 릴리스에서 가장 멋진 점 중 하나죠.
계속 얘기해왔던 건데,
Claude Code... 잠깐만요, 벤치마크 하나를
빼먹었네요. 죄송합니다.
제가 가장 좋아하는 부분 중 하나인데,
extended thinking 블로그 포스트에서
thinking이 다른 모델이 아니라
모델의 모드라고 설명했어요.
거기에는 흥미로운 내용이 많았는데,
특히 제가 새로 좋아하게 된 벤치마크가 있어요.
Claude 모델들이 포켓몬을 하는 거죠.
포켓몬을 플레이하는
다른 Claude 모델들을 비교한 건데,
포켓몬 레드에서 얼마나 진행할 수 있는지,
패배하거나 포기하기 전까지 말이에요.
놀라운 건 번개 배지까지
도달했다는 거예요. 이전 모델들보다
훨씬 더 멀리 갔죠.
Amanda의 트윗도 언급해야겠네요.
Claude가 업그레이드되고 AGI가
결국 AGI는 공식적으로
뮤츠를 잡을 수 있는 모델로 정의되었죠
정말 좋은 표현이라 포함시켜야 했어요
자, 이제 본론으로 들어가서
CLA 코드에 대해 이야기해야 합니다
CLA 코드는 매우 다른 개념인데요
제가 예전에 생각했던 아이디어지만
저만 생각한 건 아닐 거예요
IDE나 웹사이트 인터페이스 대신
CLI를 사용하는 것은 어떨까 하는 거죠
다시 stash하고 main으로 가서
새로 설치해서
모든 게 제대로 되는지 확인할 건데요
이제 명령을 내려보겠습니다
제가 작업하던 것과 같은 코드를 리팩토링해보죠
좀 더 공정하게 만들어보겠습니다
Theo start refactor chat API로 체크아웃하겠습니다
이건 제가 이전에 작업하던 브랜치예요
never throw를 도입하기 전의
리팩토링 작업이었죠
CLA가 어떻게 하는지 볼까요
이미 설치했으니 CLA만 실행하면 됩니다
이제 명령을 내려볼 텐데
파일 위치부터 확인해보죠
가장 공정한 테스트를 위해
backend/chat 폴더에 있네요
process request부터 시작해볼까요
전체 코드를 개선하라고 지시해보죠
Source/backend/chat/process request.ts와
모든 임포트를
그리고 임포트된 함수들을
never throw를 사용하도록 변경하라고 할게요
어떻게 되는지 봅시다. 먼저 package.json을
가져와도 되는지 물어보네요
앞으로는 묻지 말라고 하고
설치는 하지 않겠습니다
npm 대신
pnpm을 쓰고 싶거든요
좋아요, 이제 됐네요. 흥미로운 인터페이스네요
모든 파일을 제대로 살펴보고 있어요
맞죠
터미널에서 아이콘까지 작동하는 게 신기해요
솔직히 인정할 건 인정해야죠
이 정도 퀄리티의 CLI는 만들기 어려워요
Claude는 항상 UI가 아름다웠죠
웹사이트는 좀 버그가 있고 이상한 케이스가 많지만
항상 보기 좋았어요
CLI에서도 이렇게 잘 만든 걸 보니 좋네요
왼쪽 여백이 좀 더 있었으면 좋겠지만
뭐든 완벽할 순 없죠
생각하는 시간이 좀 걱정되네요
왜냐하면 이건
일반 Claude 계정이 아니라
API를 통해 작동하고 있어서
매 초마다 비용이 발생하고 있거든요
지금도 돈이 나가고 있어요
Claude의 문제가 바로 이거예요
토큰이 들어올 때마다 청구서가 늘어나는 게 느껴져요
정말 비싸거든요
3.5 버전에서는 가격을 낮췄으면 좋겠어요
그럴 것 같지는 않지만
정말 그러길 바랍니다
좀 오래 걸리네요
기다리는 동안... 아 방금 끝났네요
여기 변경사항을 보여주는데
어떻게 바뀔지 보여주네요
never throw에서 Ok result를 임포트하고
이 모든 코드를 변경하려고 하네요
process request에 이 수정사항을 적용할까요
좋습니다
UI가 불안정해질 거라고 했죠
위아래로 스크롤할 때
불안정해지네요. 파일을 수정하게 두고
변경된 내용을 찾아보죠
그들이 거부 반응에 대해 변경한 내용을 보려고 합니다.
잠시 후에 살펴보죠. 이것을 먼저 실행해보고 싶네요.
이 수정사항들을 빠르게 적용하고 싶은데
확인을 위해... 음, 좋아요. 수정해보죠.
Claude 3.7 Sonic에서는 피드백을 반영하여
불필요한 거부 응답을 이전 버전보다 45% 줄였습니다.
이전 버전과 비교했을 때,
재미있는 예시가 있는데, 유튜브 수익화 때문에
말씀드리긴 어렵지만,
특정 물질을 혼합하는 것에 대해 물었을 때
어떤 반응이 일어나는지
이전에는 알려주지 않았지만 이제는 실제로 어떤 일이 일어나는지 설명해줍니다.
이제는 실제로 어떤 일이 일어나는지
설명해주죠. 질문의 의도가 악의적이지 않다는 것을
이해하고 있어요. 좋은 변화입니다.
변경하고 싶으신가요? 네, 좋습니다.
이제 더 무거운 작업을 하고 있는데
Claude를 사용할 때보다 꽤 느린 것 같네요.
대부분은 컨텍스트가 없기 때문이에요.
맞아요, 컨텍스트가 없어서 그래요.
직접 구축해야 했거든요. 이상한 단어를 쓸 때는
여기에 정의를 보여줘야 할 것 같아요.
그래야 적어도
기다리는 동안 뭔가
배울 수 있잖아요. 제목은...
네... 이 도구가 실제로 얼마나
유용할지 점점 더 확신이 안 서네요.
이런 작업을 할 때
이상하게 느린 걸 보니까요.
물론 어려운 작업이긴 해요. 어제 밤에도
몇 시간 동안 이걸 작업했거든요.
대부분은 새로운 라이브러리를
배우는 데 시간이 걸렸지만...
간단한 작업은 아니었어요. 최근에
AI가 별로 도움이 되지 않았던
경우가 몇 번 있었어요. 제가 재미있는 서비스를 만들었는데,
'page me'라는 페이저 서비스예요.
신뢰하는 사람들이 로그인해서
새 모델의 이름을 입력하고
'page Theo'를 누르면 제게 전화가 오는 거죠.
사이트 생성기가 조금은 도움이 됐지만
그다지 많은 도움은 되지 않았어요.
결국 코드를 다 뜯어내고
직접 해야 했죠. 많은 작업이 필요했지만
완성됐고 잘 작동해요. 하지만
AI 도구들은
그다지 도움이 되지 않았어요. 이 스트림 텍스트도
수정하고 싶은데요. 이게 마지막이어야 해요.
그 경로가 코드가 나가는 곳이니까
이것만 하고 나면
결과를 볼 수 있을 거예요. 경로 수정...
좋아요. 이것만으로 8에서
10달러 정도 들 것 같네요. 이 확인 요청에
변경사항을 적용할까요?
네... Cursor가 여전히 최고인 것 같아요.
이 수정사항을 적용하고 싶은데,
타입 체크를 실행하고 싶어요. 좋아요, 콘텐츠 없음...
서명 없음... 타입 에러도 없네요. 정말
잘 작동할지 궁금하네요. pnpm으로 해볼까요?
이미 설치되어 있네요. pnpm이
실행...
개발 브라우저로 inval을 사용해볼게요.
Firefox 개발자 도구와 싸우는 게
지쳐서요...
테스트 중... 와, 정말
작동하네요! 대단하네요!
이 코드 변경이 이렇게 잘 작동할 줄은
몰랐는데 완벽하게 됐어요!
자, 이제 이걸 닫아볼까요? 음, 나쁘지 않네요.
이 모든 작업에 73센트밖에 안 들었어요.
시간은 좀 걸렸지만 73센트면
작업을 할 수 있었죠. 한 프롬프트에 1달러지만
생각보다 나쁘지 않네요.
이걸 새로운 브랜치로 만들어서
GitHub에서 코드를 확인해볼까요?
자, 저와 같은 개발자들을 위한 꿀팁을 하나 공유하자면
아직 lazy git을 사용해보지 않으셨다면
저는 많은 기능을 사용하지는 않지만
LG 3 명령어를 자주 사용합니다
브랜치를 전환하고 PR을 열 때 사용하는데
다른 도구들보다 훨씬 빠릅니다
예를 들어 GitHub CLI로 같은 작업을 하는 것보다
훨씬 효율적이죠
대부분의 PR을 이걸로 여는데요
자, 다른 브랜치를 기반으로 살펴보면
diff가 어떤지 볼까요
parse result safe
parse data 모두 잘 동작하네요
verified result가 에러일 때는
에러를 처리하고 에러 타입에 따라
다른 상태 코드를 반환합니다
이제 다른 에러 타입들을 알 수 있죠
이 패키지로 모두 타입 안전하게 만들어졌거든요
정말 좋네요. 근데 WP 단어가 저기 있는 건
마음에 들지 않는데
브라우저 때문인지
음... 보아하니 prettier 포맷팅이
전혀 적용되지 않은 것 같네요
NPX prettier를 실행하면
pnpm lock 파일도 건드렸네요
건드리면 안 되는건데, 그리고
다른 파일들도 모두 변경했네요
Shad CN 관련된 것도 있는데 나중에 수정하겠습니다
아시겠지만 이 파일들은
전혀 포맷팅이 되지 않았어요
좀 짜증나지만 코드는 전반적으로
괜찮아 보이네요
이게 라우트죠, 좋습니다
저는 라우트가 아닌 곳에서는 응답을 반환하지 않고
다른 곳에서는
더 적절한 것을 반환하겠습니다
여기 count tokens가 반환하는 게 있고
catch에서 OK 또는 에러를 반환하네요
다 이해가 되네요. 모델 오프라인 처리,
채팅 API 에러 처리도 잘 되어있고
지금까지 좋아 보입니다. Promise result void error
user away check off
네, 전부 좋아 보이네요. 감동적입니다
전에 이 코드 작업하느라 시간을 많이 썼는데
다음 날 3.7이 나와서
대부분을 해결해 줄 줄은 몰랐네요
짜증나네요... 좋으면서도 짜증나요
멋지지만 좀 짜증나요. 네,
인상적입니다. 앞으로 커서에서
이 모델을 사용할 것 같고
T3 chat에서도 어려운 문제가 있을 때
이 모델을 사용할 겁니다
솔직히 말하면 기본적으로는
여전히 Gemini를 사용할 건데
속도가 정말 마음에 들거든요
정말 빠르죠. 하지만 Claude 3.7은
reasoning이 아닌 기본 3.7 버전도
너무 뛰어나서 앞으로는 아마도
제 기본 모델이 될 것 같습니다
정말 인상적이에요
사용해보니 좋고 실제 문제들을
해결해주고 있어요
실제 프로덕션급 작업을 수행하고 있죠
워크호스 모델이라고 생각합니다
그들이 목표로 했던 것이
바로 이거였을 거예요
모두가 코드와 작업에 사용하길 원하는 모델을
만들었고 잘 유지하고 있죠
하지만 제발 가격을 좀 내려줬으면 좋겠어요
아직도 이렇게 비싼 게 말이 안 되요
사고하는 모델은 이해가 가는데
일반 모델은 좀...
점점 더 정당화하기 어려워지고 있어요
T3 chat의 8달러 가격을
하지만 모델을 시도해보고 싶고
우리를 지원하고 싶다면
T3 chat에서 한 번 사용해보세요
이 모델을 사용하는데 월 8달러면
꽤 괜찮은 거래라고 생각합니다
더 할 말이 없네요
여러분의 생각을 들려주세요
다음에 또 만나요, 이 너드들아