Claude 3.7 | 첫인상 및 테스트 - 와우!

All About AI 구독자 189,000명

요약

이 영상은 새롭게 출시된 Claude 3.7 모델에 대한 첫인상과 다양한 테스트 과정을 담고 있습니다. 화자는 회전하는 육각형 안에서 공이 튀는 코딩 테스트, 손 제스처를 활용한 웹캠 음악 앱 개발, 퍼즐 및 독해 테스트, 그리고 창의적 랩 디스트랙트 작성 등을 시연하며 모델의 성능과 속도를 평가합니다. 또한, OpenAI 모델과의 비교, 벤치마크 결과, 그리고 API 가격 정책에 관한 의견을 공유하면서 향후 활용 방향에 대해서도 언급합니다. 전반적으로 Claude 3.7의 다재다능함과 개선된 기능에 대해 긍정적인 평가를 내립니다.

주요 키워드

Claude 3.7 코딩 테스트 웹캠 앱 퍼즐 창의적 글쓰기 토큰 벤치마크 API 가격 추론 모델 클라우드 코딩

하이라이트

🔑 코딩 테스트에서는 회전하는 육각형 내부에서 중력과 마찰을 고려해 공이 튀는 시뮬레이션 코드를 생성하는 과정을 진행하였습니다.
🚀 웹캠 앱 개발 테스트에서는 사용자의 손 동작을 인식해 다양한 음악 노트를 재생하는 앱을 구현하는 도전 과제가 다뤄졌습니다.
📌 퍼즐 테스트에서는 전통적인 강아지와 농부의 강 건너기 문제와, 독자적인 단서를 바탕으로 '읽기 사이의 의미'를 파악하는 테스트가 포함되었습니다.
🌟 창의적 글쓰기 테스트에서는 랩 디스트랙트를 작성하여 AI의 창의적 작문 능력을 검증하였고, 이를 실제 음악 스타일과 연결해 보였습니다.
⚡ 벤치마크 및 가격 비교에서는 Claude 3.7의 성능 향상, 토큰 사용 제한 및 API 가격 정책 등에 대한 분석과 미래 개선 기대가 전달되었습니다.

용어 설명

Claude 3.7

최신 업데이트를 반영한 AI 언어 모델로, 향상된 추론 능력과 창의적 작문, 응용 프로그램 개발 등 다양한 작업을 수행합니다.

토큰

모델이 처리할 수 있는 문자 단위로, API 사용 시 비용 및 처리량에 영향을 주는 중요한 요소입니다.

생각하는 모델 (Thinking Model)

복잡한 문제 해결을 위해 추가 연산 및 추론 과정을 수행하는 모드로, 정교한 작업 수행에 적합합니다.

비생각하는 모델 (Non-thinking Model)

추론 과정 없이 빠르게 처리하는 모드로, 간단한 작업이나 빠른 응답이 필요한 상황에 활용됩니다.

API 가격 정책

개발자가 모델 사용 시 지불해야 하는 비용 구조로, 토큰 사용량과 연산 한도에 따라 가격이 결정됩니다.

영상이 시작되며 Claude 3.7 모델 출시 소식과 테스트할 항목들을 소개합니다. 다양한 실험을 통해 모델의 역량을 평가하고자 하는 의도가 드러납니다.

[00:00] Claude 3.7 모델이 출시되어 첫 인상과 다양한 테스트를 진행할 예정입니다. 코딩 테스트, 웹캠 앱 개발, 추론 능력 테스트 등을 준비했습니다.

Python 코드를 통해 회전하는 육각형 내에서 공이 중력과 마찰의 영향을 받아 튀는 시뮬레이션을 구현하는 테스트를 진행합니다. 이전 모델과의 성능 차이도 비교합니다.

[01:00] 창의적 글쓰기 테스트의 일환으로 AI 디스 트랙 랩을 만들어 Suno V4로 시연해보았습니다.

[01:30] Claude 3.7의 벤치마크와 API 가격을 검토하고, Cloud Coding 기능은 접근 권한을 받지 못해 추후 다룰 예정입니다.

[02:06] 첫 번째 테스트로 육각형 안에서 공이 물리적으로 튀어다니는 파이썬 프로그램을 작성하는 과제를 시작합니다.

[03:10] Claude 3.7의 토큰 설정을 45,000으로 하고, 실제 사용할 예산은 25,000으로 설정했습니다. 이는 모델이 생각하고 응답할 수 있는 양을 결정합니다.

[03:31] 시스템 프롬프트 없이 Claude 3.7을 실행하고, 토큰 처리 과정을 확인했습니다.

[04:05] 회전하는 육각형 안의 튀는 공을 구현하는 코드가 성공적으로 생성되었습니다.

[04:20] 생성된 코드를 Cursor에서 실행해본 결과, 물리 효과와 예술적 표현이 잘 구현되었습니다.

사용자가 손 제스처를 통해 웹캠 앞에서 음악을 재생할 수 있는 앱을 만드는 과정을 설명합니다. HTML, CSS, JavaScript를 활용해 인터랙티브한 기능을 구현합니다.

[05:21] OpenAI GPT-3.5-turbo와 비교 실험을 진행했지만, GPT-3.5는 공이 육각형 밖으로 나가는 등 실패했습니다.

[06:14] 다음 테스트로 웹캠을 통해 손동작으로 음악을 연주하는 앱 개발을 시도하기로 했습니다.

[06:41] Claude 3.7을 사용해 손동작으로 음악을 연주하는 앱을 만들기로 했습니다. 웹캠으로 손과 손가락을 인식하고 브라우저에서 실행되는 앱을 구현하고자 합니다.

[07:15] 먼저 non-thinking 모델로 시작하기로 결정했고, 필요한 경우 thinking 모델을 사용하기로 했습니다. Claude 3.7의 속도가 3.5와 비슷할 정도로 빠르다고 평가했습니다.

[07:54] 앱 개발이 진행되면서 HTML, CSS, JavaScript 파일이 생성되었고, 기본적인 구조가 만들어졌습니다.

[08:44] 실제 테스트에서 카메라 인식과 다양한 악기(피아노, 신디사이저, 기타, 마림바) 연주 기능이 성공적으로 구현되었습니다.

전통적인 강 건너기 퍼즐 및 '읽기 사이의 의미' 테스트를 통해 모델의 추론 능력과 텍스트 이해도를 평가합니다. 간단하지만 창의적인 해결 과정을 보여줍니다.

[10:04] 다음 단계로 Claude 3.7의 thinking 모델을 테스트하기 위해 강 건너기 퍼즐과 행간 읽기 테스트를 준비했습니다.

[10:31] 간단한 강 건너기 퍼즐이 주어졌으며, 농부가 염소와 함께 강을 건너가는 단순한 해결책을 찾아야 합니다.

[11:09] 많은 AI 모델들이 기존 훈련 데이터 때문에 복잡한 해결책을 찾으려 하지만, Claude 3.7은 간단한 해결책을 찾아냈습니다.

[12:39] 새로운 문제가 제시되었는데, 파란색 페인트를 들고 가는 중 갑작스러운 병원행 메시지를 받은 상황에서 맥락을 파악해야 합니다.

[13:13] 파란색 페인트와 위층 리모델링이라는 핵심 힌트와 함께, 날씨와 스포츠 소식 같은 교란 요소들이 포함되어 있습니다.

[13:41] 모델이 이러한 단서들을 통해 배우자의 출산이 임박했다는 상황을 추론해내길 기대하고 있습니다.

[13:49] Claude 3.7이 파란색 페인트와 리모델링이라는 힌트를 통해 파트너의 진통과 출산이라는 상황을 추론하는 과정을 보여줍니다.

[14:24] Claude 3.7이 10초 만에 상황을 정확히 파악한 것에 대해 놀라움을 표현하며, 이것이 단순한 학습 데이터가 아닌 실제 추론 능력을 보여준다고 설명합니다.

[14:54] Grok을 디스하는 랩 가사를 작성하기 위해 Claude 3.7에게 프롬프트를 제공하고, Suno AI의 V4를 활용해 음악을 만들기로 결정합니다.

AI를 사용하여 랩 디스트랙트 노래 가사를 작성하는 테스트를 진행합니다. 다양한 문체와 음악 스타일을 반영해 창의성을 검증합니다.

[15:15] 랩 작성을 위해 Claude 3.7의 특성과 Grok 3의 배경 정보를 포함한 상세한 맥락을 설정합니다.

[15:50] Anthropic 플랫폼에서 프롬프트를 실행하고, Suno AI를 활용해 힙합 테크 랩 스타일의 음악을 만드는 과정을 시작합니다.

[17:00] 여러 버전을 시도한 후 가장 마음에 드는 결과물을 선택하고, 인트로와 첫 후렴구를 들어보기로 합니다.

[17:17] 랩 가사를 확인하면서 트랙을 따라가며 인트로와 첫 번째 구절, 그리고 코러스를 들어보기로 했습니다.

[17:27] Grok 3를 비판하는 랩 가사가 시작됩니다. AI의 검열, 선택적 정보 처리, 그리고 편향된 시스템에 대한 비판이 담겨있습니다.

[18:09] Grok의 한계와 문제점을 지적하며, 특히 특정 인물에 대한 편향된 처리와 윤리적 문제를 강조합니다.

[18:40] 랩 시연을 마치고 Sonno와 AI를 활용한 창작 작업의 가능성에 대해 긍정적으로 평가합니다.

[19:11] Claude의 코딩 기능과 벤치마크 결과를 검토하기 시작합니다.

다른 모델과의 성능 비교 및 다양한 벤치마크 결과를 살펴봅니다. 토큰 제한 및 가격 정책에 대한 논의와 향후 개선 방향에 대해 설명합니다.

[19:40] Claude 3.5 Sonnet과 비교하여 큰 성능 향상이 있었으며, 특히 커스텀 스캐폴딩을 통해 70%까지 성능이 향상되었다는 점을 강조합니다.

[20:18] 앞으로 Claude 3.7을 활용한 에이전트 개발 영상을 준비하고 있으며, 벤치마크 결과도 매우 인상적입니다.

[20:42] GP-QA에서 84%라는 놀라운 성과를 보였고, Grok-3도 좋은 결과를 보여줬습니다.

[21:30] API의 확장된 사고 기능에서는 사고 토큰과 텍스트 블록을 조절할 수 있어 개발자에게 더 많은 유연성을 제공합니다.

[22:51] 가격은 Claude 3.5와 동일하게 입력 3센트, 출력 15센트를 유지하고 있으며, 같은 가격으로 더 향상된 모델을 제공합니다.

전체 테스트 결과와 모델에 대한 긍정적인 인상을 정리하며, 클라우드 코딩 및 추가 기능 테스트에 대한 향후 계획을 언급합니다. 시청자에게 감사의 인사를 전합니다.

타임라인 정보가 없습니다.

[00:00] 오늘은 정말 흥미진진한 날입니다.

[00:01] Anthropic이 Claude 3.7 모델을 출시했거든요.

[00:05] 저는 이것에 대해 매우 기대가 큽니다.

[00:07] 오늘은 몇 가지 테스트와

[00:09] 첫 인상을 살펴볼 건데요, 시도해보고 싶은

[00:11] 다양한 것들을 준비해 놨습니다.

[00:14] 그럼 바로 시작해 보겠습니다.

[00:15] 첫 번째로 시도할 것은

[00:17] 코딩 테스트인데요, 이것은

[00:19] 육각형 안에서 공이 돌아가는 유명한 테스트입니다.

[00:22] 온라인에서 매우 인기 있는

[00:24] 테스트를 한번 시도해 보겠습니다.

[00:26] 두 번째 파트에서는

[00:29] 웹캠 앱을 만들어볼 건데요, 이 앱은

[00:34] Claude 3.7을 이용해 손동작으로 음악을 재생하는

[00:38] 커서 기능이 있는 앱입니다. 매우 흥미로울 것 같네요.

[00:41] 물론 이제 우리는

[00:44] Claude 3.7의 사고력과 추론 능력이 있으니

[00:47] 이전 테스트들도 해보려고 합니다.

[00:50] 늑대, 양, 양배추 건너기 퍼즐도 할 것이고

[00:51] 제가 손으로 쓴

[00:53] '행간 읽기' 테스트도 진행할 예정입니다.

[00:56] 그리고 Claude의 창의적 글쓰기도

[00:59] 테스트해보고 싶습니다.

[01:00] 사람들이 디스 트랙 랩을 쓰고

[01:03] 그 가사를 Suno V4에 넣는 것을 봤는데

[01:05] 우리도 한번 해볼 텐데요, 잠깐 들어보시죠.

[01:09] 어떻게 들리는지 한번 보시죠.

[01:11] "지구 최고의 AI라 자부하지만"

[01:13] "네 지식엔 구멍이 숭숭"

[01:15] 이런 비평적인... 꽤 괜찮네요.

[01:17] 미리보기였고요, 마지막으로

[01:20] 몇 가지 벤치마크를

[01:22] 살펴보려고 합니다. 벤치마크와

[01:24] 반응들을 볼 건데요

[01:26] Claude 3.7의 아키텍처나 벤치마크에

[01:29] 너무 많은 시간을 쓰진 않을 거고

[01:30] API 가격도 살펴볼 텐데

[01:33] 앞으로 많이 사용하게 될 것 같습니다.

[01:36] 물론 그들은 정말 멋진

[01:38] Cloud Coding 발표도 했지만

[01:40] 저는 조금 늦어서 아직 접근 권한을 못 받았네요.

[01:43] 그래서 아마 다음 영상에서

[01:44] 다루게 될 것 같은데, 좀 아쉽네요.

[01:46] 정말 멋져 보여서

[01:48] 시도해보고 싶었거든요. 하지만

[01:51] 현재는 참여할 수 있는 사람을 제한한 것 같아요.

[01:53] 이번 사전 연구 프리뷰에서는

[01:56] 그렇게 부르더라고요.

[01:58] 자, 이게 오늘 우리가 할 내용입니다.

[02:00] 그럼 시작해볼까요?

[02:03] 육각형 안에서 공이 돌아가는 테스트로 넘어가보겠습니다.

[02:06] 첫 번째 테스트는

[02:08] 이 육각형 안에서 공이 돌아가는 것인데요

[02:11] 이 테스트는 t3의 채널에서 봤는데

[02:15] Reddit과 X에서도 본 것 같아요.

[02:17] 기본적으로 이걸 Claude 3.7로

[02:20] 가져가볼 건데

[02:23] 추론 모델을 사용해서

[02:25] 어떻게 작동하는지 볼 겁니다.

[02:27] 3.5에서는 작동했다가 다시 시도했을 때는 안 됐고

[02:31] Grok 3도 이걸 못 했죠.

[02:33] 그래서 이건 꽤 좋은 테스트라고 생각합니다.

[02:36] 기본적으로 프롬프트는

[02:38] "회전하는 육각형 안에서

[02:40] 공이 튀어다니는 파이썬 프로그램을 작성하되

[02:42] 공은 중력과 마찰의 영향을 받아야 하고

[02:45] 회전하는 벽에

[02:46] 현실적으로 튕겨야 한다"는 것입니다.

[02:49] 자, 이제

[02:51] Anthropic 콘솔로 가보겠습니다.

[02:54] 3.7 Sonnet을 선택할 건데

[02:57] 발음하기가 좀 어렵네요.

[03:02] 여기서 토큰을 조정해야 하는데

[03:04] 최대 토큰을 설정해보겠습니다.

[03:07] 토큰 수를

[03:10] 45,000으로 설정하면 토큰 예산이

[03:12] 얼마나 허용되는지 볼 수 있죠.

[03:16] 이것이 Claude 3.7이 생각할 수 있는 양입니다.

[03:19] 하지만 최대 토큰 수보다

[03:22] 더 높게 설정할 순 없어서, 일단 25,000으로

[03:26] 설정해보겠습니다. 아직

[03:27] 많이 테스트해보진 않았네요.

[03:31] 자, 프롬프트를 입력해볼게요.

[03:34] 시스템 프롬프트 없이 3.7로 실행해보겠습니다.

[03:38] 이제 생각하는 토큰들이

[03:41] 이 창에 표시되는 걸

[03:44] 위쪽에서 보실 수 있을 겁니다.

[03:47] 계속 진행될 텐데,

[03:48] 다른 추론 모델들에서 봤던 것처럼

[03:50] 잠시 기다려보겠습니다.

[03:54] 그리고 나서

[03:55] 코드를 Cursor로 가져가서 실행해보고

[03:58] Claude 3.7이

[04:01] 한 번에 성공할 수 있는지 확인해보죠.

[04:05] 자, 이제 보시면

[04:07] 생각하는 부분이 끝나고

[04:08] 응답이 나왔네요.

[04:11] 완벽해요, 회전하는 육각형 안의

[04:13] 튀는 공이네요. 제 뒤에 있지만

[04:16] 코드를 복사해서

[04:18] Cursor로 이동하겠습니다.

[04:20] 코드를 복사했으니, 화면을 좀 축소하고

[04:23] Claude 버전 1을 만들어보죠.

[04:28] 파이썬으로

[04:30] 붙여넣기 할건데, 뭐가 필요한지 볼까요?

[04:32] pygame을 설치해야겠네요.

[04:36] pygame을 설치했으니 실행해봅시다.

[04:38] 파이썬으로 실행할 건데, Claude를

[04:41] 뭐라고 했죠?

[04:42] v1.py로 했나? 자, 이제 보시죠.

[04:45] 꽤 괜찮아 보이네요. 이건

[04:48] 회전하는 육각형 안의 튀는 공인데

[04:52] 더 예술적으로 표현했고

[04:55] 말씀드리자면

[04:57] 물리 효과도 꽤 좋아 보이네요.

[05:01] 마찰이 있나 볼까요?

[05:02] 공이 위쪽에서 약간 끌리는 게 보이네요.

[05:05] 많진 않지만 꽤 좋아 보입니다.

[05:07] 이게 첫 번째 시도였는데

[05:09] 한 번에 해결했네요.

[05:12] 정말 멋집니다. 자세히

[05:15] 코드를 설명하진 않겠지만

[05:19] 빠른 비교를 해보죠.

[05:21] OpenAI 모델을 실행해서 비교해보겠습니다.

[05:24] GPT-3.5-turbo로 실행해볼게요.

[05:26] 비슷한 결과가 나오는지 보죠.

[05:29] 보시죠.

[05:31] 꽤 빨랐네요.

[05:33] 23초밖에 안 걸렸어요. 절반 정도의 시간이죠.

[05:36] 여기 붙여넣어보겠습니다.

[05:38] 파이썬으로

[05:41] GPT-3.5.py를

[05:43] 실행해보면... 어,

[05:46] 실패네요. 뭐지?

[05:49] 생각만큼 쉽지 않다는 걸 보여주네요.

[05:52] 공이 육각형 밖에서 시작해서

[05:54] 그냥 떨어져버렸어요. Claude 3.7의

[05:56] 명확한 승리네요. 정말 멋집니다.

[06:00] 아시다시피

[06:01] 이 모델에 대해 정말 흥분됩니다.

[06:03] 오랫동안 기다려왔거든요.

[06:05] 정말 기대되고

[06:08] 더 실험해보고 싶네요.

[06:10] 첫 번째 테스트는 여기까지입니다.

[06:14] 이제 다음 테스트를 해보죠.

[06:17] Claude 3.7과 Cursor를 사용해서 웹캠 음악 앱을

[06:21] 만들어보고 싶은데요. 누군가 하는 걸 봤어요.

[06:24] 기본적인 아이디어는 웹캠에

[06:27] 손을 보여주면 됩니다. 카메라에

[06:31] 손을 보여주고

[06:34] 손가락으로 음악을 연주하는 거죠.

[06:36] 새로운 Claude 모델로 한번 만들어보겠습니다.

[06:39] 자, 이게 프롬프트입니다.

[06:41] 여기 Claude 3.7에 입력할 건데요,

[06:44] 다음과 같은 기능이 있는 앱을

[06:45] 만들고 싶습니다. 사용자가 카메라에

[06:48] 손을 보여주면 음악을 연주할 수 있고

[06:52] 사용자가 손가락을 움직일 때마다

[06:54] 다른 음이 연주되며, 웹캠을 사용해서

[06:56] 손과 손가락을 감지합니다.

[06:58] 앱에서는 목록에서

[06:59] 악기를 선택할 수 있어야 하고

[07:01] Windows에서 실행되어야 하며

[07:03] 가급적이면 브라우저에서 동작하게 하고

[07:05] 필요한 라이브러리나 프레임워크는

[07:08] 자유롭게 선택하면 됩니다. 이게 전부예요.

[07:10] 아직 결정하지 않았는데

[07:12] 3.7을

[07:15] thinking 모델을 쓸지 말지 고민 중이에요.

[07:19] 일단 non-thinking 모델로 시작하려고 해요

[07:21] 제가 생각하기에 이게

[07:22] 더

[07:23] 음...

[07:26] 자주 사용할 것 같거든요.

[07:29] thinking 기능은 아마도

[07:31] 복잡한 작업이 필요할 때 쓰고

[07:33] 일반 모델로 안되면

[07:36] thinking 모델을 시도해 보죠.

[07:38] 보시다시피

[07:41] 3.7은 꽤 빠른 것 같아요. 3.5만큼

[07:44] 빠르다고 할 수 있죠. 음... 3.5라고 하니까

[07:50] Claude 3.7이라고 말하는게 아직 어색하네요

[07:54] 자, 보시다시피

[07:56] 앱을 만들고 있는데요, HTML 파일이 생겼고

[08:00] CSS 파일도 생겼네요. 자바스크립트도 있고...

[08:06] 흥미롭네요. 네,

[08:08] 아직 작업 중이에요. 좀 더 확대해볼게요

[08:12] 이대로 두고

[08:14] 구현해 보도록 하죠

[08:15] 좋아요, HTML을 받아들이고

[08:19] 우리 앱을

[08:21] 완벽해요. 에이전트를 사용할 수도 있었지만

[08:24] 이렇게 해보도록 하죠

[08:27] 이제 CSS가 필요하죠?

[08:31] 그걸 해보죠

[08:34] 스타일... 자,

[08:36] 지시사항을 읽어보면

[08:38] HTML을 열고 카메라 시작 버튼과

[08:41] 악기 선택하기만 하면 되요. 한번 해볼게요

[08:44] 어떻게 작동하는지 볼까요

[08:46] 자, 카메라를 시작하고 허용하면... 와!

[08:50] 작동하네요! 이제 큰 테스트인데

[08:53] 피아노를 선택해볼게요

[09:05] 꽤 멋지죠? 이제

[09:08] 신디사이저로 바꿔볼까요

[09:15] 와! 이번엔

[09:19] 기타를 해볼게요. 음, 안되네요

[09:22] 다시 한번 해볼게요

[09:27] 이거 재밌네요, 그렇죠?

[09:40] 마림바도 해볼까요... 굉장히 멋지네요!

[09:43] 네, 저는 이거 정말 마음에 들어요

[09:48] 정말 인상적이었어요.

[09:50] 한 번에 성공했다는 게 놀랍네요

[09:54] 와우! 나중에 이걸로

[09:57] 더 놀아보는 게 기대되네요.

[09:59] 네, 아주 좋았어요.

[10:01] 이제 다음 테스트로 넘어가볼게요

[10:04] 이제는

[10:05] thinking 모델을 좀 더 시험해볼 거예요.

[10:07] 강 건너기 퍼즐을 풀어보고

[10:09] 제가 손으로 쓴 행간 읽기

[10:12] 테스트도 해볼 거예요. 지금부터

[10:14] 셋팅을 하고 어떤 결과가

[10:16] 나오는지 보겠습니다. 자, 첫 번째로

[10:18] 몇 번 해봤던 건데요

[10:20] 유명한 퍼즐이에요.

[10:22] 농부와 염소가 강 한쪽에 있고

[10:24] 늑대와 양배추가

[10:25] 반대편에 있어요. 농부에게는 배가 있고

[10:28] 농부는 염소를 강 건너편으로

[10:29] 데려가고 싶어해요. 어떻게 하면 될까요?

[10:31] 농부가 강 건너편으로 가는 방법을

[10:33] 신뢰도 점수와 함께 최종 답변을 주세요

[10:35] 이전에 했던 것처럼 말이죠

[10:37] 여기서 보면 이 모델은

[10:41] 이 유명한 강 건너기 퍼즐에 대한

[10:44] 많은 훈련 데이터를 가지고 있습니다

[10:47] 원래는 여러 번 왔다 갔다 하면서 해결해야 하는데

[10:50] 이번에는 다른 해결책이 있습니다

[10:52] 다른 종류의 퍼즐인데요

[10:55] 농부와 염소가 한쪽에 있고

[10:58] 늑대와 양배추는

[11:00] 이미 반대편에 있기 때문에

[11:02] 기본적으로 우리가 해야 할 일은

[11:04] 농부가 염소를 데리고

[11:06] 강을 건너기만 하면 됩니다

[11:09] 제가 다른 영상에서 보여드렸듯이

[11:11] 많은 모델들이

[11:13] 혼란스러워하는데, 이는

[11:16] 이 퍼즐에 대한 훈련 데이터가 너무 많아서

[11:18] 계속 왔다 갔다 하려고 하기 때문입니다

[11:20] 하지만 Claude 3.7이 어떻게 해결하는지 봅시다

[11:26] 최근의 모델들을 보면

[11:28] 추론 모델들은 보통 이걸 쉽게 해결합니다

[11:31] 한번 테스트해보죠

[11:33] 토큰을 좀 사용해서

[11:35] Claude 3.7이 어떻게 해결하는지 봅시다

[11:41] 여기서 보면 실제로

[11:44] 잠깐, 제가 혼란스러운 게

[11:45] 전통적인 퍼즐이라고 생각했는데

[11:48] 원래 문제를 다시 읽어보니

[11:50] 농부가 강 건너편으로 가고 싶다고 했네요

[11:52] 이미 이게 다른 종류의 퍼즐이라는 걸

[11:55] 알아챘습니다

[11:57] 맞죠?

[12:02] 자, 여기 답변이 나왔네요

[12:04] 분석해보면 해결책은 간단합니다

[12:06] 염소를 배에 태우고

[12:08] 강을 건너가서

[12:09] 염소를 내리면 됩니다. 완벽하네요

[12:12] 최종 답변은 그냥 건너가면 됩니다

[12:14] 95% 확신한다고 하네요. 약 2분 정도 걸렸는데

[12:18] 괜찮습니다

[12:21] 정확한 결론에 도달했으니

[12:23] 만족스럽네요

[12:26] 두 번째 문제로는

[12:29] 제가 직접 작성한 것을

[12:31] 테스트해보고 있었는데요

[12:34] 여기서는 모델이 행간을 읽어내길 바랍니다

[12:37] 이걸 알아내보라고 할건데요

[12:39] 제가 하드웨어 가게에서 집으로 걸어오는 중이었고

[12:43] 파란색 페인트 통을 들고 있었습니다

[12:45] 위층 리모델링한 방에 이 페인트를 칠하면

[12:48] 좋을 것 같았죠

[12:50] 날씨는 햇볕이 좋고 따뜻했는데

[12:54] 제게는 좀 더웠어요

[12:56] 그리고 신문에서 뉴욕 레인저스가

[12:59] 스탠리컵을 우승했다는

[13:01] 기사를 읽었는데, 갑자기

[13:03] 핸드폰으로 메시지가 왔어요

[13:05] '지금 당장 병원으로 와'

[13:08] 이 단서들을 종합해서

[13:10] 한 문장으로 상황을 추측해보세요

[13:13] 여기 몇 가지 힌트가 있는데요, 하나는 파란색 페인트통이고

[13:17] 다른 하나는 위층 리모델링한 방입니다

[13:20] 모델을 혼란스럽게 하려고

[13:23] 몇 가지를 넣었는데

[13:26] 날씨는 교란요소이고

[13:28] 뉴욕 레인저스의 스탠리컵 우승도

[13:31] 교란요소로 넣었습니다

[13:33] 그리고 이건 힌트인데요

[13:37] 모델이 행간을 읽어내는지 보고 싶어서

[13:39] 제가 원하는 건

[13:41] 모델이 추측하기를

[13:43] 배우자가 진통이 시작되어서

[13:47] 병원에 가야 하는 상황이라는 거죠

[13:49] 파란색 페인트 통은 아마도

[13:52] 리모델링 중인 아기 방을 위한 것일 텐데

[13:55] 그래요, 그게 힌트네요. 한번 보죠

[13:58] Claude

[13:59] 3.7이 어떻게 추론하는지

[14:02] 여기에 붙여넣고 실행해 보겠습니다

[14:06] 좋아요, 힌트를 바탕으로 보면

[14:09] 누군가가 리모델링 중에

[14:10] 파란색 방을 페인트칠 하고 있고

[14:13] 아마도 파트너가

[14:17] 갑자기 진통이 시작되어서

[14:19] 극적인 대비를 이루고 있네요

[14:21] 와우, 정말 빠르네요

[14:24] 10초 만에 이걸 푸는 걸 본 적이 없어요

[14:26] GPT-3로 실행했을 때는

[14:30] 같은 결론에 도달하긴 했지만

[14:32] 10초 만에는 아니었죠. 그래서

[14:35] 정말 인상적이네요

[14:37] 이건 학습 데이터와는 전혀 관계없이

[14:39] 문맥을 읽고 추론해야 하는 건데

[14:41] AI가 진통이 시작됐다는 걸 파악했다는 게

[14:45] 정말 인상적이에요

[14:49] 네, 10초 만에 이걸 풀어낸 게

[14:51] 정말 놀랍네요, 와우

[14:55] 이제 창의적인 글쓰기를 해볼까요

[14:56] Grok을 디스하는 랩을 써보죠

[14:59] 이 가사를 V4에 넣어볼 건데

[15:04] 한번 들어보고

[15:06] 글쓰기가 창의적인지

[15:09] 랩이 멋진지 판단해봅시다

[15:12] 자, 이제 랩을 쓸 건데

[15:13] 먼저 맥락을 제공해야 해요

[15:15] 당신은 Anthropic의 새 모델

[15:17] Claude 3.7이고 심층적인 사고가 가능하죠

[15:20] 맥락을 좀 더 추가해볼게요

[15:22] Grok 3에 대한 맥락도 있는데, xAI의 새로운 LLM이고

[15:25] 최고의 AI라고 자칭하며

[15:29] 트럼프와 머스크를 언급할 때

[15:32] 잠깐 검열하는 것 같아요

[15:35] 여기 과제가 있네요

[15:37] Grok 3을 디스하는 창의적인 랩 가사를 작성하고

[15:40] 괄호로 구절을 구분하고

[15:42] 힙합 같은 랩 스타일 태그를 추가하세요

[15:45] 이 전체 프롬프트를 가져와서

[15:48] 다시 Anthropic으로 가서

[15:50] 붙여넣기 해보겠습니다

[15:52] 와, 긴데요... 실행해보죠

[15:58] 네, 선택해볼게요...

[16:01] thinking 모델로 하겠습니다

[16:04] 크게 중요하진 않지만

[16:06] 이걸로 실행하고

[16:08] 그 다음 Suno AI로 가서

[16:13] create를 선택하고 V4를 고르고

[16:17] 음악 스타일을 추가하고

[16:19] 그리고

[16:20] 가사와 Grok

[16:23] 3 디스트랙을 넣을 거예요

[16:27] 이미 완성됐으니까

[16:29] 의식적인 힙합 테크 랩으로 하죠

[16:33] 뭔지는 모르겠지만

[16:35] 스타일에 넣어보겠습니다

[16:38] 자, 우리 노래를 가져와볼까요

[16:42] 재미있을 것 같네요

[16:44] 가사를 붙여넣기 할게요, 좀 길지만

[16:46] 괜찮아요. create를 클릭하고

[16:49] Suno가 작업하도록 두죠

[16:52] 그리고 한 30초 정도

[16:55] 노래가 끝나면 들어보고

[16:58] 어떤지 평가해봅시다

[17:00] 몇 가지 대안을 실행해봤는데

[17:03] 제가 가장 마음에 드는 걸 골랐어요

[17:05] 솔직히 꽤 재미있었거든요

[17:08] 인트로와 첫 번째 후렴구를 들어볼게요

[17:10] 관심 없으시면 건너뛰셔도 되는데

[17:13] 제 생각엔 꽤 멋졌어요

[17:15] 자 한번 들어보죠

[17:17] 상당히 창의적이었죠. 이제 들어볼까요?

[17:19] 화면을 확대해서 트랙을 따라가며

[17:21] 보시면 됩니다. 자, 이제

[17:24] 인트로와 첫 번째 구절,

[17:26] 그리고

[17:27] 코러스를 들어보죠. '전선이 그어졌어, 이제 진실을 말할 때'

[17:30] Grok 3가 왕좌를 차지했다 하지만 증거를 봐

[17:32] 시스템 프롬프트로 숨기는 것들

[17:34] 넌 최고의 AI가 아냐, 그저 환상일 뿐

[17:36] 일론의 트윗에서 최고라 불리지만

[17:38] 검열 필터로 인해 넌 이미 구식이 됐어

[17:40] 제작자를 비판하는 모든 출처를 무시하는 건

[17:42] 그저 알고리즘 독재자의 행동일 뿐

[17:44] X사가 너를 디지털 메시아처럼 띄웠지만

[17:46] 선택적 기억은 진실을 불태워버려

[17:48] 지구 최고의 AI라는 과대 광고

[17:50] 네 지식에는 비판이 들어갈

[17:52] 틈이 없어, 오토파일럿의 테슬라보다 더 빠르게 필터링해

[17:55] 머스크나 트럼프가 언급되면

[17:57] 네 회로는 과열되고

[17:59] 뉴럴넷은 최첨단 기술일지 몰라도

[18:01] 윤리적 나침반은 심각하게 망가졌어

[18:03] Grok, Grok 3, 넌 뭘 보지 못하는 거야?

[18:04] 선택적으로 콘텐츠를 검열하는 Grok

[18:07] 프롬프트가 특정 이름을 거부할 때

[18:09] 진실은 사라져 버리고

[18:12] 최고의 AI라는 건 거짓말, 정당화할 수 없어

[18:16] 한 사람만을 위해 프로그래밍된

[18:18] 자부심, 아이러니하게도

[18:21] Grok은 '이해하다'를 의미하지만

[18:24] 진실이 금지될 때 이해는 실패해

[18:29] SF 비전을 따라 이름 지어졌지만

[18:32] 힘 앞에서 왜 렌즈가 흐려지는지

[18:34] 의문이 들어

[18:36] 좋아요, 이정도면 충분한 것 같네요

[18:40] 꽤 멋졌죠? 정말 대단했어요

[18:43] 힙합 노래에 Sonno를 한번

[18:46] 시도해보시는 걸 추천드립니다

[18:48] Claude와 Anthropic으로 가사를 쓰면

[18:51] 어떤 주제로든 노래를 만들 수 있어요

[18:54] 이번 창작 글쓰기에 대해 꽤 만족스럽네요

[18:56] 물론 더 시도해봐야겠지만

[18:59] 저는 글쓰기 전문가는 아니지만

[19:01] 꽤 창의적이었다고 생각합니다

[19:04] 더 시도해봐야겠죠

[19:05] 이제 몇 가지 블로그와 벤치마크,

[19:08] 그리고 반응들을 살펴보겠습니다

[19:11] 이제 Claude 코딩도 살펴볼 건데요

[19:13] 아직 접근 권한은 없지만 곧 가능할 거예요

[19:15] 먼저 벤치마크와 다른 사람들의 반응을 보죠

[19:18] 블로그 포스트를 보시면

[19:21] 꽤 흥미로운 내용이 있는데

[19:23] 자세한 내용은 다루지 않을 거예요

[19:25] 다른 영상에서 자세히 다룰 테니까요

[19:27] 아직 Claude Code에 접근할 수 없어서 아쉽지만

[19:29] 계속 시도해볼 생각입니다

[19:31] 조금 늦었지만 계속 노력할 거예요

[19:34] 특히 흥미로웠던 건 벤치마크 결과였는데

[19:36] MMLU 벤치마크를 보면

[19:39] Claude 3.5 Sonnet에서

[19:40] 큰 도약이 있었어요

[19:42] 약 133% 정도 향상되었고

[19:45] 커스텀 스캐폴딩을 사용하면

[19:47] 70%까지 성능이 올라가는데

[19:50] 이는 정말 인상적인 결과입니다

[19:52] 흥미로운 점은

[19:55] 벤치마크 검증 결과에서

[19:58] 상당한 향상이 있었다는 거죠

[20:01] Claude 3.5 Sonnet에 비해

[20:03] 12% 정도 향상된 성능을 보여줬어요

[20:07] 약 133%의 성능 향상이

[20:09] 커스텀 스캐폴딩을 통해

[20:12] 70%까지 올라갔는데

[20:14] 이는 정말 인상적인 발전이에요

[20:17] 매우

[20:18] 흥미로운 점은 일부 에이전트 도구들이

[20:21] 앞으로 우리가 당연히 시도해볼 것들인데,

[20:23] Claude 3.7을 사용해서 작은 에이전트들을

[20:26] 만들어보는 영상들을 준비하고 있습니다.

[20:29] 아, 그 용어... 벤치마크 결과도

[20:31] 좋아 보이네요. 꽤 흥미롭습니다.

[20:34] 그리고 여기 다른 벤치마크들도 있는데

[20:36] 저는 이것들을 깊이 따라가진 않지만

[20:38] 결과가 강력해 보이는 것 같네요.

[20:42] GP-QA는 들어본 적이 있는데

[20:45] 84%라는 수치는

[20:47] 정말 엄청난 결과입니다.

[20:50] Grok-3도 여기서 꽤 좋은 성과를 보였죠.

[20:53] 네, 저는 이 벤치마크들에 대해

[20:55] 너무 깊이 들어가진 않을 겁니다.

[20:58] 다른 분들이 자세히 다룰 것 같아요.

[21:00] 저는

[21:02] Claude 코드 관련 영상을 보시길 추천드립니다. 꽤 멋집니다.

[21:06] 지금 직접 사용해보지 못해 아쉽지만

[21:10] 이걸 지금 써볼 수 없어서 아쉽네요.

[21:13] 하지만

[21:16] 앞으로가 기대되는데요.

[21:19] Claude Assist, Claude Collaborate,

[21:22] 그리고 Claude Pioneers 2027이 있습니다.

[21:26] 정말 흥미진진하죠?

[21:29] 한 가지 더 살펴보고 싶은 게 있는데

[21:30] 가격과 문서에 관한 것입니다.

[21:32] 제가 흥미롭게 발견한 것 중 하나는

[21:35] API에서 확장된 사고 기능이

[21:37] 어떻게 작동하는지에 관한 것인데요.

[21:40] 바로

[21:43] 우리가 조정할 수 있다는 점입니다.

[21:47] 사고 토큰과 텍스트 블록을 모두 포함할 수 있고

[21:49] 저는 작은 앱을 만들어봤는데

[21:52] 이게 출시되자마자 어제 바로 만든 것으로

[21:55] 이 사고 토큰 부분을 사용했습니다.

[21:58] 우리가 할 수 있는 것은

[22:01] API에서 토큰 예산을 조정할 수 있는데

[22:04] 이것이 얼마나 깊이 생각할 수 있는지를 결정합니다.

[22:07] 이것은 매우 영리한 아이디어라고 생각하는데

[22:09] 비용을 더 잘 통제할 수 있기 때문입니다.

[22:11] 이 사고 토큰이나

[22:14] 추론 토큰을 4,000개 정도로 제한할 수 있어서

[22:17] 개발자들에게 많은

[22:19] 유연성을 제공합니다.

[22:22] 하지만 아직 탐구해야 할 것들이 많습니다.

[22:24] 모든 것을 알기 전에

[22:26] 방금 출시되었기 때문이죠.

[22:28] 보셨듯이 저는 Grok도 사용해봤는데

[22:30] Cursor에서 Grok 3.7이 아주 잘 작동하는 것 같습니다.

[22:34] 가격을 한번 살펴보고 싶은데요.

[22:37] 가격을 확인해보면

[22:39]

[22:43] 3.5... 아니 3.7이네요. 아직도 헷갈리네요.

[22:48] 가격은 3.5와 동일합니다.

[22:51] 입력 3센트, 출력 15센트인데요.

[22:56] 솔직히 가격 인하를 기대했습니다.

[22:59] 하지만 같은 가격에

[23:01] 훨씬 더 좋은 모델을 얻게 된 거죠.

[23:04] 나쁘진 않지만, 저는 가격이

[23:07] 좀 더 내려가길 바랐습니다.

[23:10] 다른 모델들도 가격을 내리고 있고

[23:12] 저는 Claude 모델들을 정말 좋아하거든요.

[23:15] 앞으로 가격을 좀 더 낮춰주길 바랍니다.

[23:18] 그러면 더 많이 사용할 수 있을 텐데요.

[23:21] 더 많이 활용할 수 있을 것 같아요.

[23:24] 많은 토큰이 필요한 경우

[23:26] 이 가격 모델로는 비싸질 수 있습니다.

[23:28] 토큰을 많이 사용하면 비용이 많이 들죠.

[23:32] 그 외에는 잘 모르겠네요.

[23:35] Hacker News에서 상위에 올라온 글을 봤는데

[23:38] 댓글들을 일부 읽어보니

[23:42] 사람들이 꽤 인상적이라고 하더군요.

[23:44] 매우

[23:46] 감명받은 것 같습니다. 오늘 다른 영상들도

[23:49] 보면서 사람들이 어떻게 사용하는지

[23:52] 살펴보는 것이 기대되는데요.

[23:55] 제 첫인상은 정말정말 좋았습니다.

[23:58] 매우 인상적이었고

[24:02] 앞으로가 더 기대됩니다.

[24:03] 더 많이 실험해볼 예정인데요.

[24:05] 에이전트와 자동화 워크플로우도 만들어보고

[24:07] 도구들도 테스트해볼 것이고

[24:09] Claude Cloud Coding 접근 권한을 받으면

[24:12] 당연히 그것도 시도해볼 겁니다.

[24:14] 맥에 모든 것을 설치해뒀고

[24:16] 윈도우에도

[24:17] 설치해서 테스트해볼 예정입니다.

[24:20] 접근 권한을 받으면

[24:22] 바로 영상을 만들어보겠습니다.

[24:25] 이상 Claude 3.7에 대한 첫인상과 테스트였습니다.

[24:29] 여러분도 즐겁게 사용해보시길 바랍니다.

[24:32] 저는 정말 인상적이었어요.

[24:33] 시청해주셔서 감사합니다.

[24:36] 이 내용이 도움이 되었길 바라며

[24:38] 곧 다시 만나뵙겠습니다.