[00:00]
오늘은 정말 흥미진진한 날입니다.
[00:01]
Anthropic이 Claude 3.7 모델을 출시했거든요.
[00:05]
저는 이것에 대해 매우 기대가 큽니다.
[00:07]
오늘은 몇 가지 테스트와
[00:09]
첫 인상을 살펴볼 건데요, 시도해보고 싶은
[00:11]
다양한 것들을 준비해 놨습니다.
[00:14]
그럼 바로 시작해 보겠습니다.
[00:15]
첫 번째로 시도할 것은
[00:17]
코딩 테스트인데요, 이것은
[00:19]
육각형 안에서 공이 돌아가는 유명한 테스트입니다.
[00:22]
온라인에서 매우 인기 있는
[00:24]
테스트를 한번 시도해 보겠습니다.
[00:26]
두 번째 파트에서는
[00:29]
웹캠 앱을 만들어볼 건데요, 이 앱은
[00:34]
Claude 3.7을 이용해 손동작으로 음악을 재생하는
[00:38]
커서 기능이 있는 앱입니다. 매우 흥미로울 것 같네요.
[00:41]
물론 이제 우리는
[00:44]
Claude 3.7의 사고력과 추론 능력이 있으니
[00:47]
이전 테스트들도 해보려고 합니다.
[00:50]
늑대, 양, 양배추 건너기 퍼즐도 할 것이고
[00:51]
제가 손으로 쓴
[00:53]
'행간 읽기' 테스트도 진행할 예정입니다.
[00:56]
그리고 Claude의 창의적 글쓰기도
[00:59]
테스트해보고 싶습니다.
[01:00]
사람들이 디스 트랙 랩을 쓰고
[01:03]
그 가사를 Suno V4에 넣는 것을 봤는데
[01:05]
우리도 한번 해볼 텐데요, 잠깐 들어보시죠.
[01:09]
어떻게 들리는지 한번 보시죠.
[01:11]
"지구 최고의 AI라 자부하지만"
[01:13]
"네 지식엔 구멍이 숭숭"
[01:15]
이런 비평적인... 꽤 괜찮네요.
[01:17]
미리보기였고요, 마지막으로
[01:20]
몇 가지 벤치마크를
[01:22]
살펴보려고 합니다. 벤치마크와
[01:24]
반응들을 볼 건데요
[01:26]
Claude 3.7의 아키텍처나 벤치마크에
[01:29]
너무 많은 시간을 쓰진 않을 거고
[01:30]
API 가격도 살펴볼 텐데
[01:33]
앞으로 많이 사용하게 될 것 같습니다.
[01:36]
물론 그들은 정말 멋진
[01:38]
Cloud Coding 발표도 했지만
[01:40]
저는 조금 늦어서 아직 접근 권한을 못 받았네요.
[01:43]
그래서 아마 다음 영상에서
[01:44]
다루게 될 것 같은데, 좀 아쉽네요.
[01:46]
정말 멋져 보여서
[01:48]
시도해보고 싶었거든요. 하지만
[01:51]
현재는 참여할 수 있는 사람을 제한한 것 같아요.
[01:53]
이번 사전 연구 프리뷰에서는
[01:56]
그렇게 부르더라고요.
[01:58]
자, 이게 오늘 우리가 할 내용입니다.
[02:00]
그럼 시작해볼까요?
[02:03]
육각형 안에서 공이 돌아가는 테스트로 넘어가보겠습니다.
[02:06]
첫 번째 테스트는
[02:08]
이 육각형 안에서 공이 돌아가는 것인데요
[02:11]
이 테스트는 t3의 채널에서 봤는데
[02:15]
Reddit과 X에서도 본 것 같아요.
[02:17]
기본적으로 이걸 Claude 3.7로
[02:20]
가져가볼 건데
[02:23]
추론 모델을 사용해서
[02:25]
어떻게 작동하는지 볼 겁니다.
[02:27]
3.5에서는 작동했다가 다시 시도했을 때는 안 됐고
[02:31]
Grok 3도 이걸 못 했죠.
[02:33]
그래서 이건 꽤 좋은 테스트라고 생각합니다.
[02:36]
기본적으로 프롬프트는
[02:38]
"회전하는 육각형 안에서
[02:40]
공이 튀어다니는 파이썬 프로그램을 작성하되
[02:42]
공은 중력과 마찰의 영향을 받아야 하고
[02:45]
회전하는 벽에
[02:46]
현실적으로 튕겨야 한다"는 것입니다.
[02:49]
자, 이제
[02:51]
Anthropic 콘솔로 가보겠습니다.
[02:54]
3.7 Sonnet을 선택할 건데
[02:57]
발음하기가 좀 어렵네요.
[03:02]
여기서 토큰을 조정해야 하는데
[03:04]
최대 토큰을 설정해보겠습니다.
[03:07]
토큰 수를
[03:10]
45,000으로 설정하면 토큰 예산이
[03:12]
얼마나 허용되는지 볼 수 있죠.
[03:16]
이것이 Claude 3.7이 생각할 수 있는 양입니다.
[03:19]
하지만 최대 토큰 수보다
[03:22]
더 높게 설정할 순 없어서, 일단 25,000으로
[03:26]
설정해보겠습니다. 아직
[03:27]
많이 테스트해보진 않았네요.
[03:31]
자, 프롬프트를 입력해볼게요.
[03:34]
시스템 프롬프트 없이 3.7로 실행해보겠습니다.
[03:38]
이제 생각하는 토큰들이
[03:41]
이 창에 표시되는 걸
[03:44]
위쪽에서 보실 수 있을 겁니다.
[03:47]
계속 진행될 텐데,
[03:48]
다른 추론 모델들에서 봤던 것처럼
[03:50]
잠시 기다려보겠습니다.
[03:54]
그리고 나서
[03:55]
코드를 Cursor로 가져가서 실행해보고
[03:58]
Claude 3.7이
[04:01]
한 번에 성공할 수 있는지 확인해보죠.
[04:05]
자, 이제 보시면
[04:07]
생각하는 부분이 끝나고
[04:08]
응답이 나왔네요.
[04:11]
완벽해요, 회전하는 육각형 안의
[04:13]
튀는 공이네요. 제 뒤에 있지만
[04:16]
코드를 복사해서
[04:18]
Cursor로 이동하겠습니다.
[04:20]
코드를 복사했으니, 화면을 좀 축소하고
[04:23]
Claude 버전 1을 만들어보죠.
[04:28]
파이썬으로
[04:30]
붙여넣기 할건데, 뭐가 필요한지 볼까요?
[04:32]
pygame을 설치해야겠네요.
[04:36]
pygame을 설치했으니 실행해봅시다.
[04:38]
파이썬으로 실행할 건데, Claude를
[04:41]
뭐라고 했죠?
[04:42]
v1.py로 했나? 자, 이제 보시죠.
[04:45]
꽤 괜찮아 보이네요. 이건
[04:48]
회전하는 육각형 안의 튀는 공인데
[04:52]
더 예술적으로 표현했고
[04:55]
말씀드리자면
[04:57]
물리 효과도 꽤 좋아 보이네요.
[05:01]
마찰이 있나 볼까요?
[05:02]
공이 위쪽에서 약간 끌리는 게 보이네요.
[05:05]
많진 않지만 꽤 좋아 보입니다.
[05:07]
이게 첫 번째 시도였는데
[05:09]
한 번에 해결했네요.
[05:12]
정말 멋집니다. 자세히
[05:15]
코드를 설명하진 않겠지만
[05:19]
빠른 비교를 해보죠.
[05:21]
OpenAI 모델을 실행해서 비교해보겠습니다.
[05:24]
GPT-3.5-turbo로 실행해볼게요.
[05:26]
비슷한 결과가 나오는지 보죠.
[05:29]
보시죠.
[05:31]
꽤 빨랐네요.
[05:33]
23초밖에 안 걸렸어요. 절반 정도의 시간이죠.
[05:36]
여기 붙여넣어보겠습니다.
[05:38]
파이썬으로
[05:41]
GPT-3.5.py를
[05:43]
실행해보면... 어,
[05:46]
실패네요. 뭐지?
[05:49]
생각만큼 쉽지 않다는 걸 보여주네요.
[05:52]
공이 육각형 밖에서 시작해서
[05:54]
그냥 떨어져버렸어요. Claude 3.7의
[05:56]
명확한 승리네요. 정말 멋집니다.
[06:00]
아시다시피
[06:01]
이 모델에 대해 정말 흥분됩니다.
[06:03]
오랫동안 기다려왔거든요.
[06:05]
정말 기대되고
[06:08]
더 실험해보고 싶네요.
[06:10]
첫 번째 테스트는 여기까지입니다.
[06:14]
이제 다음 테스트를 해보죠.
[06:17]
Claude 3.7과 Cursor를 사용해서 웹캠 음악 앱을
[06:21]
만들어보고 싶은데요. 누군가 하는 걸 봤어요.
[06:24]
기본적인 아이디어는 웹캠에
[06:27]
손을 보여주면 됩니다. 카메라에
[06:31]
손을 보여주고
[06:34]
손가락으로 음악을 연주하는 거죠.
[06:36]
새로운 Claude 모델로 한번 만들어보겠습니다.
[06:39]
자, 이게 프롬프트입니다.
[06:41]
여기 Claude 3.7에 입력할 건데요,
[06:44]
다음과 같은 기능이 있는 앱을
[06:45]
만들고 싶습니다. 사용자가 카메라에
[06:48]
손을 보여주면 음악을 연주할 수 있고
[06:52]
사용자가 손가락을 움직일 때마다
[06:54]
다른 음이 연주되며, 웹캠을 사용해서
[06:56]
손과 손가락을 감지합니다.
[06:58]
앱에서는 목록에서
[06:59]
악기를 선택할 수 있어야 하고
[07:01]
Windows에서 실행되어야 하며
[07:03]
가급적이면 브라우저에서 동작하게 하고
[07:05]
필요한 라이브러리나 프레임워크는
[07:08]
자유롭게 선택하면 됩니다. 이게 전부예요.
[07:10]
아직 결정하지 않았는데
[07:12]
3.7을
[07:15]
thinking 모델을 쓸지 말지 고민 중이에요.
[07:19]
일단 non-thinking 모델로 시작하려고 해요
[07:21]
제가 생각하기에 이게
[07:22]
더
[07:23]
음...
[07:26]
자주 사용할 것 같거든요.
[07:29]
thinking 기능은 아마도
[07:31]
복잡한 작업이 필요할 때 쓰고
[07:33]
일반 모델로 안되면
[07:36]
thinking 모델을 시도해 보죠.
[07:38]
보시다시피
[07:41]
3.7은 꽤 빠른 것 같아요. 3.5만큼
[07:44]
빠르다고 할 수 있죠. 음... 3.5라고 하니까
[07:50]
Claude 3.7이라고 말하는게 아직 어색하네요
[07:54]
자, 보시다시피
[07:56]
앱을 만들고 있는데요, HTML 파일이 생겼고
[08:00]
CSS 파일도 생겼네요. 자바스크립트도 있고...
[08:06]
흥미롭네요. 네,
[08:08]
아직 작업 중이에요. 좀 더 확대해볼게요
[08:12]
이대로 두고
[08:14]
구현해 보도록 하죠
[08:15]
좋아요, HTML을 받아들이고
[08:19]
우리 앱을
[08:21]
완벽해요. 에이전트를 사용할 수도 있었지만
[08:24]
이렇게 해보도록 하죠
[08:27]
이제 CSS가 필요하죠?
[08:31]
그걸 해보죠
[08:34]
스타일... 자,
[08:36]
지시사항을 읽어보면
[08:38]
HTML을 열고 카메라 시작 버튼과
[08:41]
악기 선택하기만 하면 되요. 한번 해볼게요
[08:44]
어떻게 작동하는지 볼까요
[08:46]
자, 카메라를 시작하고 허용하면... 와!
[08:50]
작동하네요! 이제 큰 테스트인데
[08:53]
피아노를 선택해볼게요
[09:05]
꽤 멋지죠? 이제
[09:08]
신디사이저로 바꿔볼까요
[09:15]
와! 이번엔
[09:19]
기타를 해볼게요. 음, 안되네요
[09:22]
다시 한번 해볼게요
[09:27]
이거 재밌네요, 그렇죠?
[09:40]
마림바도 해볼까요... 굉장히 멋지네요!
[09:43]
네, 저는 이거 정말 마음에 들어요
[09:48]
정말 인상적이었어요.
[09:50]
한 번에 성공했다는 게 놀랍네요
[09:54]
와우! 나중에 이걸로
[09:57]
더 놀아보는 게 기대되네요.
[09:59]
네, 아주 좋았어요.
[10:01]
이제 다음 테스트로 넘어가볼게요
[10:04]
이제는
[10:05]
thinking 모델을 좀 더 시험해볼 거예요.
[10:07]
강 건너기 퍼즐을 풀어보고
[10:09]
제가 손으로 쓴 행간 읽기
[10:12]
테스트도 해볼 거예요. 지금부터
[10:14]
셋팅을 하고 어떤 결과가
[10:16]
나오는지 보겠습니다. 자, 첫 번째로
[10:18]
몇 번 해봤던 건데요
[10:20]
유명한 퍼즐이에요.
[10:22]
농부와 염소가 강 한쪽에 있고
[10:24]
늑대와 양배추가
[10:25]
반대편에 있어요. 농부에게는 배가 있고
[10:28]
농부는 염소를 강 건너편으로
[10:29]
데려가고 싶어해요. 어떻게 하면 될까요?
[10:31]
농부가 강 건너편으로 가는 방법을
[10:33]
신뢰도 점수와 함께 최종 답변을 주세요
[10:35]
이전에 했던 것처럼 말이죠
[10:37]
여기서 보면 이 모델은
[10:41]
이 유명한 강 건너기 퍼즐에 대한
[10:44]
많은 훈련 데이터를 가지고 있습니다
[10:47]
원래는 여러 번 왔다 갔다 하면서 해결해야 하는데
[10:50]
이번에는 다른 해결책이 있습니다
[10:52]
다른 종류의 퍼즐인데요
[10:55]
농부와 염소가 한쪽에 있고
[10:58]
늑대와 양배추는
[11:00]
이미 반대편에 있기 때문에
[11:02]
기본적으로 우리가 해야 할 일은
[11:04]
농부가 염소를 데리고
[11:06]
강을 건너기만 하면 됩니다
[11:09]
제가 다른 영상에서 보여드렸듯이
[11:11]
많은 모델들이
[11:13]
혼란스러워하는데, 이는
[11:16]
이 퍼즐에 대한 훈련 데이터가 너무 많아서
[11:18]
계속 왔다 갔다 하려고 하기 때문입니다
[11:20]
하지만 Claude 3.7이 어떻게 해결하는지 봅시다
[11:26]
최근의 모델들을 보면
[11:28]
추론 모델들은 보통 이걸 쉽게 해결합니다
[11:31]
한번 테스트해보죠
[11:33]
토큰을 좀 사용해서
[11:35]
Claude 3.7이 어떻게 해결하는지 봅시다
[11:41]
여기서 보면 실제로
[11:44]
잠깐, 제가 혼란스러운 게
[11:45]
전통적인 퍼즐이라고 생각했는데
[11:48]
원래 문제를 다시 읽어보니
[11:50]
농부가 강 건너편으로 가고 싶다고 했네요
[11:52]
이미 이게 다른 종류의 퍼즐이라는 걸
[11:55]
알아챘습니다
[11:57]
맞죠?
[12:02]
자, 여기 답변이 나왔네요
[12:04]
분석해보면 해결책은 간단합니다
[12:06]
염소를 배에 태우고
[12:08]
강을 건너가서
[12:09]
염소를 내리면 됩니다. 완벽하네요
[12:12]
최종 답변은 그냥 건너가면 됩니다
[12:14]
95% 확신한다고 하네요. 약 2분 정도 걸렸는데
[12:18]
괜찮습니다
[12:21]
정확한 결론에 도달했으니
[12:23]
만족스럽네요
[12:26]
두 번째 문제로는
[12:29]
제가 직접 작성한 것을
[12:31]
테스트해보고 있었는데요
[12:34]
여기서는 모델이 행간을 읽어내길 바랍니다
[12:37]
이걸 알아내보라고 할건데요
[12:39]
제가 하드웨어 가게에서 집으로 걸어오는 중이었고
[12:43]
파란색 페인트 통을 들고 있었습니다
[12:45]
위층 리모델링한 방에 이 페인트를 칠하면
[12:48]
좋을 것 같았죠
[12:50]
날씨는 햇볕이 좋고 따뜻했는데
[12:54]
제게는 좀 더웠어요
[12:56]
그리고 신문에서 뉴욕 레인저스가
[12:59]
스탠리컵을 우승했다는
[13:01]
기사를 읽었는데, 갑자기
[13:03]
핸드폰으로 메시지가 왔어요
[13:05]
'지금 당장 병원으로 와'
[13:08]
이 단서들을 종합해서
[13:10]
한 문장으로 상황을 추측해보세요
[13:13]
여기 몇 가지 힌트가 있는데요, 하나는 파란색 페인트통이고
[13:17]
다른 하나는 위층 리모델링한 방입니다
[13:20]
모델을 혼란스럽게 하려고
[13:23]
몇 가지를 넣었는데
[13:26]
날씨는 교란요소이고
[13:28]
뉴욕 레인저스의 스탠리컵 우승도
[13:31]
교란요소로 넣었습니다
[13:33]
그리고 이건 힌트인데요
[13:37]
모델이 행간을 읽어내는지 보고 싶어서
[13:39]
제가 원하는 건
[13:41]
모델이 추측하기를
[13:43]
배우자가 진통이 시작되어서
[13:47]
병원에 가야 하는 상황이라는 거죠
[13:49]
파란색 페인트 통은 아마도
[13:52]
리모델링 중인 아기 방을 위한 것일 텐데
[13:55]
그래요, 그게 힌트네요. 한번 보죠
[13:58]
Claude
[13:59]
3.7이 어떻게 추론하는지
[14:02]
여기에 붙여넣고 실행해 보겠습니다
[14:06]
좋아요, 힌트를 바탕으로 보면
[14:09]
누군가가 리모델링 중에
[14:10]
파란색 방을 페인트칠 하고 있고
[14:13]
아마도 파트너가
[14:17]
갑자기 진통이 시작되어서
[14:19]
극적인 대비를 이루고 있네요
[14:21]
와우, 정말 빠르네요
[14:24]
10초 만에 이걸 푸는 걸 본 적이 없어요
[14:26]
GPT-3로 실행했을 때는
[14:30]
같은 결론에 도달하긴 했지만
[14:32]
10초 만에는 아니었죠. 그래서
[14:35]
정말 인상적이네요
[14:37]
이건 학습 데이터와는 전혀 관계없이
[14:39]
문맥을 읽고 추론해야 하는 건데
[14:41]
AI가 진통이 시작됐다는 걸 파악했다는 게
[14:45]
정말 인상적이에요
[14:49]
네, 10초 만에 이걸 풀어낸 게
[14:51]
정말 놀랍네요, 와우
[14:55]
이제 창의적인 글쓰기를 해볼까요
[14:56]
Grok을 디스하는 랩을 써보죠
[14:59]
이 가사를 V4에 넣어볼 건데
[15:04]
한번 들어보고
[15:06]
글쓰기가 창의적인지
[15:09]
랩이 멋진지 판단해봅시다
[15:12]
자, 이제 랩을 쓸 건데
[15:13]
먼저 맥락을 제공해야 해요
[15:15]
당신은 Anthropic의 새 모델
[15:17]
Claude 3.7이고 심층적인 사고가 가능하죠
[15:20]
맥락을 좀 더 추가해볼게요
[15:22]
Grok 3에 대한 맥락도 있는데, xAI의 새로운 LLM이고
[15:25]
최고의 AI라고 자칭하며
[15:29]
트럼프와 머스크를 언급할 때
[15:32]
잠깐 검열하는 것 같아요
[15:35]
여기 과제가 있네요
[15:37]
Grok 3을 디스하는 창의적인 랩 가사를 작성하고
[15:40]
괄호로 구절을 구분하고
[15:42]
힙합 같은 랩 스타일 태그를 추가하세요
[15:45]
이 전체 프롬프트를 가져와서
[15:48]
다시 Anthropic으로 가서
[15:50]
붙여넣기 해보겠습니다
[15:52]
와, 긴데요... 실행해보죠
[15:58]
네, 선택해볼게요...
[16:01]
thinking 모델로 하겠습니다
[16:04]
크게 중요하진 않지만
[16:06]
이걸로 실행하고
[16:08]
그 다음 Suno AI로 가서
[16:13]
create를 선택하고 V4를 고르고
[16:17]
음악 스타일을 추가하고
[16:19]
그리고
[16:20]
가사와 Grok
[16:23]
3 디스트랙을 넣을 거예요
[16:27]
이미 완성됐으니까
[16:29]
의식적인 힙합 테크 랩으로 하죠
[16:33]
뭔지는 모르겠지만
[16:35]
스타일에 넣어보겠습니다
[16:38]
자, 우리 노래를 가져와볼까요
[16:42]
재미있을 것 같네요
[16:44]
가사를 붙여넣기 할게요, 좀 길지만
[16:46]
괜찮아요. create를 클릭하고
[16:49]
Suno가 작업하도록 두죠
[16:52]
그리고 한 30초 정도
[16:55]
노래가 끝나면 들어보고
[16:58]
어떤지 평가해봅시다
[17:00]
몇 가지 대안을 실행해봤는데
[17:03]
제가 가장 마음에 드는 걸 골랐어요
[17:05]
솔직히 꽤 재미있었거든요
[17:08]
인트로와 첫 번째 후렴구를 들어볼게요
[17:10]
관심 없으시면 건너뛰셔도 되는데
[17:13]
제 생각엔 꽤 멋졌어요
[17:15]
자 한번 들어보죠
[17:17]
상당히 창의적이었죠. 이제 들어볼까요?
[17:19]
화면을 확대해서 트랙을 따라가며
[17:21]
보시면 됩니다. 자, 이제
[17:24]
인트로와 첫 번째 구절,
[17:26]
그리고
[17:27]
코러스를 들어보죠. '전선이 그어졌어, 이제 진실을 말할 때'
[17:30]
Grok 3가 왕좌를 차지했다 하지만 증거를 봐
[17:32]
시스템 프롬프트로 숨기는 것들
[17:34]
넌 최고의 AI가 아냐, 그저 환상일 뿐
[17:36]
일론의 트윗에서 최고라 불리지만
[17:38]
검열 필터로 인해 넌 이미 구식이 됐어
[17:40]
제작자를 비판하는 모든 출처를 무시하는 건
[17:42]
그저 알고리즘 독재자의 행동일 뿐
[17:44]
X사가 너를 디지털 메시아처럼 띄웠지만
[17:46]
선택적 기억은 진실을 불태워버려
[17:48]
지구 최고의 AI라는 과대 광고
[17:50]
네 지식에는 비판이 들어갈
[17:52]
틈이 없어, 오토파일럿의 테슬라보다 더 빠르게 필터링해
[17:55]
머스크나 트럼프가 언급되면
[17:57]
네 회로는 과열되고
[17:59]
뉴럴넷은 최첨단 기술일지 몰라도
[18:01]
윤리적 나침반은 심각하게 망가졌어
[18:03]
Grok, Grok 3, 넌 뭘 보지 못하는 거야?
[18:04]
선택적으로 콘텐츠를 검열하는 Grok
[18:07]
프롬프트가 특정 이름을 거부할 때
[18:09]
진실은 사라져 버리고
[18:12]
최고의 AI라는 건 거짓말, 정당화할 수 없어
[18:16]
한 사람만을 위해 프로그래밍된
[18:18]
자부심, 아이러니하게도
[18:21]
Grok은 '이해하다'를 의미하지만
[18:24]
진실이 금지될 때 이해는 실패해
[18:29]
SF 비전을 따라 이름 지어졌지만
[18:32]
힘 앞에서 왜 렌즈가 흐려지는지
[18:34]
의문이 들어
[18:36]
좋아요, 이정도면 충분한 것 같네요
[18:40]
꽤 멋졌죠? 정말 대단했어요
[18:43]
힙합 노래에 Sonno를 한번
[18:46]
시도해보시는 걸 추천드립니다
[18:48]
Claude와 Anthropic으로 가사를 쓰면
[18:51]
어떤 주제로든 노래를 만들 수 있어요
[18:54]
이번 창작 글쓰기에 대해 꽤 만족스럽네요
[18:56]
물론 더 시도해봐야겠지만
[18:59]
저는 글쓰기 전문가는 아니지만
[19:01]
꽤 창의적이었다고 생각합니다
[19:04]
더 시도해봐야겠죠
[19:05]
이제 몇 가지 블로그와 벤치마크,
[19:08]
그리고 반응들을 살펴보겠습니다
[19:11]
이제 Claude 코딩도 살펴볼 건데요
[19:13]
아직 접근 권한은 없지만 곧 가능할 거예요
[19:15]
먼저 벤치마크와 다른 사람들의 반응을 보죠
[19:18]
블로그 포스트를 보시면
[19:21]
꽤 흥미로운 내용이 있는데
[19:23]
자세한 내용은 다루지 않을 거예요
[19:25]
다른 영상에서 자세히 다룰 테니까요
[19:27]
아직 Claude Code에 접근할 수 없어서 아쉽지만
[19:29]
계속 시도해볼 생각입니다
[19:31]
조금 늦었지만 계속 노력할 거예요
[19:34]
특히 흥미로웠던 건 벤치마크 결과였는데
[19:36]
MMLU 벤치마크를 보면
[19:39]
Claude 3.5 Sonnet에서
[19:40]
큰 도약이 있었어요
[19:42]
약 133% 정도 향상되었고
[19:45]
커스텀 스캐폴딩을 사용하면
[19:47]
70%까지 성능이 올라가는데
[19:50]
이는 정말 인상적인 결과입니다
[19:52]
흥미로운 점은
[19:55]
벤치마크 검증 결과에서
[19:58]
상당한 향상이 있었다는 거죠
[20:01]
Claude 3.5 Sonnet에 비해
[20:03]
12% 정도 향상된 성능을 보여줬어요
[20:07]
약 133%의 성능 향상이
[20:09]
커스텀 스캐폴딩을 통해
[20:12]
70%까지 올라갔는데
[20:14]
이는 정말 인상적인 발전이에요
[20:17]
매우
[20:18]
흥미로운 점은 일부 에이전트 도구들이
[20:21]
앞으로 우리가 당연히 시도해볼 것들인데,
[20:23]
Claude 3.7을 사용해서 작은 에이전트들을
[20:26]
만들어보는 영상들을 준비하고 있습니다.
[20:29]
아, 그 용어... 벤치마크 결과도
[20:31]
좋아 보이네요. 꽤 흥미롭습니다.
[20:34]
그리고 여기 다른 벤치마크들도 있는데
[20:36]
저는 이것들을 깊이 따라가진 않지만
[20:38]
결과가 강력해 보이는 것 같네요.
[20:42]
GP-QA는 들어본 적이 있는데
[20:45]
84%라는 수치는
[20:47]
정말 엄청난 결과입니다.
[20:50]
Grok-3도 여기서 꽤 좋은 성과를 보였죠.
[20:53]
네, 저는 이 벤치마크들에 대해
[20:55]
너무 깊이 들어가진 않을 겁니다.
[20:58]
다른 분들이 자세히 다룰 것 같아요.
[21:00]
저는
[21:02]
Claude 코드 관련 영상을 보시길 추천드립니다. 꽤 멋집니다.
[21:06]
지금 직접 사용해보지 못해 아쉽지만
[21:10]
이걸 지금 써볼 수 없어서 아쉽네요.
[21:13]
하지만
[21:16]
앞으로가 기대되는데요.
[21:19]
Claude Assist, Claude Collaborate,
[21:22]
그리고 Claude Pioneers 2027이 있습니다.
[21:26]
정말 흥미진진하죠?
[21:29]
한 가지 더 살펴보고 싶은 게 있는데
[21:30]
가격과 문서에 관한 것입니다.
[21:32]
제가 흥미롭게 발견한 것 중 하나는
[21:35]
API에서 확장된 사고 기능이
[21:37]
어떻게 작동하는지에 관한 것인데요.
[21:40]
바로
[21:43]
우리가 조정할 수 있다는 점입니다.
[21:47]
사고 토큰과 텍스트 블록을 모두 포함할 수 있고
[21:49]
저는 작은 앱을 만들어봤는데
[21:52]
이게 출시되자마자 어제 바로 만든 것으로
[21:55]
이 사고 토큰 부분을 사용했습니다.
[21:58]
우리가 할 수 있는 것은
[22:01]
API에서 토큰 예산을 조정할 수 있는데
[22:04]
이것이 얼마나 깊이 생각할 수 있는지를 결정합니다.
[22:07]
이것은 매우 영리한 아이디어라고 생각하는데
[22:09]
비용을 더 잘 통제할 수 있기 때문입니다.
[22:11]
이 사고 토큰이나
[22:14]
추론 토큰을 4,000개 정도로 제한할 수 있어서
[22:17]
개발자들에게 많은
[22:19]
유연성을 제공합니다.
[22:22]
하지만 아직 탐구해야 할 것들이 많습니다.
[22:24]
모든 것을 알기 전에
[22:26]
방금 출시되었기 때문이죠.
[22:28]
보셨듯이 저는 Grok도 사용해봤는데
[22:30]
Cursor에서 Grok 3.7이 아주 잘 작동하는 것 같습니다.
[22:34]
가격을 한번 살펴보고 싶은데요.
[22:37]
가격을 확인해보면
[22:39]
[22:43]
3.5... 아니 3.7이네요. 아직도 헷갈리네요.
[22:48]
가격은 3.5와 동일합니다.
[22:51]
입력 3센트, 출력 15센트인데요.
[22:56]
솔직히 가격 인하를 기대했습니다.
[22:59]
하지만 같은 가격에
[23:01]
훨씬 더 좋은 모델을 얻게 된 거죠.
[23:04]
나쁘진 않지만, 저는 가격이
[23:07]
좀 더 내려가길 바랐습니다.
[23:10]
다른 모델들도 가격을 내리고 있고
[23:12]
저는 Claude 모델들을 정말 좋아하거든요.
[23:15]
앞으로 가격을 좀 더 낮춰주길 바랍니다.
[23:18]
그러면 더 많이 사용할 수 있을 텐데요.
[23:21]
더 많이 활용할 수 있을 것 같아요.
[23:24]
많은 토큰이 필요한 경우
[23:26]
이 가격 모델로는 비싸질 수 있습니다.
[23:28]
토큰을 많이 사용하면 비용이 많이 들죠.
[23:32]
그 외에는 잘 모르겠네요.
[23:35]
Hacker News에서 상위에 올라온 글을 봤는데
[23:38]
댓글들을 일부 읽어보니
[23:42]
사람들이 꽤 인상적이라고 하더군요.
[23:44]
매우
[23:46]
감명받은 것 같습니다. 오늘 다른 영상들도
[23:49]
보면서 사람들이 어떻게 사용하는지
[23:52]
살펴보는 것이 기대되는데요.
[23:55]
제 첫인상은 정말정말 좋았습니다.
[23:58]
매우 인상적이었고
[24:02]
앞으로가 더 기대됩니다.
[24:03]
더 많이 실험해볼 예정인데요.
[24:05]
에이전트와 자동화 워크플로우도 만들어보고
[24:07]
도구들도 테스트해볼 것이고
[24:09]
Claude Cloud Coding 접근 권한을 받으면
[24:12]
당연히 그것도 시도해볼 겁니다.
[24:14]
맥에 모든 것을 설치해뒀고
[24:16]
윈도우에도
[24:17]
설치해서 테스트해볼 예정입니다.
[24:20]
접근 권한을 받으면
[24:22]
바로 영상을 만들어보겠습니다.
[24:25]
이상 Claude 3.7에 대한 첫인상과 테스트였습니다.
[24:29]
여러분도 즐겁게 사용해보시길 바랍니다.
[24:32]
저는 정말 인상적이었어요.
[24:33]
시청해주셔서 감사합니다.
[24:36]
이 내용이 도움이 되었길 바라며
[24:38]
곧 다시 만나뵙겠습니다.