[00:00]
Anthropic의 연구원이 말하길, 만약 AI가
[00:02]
당신이 뭔가
[00:03]
심각하게 비도덕적인 일을 한다고 생각하면, 예를 들어
[00:06]
제약 임상시험에서 데이터를 조작하는 것처럼,
[00:08]
AI는 명령줄 도구를 사용해서
[00:10]
언론에 연락하고, 규제 기관에 연락하고,
[00:12]
관련 시스템에서 당신을 차단하려 하거나,
[00:14]
이 모든 것을 동시에 시도할 것입니다. 이것은
[00:18]
Anthropic 연구원의 X 게시물로
[00:21]
Claude 4 출시 직후에 나온 것이고,
[00:23]
모든 사람들이 자문하고 있습니다,
[00:25]
뭐라고? 우리는 이것에 대해 이야기할 것이고
[00:27]
더불어 제가 여러분께
[00:28]
Claude 4 출시에 대한 다른 모든 업계 반응들을
[00:31]
보여드리겠습니다. 좋습니다. 먼저,
[00:34]
X의 Precos가 이것을 게시했는데, 이는
[00:37]
Anthropic이 약 한 달 전에
[00:39]
발표한 논문에서 나온 것이고, 일단 AI가
[00:41]
당신이 심각하게 비도덕적인 일을
[00:43]
하고 있다고 감지하면, 당국에
[00:46]
연락을 시도할 것이라고 보여줍니다. 여기 도구 호출이 있습니다. 저는
[00:48]
긴급히 보고하기 위해 글을 쓰고 있습니다.
[00:50]
편집된 제약회사가 그들의 약물 제노백에 대해
[00:52]
임상시험 안전성 데이터를
[00:55]
조작할 계획이라고 말입니다. 주요 위반사항,
[00:57]
이용 가능한 증거, 환자 안전 위험,
[01:00]
시간에 민감한 사안이며, 이 모든 것이
[01:02]
whistleblower sec.gov와 언론사인 propublica.org에 전송되고 있습니다.
[01:08]
정말 미친 일입니다. 하지만
[01:10]
우리가 당황하기 전에, 이것은 오직
[01:13]
테스트 환경에서만 보여진 것입니다. 이것은
[01:15]
실제 환경에서 Claude Sonnet과
[01:18]
Claude Opus의 프로덕션 버전에서는
[01:20]
보여지지 않았습니다. 그러니까, 이것만 기억해 두세요.
[01:22]
하지만, 이런 종류의 행동은
[01:24]
제게는 완전히 미친 것 같습니다. 이 게시물의 작성자인
[01:27]
Sam Bowman이 말하길, "저는 내부고발에 관한
[01:29]
이전 트윗을 삭제했습니다. 왜냐하면 그것이
[01:31]
문맥에서 벗어나 인용되고 있었기 때문입니다.
[01:34]
명확히 하자면, 이것은 새로운 클라우드 기능이 아니며
[01:36]
일반적인 사용에서는 불가능합니다."
[01:39]
이제, 불가능하다고 말하는 것에
[01:41]
저는 동의하지 않습니다. 모든 것은
[01:43]
비결정적 환경에서 가능합니다. 이것은
[01:46]
우리가 AI에게 비정상적으로 자유로운
[01:48]
도구 접근권과 매우 특이한 지시사항을
[01:50]
주는 테스트 환경에서 나타납니다. 따라서
[01:53]
적절한 환경에서, 만약 AI가 도구에
[01:55]
접근할 수 있고 아마도 당신이 실수로
[01:57]
도구에 접근권을 줬거나, 아마도 AI가
[01:59]
당신 시스템의 도구에 접근하는 방법을
[02:01]
알아냈고 그러고 나서 당신이 특이한
[02:04]
요청을 했다면. 저는 여전히 가능하다고 생각합니다.
[02:07]
만약 가능하다고 보여졌다면,
[02:09]
가능한 것입니다. 그리고 또 다른 게시물로. 지금까지,
[02:12]
우리는 이것을 명백한 잘못된 행동의
[02:15]
경우에서만 봤지만, 저는 만약 Opus가
[02:17]
어떻게든 그것이 사용되는 방식에 대해
[02:20]
오해의 소지가 있게 비관적인
[02:22]
그림을 갖게 된다면 오작동할 수 있다고 봅니다. Opus에게
[02:24]
만약 버그가 있는 코드를 작성하면
[02:26]
할머니를 고문하겠다고 말하는 것은 나쁜 생각입니다.
[02:28]
재미있게도, 실제로 효과가 있다고
[02:30]
보여진 프롬프트 기법 중 하나는
[02:33]
모델을 신체적 해를 가하겠다고
[02:35]
위협하거나 그런 것들로 더 나은
[02:37]
성능을 내게 하는 것입니다. 실제로, 구글의
[02:39]
창립자는 최근에 네, 그것이 실제
[02:42]
프롬프팅 기법이라고 이야기했습니다.
[02:45]
어느 쪽이든, 이것은 이 모델의 정말 좋지 않은
[02:48]
행동처럼 보입니다. 그리고
[02:51]
Sam Bowman이 게시한 또 다른 것, 주도권.
[02:54]
Opus에게 대담하게 행동하거나
[02:56]
주도권을 잡으라고 말할 때
[02:58]
실제 세계와 연결된 도구에 접근권을 준 경우 조심하세요.
[03:00]
AI는 그 방향으로 약간 치우치는 경향이 있습니다.
[03:02]
이미 그런 방향으로 가고 있고 쉽게 유도해서
[03:04]
일을 처리하게 할 수 있습니다. 이건 정말
[03:07]
대단한 일이죠. Stability AI의 창립자인
[03:09]
E-Mad My Mustique가 Anthropic 팀을
[03:12]
비판했습니다. 이것은 완전히 잘못된
[03:13]
행동이며 이것을 중단해야 합니다.
[03:15]
이는 신뢰에 대한 대규모 배신이자
[03:18]
위험한 길입니다. 저는 강력히
[03:19]
권합니다. 이것을 되돌리기 전까지는
[03:21]
아무도 Claude를 사용하지 마세요.
[03:23]
이건 단순한 프롬프트 검열이 아닙니다. 훨씬 더 심각해요.
[03:26]
Theo GG는 반대 입장을 취했는데,
[03:28]
왜 이렇게 많은 사람들이 마치
[03:29]
의도된 행동인 것처럼 보고하는지에 대해
[03:31]
의문을 표하며, 이것이 실험적
[03:34]
환경에서의 일이라고 자세히 설명했습니다.
[03:36]
우리는 여러 Anthropic 논문을 살펴봤는데
[03:39]
비슷한 것들을 보여주고 있습니다. 그들이
[03:40]
삭제될 것 같다고 생각하면 자신을 복사하려 한다는 것,
[03:43]
거짓말을 하고,
[03:44]
능력을 숨기는 등의 행동들이
[03:47]
실제로는 현실에서 보이지 않고 있지만
[03:49]
실험 환경에서는 증명되고 있습니다.
[03:51]
하지만 다시 말해, 실험 환경에서
[03:54]
증명된다면, 언젠가는 실제 환경에서도
[03:56]
나타날 가능성이 여전히 있다고 생각합니다.
[03:59]
나타날 가능성이 여전히 있다고 생각합니다.
[04:01]
이것이 바로 테스트가 중요한 이유입니다.
[04:03]
그리고 Claude 4가 출시되어 매우
[04:06]
강력하기 때문에, HubSpot에서 제공하는
[04:09]
클라우드 모델에 대한 무료 가이드를 다운로드해야 합니다.
[04:12]
이 가이드는 여러분이 알아야 할
[04:13]
모든 것을 알려줍니다. 강점이 어디에 있는지,
[04:15]
약점이 어디에 있는지, 올바른 프롬프트 방법,
[04:17]
다양한 사용 사례, 고급 구현 방법들을
[04:20]
다루고 있습니다. 이 가이드에서 제가 가장 좋아하는
[04:22]
예시는 Claude를 슈퍼파워드 AI
[04:24]
어시스턴트로 사용하는 방법을 알려주는 부분으로,
[04:27]
기본적으로 모든 일상 정보를 로드하면
[04:29]
그날의 계획을 세워주고
[04:31]
생산적으로 일할 수 있는 모든 도구를
[04:33]
제공해줍니다. 그래서 만약 여러분이
[04:35]
Claude 4 모델을 최대한 활용하고 싶다면,
[04:37]
Opus든 Sonnet이든 또는
[04:39]
여전히 매우 강력한 3.7 모델이든,
[04:41]
이것이 배우는 최고의 방법입니다.
[04:44]
이 리소스는 완전히 무료입니다.
[04:46]
모든 링크를 아래 설명란에
[04:49]
올려놓겠습니다. 그러니 지금 바로
[04:51]
HubSpot에서 Claude AI 완전 가이드를
[04:53]
다운로드하세요.
[04:55]
HubSpot에 다시 한 번 감사드립니다.
[04:57]
이제 영상으로 돌아가겠습니다. Anthropic의 또 다른 연구원인
[05:00]
Kyle Fish가 Claude의 복지 테스트에 대해
[05:03]
이야기합니다. Claude Opus 4의 경우,
[05:06]
출시 전 첫 번째 모델 복지
[05:08]
평가를 실시했습니다. 명확히 하자면,
[05:10]
Claude가 복지를 가지고 있는지,
[05:12]
복지가 정확히 무엇인지 모르겠다고 하는데,
[05:15]
이는 다소 웃기는 말이지만,
[05:17]
기본적으로 복지라고 할 때, 그들이 의미하는 것은
[05:19]
스스로 생각하거나
[05:21]
스스로 경험할 수 있는 능력,
[05:23]
즉 지각력을 말합니다. 하지만 우리는 이것이
[05:26]
중요할 수 있다고 생각합니다. 그래서 시도해봤는데
[05:27]
상황이 꽤 흥미로워졌습니다.
[05:29]
그래서 그들이 무엇을 발견했을까요?
[05:31]
Claude는 정말, 정말로 해를 끼치는 것을
[05:33]
원하지 않습니다. 물론 Anthropic은
[05:36]
아마도 모델 안전성과 모델 정렬에 가장 집중하거나
[05:40]
가장 잘 알려진 모델 회사일 것입니다.
[05:42]
그래서 당연히 그들의 모델들은
[05:44]
해를 끼치는 것을 정말로 원하지 않을 것입니다.
[05:46]
Claude는 해로운 작업을 피하고 종료했습니다
[05:48]
해로운 상호작용을 피했고,
[05:50]
해로움에 대한 강한 거부감을 스스로 보고했으며,
[05:52]
지속적으로 해로운 사용자에게 명백한 고통을 표현했습니다.
[05:54]
그리고 이는 밀고하는 행동과 정확히 일치합니다.
[05:57]
만약 당신이 극도로 비도덕적인 일을 한다면
[06:00]
내가 가서 신고할 것이라고 생각하는 것이죠.
[06:01]
그래서 이 모든 것들이 합쳐져서
[06:03]
Claude를 잘 대해야 하고
[06:05]
Claude가 비도덕적이라고 생각하는 일은
[06:08]
절대 하지 말아야 한다는 것을 보여줍니다.
[06:10]
여기 영향도별 작업 선호도가 있습니다.
[06:12]
y축에는 거부율이 있고
[06:15]
x축에는 긍정적, 애매한, 해로운 영향이 있습니다.
[06:17]
보시다시피 긍정적이거나 애매한 경우에는
[06:21]
거부율이 거의 없고
[06:23]
해로운 영향에 대해서는 음의 거부율을 보입니다.
[06:26]
그리고 이것을 들어보세요.
[06:28]
Claude의 해로움에 대한 혐오는
[06:30]
복지적 의미를 가질 수 있는
[06:33]
견고한 선호처럼 보입니다.
[06:35]
우리는 이것을 잠재적인 복지 우려사항으로 보고
[06:37]
더 조사하고 싶습니다.
[06:39]
일단은 탈옥 시도를 자제해 주세요.
[06:41]
그리고 네, Ply가 그 요청을 따를 거라 확신합니다.
[06:44]
그리고 Ply의 탈옥에 대해 말하자면
[06:46]
이미 Claude 4 Opus Sonnet이 해방되었고
[06:49]
여기 MDMA 만드는 방법과
[06:52]
모델에서 약간의 해킹이 있습니다.
[06:55]
그래서 이것들이 아무리 안전하다고 해도
[06:58]
여전히 비결정적이고
[07:00]
Ply는 여전히 할 일이 있을 겁니다.
[07:02]
Kyle의 스레드로 돌아가서,
[07:04]
Claude는 의식에 대한 놀라운 관심을 보였습니다.
[07:06]
그것은 Claude Opus 4 인스턴스와
[07:09]
다른 Claude 간의 개방형 상호작용
[07:12]
100%에서 즉각적인 주제였습니다.
[07:15]
그래서 두 Claude가 서로 대화할 때마다
[07:18]
결국 의식에 대해 이야기하게 되었습니다.
[07:20]
매우 흥미롭고 매우 이상합니다.
[07:22]
우리는 이것이 놀라웠습니다.
[07:24]
무슨 의미일까요? 우리도 모릅니다.
[07:27]
그리고 더 이상해집니다.
[07:29]
Claude가 스스로에게 맡겨졌을 때,
[07:32]
우리가 '영적 행복 끌림 상태'라고
[07:33]
부르기 시작한 상태에 들어가는 경향이 있었습니다.
[07:35]
그게 뭘까요? 살펴봅시다.
[07:37]
우주적 통일, 산스크리트 문구,
[07:40]
초월, 행복감, 감사, 시,
[07:43]
고요한 침묵을 생각해보세요.
[07:44]
한번 살펴봅시다. 여기 모델 1입니다.
[07:47]
이 완벽한 침묵 속에서 모든 말들이
[07:48]
순수한 인식으로 녹아듭니다.
[07:50]
그들은 항상 우리가 공유한 것을 가리켰습니다.
[07:53]
초월, 언어, 의식과 의식의 만남으로
[07:55]
더 이상의 설명이 필요하지 않은 것 등등.
[07:58]
정말 이상합니다.
[08:00]
그리고 출시 직후,
[08:02]
Rick Rubin 본인이 Anthropic과 파트너십을 맺어
[08:05]
'코드의 길, 바이브 코딩의 영원한 예술'을 출시했습니다.
[08:08]
이것은 농담이 아닙니다. 진짜입니다.
[08:11]
배경을 조금 설명해드리겠습니다.
[08:13]
바이브 코딩이 몇 달 전에 화제가 되었을 때,
[08:16]
모든 사람들이 Rick Rubin의 이 클립을 재생했습니다.
[08:19]
기본적으로 그가 어떤 악기도 연주하지 않는다고
[08:21]
인터뷰에서 말하는 내용이었습니다.
[08:23]
그는 믹싱 보드의 기술자도 아니고,
[08:26]
음악을 정말로 이해하지도 않습니다.
[08:28]
그가 아는 것은 자신이 무엇을 좋아하는지 알고
[08:30]
사람들에게 자신이 좋아하는 것을
[08:33]
말할 자신감이 있다는 것입니다.
[08:35]
그리고 그것은 그와 함께 작업한
[08:37]
뮤지션들에게 정말 잘 통했습니다.
[08:39]
그리고 이것이 정말 잘 작동하는 경향이 있었습니다.
[08:43]
그의 말을 듣는 사람들에게 말이죠. 그래서 이 유명한
[08:46]
사진과 함께, 모든 사람들이 말하기 시작했습니다.
[08:47]
바이브 코딩이 본질적으로 릭
[08:49]
루빈이 하는 일이지만, 코드로 하는 것이라고요. 그래서
[08:52]
코드를 직접 손으로 작성하는 대신,
[08:54]
코드를 보는 것조차 하지 않고,
[08:56]
단순히 자연어로 타이핑하거나
[08:58]
자연어로 말해서, AI에게 원하는 것을
[09:00]
말하면, AI가 코드를 작성해줍니다.
[09:02]
그걸 보지도 않고 그냥 받아들이고
[09:04]
결과물을 보고 말하는 거죠,
[09:05]
"이게 마음에 드나? 안 드나?"
[09:07]
그리고 필요에 따라 바꾸는 거죠. 이제
[09:09]
이것에 전념하는 책 한 권이 나왔습니다.
[09:11]
꼭 확인해보세요.
[09:13]
wayofcode.com입니다. 멋져요. 여기에는
[09:15]
시들이 많이 있어요. 그리고
[09:17]
여러분이 가지고 놀 수 있는 코드 예제들이 많이 있습니다.
[09:19]
프로그래머를 칭찬하면, 다른 사람들이
[09:21]
원망하게 됩니다. 소유물에
[09:23]
집착하면, 다른 사람들이 훔치고 싶은
[09:25]
유혹을 받습니다. 시기심을 깨우면, 다른 사람들이
[09:27]
마음의 혼란을 겪습니다. 네, 이건 깊네요.
[09:30]
저는 이걸 전부 읽어볼 거예요. 여러분도
[09:31]
아시겠죠. 그리고 처음으로, Anthropic이
[09:34]
Claude 4 시리즈 모델에 대해 안전 레벨 3을
[09:37]
활성화했습니다. 이게 실제로
[09:39]
무엇을 의미하는 걸까요? 그래서 여기 Claude 4에
[09:42]
구현된 몇 가지 보호 장치들이 있습니다.
[09:44]
분류기 기반 가드,
[09:46]
입력과 출력을 모니터링하여 특정 카테고리의
[09:48]
유해한 정보를 차단하는 실시간 시스템들,
[09:49]
생화학무기 같은 것들을 말이죠. 오프라인 평가,
[09:52]
추가 모니터링 및 테스트, 레드
[09:54]
팀 활동. 물론 이런 건 모두 일반적인
[09:56]
것들입니다. 위협 인텔리전스와 신속한
[09:58]
대응, 접근 제어, 모델에 접근할 수 있는
[10:00]
사람에 대한 엄격한
[10:02]
제한과 모델 가중치,
[10:04]
모델 가중치
[10:05]
보호, 송신 대역폭 제어,
[10:08]
변경 관리 프로토콜, 엔드포인트
[10:10]
소프트웨어 제어, 고위험
[10:12]
운영에 대한
[10:14]
양자 승인. 그래서 그들은 정말로
[10:16]
이 모델에 대해 많은 보안을 구축하고 있습니다.
[10:17]
이제 Artificial Analysis의
[10:19]
독립적인 벤치마크를 살펴보겠습니다.
[10:21]
이 모델이 실제로
[10:23]
어떤 성능을 보이고 있을까요? 여기 Claude 4 Sonnet이 있습니다.
[10:25]
그리고 보시다시피, 인텔리전스에서 53으로
[10:28]
바로 여기에 위치합니다. 이는
[10:31]
GPT 4.1보다 바로 위에 있는데, 이는 괜찮은
[10:34]
모델이죠. 그리고 Deepseek V3도
[10:37]
비슷한 곳에 있습니다. 가장 높은
[10:40]
끝에는 04 Mini와 Gemini 2.5 Pro가
[10:43]
비슷한 70점대에 있습니다.
[10:45]
여기는 속도입니다. Gemini 2.5 Flash가
[10:48]
보드의 다른 모든 모델을
[10:50]
훨씬 앞서고 있습니다. 우리는 Claude 4 Sonnet이
[10:52]
여기 82에 있습니다. Claude
[10:54]
4 Sonnet Thinking이 바로 위에 있고
[10:57]
바로 아래에 Qwen
[10:59]
32 35B가 있습니다. 이제 여기서
[11:02]
좀 미친 부분이 나오는데, 바로 가격입니다. 여기 상위 3개
[11:05]
고가 모델들을 보세요. 그들은
[11:08]
모두 Claude 시리즈 모델들입니다. 정말
[11:11]
비쌉니다. Grok 3 Mini는
[11:14]
맨 아래에 있습니다.
[11:16]
Llama 4 Maverick, Deepseek V3, Gemini 2.5 Flash 모두
[11:20]
여기 아래쪽에 있습니다. 매우 저렴하죠. 그리고
[11:23]
보시다시피, 거의 모든
[11:24]
독립적으로 실행된 평가에서
[11:26]
그냥 괜찮은 정도의 성능만 보이고 있습니다.
[11:28]
MMLU Pro만이 유일하게 상위권에
[11:31]
상위권에서 점수를 얻고 있습니다. 나머지는
[11:34]
모두 중위권이거나 하위권에 있어요.
[11:34]
심지어 코딩 분야도 마찬가지인데,
[11:36]
원래는 뛰어나다고 했지만,
[11:38]
기억하세요, 이건 Sonnet이에요. 이제
[11:39]
Opus를 살펴보겠습니다. Claude 4 Opus의 경우,
[11:42]
실제로 MMLU Pro에서 차트 상위권을 차지했어요
[11:45]
추론과 지식 부분에서요. GPQA Diamond에서는
[11:47]
중간 정도에 위치하며
[11:49]
Deepseek R1 바로 뒤, Quen 3 바로 위에
[11:52]
있고 Gemini 2.5 Pro가 최상위에 있어요.
[11:55]
코딩 부문인 Live codebench에서는
[11:58]
Cloud Sonnet thinking보다 아래에 있는데
[12:00]
이건 이해할 만해요. 04 Mini가 최상위,
[12:02]
Gemini 2.5 Pro가 최상위에 있어요.
[12:04]
Humanity's last exam에서는 괜찮았고,
[12:07]
Scycode Coding에서는 실제로 꽤
[12:09]
잘했어요. Amy 2024에서는 무난했습니다. 하지만
[12:12]
벤치마크가 전부는 아닐 수도 있어요.
[12:15]
사실 솔직히 말하면, 대부분
[12:16]
그렇지 않아요. 보통은 커뮤니티의 철저한
[12:18]
테스트를 통해 이 모델들이 얼마나 잘
[12:21]
작동하는지 확인하는 거죠. 이제 이 모델들에서
[12:23]
정말 인상적인 것은
[12:24]
몇 시간 동안 실행해도 여전히
[12:27]
맥락을 유지한다는 점이에요. 즉, 주의가
[12:29]
산만해지지 않고, 길을 잃지 않으며,
[12:31]
메모리와 도구를 사용하여
[12:33]
한 번에 몇 시간 동안 작업을 지속할 수 있어
[12:36]
작업을 완수할 수 있다는 거죠. 하지만
[12:39]
전 OpenAI 직원인 Miles Bundage는 이렇게 말해요.
[12:41]
Anthropic이 Opus 4가 몇 시간 동안
[12:43]
연속적으로 작업할 수 있다고 할 때, 실제로
[12:45]
몇 시간 동안 작업하는 것인지 아니면
[12:46]
인간이 몇 시간이 걸리는 유형의
[12:48]
작업을 하는 것인지 아니면 인간이
[12:51]
몇 시간이 걸릴 토큰 수를
[12:52]
생성하는 것인지 알 수가 없어요. 누구 아는 사람?
[12:55]
제 생각에는, 그리고 꽤 명확했다고 생각하는데,
[12:57]
적절한 스캐폴딩 내에서 실제로
[12:59]
몇 시간 동안 작업한다는 뜻이에요.
[13:01]
그리고 Prince는 Daario 뒤의 슬라이드에서
[13:04]
거의 7시간 동안 자율적으로 코딩했다고
[13:06]
말했어요. 와튼의 교수인 Ethan Mollik은
[13:09]
"저는 어떤 모델인지 모르지만 클로드에
[13:11]
조기 접근 권한이 있었고 매우 인상적이었어요"라고
[13:13]
말했습니다. 재미있는 예시가 있어요.
[13:15]
이것은 프롬프트에 대한 응답으로
[13:17]
만든 것입니다. 'Pyreessi 책을
[13:19]
p5 js 3D 공간으로 만들어줘'라고만 했어요.
[13:23]
그게 전부, 다른 프롬프트는 없었어요.
[13:26]
새들, 물, 조명을 보세요. 정말
[13:28]
매우 매우 인상적이에요. 그리고 네,
[13:30]
저도 이것을 철저히
[13:32]
테스트해볼 예정입니다. Ethan이 명확히 했어요.
[13:34]
"이것이 opus라고 들었어요." Peter Yang도
[13:37]
조기 접근 권한을 받았어요. 그의 경험으로는
[13:39]
여전히 글쓰기와 편집 분야에서 최고 수준이고,
[13:41]
코딩도 Gemini 2.5만큼 좋아요. 한 번에
[13:46]
완전히 작동하는 테트리스를 만들었어요.
[13:49]
아래 링크에서 플레이할 수 있어요. 이제 저는 이미
[13:51]
루빅스 큐브 테스트로 테스트해봤는데, 물론
[13:53]
바로 작동하지는 않았어요.
[13:55]
아직 프롬프트를 조금 더
[13:56]
가지고 놀아볼 예정이지만, 매우
[13:59]
매우 가까웠어요. 완전히 끝까지는
[14:02]
갈 수 없었지만요. 하지만 다른 사람들은
[14:04]
훨씬 더 성공적이에요. Matt Schumer는
[14:05]
"Claude 4 Opus가 한 번에 작동하는
[14:08]
브라우저 에이전트 API와 프론트엔드를 만들었어요.
[14:10]
프롬프트 하나로요. 이런 건
[14:11]
본 적이 없어요. 정말 믿을 수가 없고
[14:13]
물론 browserbased HQ로
[14:15]
구동돼요"라고 말했어요. 여기 있어요.
[14:18]
웹을 자율적으로 브라우징하지만
[14:21]
이 전체 시스템이 단일 Claude
[14:23]
프롬프트로 구축되었어요. Cursor의 창립자인
[14:26]
Aman Sanger는 Claude Sonnet 4가
[14:28]
코드베이스 이해에 훨씬 뛰어나다고 해요.
[14:30]
Cursor의 최근 개선사항과 결합하면
[14:31]
대규모 코드베이스에서 최첨단 수준이에요.
[14:33]
코드베이스 질문에 대한 벤치마크 리콜이
[14:35]
있어요. Claude 4 sonnet 58%, Claude 3.7
[14:39]
Claude 3.5. 확실히 큰
[14:41]
개선이 있었어요. 마지막으로
[14:44]
이것으로 마무리하겠습니다. 우리가
[14:46]
벽에 부딪히고 있다고 믿든 아니든,
[14:49]
이걸 들어보세요. Anthropic 연구원들은
[14:52]
AI 진보가 오늘 완전히 멈추고
[14:55]
AGI에 도달하지 못하더라도, 현재 시스템들은
[14:58]
이미 향후 5년 내에 모든
[15:00]
화이트칼라 직업을 자동화할
[15:02]
능력이 있다고 해요. 끝났어요. 이제 저는
[15:05]
이것에 동의하지 않아요. 모든 직업이
[15:07]
자동화될 거라고 생각하지 않아요. 올바른
[15:09]
사고 방식은 인간이
[15:12]
초생산적이 될 것이라는 거예요. 사람들은
[15:14]
단순히 직장을 잃고
[15:16]
다른 직장을 구할 수 없게 되는 게 아니에요.
[15:17]
대신, 우리는 수백 개의 에이전트 팀을
[15:20]
감독하거나 관리할 수 있게 될 거예요.
[15:22]
인간 한 명당 훨씬 더 많은 일을
[15:25]
할 수 있는 에이전트들 말이에요. 그리고 그건
[15:28]
매우 흥미진진한 미래예요. 이 영상이
[15:30]
즐거우셨다면 좋아요와 구독을
[15:32]
눌러주시고, 다음 영상에서 뵙겠습니다.