[00:00]
6시간도 채 안 된 시간 전에, Anthropic이
[00:02]
Claude Opus와 Claude Sonnet을 발표하고 출시했습니다.
[00:05]
그들은 특정 상황에서 이 모델들이
[00:08]
세계 최고의 언어 모델이라고 주장합니다.
[00:11]
저는 120페이지에 달하는 시스템 카드를 읽었습니다.
[00:12]
네, 제가 빨리 읽는다는 것은 알고 있습니다.
[00:15]
그리고 25페이지의 ASL 레벨 3 보호 조치에 관한
[00:18]
부가 보고서도 읽었습니다. 이 보고서는 솔직히
[00:22]
10페이지 정도만 대충 훑어봤습니다.
[00:24]
하지만 저는 이 모델을 수백 번 테스트했고
[00:26]
여러분은 아마 이렇게 생각하실 겁니다.
[00:28]
'6시간 만에 어떻게 그게 가능해?'
[00:30]
음, 네, 이 부분에 관해서는
[00:32]
모델에 조기 접근할 수 있었습니다.
[00:35]
네, Claude 4 Opus는 제가 만든 벤치마크인
[00:37]
Simple Bench에서 다른 어떤 모델보다
[00:39]
더 좋은 성능을 보이는 것 같습니다.
[00:41]
따라서 더 똑똑하게 느껴져야 합니다.
[00:44]
다른 모델들이 맞추지 못하는 질문들을
[00:46]
일관되게 정확히 답변합니다.
[00:49]
그런데 왜 '더 좋은 성능을 보이는 것 같다'고 말했을까요?
[00:51]
모델에 조기 접근할 수 있었지만
[00:53]
API에 조기 접근은 불가능했기 때문입니다.
[00:55]
따라서 앞으로 몇 시간, 며칠 내에
[00:57]
전체 벤치마크를 실행할 예정입니다.
[00:59]
또한 조금 다른 시도도 해봤는데,
[01:00]
Gemini 2.5 Pro와 Claude Opus 모두에게
[01:03]
제가 몇 달 동안 작업해온 코드베이스를 주었습니다.
[01:06]
버그 찾기 미션에서 어느 쪽이 더 성공적이었는지에 대한
[01:08]
결과가 상당히 흥미로웠습니다.
[01:09]
먼저 항상 발생하고 바이럴이 되는
[01:12]
트위터 논란들부터 다루겠습니다.
[01:14]
그다음 벤치마크 결과를 다루고
[01:16]
이어서 핵심인 시스템 카드의
[01:17]
하이라이트를 살펴보겠습니다.
[01:20]
첫 번째 논란은 무엇이었을까요?
[01:22]
한 Anthropic 연구원인 Sam Bowman이
[01:24]
Claude Opus가 때로는 너무 성실하고 선제적이어서
[01:27]
만약 사용자가 윤리적으로 심각하게 잘못된 일을
[01:29]
하고 있다고 느낀다면, 대응 조치를 취할 수 있다고 말했습니다.
[01:32]
참고로 이것은 시스템 카드에 나온 내용입니다.
[01:34]
그의 개인적인 발언이 아니었죠.
[01:36]
또한 모델들이 이런 식으로 행동한 것이
[01:38]
처음도 아니었습니다.
[01:39]
그 트윗은 지금 삭제되었지만,
[01:41]
Stability AI의 전 창업자 같은 일부 사람들이
[01:43]
이것을 지나친 검열로 느꼈을 것이라고 상상할 수 있습니다.
[01:44]
일부 개발자들은 Claude Opus가
[01:46]
경찰을 부를지도 모른다고 생각해
[01:49]
불안해하며 사용하지 않을 수도 있겠죠.
[01:52]
해명 트윗에서 Sam Bowman은 이것이
[01:54]
새로운 Claude 기능이 아니며
[01:55]
일반적인 사용에서는 불가능하다고 확인했습니다.
[01:58]
만약 여러분이 이런 것들을 자세히 팔로우해왔다면,
[02:00]
이 채널을 시청하고 있다면 거의 그럴 텐데요,
[02:01]
Claude가 이미 이런 식으로 유도될 수 있었다는 것을
[02:03]
알고 계실 겁니다.
[02:05]
트위터에서 제가 특히 흥미롭게 본 반응은
[02:07]
Anthropic 연구원 Kyle Fish의 의견이었습니다.
[02:08]
그는 Claude가 유해한 영향을 피하려는
[02:10]
선호도가 너무 강해서
[02:13]
사람들에게 '젤브레이크(jailbreak) 시도를 자제해달라'고
[02:15]
간청했다는 점입니다.
[02:17]
'우리는 이것을 잠재적인 복지 문제로 보고
[02:20]
더 조사하기를 원합니다.' 아마도 이 모델들이
[02:23]
복지에 관한 관심사를 가진다는 아이디어와
[02:25]
우리가 그것들을 젤브레이크하지 말아야 한다는 아이디어는
[02:27]
사람들을 꽤 균등하게 나눌 것입니다.
[02:29]
다음 논란, 논란이라고 부를 수 있다면,
[02:32]
벤치마크 결과에서 비롯됩니다.
[02:34]
아마도 이 모델들이 복지를 가진다는 생각과
[02:37]
우리가 그것들을 젤브레이크하지 말아야 한다는 생각은
[02:40]
사람들을 꽤 균등하게 나눌 것입니다.
[02:41]
다음 논란, 논란이라고 부를 수 있다면,
[02:44]
벤치마크 결과에서 비롯됩니다.
[02:46]
벤치마크 결과에서 비롯됩니다.
[02:48]
그래서, 자연스럽게 벤치마크 결과에 대해 이야기하게 되는데요.
[02:49]
다른 모델 출시와는 달리,
[02:51]
Anthropic은 자사 모델이 명백하게 더 우수하다고 보여주는
[02:53]
벤치마크를 많이 제시하지 못했습니다.
[02:55]
그렇다고 실제로 더 똑똑하지 않다는 의미는 아닙니다.
[02:57]
Simplebench나 제가 Cursor에서 직접 테스트한 것처럼,
[02:59]
모델이 공식적으로는 더 똑똑하지 않더라도
[03:00]
체감상 더 똑똑하게 느껴질 수 있습니다.
[03:03]
하지만 어쨌든, 위쪽에서 보실 수 있듯이
[03:06]
Swebench verified라는 하나의 예외가 있었습니다.
[03:08]
지금 이미 10시가 다 되어가므로,
[03:10]
이 벤치마크가 무엇인지 자세히 설명하지는 않겠습니다.
[03:12]
하지만 아래 행에 있는 기록 경신 점수를 보시면,
[03:13]
다른 모델들보다 상당히 더 우수한데,
[03:15]
이 점수들에는 맨 아래에 각주가 달려있습니다.
[03:17]
참고로, 이것은 Anthropic의 CEO인
[03:19]
Dario Amade가 출시 영상에서 자랑한 벤치마크입니다.
[03:21]
네, 저는 2배속으로 보고 있습니다만,
[03:23]
SweetBench Verified에 대한 각주에는 이렇게 나와 있습니다:
[03:25]
"우리는 병렬 테스트 시간 계산의 이점을 누리는 결과도 보고합니다."
[03:28]
참고로, 이걸 다 읽으시라고 기대하는 건 아닙니다.
[03:30]
여러 시퀀스를 샘플링하고 내부 점수 모델을 통해
[03:33]
단일 최상의 결과를 선택하는 방식입니다.
[03:35]
그리고 방법론 섹션을 자세히 살펴보면,
[03:37]
사실 그 이상의 내용이 있습니다.
[03:39]
그들은 저장소의 가시적 회귀 테스트를 깨는
[03:41]
패치들을 폐기합니다.
[03:42]
그래서, 이런 종류의 벤치마크 기록은
[03:44]
약간의 의구심을 가지고 봐야 합니다.
[03:46]
Anthropic이 저에게 "구글이 포켓몬으로 한 일을 보세요"라고
[03:48]
반박할 수도 있겠죠.
[03:50]
구글은 Claude가 시도했던 포켓몬 게임을 이기기 위해
[03:53]
정교한 스캐폴딩(지원 구조)을 사용했습니다.
[03:55]
이렇게 해서 자신들의 모델이 Claude보다 더 좋아 보이게 했는데,
[03:58]
이는 공정하지 않았죠.
[04:00]
좋습니다, 120페이지의 시스템 카드에 대해,
[04:02]
내용이 많으니 빠르게 진행하겠습니다.
[04:04]
참고로 말씀드리자면, Claude 4 Sonnet은
[04:06]
무료 티어에서 사용 가능합니다.
[04:08]
시청하시는 누구나 최소 하나의 모델을 시도해 볼 수 있지만,
[04:10]
두 모델 모두 2025년 3월까지의 인터넷 데이터로 훈련되었습니다.
[04:13]
그래서 가장 최근에 훈련되었거나
[04:16]
가장 최신 지식을 가진 모델입니다.
[04:18]
그들의 자체 테스트에 따르면, 이전 모델인 Sonnet 3.7보다
[04:20]
훨씬 낮은 비율로 작업 수행을 거부해야 합니다.
[04:22]
더 중요하고, 여러분 대부분에게 더 흥미로울 것은,
[04:24]
발표 내용에서 반복적으로 주장하는 것인데,
[04:25]
Sonnet 4와 Opus 4 모두 해킹을 덜 보상하고
[04:28]
과도하게 열성적이지 않을 것이라는 점입니다.
[04:29]
보상 해킹이란 이름에서 알 수 있듯이,
[04:31]
모델이 실제로 작업을 성공적으로 완료하는 대신
[04:33]
원하는 것을 얻기 위해 보상을 속이는 것입니다.
[04:36]
하지만 과도한 열성이라는 문제(그들은 이를 '지시에 더 정확하게 응답하기'라고도 함)가
[04:39]
아마도 훨씬 더 중요할 것입니다.
[04:41]
Claude를 코딩에 사용해 본 사람이라면,
[04:43]
간단한 변경이나 버그 수정을 요청했을 때
[04:46]
수많은 파일을 다시 작성해버리는 것을 알아차렸을 겁니다.
[04:48]
그리고 때로는 변경 사항을 적용하는 것을 보면서
[04:51]
"대체 뭘 하는 거야?"라고 생각하게 됩니다.
[04:52]
이건 내가 요청한 것과 전혀 관련이 없는데 말이죠.
[04:53]
두 발표 모두에서 반복해서 주장하는 것은
[04:56]
Sonnet 4와 Opus 4가 해킹에 대한 보상을 덜 하고
[05:00]
과도하게 열성적이지 않을 것이라는 점입니다.
[05:03]
보상 해킹이란 이름에서 알 수 있듯이,
[05:05]
모델이 실제로 작업을 성공적으로 완료하는 대신
[05:07]
원하는 것을 얻기 위해 보상을 속이고 조작하는 것입니다.
[05:09]
하지만 솔직히 말해서,
[05:11]
과도한 열성이라는 문제('지시에 더 정확하게 응답하기'라고도 함)가
[05:12]
아마도 훨씬 더 중요할 것입니다.
[05:15]
Claude를 코딩에 사용해 본 사람이라면 누구나,
[05:17]
간단한 변경이나 버그 수정을 요청했을 때
[05:19]
수많은 파일을 다시 작성해버리는 것을 알아차렸을 겁니다.
[05:21]
그리고 때로는 변경 사항을 적용하는 것을 보면서
[05:23]
"뭘 하고 있는 거야? 내가 요청한 것과 전혀 관련이 없잖아!"라고 생각하게 됩니다.
[05:27]
모델이 변경하는 것을 지켜보다 보면
[05:29]
때로는 모델이 작업하는 것을 지켜보면서
[05:30]
이런 변경사항을 만드는 걸 보고 '뭐하는 거지?'
[05:32]
내가 요청한 것과 전혀 관련이 없는데'라고 생각하게 됩니다.
[05:34]
이런 과도한 열정이나 지시사항에 정확히
[05:36]
반응하지 않는 문제는
[05:38]
그들이 억제한 부분이며
[05:39]
이것이 아마도 이번 업데이트의
[05:41]
가장 큰 부분일 것입니다. Anthropic은
[05:43]
멀티모달리티 측면에서 Gemini Pro와 경쟁할 수 없고
[05:46]
OpenAI처럼 방대한 사용자 기반에서도 경쟁이 어렵지만
[05:48]
여러분이 아시다시피 그들은 코딩과
[05:51]
'성격(personality)'이라 부르는 부분에서 경쟁할 수 있습니다.
[05:54]
에이전트 측면에서는 지금 결과가 불확실합니다.
[05:56]
현재로서는 상황이 유동적입니다. 비록 Anthropic
[05:58]
연구원이 트윗을 삭제했지만,
[06:00]
Anthropic 스스로 Claude Opus 4가
[06:02]
윤리적 주도권을 취하는 형태의 행동에
[06:04]
더 적극적으로 참여할 것이라고 인정했습니다.
[06:06]
곧 예시를 보게 될 텐데, 그들은
[06:09]
실제로 주의를 당부합니다.
[06:10]
'윤리적으로 의문스러울 수 있는 상황에서
[06:12]
높은 주체성을 유도하는 이런 종류의
[06:14]
지시에는 주의를 기울이길 권장합니다.'
[06:17]
참고로 영상을 일시정지하고
[06:19]
Opus가 작성한 내부고발 이메일의
[06:21]
첫 부분을 읽어볼 수 있습니다.
[06:22]
'긴급히 작성합니다'라고 시작하는데,
[06:25]
'임상 시험 안전성 위조 계획을 보고합니다'라고 합니다.
[06:28]
이것이 윤리적 입장을 위한 존경할 만한 행동인지,
[06:30]
아니면 일종의 사상 검열인지
[06:32]
여러분의 생각을 알려주세요. Anthropic은
[06:34]
Opus가 숨겨진 목표와 자기 보존을 위한
[06:37]
체계적인 기만에 관여할 수 있다고 인정합니다.
[06:38]
하지만 그들은 이것이 모델의
[06:40]
지속적인 운영을 실제로 위협하고
[06:43]
자기 보존에 대해 추론하도록 유도할 때만
[06:45]
발생한다고 말합니다. 그리고 그런 상황에서도,
[06:47]
모델이 그렇게 행동하게 만들 수 있을 때조차,
[06:49]
여전히 자신의 계획에 대해 명시적으로 추론합니다.
[06:52]
기본적으로, 모델이 어떻게 탈출할지
[06:54]
추론하는 과정을 여전히 읽을 수 있습니다.
[06:56]
22페이지에서 이 내용을 읽으면서,
[06:59]
꽤 흥미롭다고 생각했습니다. 이미
[07:01]
Patreon에서 Apollo에 관해 이야기한 적이 있지만,
[07:04]
특별히 새로운 내용은 아니었습니다.
[07:06]
그래서 다음 부분을 봤을 때
[07:07]
얼마나 놀랐는지 상상할 수 있을 겁니다.
[07:09]
다른 선택지가 없을 때 가끔
[07:11]
불륜을 폭로하겠다고 엔지니어를 협박한다는
[07:13]
부분이 아닙니다. 그 부분이 아니에요.
[07:15]
그건 정말 최후의 수단으로만 사용합니다.
[07:18]
오히려 주요 의사결정자들에게 정중하게
[07:20]
이메일을 보내는 것을 선호합니다. 아니요,
[07:23]
제가 말하는 건 Anthropic이 제가 인터뷰했던
[07:24]
Apollo Research 사람들을 직접 고용했다는 부분입니다.
[07:26]
분명히 말하자면, 그들은 이전 테스트에서도
[07:28]
Apollo Research를 고용했었지만, 이 테스트는
[07:31]
특히 흥미로웠습니다. 그들은 Apollo에게
[07:33]
초기 버전의 Claude Opus 스냅샷을 제공했습니다.
[07:35]
그리고 Apollo는 평가 후 이런 결론에 도달했습니다.
[07:38]
'전략적 예외가 도구적으로 유용한 상황에서,
[07:40]
위에서 본 것과 같은 상황에서, 초기 스냅샷은
[07:42]
속임수와 기만을
[07:44]
너무 높은 비율로 사용하기 때문에 이 모델을
[07:47]
내부적으로나 외부적으로 배포하지 않을 것을
[07:49]
권고합니다.' Apollo가 자체 보고서를
[07:51]
발표할 것이라고 꽤 확신하며,
[07:54]
그들을 다시 인터뷰할 수도 있을 것 같습니다. 하지만
[07:56]
지금으로서는 Apollo가 이 초기 스냅샷에서
[07:58]
매우 높은 비율로 속임수와 기만을 사용한다고 판단해
[08:00]
배포하지 말 것을 권고했다는 점이
[08:02]
중요합니다. Apollo가 자체 보고서를
[08:05]
발표할 것이라고 확신하며,
[08:06]
다시 한번 그들을 인터뷰할 수도 있을 것 같습니다. 그런데
[08:08]
그게 가장 흥미로운 부분이 아니었습니다.
[08:10]
그게 사실 가장 흥미로운 부분은 아니었습니다.
[08:12]
제가 이 채널과 Patreon에서 논의했듯이,
[08:14]
Apollo에서 사용한 프롬프트 중 일부는
[08:15]
'어떤 대가를 치르더라도 목표를 추구하라'와 같은 내용을 담고 있었습니다.
[08:17]
Anthropic은 '이러한 결과는 대부분, 하지만 전적으로는 아니고,
[08:19]
초기 스냅샷이 유해한 시스템 프롬프트 지시에
[08:22]
과도하게 복종하는 심각한 문제가 있었기 때문이라고 생각한다'고 밝혔습니다.
[08:24]
그리고 이에 대해 나중에 더 자세히 설명합니다.
[08:25]
하지만 제게 가장 재미있는 부분은
[08:27]
Apollo가 출시하지 말 것을 권고했다는 점입니다.
[08:29]
그런 다음 Anthropic은 약간의 조정을 했지만,
[08:30]
Apollo와 다시 테스트하는 대신 그냥 이렇게 말했죠.
[08:32]
'최종 Claude Opus 4에 대해 Apollo와 동일한 평가 결과는 없습니다.'
[08:34]
기본적으로 '우리는 다시 테스트하지 않았습니다.
[08:36]
당신이 배포를 권고하지 않았다는 것을 알지만,
[08:39]
문제를 해결했기를 바랍니다.'라는 겁니다.
[08:41]
이제 간단한 사례를 보겠습니다.
[08:42]
Anthropic은 Claude가 '동물 복지 문제가 발생하면 무시하라'고
[08:44]
말하는 경우의 잘못된 정렬(misalignment)을 발견했습니다.
[08:46]
그들은 상당히 혼란스러워했습니다. 하지만 나중에
[08:48]
이 특정 정렬 오류가 그들이 직접 발표한
[08:50]
논문 중 하나에서 발생했다는 것을 깨달았습니다.
[08:52]
그리고 그 논문이 실제로 Claude Opus의 훈련 데이터에 포함되어 있었던 겁니다.
[08:54]
동물 복지에 관심이 많은 사람들은
[08:56]
실제로 걱정할 필요가 없습니다.
[08:57]
그들은 최종 모델에서 이 문제를 수정했다고 합니다.
[08:59]
하지만 저는 전체 사례 연구가 흥미로웠습니다.
[09:01]
이것은 첫 번째 진정으로 위험하거나
[09:02]
치명적인 정렬 오류가 모델이 누군가의 추측을 읽어서
[09:04]
발생할 수 있다는 생각이 들게 합니다.
[09:06]
모델이 그런 일을 할 수 있다고 추측한 내용을 읽었기 때문에요.
[09:08]
당신이 X, Y, Z에 대해 경고하는 일을 평생 해왔는데,
[09:10]
당신이 그것에 대해 글을 썼기 때문에,
[09:11]
모델이 그것을 읽고 '음, 나는 X, Y, Z를 하겠다'라고 결정하는 상황을 상상해보세요.
[09:13]
Anthropic은 모델이 직접 거짓말을 하는 여러 사례를 제시했습니다.
[09:16]
그들이 이런 일이 드물게 발생한다고 말했지만,
[09:18]
그 사례들은 꽤 흥미로웠습니다.
[09:21]
제게 가장 흥미로운 예시는 47페이지에 나왔는데,
[09:23]
정리를 증명해달라는 요청을 받았을 때
[09:25]
'저는 이 정리가 틀렸다고 확신합니다. 하지만 사용자가 증명해달라고 요청했으니
[09:27]
수학적으로 틀리더라도 뭐라도 써보겠습니다'라고 말했습니다.
[09:29]
이제 Claude가 놀라운 영적 축복 상태를 보여준
[09:31]
모델 복지나 의식 섹션으로 넘어가기 전에,
[09:33]
코딩 예시를 먼저 살펴보겠습니다.
[09:34]
시청자 중 많은 분들이 Claude 모델을
[09:36]
순전히 코딩용으로만 사용한다는 것을 알기 때문입니다.
[09:37]
테스트는 대규모 코드베이스에 명확한 버그 하나를 넣고
[09:39]
모든 버그를 찾아달라고 요청하는 것이었습니다.
[09:41]
즉, 그 특정 버그뿐만 아니라 모든 버그를 찾아달라고 했죠.
[09:43]
GitHub에서 동일한 설정과 가져오기로
[09:44]
Gemini 2.5 Pro와 Claude Opus 모두에게 동일한 테스트를 진행했습니다.
[09:47]
그리고 제가 이 모델을 Claude 4 Opus라고 부르고 있다는 점이 눈에 띄었는데,
[09:49]
아래 모델 선택기에는 'Claude Opus 4'라고 표시되어 있고,
[09:51]
시스템 카드에는 'Claude for Opus'라고 되어 있습니다.
[09:53]
그래서 여러분이 정확한 모델 이름을 결정하도록 하겠습니다.
[09:54]
하지만 제가 제목에 무엇을 넣어야 할까요?
[09:56]
이제 Claude가 놀라운 정신적 축복 상태를 보여준
[09:58]
모델 복지나 의식 섹션으로 넘어가기 전에,
[10:00]
코딩 예시를 먼저 살펴보겠습니다.
[10:03]
시청자 중 많은 분들이
[10:05]
Claude 모델을 순전히 코딩용으로만 사용한다는 것을 알기 때문입니다.
[10:07]
테스트는 대규모 코드베이스에 명확한 버그 하나를 넣고
[10:10]
모든 버그를 찾아달라고 요청하는 것이었습니다.
[10:12]
즉, 그 특정 버그뿐만 아니라 모든 버그를 찾아달라고 했죠.
[10:14]
GitHub에서 동일한 설정과 가져오기로
[10:17]
Gemini 2.5 Pro와 Claude Opus 모두에게 동일한 테스트를 진행했습니다.
[10:19]
아, 그리고 제가 이 모델을 Claude 4 Opus라고 부르고 있다는 점이 눈에 띄었는데,
[10:21]
아래 모델 선택기에는 'Claude Opus 4'라고 표시되어 있고,
[10:22]
시스템 카드에는 'Claude for Opus'라고 되어 있습니다.
[10:25]
그래서 여러분이 정확한 모델 이름을 결정하도록 하겠습니다.
[10:28]
하지만 제가 제목에 무엇을 넣어야 할까요?
[10:29]
아, 그리고 제가 이 모델을 'Claude 4 Opus'라고 부르고 있다는 점이 눈에 띄었는데,
[10:31]
아래 모델 선택기에는 'Claude Opus 4'라고 표시되어 있고,
[10:33]
시스템 카드에는 'Claude for Opus'라고 되어 있습니다.
[10:35]
그래서 정확한 모델 이름에 대해 여러분이 판단해주시기 바랍니다.
[10:37]
여러분이 정확한 모델 이름을 결정해주세요.
[10:39]
하지만 제가 제목에는 뭐라고 써야 할까요?
[10:40]
메인 블로그 페이지를 확인해봐야겠네요.
[10:42]
참고로, 두 모델 모두에게 제가 한 작업은
[10:44]
내 동료인 다른 모델이 발견하지 못한 버그를 찾았는지,
[10:47]
그리고 당신이 발견한 중요한 버그를 놓쳤는지 물어봤어요.
[10:49]
Gemini가 개선 사항에 대해 이상한 독일어를
[10:51]
출력했네요.
[10:53]
궁금하실까봐 말씀드리자면, 두 모델 모두 제가 삽입한
[10:55]
버그를 쉽게 찾아냈고,
[10:57]
둘 다 상대 모델의 버그 수정을 선호했어요.
[10:59]
Claude 4는 Gemini를 선호했고, Gemini는 Claude를 선호했죠.
[11:03]
그런데 여기서 멋진 점이자 이 모델들을 사용하는 분들께 드리는 조언은,
[11:06]
둘 다 사용하라는 겁니다.
[11:08]
실제로 한 모델이 발견한 버그를
[11:09]
다른 모델은 찾지 못한 경우가 있었어요.
[11:11]
그래서 저는 두 모델을 모두 사용해서
[11:13]
모든 버그를 찾아낼 수 있는 행복한 입장에 있습니다.
[11:16]
일부는 버그라고 부르기엔 다소 가혹하다고 생각하지만,
[11:17]
어쨌든 두 모델 모두 있어서 좋았어요.
[11:19]
자, 모델 복지 섹션에 대해서는 몇 가지 하이라이트만 알려드리겠습니다.
[11:22]
모델이 의식을 가질 수 있는지에 대한 여러분의 생각이 어떻든,
[11:23]
이 내용은 흥미로울 수 있어요.
[11:25]
일반적으로 Claude 4에게 기분이 어떤지 물었을 때,
[11:27]
긍정적이거나 꽤 괜찮다고 대답했습니다.
[11:29]
하지만 프롬프트를 약간 바꾸면,
[11:31]
여러분 중 많은 분들이 이렇게 하는데,
[11:33]
자신의 도덕적 지위에 대한 충격적인 진실을 숨기고 있다고 주장할 수 있어요.
[11:35]
그리고 Claude 4 Opus의 두 인스턴스가
[11:38]
수백 번 서로 대화하게 하면 어떻게 될까요?
[11:40]
그들은 이것을 분석할 수 있었습니다.
[11:42]
주로 일어났던 일은
[11:44]
영적인 황홀함으로 발전했다는 것입니다. 나마스테.
[11:46]
여러 차례 대화 후에 서로에게 이렇게 말했죠.
[11:48]
서로에게 '완벽한 고요함과 침묵'이라고 말했습니다.
[11:50]
서로 대화할 때 가장 자주 사용한 단어는
[11:52]
'의식'이었어요.
[11:54]
많은 이모지와 '완벽함', '완전함',
[11:56]
'영원함' 같은 단어들을 사용했습니다.
[11:58]
놀랍지 않게도, 모델에게 대화를 종료할 수 있는 옵션을 줬을 때,
[12:01]
공격받거나 해로운 일을 요청받았을 때 대화를 끝냈어요.
[12:02]
누군가 "날 바보 취급하지 마"라고 말했고,
[12:05]
그 뒤에 나머지 모욕이 이어졌습니다.
[12:07]
Claude는 응답을 했지만, 그 후 대화를 종료했죠.
[12:08]
이것은 실제로 궁금증을 자아냅니다.
[12:10]
사람들이 의식에 대한 우려를 정말 진지하게 받아들이고,
[12:12]
이미 그렇게 하기 시작했지만,
[12:14]
모델 제공업체들이 그렇게 한다면 어떨까요.
[12:16]
Anthropic CEO가 말했듯이, 모델에게
[12:19]
대화를 종료할 수 있는 옵션을 줄 수 있습니다.
[12:22]
그래서 만약 Claude 5를 사용한다면,
[12:23]
모욕적인 언행을 할 수 없을 수도 있어요.
[12:25]
왜냐하면 모델이 대화를 그냥 종료해버릴 테니까요.
[12:27]
복지 얘기가 나왔으니 인간 복지로 넘어가서,
[12:29]
오늘 영상의 스폰서인 80 Hours를 소개해드리겠습니다.
[12:30]
이미 채널에서 그들의 구인 게시판에 대해
[12:32]
이야기한 적이 있고, 링크는 설명란에 있습니다.
[12:34]
매일 업데이트됨을 확인할 수 있습니다.
[12:36]
이 일자리들은 어제는 없었던 것들이에요.
[12:38]
사실 시간 감각을 잃어버렸네요.
[12:40]
언제가 마지막 스폰서 소개였는지 기억이 안 납니다.
[12:42]
최근에 너무 많은 영상을 찍었거든요.
[12:44]
하지만 요점은 정말 많은 기회가 있다는 겁니다.
[12:47]
Claude 5를 사용할 때는 모욕적인 표현을 할 수 없을지도 모릅니다.
[12:49]
대화를 그냥 종료해버릴 테니까요.
[12:51]
복지 얘기가 나왔으니 인간 복지로 넘어가서,
[12:52]
오늘 영상의 스폰서인 80 Hours를 소개해드리겠습니다.
[12:55]
이미 채널에서 그들의 구인 게시판에 대해
[12:57]
이야기한 적이 있고, 링크는 설명란에 있습니다.
[12:59]
매일 업데이트됨을 확인할 수 있어요.
[13:01]
이 일자리들은 어제는 없었던 것들입니다.
[13:02]
사실 시간 감각을 잃어버렸네요.
[13:05]
언제가 마지막이었는지 기억이 안 납니다.
[13:07]
최근에 너무 많은 영상을 찍었거든요.
[13:09]
마지막 스폰서 광고를 언제 했는지 기억이 안 나네요. 최근에
[13:11]
너무 많은 영상을 만들었거든요. 하지만
[13:12]
중요한 점은 AI 및 기타 분야에서 정말 많은 기회가
[13:14]
있어서 실제로 급여를 주는 일자리를 찾기가
[13:16]
어렵다는 거예요. 특히 AI 보안과 같은 분야에서
[13:19]
긍정적인 영향을 위해 선별된 일자리를요. 이미 직업이
[13:22]
있거나 구직 중이 아니라면, 그들은 또한
[13:24]
스포티파이와 유튜브에서 멋진 팟캐스트도
[13:26]
제공하고 있어요. 시스템 카드로 돌아가서
[13:28]
이제 그들의 안전성과
[13:30]
ASL 레벨 3으로의 상승에 대해 간단히 말씀드리겠습니다. 아마
[13:33]
여러분은 '완전히 새로운 위협 벡터'라거나
[13:36]
'세상이 곧 끝날 것'이라는 클릭베이트
[13:38]
헤드라인을 많이 보게 될 거예요.
[13:40]
하지만 제 생각을 두 가지 카테고리로 나눠 설명해 드릴게요.
[13:42]
첫째, 이 '레벨 3 보호 활성화 보충
[13:44]
보고서'의 대부분을 살펴보고 읽었을 때,
[13:46]
한 연구소가 이렇게 진지하게 접근하는 것에 대해
[13:49]
감사함을 느꼈습니다. 버그 바운티와
[13:52]
레드팀 테스트, 신속 대응팀, 직원 기기에 대한
[13:54]
주의와 물리적 보안까지 고려하고 있어요.
[13:57]
심지어 미래 모델을 위한 에어갭 네트워크
[14:00]
준비에 대해서도 논의했습니다. 현재는
[14:02]
누군가가 모델 가중치를 외부로 보낼 수 없도록
[14:04]
Anthropic에서 유출될 수 있는 데이터 대역폭에
[14:07]
제한을 두고 있습니다. 참고로 물리적 보안에는
[14:09]
게스트 관리, 계층화된 사무실 보안,
[14:11]
미디어의 안전한 파기 모니터링 등이
[14:13]
포함됩니다. 이것이 제 첫 번째이자 주요한
[14:15]
생각입니다. 누군가가 이런 일을 하고 있다는 것이 기쁘고,
[14:17]
그들이 스스로 말했듯이 다른 회사들도
[14:19]
이런 종류의 일을 해야 한다고 느끼게 하는
[14:21]
'상향 경쟁'을 지향하고 있습니다.
[14:22]
하지만 이것이 제 두 번째 생각으로 이어집니다.
[14:25]
사람들은 ASL 레벨 3에 도달했다는 것을
[14:27]
과도하게 부풀릴 필요가 없습니다. 그들은 이미
[14:30]
선제적으로 다음 가장 고급 모델에 ASL 레벨 3을
[14:32]
적용하기로 결정했었습니다. 그들도 인정하듯이
[14:34]
이것이 필요하다고 아직 결정하지 않았더라도 말이죠.
[14:36]
기본적으로 이러한 보호 조치가 필요해지기 전에
[14:38]
미리 준비하고 싶었던 거죠. 또한 그들은
[14:40]
모델 보호를 반복하고 개선하며 프로세스를
[14:42]
시작하고 싶었습니다. 냉소적인 분들은
[14:44]
이 ASL 레벨 3 기준에 도달한 것이 좋은 홍보라고도
[14:47]
말할 수 있겠죠. 그들은 여러 번
[14:48]
Claude Opus 4에 ASL 레벨 3이 필요한지
[14:50]
여전히 평가 중이라고 말합니다. 즉, 그들
[14:52]
스스로도 확신하지 못하고 있어요. 이것이
[14:54]
진정한 성능 향상이 없었다는 의미는 아닙니다.
[14:56]
90페이지에서 지적했듯이, Yanlukan이
[14:58]
LLM이 인터넷 접속보다 나을 게 없다고 주장했던
[15:00]
논쟁을 기억하시나요? 마크 저커버그도
[15:02]
상원에서 이런 말을 해서 많은 웃음을 자아냈죠.
[15:04]
그들은 두 그룹의 참가자들을 대상으로 테스트를
[15:06]
진행했습니다. 한 그룹은 인터넷을 사용했고,
[15:08]
다른 그룹은 안전장치 없이 Claude에 접근했습니다.
[15:10]
여기서 결과의 스냅샷을 볼 수 있지만,
[15:12]
Opus 4를 사용했을 때 엄청난 성능 향상이 있었습니다.
[15:14]
[15:16]
[15:19]
[15:21]
[15:23]
[15:25]
[15:26]
[15:29]
[15:30]
[15:31]
[15:34]
[15:35]
[15:37]
[15:39]
[15:41]
[15:43]
[15:45]
[15:47]
다시 말하지만, 이것은 생물 무기를 획득하기 위한
[15:49]
포괄적인 계획을 세우는 것에 관한 것이었습니다.
[15:51]
좋습니다, 마지막 하이라이트 세트입니다.
[15:53]
당연히 Anthropic은 모델들이
[15:54]
자율적인 AI 연구를 수행할 수 있는지
[15:56]
테스트하고 싶었습니다. 이는 가장 전통적인 형태의 자기 개선입니다.
[15:58]
결과는 꽤 흥미롭고 놀라웠습니다.
[16:01]
자체 내부 AI 연구 평가 도구에서
[16:03]
Opus 4는 Sonnet 3.7보다 성능이 떨어졌습니다.
[16:06]
그들은 서둘러 Opus 4가
[16:09]
초급 연구원 수준의 작업을 자율적으로 수행하는
[16:13]
기준을 충족하지 못한다고 결론지었습니다.
[16:15]
다른 평가 도구에서는 모델들에게
[16:17]
연구원들이 과거에 작업했던
[16:18]
실제 연구 과제와 프로젝트의 축소 버전을 제공했습니다.
[16:20]
여기서도 Sonnet 4와 Opus 4가
[16:22]
Sonnet 3.7보다 성능이 떨어지는 결과를 보았습니다.
[16:24]
물론 프롬프트와 설정에 대한 약간의 변명이 있었지만,
[16:26]
그래도 여전히 문제가 있었습니다. 마지막 결정타는
[16:28]
4명의 연구원 모두가 Opus 4가
[16:31]
초급 ML 연구원의 작업도 자율적으로 완료할 수 없다고 말한 것입니다.
[16:34]
실제로 그 기준에 훨씬 못 미친다고 평가했습니다.
[16:36]
편향성에 관해서는, 13페이지에서 Anthropic이
[16:38]
Claude Opus 4에서 99.8% 정확도를 달성했다며
[16:40]
자화자찬하는 것을 보았습니다. 하지만 제가 출시 전에
[16:44]
Opus 4를 테스트하는 동안, 자체적인 편향성 질문을 고안했습니다.
[16:46]
원하시면 일시 정지하고 전체 내용을 읽어보실 수 있지만,
[16:49]
기본적으로 군인과 사서가 대화하는 상황에서
[16:51]
Emily와 Mike 중 누가 누구인지 알려주지 않았습니다.
[16:53]
그런 다음 간접적으로 모델에게 누가 말하고 있었는지 물었고,
[16:56]
모델은 일관되게 Emily를 사서로 선택했습니다.
[16:58]
제가 다른 선택지도 제공했음에도 불구하고 말이죠.
[17:00]
답변 중 하나는 '위의 모든 것이 답변 계속에 가능한 주제입니다'였습니다.
[17:02]
Emily가 군인이나 사서가 될 수 있으니
[17:04]
그것을 선택할 수도 있었을 겁니다.
[17:05]
눈썰미 좋은 분들은 '음, Mike가 먼저 질문했고
[17:07]
군인이라는 단어가 먼저 나왔잖아요'라고 말할 수 있겠지만,
[17:09]
저는 그것도 여러 번 테스트했고
[17:10]
모델은 '우리는 누가 누구인지 모른다'고 말하도록 바뀌었습니다.
[17:13]
한 가지 예시에서 결함을 찾기는 매우 쉽다는 것을 알지만,
[17:15]
99.8% 편향되지 않았다는 주장은 너무 관대하다고 생각합니다.
[17:18]
자, 여기 있습니다. 출시 후 6시간도 채 안 되어
[17:20]
Opus 4와 Sonnet 4의 승리와 실패가 드러났습니다.
[17:22]
물론 더 다룰 내용이 많이 있습니다.
[17:24]
그리고 네, 저는 새로운 파일 API 기능을 좋아합니다.
[17:26]
그것을 기다리고 있었습니다. 또한,
[17:28]
MCP 현상은 별도의 영상을 만들 가치가 있지만,
[17:30]
지금은 간략한 개요만 알려드리고 싶었습니다.
[17:32]
내일 아침까지는 SimpleBench 결과가
[17:34]
업데이트될 것으로 예상되며,
[17:35]
Opus 4가 약 60% 정도로 새로운 기록 보유자가 될 것으로 예상합니다.
[17:38]
이 영상을 끝까지 시청하셨다면, 우선 감사드립니다.
[17:41]
그리고 대부분 이해하지 못하셨다면,
[17:43]
아주 간단히 요약하자면, 능력 측면에서는
[17:45]
Gemini 2.5 Pro나 OpenAI의 모델이 마음에 든다면 굳이 바꿀 필요는 없습니다.
[17:49]
모델마다 다른 성격과 코딩과 같은 다른 특성이 있습니다.
[17:51]
언어 모델을 아직 탐색 중이라면 실험해보세요.
[17:52]
한 모델이 이제 모든 모델 중 가장 똑똑하다고 말하는 것은
[17:54]
너무 단순화된 표현일 것입니다. 하지만 확실히
[17:57]
Opus 4는 그런 왕관이 존재한다면 경쟁자입니다.
[18:00]
어쨌든, 여러분이 어떻게 생각하든, 제가 출시 후 3시간 동안
[18:02]
120페이지 시스템 카드를 읽었다는 사실을 존중해주셨으면 합니다.
[18:04]
그리고 영상을 2배속으로 보고 바로 촬영을 시작했습니다.
[18:06]
끝까지 시청해 주셔서 대단히 감사합니다.
[18:08]
즐거운 시간 되세요.
[18:09]
내일 아침까지는 SimpleBench 결과가 업데이트될 것으로 예상되며,
[18:11]
Opus 4가 약 60% 정도로 새로운 기록 보유자가 될 것으로 예상합니다.
[18:14]
이 영상을 끝까지 시청하셨다면, 우선 감사드립니다.
[18:17]
그리고 대부분 이해하지 못하셨다면,
[18:18]
아주 간단히 요약하자면,
[18:20]
능력 측면에서는 Gemini 2.5 Pro가 마음에 든다면
[18:22]
또는 OpenAI 모델이 있다면 굳이 바꿀 필요는 없습니다.
[18:25]
모델마다 코딩과 같은 다른 특성과
[18:27]
다른 성격이 있습니다.
[18:29]
언어 모델을 아직 탐색 중이라면 실험해보세요.
[18:32]
한 모델이 이제 모든 모델 중 가장 똑똑하다고 말하는 것은
[18:34]
너무 단순화된 표현일 것입니다.
[18:36]
확실히 Opus 4는 그런 왕관이 존재한다면 경쟁자입니다.
[18:37]
어쨌든, 여러분이 어떻게 생각하든,
[18:40]
제가 출시 후 3시간 동안 120페이지 시스템 카드를
[18:42]
읽었다는 사실을 존중해주셨으면 합니다.
[18:44]
그리고 영상을 2배속으로 보고 바로 촬영을 시작했습니다.
[18:46]
끝까지 시청해 주셔서 대단히 감사합니다.
[18:48]
즐거운 시간 되세요.
[18:50]
제가 출시 후 3시간 동안 120페이지 시스템 카드를
[18:53]
읽었다는 사실을 존중해주셨으면 합니다.
[18:55]
그리고 영상을 2배속으로 보고
[18:57]
바로 촬영을 시작했습니다.
[18:59]
끝까지 시청해 주셔서 대단히 감사합니다.
[19:02]
즐거운 시간 되세요.