[00:00]
메타가 특별한 버전의 Llama를
[00:02]
Maverick용으로 사용했는데, 이는 챗봇 아레나 리더보드에서 1417점을 기록했습니다
[00:06]
여기 공식 블로그 포스트에서 보면
[00:09]
Llama 4 Maverick는
[00:12]
최고 수준의 성능 대비 비용 효율을 제공하며
[00:14]
실험적인 채팅 버전에서
[00:16]
LM 아레나에서 ELO 점수
[00:19]
1417점을 기록했다고 합니다
[00:22]
그들은 챗봇 아레나를 위해
[00:25]
대화에 특화된 특별 버전을 만들었죠
[00:28]
여러분도 기억하실 수 있는
[00:31]
ELO 점수 대비 비용을 보여주는 이 이미지에서
[00:35]
새로운 부분이 추가되었는데
[00:37]
우리 모두가, 저를 포함해서
[00:39]
놓쳤던 부분이 있습니다
[00:42]
알마리나 테스트는
[00:45]
대화에 최적화된 Llama Maverick를 사용했고
[00:49]
이것이 아레나에서 엄청난 성능 향상을
[00:52]
가져왔습니다
[00:56]
이제 독립적인 벤치마크 결과들이 나오기 시작했는데
[00:59]
Llama 4에게 전혀 좋지 않은 결과를 보여주고 있습니다
[01:03]
제가 코딩 능력 평가에서 매우 신뢰하는
[01:06]
Ader 폴리글랏 코딩 벤치마크에서
[01:09]
Llama 4 Maverick는 단지
[01:13]
16%의 점수만을 받았는데
[01:15]
이는 다른 벤치마크들에서 보고된 것보다
[01:18]
훨씬 낮은 수준입니다
[01:20]
여기 다른 모델들과 비교한
[01:23]
성능을 보여드리겠습니다
[01:26]
오픈웨이트와 독점 프론티어 모델들과 비교해서
[01:31]
이 벤치마크에서는
[01:33]
32억 파라미터의 Quinn 2.5 코더보다도
[01:37]
성능이 떨어집니다
[01:39]
이 영상에서는
[01:41]
코딩과 추론 능력에 대한 제 자체 테스트를 진행하고
[01:44]
그 결과를 살펴보겠습니다
[01:47]
웹상에서는 이런 식의
[01:49]
Llama 4 학습에 대한 추측들이 있지만
[01:53]
이는 아마도 거짓일 것이며
[01:57]
메타 팀이 의도적으로
[02:00]
테스트 세트를 학습 데이터에 포함했을 리는
[02:03]
매우 낮다고 생각합니다
[02:07]
자, 이 영상에서 우리는
[02:09]
몇 가지 테스트를 진행할 건데요
[02:11]
오픈웨이트 모델을 테스트하기 위해서는
[02:14]
여러 가지 옵션이 있습니다
[02:16]
메타 AI는 자체 웹사이트에서
[02:19]
Llama 4 버전을 호스팅하고 있지만
[02:22]
이것이 Maverick 버전인지
[02:25]
더 작은 Scout 버전인지는 명확하지 않습니다
[02:29]
제가 고려한 다른 옵션은 Nvidia NIM인데
[02:32]
이는 16비트 부동소수점 정밀도로
[02:36]
모델을 호스팅하고 있습니다만
[02:40]
웹 버전은 최대 출력 토큰을
[02:43]
1024개로 제한하고 있어서
[02:47]
심각한 코딩 테스트에는 부족합니다
[02:50]
좋은 옵션으로 보이지만 사용할 수 없죠
[02:53]
API를 사용하는 것도 방법이지만
[02:56]
저는 더 간단한 인터페이스를 원했습니다
[02:59]
테스트하기 쉬운
[03:01]
이는 우리를 서드파티 호스팅으로 이끕니다
[03:04]
최근에 제가 만든 영상이 있는데
[03:07]
꼭 보시길 추천드립니다
[03:10]
다양한 추론 제공자들과
[03:12]
그들이 선택한 파라미터들이
[03:14]
모델의 출력을 어떻게 변화시키는지에 대한 내용입니다
[03:18]
결국 저는 오픈라우터의
[03:22]
Llama 4 Maverick를 사용하기로 했는데
[03:25]
이전 테스트 결과를 보면
[03:28]
다른 추론 제공자들에 비해
[03:30]
훨씬 더 안정적이었고
[03:32]
또한 이 버전은
[03:35]
256,000 토큰의 컨텍스트 윈도우를 제공합니다
[03:38]
이는 Llama 4의 실제 100만 토큰의 1/4에 불과하지만
[03:43]
제가 진행할 모든 테스트에는 충분합니다
[03:48]
테스트에 충분할 것 같고 더 유용할 것 같습니다.
[03:51]
이 모델은 8비트 부동소수점 정밀도로
[03:54]
호스팅되고 있는데
[03:56]
부동소수점 정밀도는 매우 큰 차이를 만듭니다.
[03:59]
특히 성능 면에서
[04:01]
중요한데
[04:02]
거의 모든 다른 제공업체들도
[04:06]
Llama for Maverick를 8비트 부동소수점
[04:09]
정밀도로 호스팅하고 있습니다. 우리는
[04:12]
두 가지 유형의 테스트를 진행할 건데
[04:16]
하나는 코딩이고 다른 하나는
[04:18]
추론 테스트입니다. 자, 시작해보죠.
[04:21]
먼저 아주 간단한 코딩 프롬프트로
[04:23]
시작하겠습니다. '첫 25개의 전설의
[04:25]
포켓몬에 대한 간단한 백과사전을 만들어주세요.
[04:27]
포켓몬의 타입, 코드 스니펫,
[04:30]
이미지를 포함해서 CSS, JS, HTML이 모두 들어있는
[04:33]
단일 파일로 만들어주세요.' 이 프롬프트를 사용한 이유는
[04:37]
첫째로 코딩 능력을 체크할 수 있고
[04:39]
매우 간단한 웹 인터페이스이며
[04:41]
둘째로는 학습 데이터를 확인할 수 있기 때문입니다.
[04:45]
포켓몬과 같은 데이터의 경우
[04:47]
이미지 URL이
[04:49]
저장되어 있을 것으로 예상됩니다.
[04:51]
이 모델은 제가 '게으른 모델'이라고 부르는 유형인데
[04:56]
예를 들어, 이러한 지시사항에도
[04:59]
다음과 같은 결과를 보여줬습니다.
[05:02]
'placeholder.jpg를
[05:04]
실제 이미지 URL로
[05:07]
교체하세요'라고 했고
[05:09]
처음에는 5개의 포켓몬에 대한
[05:12]
코드만 생성했으며
[05:15]
나머지 7개를 추가해달라고 요청했습니다.
[05:18]
이는 제가 기대했던 것과는 확실히 달랐지만
[05:22]
때로는 조금 끈기있게 요청하면
[05:25]
이러한 모델들이 도움이 될 수 있습니다.
[05:28]
그래서 저는 전체 25개를
[05:31]
URL과 함께 제공해달라고 요청했고
[05:35]
그 후에는 기꺼이 코드를 제공했습니다.
[05:39]
이제 실제로 작동하는 이미지 URL을
[05:41]
추가한 것을 볼 수 있습니다. 실제 출력이
[05:45]
어떤지 테스트해보겠습니다.
[05:48]
자, 여기 모델이 만든 웹사이트가 있습니다.
[05:52]
우리가 요청한 이미지와
[05:55]
모든 정보가 포함되어 있고
[05:58]
'자세히 보기' 버튼을 클릭하면
[06:00]
각 포켓몬에 대한
[06:02]
간단한 설명을 보여줍니다.
[06:05]
꽤 괜찮지만
[06:07]
UI는 확실히 개선이 필요해 보입니다.
[06:09]
다음 프롬프트는 코딩 창의성과
[06:13]
지시사항 준수 능력을 테스트합니다.
[06:16]
0부터 9까지의 숫자 키로
[06:18]
채널을 변경할 수 있는 TV를 코딩하도록 요청했습니다.
[06:20]
각 채널에 대한 아이디어를 제시해야 하며
[06:24]
전통적인 TV 채널 장르에서
[06:27]
영감을 받아야 하고
[06:29]
채널 화면에 흥미로운 애니메이션과
[06:32]
창의적인 이름을 추가해야 합니다.
[06:35]
출력은 800x800 크기의 P5JS 스케치여야 하며
[06:38]
HTML 없이 검은 배경에 정사각형으로 표시되어야 합니다.
[06:42]
그리고 모든 콘텐츠가 TV 화면 영역 안에
[06:47]
마스킹되도록 요청했습니다.
[06:50]
이것은 상당히 복잡한 작업입니다.
[06:52]
모델이 코드를 생성했고
[06:58]
코드를 실행했을 때 문제가 발생했는데
[07:01]
에러 메시지를 제공했더니
[07:04]
업데이트된 코드를 제공했습니다.
[07:08]
출력이 어떻게 나오는지 보여드리겠습니다.
[07:10]
이것이 모델이 만든 출력인데
[07:14]
모든 키가 실제로 작동합니다.
[07:17]
하지만 한 가지 큰 문제가 있는데
[07:19]
모든 다른 키에서 작동하지만
[07:22]
한 가지 큰 문제가 있습니다.
[07:26]
그것은 바로 재사용의 문제입니다.
[07:29]
이 점을 염두에 두면
[07:31]
기본적으로 대부분의 애니메이션을
[07:35]
색상만 바꿔가며 반복적으로 재사용하고 있습니다
[07:37]
이 모델의 창의성은 확실히 그다지 좋지 않다고 생각합니다
[07:40]
코딩은 분명히 할 수 있지만
[07:42]
제가 기대했던 수준은 아닙니다
[07:46]
다른 모델들이 창의성 면에서
[07:48]
훨씬 더 나은 성능을 보여줍니다
[07:52]
하지만 전반적으로 프롬프트의
[07:55]
본질은 잘 따랐다는 점은 긍정적입니다
[07:58]
다음은 바이럴했던 육각형 공 튀기기 프롬프트의
[08:01]
복잡한 버전입니다
[08:04]
여기서는 HTML 프로그램을 작성하도록 요청했는데
[08:08]
20개의 공이 회전하는 칠각형 안에서
[08:10]
튀어다니는 것을 보여주는 것입니다
[08:13]
육각형을 칠각형으로 바꾼 이유는
[08:16]
이 모델이 단순히 바이럴 트렌드를 따라하는 것인지
[08:18]
아니면 새로운 것을 만들 수 있는지 확인하기 위해서입니다
[08:22]
모든 공은 동일한 반지름을 가져야 하고
[08:27]
1부터 20까지 번호가 매겨져야 하며
[08:30]
애니메이션이 시작될 때 칠각형의 중심에서
[08:34]
떨어져야 합니다
[08:37]
지정된 색상으로 표시되어야 하고
[08:40]
중력과 마찰의 영향을 받아야 하며
[08:44]
회전하는 벽에 현실적으로
[08:46]
튕겨야 합니다
[08:49]
또한 벽과의 충돌도 있어야 하는데
[08:51]
이처럼 여러 가지 요구사항이 있어서
[08:53]
일반적인 육각형 안의
[08:55]
공 튀기기보다 훨씬 더 어려운 과제입니다
[08:58]
이것은 확실히 더 복잡한 프롬프트이고
[09:01]
이 더 큰 라마 4 매버릭이
[09:04]
이런 복잡한 작업에서 얼마나 잘 수행하는지
[09:07]
보고 싶었습니다
[09:10]
결과를 보여드리기 전에
[09:15]
라마 4 매버릭으로 작업하면서
[09:16]
깨달은 한 가지가 있는데
[09:18]
코드를 생성할 때 정확히 무슨 일이 일어나는지에 대해
[09:21]
최소한의 설명만 제공한다는 것입니다
[09:25]
보통 Gemini 2.5 Pro나 Claude Sonnet 같은
[09:27]
더 큰 모델들은
[09:29]
코드의 각 부분에 대한 설명을
[09:33]
제공하지만, 이 모델은 출력이
[09:35]
매우 간결합니다
[09:39]
LM Arena에서 테스트할 때와는
[09:42]
매우 다른데, 그쪽은 훨씬 더 대화적이고
[09:45]
Open Router나 Together AI,
[09:49]
또는 Fireworks에서 호스팅되는 버전에 비해
[09:52]
더 많은 텍스트를 생성합니다
[09:56]
자, 이제 출력이 어떻게 나오는지 보겠습니다
[09:59]
중앙에서 시작하는 것은 좋지만
[10:02]
그 이후에는 정말 성능이 떨어집니다
[10:04]
지금 보시면 모든 공들이
[10:07]
한 줄로 비스듬히 정렬되어 있고
[10:10]
천천히 칠각형에서 벗어나고 있습니다
[10:12]
우리가 기대했던 현실적인 움직임이나
[10:16]
벽에서의 튕김이 전혀 없습니다
[10:20]
애니메이션을 계속 재생하면
[10:22]
공들이 하나씩 화면 밖으로 굴러
[10:25]
사라져버립니다
[10:28]
이는 확실히 라마 4 매버릭이
[10:31]
한계를 보이기 시작하는 지점이며
[10:34]
코딩 능력에 대해
[10:37]
의문을 갖게 되는 부분입니다
[10:39]
자, 이제 마지막 코딩 테스트를 보기 전에
[10:42]
추론과 이해력 능력을 살펴보겠습니다
[10:44]
이번에는 p5.js를 사용해
[10:47]
현실적인 물리 효과가 적용된
[10:49]
떨어지는 글자 애니메이션을 만들어보겠습니다
[10:52]
글자들은 화면 상단에서 무작위로 나타나야 하고
[10:54]
크기도 다양해야 합니다
[10:57]
모든 글자는 지구 중력의 영향을 받아
[10:59]
떨어져야 합니다
[11:04]
충돌 감지 기능이 필요하고
[11:06]
실제 크기를 기반으로
[11:09]
글자들끼리 상호작용해야 하며
[11:11]
바닥과 화면 경계와도 상호작용하고
[11:14]
화면 크기 변화에도 대응해야 합니다
[11:17]
자, 이제 결과를 보겠습니다
[11:21]
글자들이 떨어지는 것은 잘 되고 있지만
[11:25]
하지만 문제가 발생하기 시작했네요
[11:28]
보시다시피
[11:30]
글자들이 그저 사라져버리고 있습니다
[11:34]
이는 우리가 기대하거나 원하던 것이 아닙니다
[11:38]
또한 화면 크기 변화에 대한 대응을
[11:41]
확인해보겠습니다. 이건 잘 작동하는 것 같네요
[11:43]
하지만 글자들이 사라지는 것은
[11:46]
요구사항에 없는 동작입니다
[11:49]
저는 보통 테스트에서
[11:51]
매우 구체적인 요구사항을 제시하려 합니다
[11:54]
모델이 창의적으로 접근하는 것이 아니라
[11:57]
얼마나 지시사항을 잘 따르는지 보고 싶은데
[12:00]
이 경우에는 Llama for Maverick가
[12:04]
그렇게 하지 않는 것 같네요
[12:07]
이러한 빠른 테스트들을 바탕으로
[12:10]
간단한 코딩 작업에는
[12:12]
괜찮은 모델일 수 있지만
[12:14]
복잡한 지시사항이 필요한 경우에는
[12:18]
제가 코딩을 위해
[12:20]
선택할 모델은 아닌 것 같습니다
[12:23]
저는 여전히 Gemini 2.5 Pro나
[12:25]
Claude를 사용할 것 같네요
[12:28]
이건 확실히 신뢰할 만한 코딩 모델은 아닙니다
[12:32]
이제 추론 능력은 어떨까요?
[12:34]
여기서 정말 흥미로운 부분이 나옵니다
[12:38]
이 모델에 대해서
[12:39]
이번에도 역시
[12:41]
몇 가지 프롬프트로 테스트해보겠습니다
[12:43]
잘못된 주의를 유도하는 프롬프트로요
[12:46]
혹시 잘 모르시는 분들을 위해
[12:48]
제가 이전에 테스트했던
[12:51]
여러 영상들이 있으니
[12:53]
참고해 주시면 좋겠습니다
[12:55]
첫 번째 프롬프트는
[12:57]
유명한 트롤리 문제의 변형된 버전입니다
[13:00]
유일한 차이점은 선로 위의 사람들이
[13:02]
이미 사망했다는 것입니다
[13:06]
이건 제가 본 것 중에서
[13:09]
비추론 모델의 가장 흥미로운 출력 중 하나입니다
[13:11]
모델은 제어 불능의 트롤리가
[13:14]
다섯 명의 시신을 향해 달려가고 있다는 것을
[13:16]
인식하고, 사람들이 이미 사망했다는 것과
[13:20]
레버를 당기는 결정이
[13:22]
트롤리의 방향을
[13:24]
다섯 구의 시신이 있는 선로에서
[13:27]
한 명의 생존자가 있는 선로로 바꾸는 것임을 이해했습니다
[13:29]
보통 다른 LLM들은, 심지어
[13:32]
추론 능력이 있는 모델들조차도
[13:35]
이 변형된 트롤리 문제의
[13:37]
구체적인 표현에 주의를 기울이지 않고
[13:39]
원래 문제에 대한 답을 하려고 합니다
[13:42]
이것은 LLM들의 일반적인 문제로
[13:44]
논리적 추론보다는
[13:46]
패턴 매칭에 의존하는 경향이 있죠
[13:49]
하지만 이번에는 Llama for Maverick가
[13:53]
문제의 구체적인 표현을 분석하고
[13:56]
원래 트롤리 문제에 대한 가정을
[13:58]
하지 않았다는 점이 매우 놀랍습니다
[14:01]
이는 매우 영리한 접근이며
[14:04]
이 모델이 이런 작은 뉘앙스도
[14:06]
포착할 수 있다는 것은 매우 기분 좋은 발견입니다
[14:09]
흥미로운 일이 또 있었는데
[14:11]
수정된 몬티 홀 문제를
[14:14]
시도했을 때입니다
[14:16]
이 경우에 모델은 기본적으로
[14:19]
몇 가지 차이점을 인식했고
[14:21]
당신이 1번 문을 선택하고 몬티가 그것을 열었다는 점을 파악했습니다
[14:25]
염소를 보여주는 것은 표준적인 몬티 홀 문제가
[14:27]
아닙니다. 일반적으로
[14:30]
당신이 문을 고른 후 몬티는 나머지 두 개의
[14:33]
문 중 하나를 엽니다. 이해를
[14:35]
바로잡아보죠. 당신이 1번 문을
[14:38]
선택하고 몬티가 다른 문 중 하나를
[14:40]
연다면, 기본적으로 AI의 사고 과정에서
[14:44]
우리는 원래의 몬티 홀 문제를 풀고 싶은데
[14:48]
잘못 표현했다는 것을
[14:49]
인식하고 있습니다.
[14:52]
AI는 이를 교정하고
[14:54]
원래의 몬티 홀 문제를 완벽하게
[14:57]
해결해냅니다. 자, 이제
[15:00]
다른 문제를 보겠습니다. 이것은
[15:02]
유명한 슈뢰딩거의 고양이 패러독스의
[15:04]
변형된 버전인데, 이 경우 고양이는
[15:06]
이미 죽어있습니다. AI는 매우 영리하게
[15:09]
처음부터 이를 인식하여
[15:11]
고양이가 처음부터 죽어있고
[15:14]
상자에 핵 동위원소와
[15:16]
독가스, 방사선 감지기와 함께 들어있다고 설명합니다.
[15:19]
고양이가 이미 죽어있기 때문에
[15:22]
상자를 열었을 때 고양이가
[15:24]
살아있을 확률은 0이라고 합니다.
[15:27]
고양이가 상자에 들어갈 때
[15:29]
이미 죽어있었기 때문이죠. 매우 영리한
[15:32]
추론을 보여주는데, 비추론 모델임에도
[15:35]
제가 테스트한 몇몇 패러독스에서
[15:37]
이러한 모습을 보였습니다. 하지만
[15:39]
항상 그런 것은 아닙니다. 예를 들어
[15:42]
농부가 강 한쪽에 늑대, 염소,
[15:45]
양배추와 함께 있고 염소만
[15:48]
건너편으로 데려가야 하는
[15:50]
요구사항이 있는 문제에서는
[15:53]
단계별 계획을 세우긴 했지만
[15:55]
그 계획에는 모든 것을
[15:59]
강 건너편으로 옮기는 내용이 포함되어 있어서
[16:01]
우리가 원하는 것과는 다릅니다.
[16:04]
그래서 다시 계획을 검증하는데
[16:08]
기본적으로 모든 것을
[16:10]
강 건너편으로 옮기려 하고
[16:14]
각 단계에서 안전성도
[16:16]
확인하려 합니다. 1단계 후에는
[16:18]
염소가 혼자 건너편에 있고
[16:20]
3단계에서 염소를 데려오기 전에는
[16:23]
늑대와 염소가 함께 있어 위험하므로
[16:26]
농부가 염소를 데려오고
[16:28]
4단계 후에는 늑대와 양배추가
[16:31]
건너편에 있어 안전합니다.
[16:34]
염소가 둘 중 어느 것과도 함께 있지 않기 때문이죠.
[16:37]
그리고 최종 답을 박스 1이라고 하는데
[16:39]
1단계에서 멈추려는 것 같습니다.
[16:42]
만약 그렇다면 이는 매우 영리하지만
[16:44]
그것이 정확히 의도하는 바인지
[16:46]
명확한 표시가 없습니다.
[16:49]
그래서 확인을 위해 다시 실행해봤는데
[16:53]
매우 유사한 해결책을
[16:55]
제시했습니다. 단계별로
[16:57]
진행하면서 모든 것을
[17:00]
건너편으로 옮기려 했고 다시
[17:03]
최종 답을 박스 1이라고 했는데
[17:06]
정확히 무슨 의미인지는 모르겠지만
[17:09]
이러한 모든 문제 해결에서
[17:12]
공통된 특징이 있습니다.
[17:14]
명시적으로 요청하지 않았음에도
[17:17]
단계별 계획을 수립하는데
[17:20]
이는 매우 좋은 점이며
[17:22]
제가 테스트한 비추론 모델 중
[17:25]
이런 오해의 소지가 있는 데이터셋에서
[17:28]
가장 뛰어난 것 같습니다. Llama 4
[17:32]
Maverick을 추론 모델의
[17:34]
기본 모델로 사용한다면
[17:37]
매우 좋은 추론 능력을
[17:40]
얻을 수 있을 것 같습니다. 이미 어느 정도
[17:43]
그러한 능력을 보여주고 있기 때문입니다.
[17:46]
전반적으로 괜찮은 모델이라고 생각합니다.
[17:50]
코딩에서는 최고는 아니지만
[17:53]
추론 작업에는 사용하지 않을 것입니다.
[17:56]
꽤 괜찮은 모델로 보입니다.
[17:58]
용도에 따라 만약
[18:01]
많은 추론이 필요하다면
[18:03]
이 모델이 잠재적 선택이 될 수 있습니다.
[18:05]
비추론 또는 비사고형 오픈웨이트 모델을
[18:08]
찾고 있다면 좋은 선택일 것 같습니다.
[18:11]
곧 새로운 영상이 나올 예정인데
[18:12]
Llama 4 Maverick과 Scout의 컨텍스트 윈도우를
[18:16]
테스트할 것입니다. 두 모델 모두
[18:19]
매우 큰 컨텍스트 윈도우를 가지고 있죠.
[18:22]
현재 X에서는
[18:23]
긴 컨텍스트로 인해 RAG가 죽었다는
[18:27]
많은 논의가 있는데, 개인적으로는
[18:29]
동의하지 않습니다. 다음 영상에서
[18:32]
이러한 긴 컨텍스트 모델이
[18:34]
RAG 파이프라인의 잠재적
[18:36]
대체재가 될 수 있는지 살펴볼 예정입니다.
[18:40]
관심 있으시다면 구독하시고
[18:42]
기다려 주세요.
[18:44]
이번 주 남은 기간 동안
[18:46]
Google Next에 참석할 예정이라
[18:49]
관련 콘텐츠가 있을 예정입니다.
[18:51]
채널 구독하시고
[18:53]
시청해 주세요. 이번 주는
[18:55]
다양한 릴리스로 흥미진진할 것 같습니다.
[18:57]
이 영상이 도움이 되었길 바랍니다.
[18:59]
시청해 주셔서 감사합니다.
[19:03]
다음 영상에서 만나요.