LLaMA 4, 벤치마크를 넘어선 테스트—놀라운 결과!

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

본 영상은 Meta가 대화형 최적화를 위해 특수 버전인 LLaMA 4 Maverick을 사용해 LM Arena에서 높은 ELO 점수를 기록했으나, 독립적인 코딩 벤치마크에서는 저조한 성적을 보인 점에 대해 설명합니다. 다양한 테스트 환경과 호스팅 옵션을 비교하며, 간단한 코드 작성 과제와 복잡한 애니메이션, 그리고 추리 문제 등의 테스트 결과를 자세히 살펴봅니다. 특히, 모델이 단계별 문제 해결 방식을 자연스럽게 도출하는 점과 한계점을 동시에 드러내며, 향후 컨텍스트 윈도우와 관련된 추가 테스트를 예고합니다. 영상은 LLaMA 4 Maverick의 강점과 약점, 그리고 사용 용도에 따른 적합성에 대한 심도 있는 분석을 제공합니다.

주요 키워드

LLaMA 4 Maverick LM Arena 코딩 벤치마크 추리 테스트 8비트 부동소수점 서드파티 호스팅 컨텍스트 윈도우

하이라이트

  • 🔑 Meta가 LLaMA 4 Maverick을 대화형 테스트에 특화하여 LM Arena에서 높은 ELO 점수를 기록하였으나, 독립 코딩 벤치마크에서는 낮은 성능을 보임.
  • ⚡️ 다양한 테스트 플랫폼(공식 Meta.ai, Open Router, 서드파티 호스팅 등)과 8비트 부동소수점 정밀도 설정이 모델 성능에 영향을 미침.
  • 🌟 간단한 포켓몬 백과사전 웹페이지, TV 채널 전환, 복잡한 공 튕기기 및 낙하하는 문자 애니메이션 테스트로 코딩 능력을 평가함.
  • 📌 추리 테스트에서는 수정된 트롤리 문제, 몬티 홀 문제, 시리니야스의 고양이 역설 및 농부 퍼즐 등을 통해 모델의 미세한 문맥 이해력과 문제 해결 능력을 확인함.
  • 🚀 전체적으로 LLaMA 4 Maverick은 간단한 코딩 작업에는 한계가 있으나, 추리와 논리적 문제에서는 유의미한 성과를 보여 향후 활용 가능성을 시사함.

용어 설명

LLaMA 4 Maverick

대화형 최적화와 특정 벤치마크 성능 향상을 위해 Meta가 특별히 제작한 LLaMA 4 모델 버전.

LM Arena

챗봇과 언어모델의 성능을 ELO 스코어 등으로 평가하는 리더보드 플랫폼.

ELO 스코어

모델의 성능을 비교 평가하기 위해 사용되는 점수 체계로, 주로 체스 등에서 유래되었으나 여기서는 언어모델 성능 측정에 응용됨.

8비트 부동소수점

모델 추론에서 사용되는 데이터 정밀도 포맷으로, 자원 효율과 계산 속도 측면에서 중요한 역할을 함.

RAG 파이프라인

Retrieval-Augmented Generation(검색 보완 생성) 방법으로, 긴 컨텍스트 정보를 활용하여 모델 출력의 질을 개선하는 기법.

[00:00:00] 소개 및 벤치마크 개요

Meta가 LLaMA 4 Maverick을 특수 버전으로 제작하여 LM Arena에서 높은 ELO 점수를 달성한 배경과, 독립 코딩 벤치마크 결과에서의 약점을 소개합니다.

메타가 Maverick용 특별 버전의 Llama를 사용해 챗봇 아레나 리더보드에서 1417점이라는 높은 점수를 기록했습니다. 이는 대화에 최적화된 특별 버전이었음이 밝혀졌습니다.
독립적인 벤치마크 결과들이 나오기 시작했는데, 특히 Ader 폴리글랏 코딩 벤치마크에서 Llama 4 Maverick는 16%라는 저조한 성능을 보였습니다.
코딩과 추론 능력 테스트를 위해 다양한 호스팅 옵션을 검토했고, 최종적으로 오픈라우터의 Llama 4 Maverick를 선택했습니다. 이는 256,000 토큰의 컨텍스트 윈도우를 제공하며 안정적인 성능을 보여줍니다.
[00:02:09] 테스트 인터페이스 및 환경 설정

공식 사이트, Open Router, API 및 서드파티 호스팅 등 다양한 테스트 환경과 8비트 부동소수점 정밀도 설정을 비교, 선택 과정에 대해 설명합니다.

타임라인 정보가 없습니다.

[00:03:09] 코딩 테스트 성능 평가

포켓몬 백과사전, TV 채널 전환, 공 튕기기, 문자 낙하 등 여러 코딩 과제를 통해 모델의 기본 코딩 능력과 창의성, 한계점을 실험합니다.

모델은 8비트 부동소수점 정밀도로 호스팅되며, 이는 다른 제공업체들도 동일한 방식을 사용하고 있습니다. 코딩과 추론, 두 가지 유형의 테스트를 진행할 예정입니다.
첫 번째 테스트로 25개의 전설의 포켓몬 백과사전을 만드는 과제를 제시했습니다. 이는 코딩 능력과 학습 데이터를 확인하기 위한 것입니다.
모델은 처음에는 완전한 결과를 제공하지 않았지만, 추가 요청 후 이미지 URL을 포함한 전체 코드를 생성했습니다.
생성된 웹사이트는 기본적인 기능은 갖추었으나 UI 개선이 필요한 상태입니다.
두 번째 테스트는 숫자 키로 채널을 변경할 수 있는 TV 인터페이스를 만드는 것으로, 창의성과 지시사항 준수 능력을 평가합니다.
초기 코드에서 오류가 발생했지만, 수정 후 모든 키가 작동하는 결과물을 얻었습니다. 다만 재사용과 관련된 문제가 존재합니다.
라마 4 매버릭의 코드 재사용 문제점이 발견되었습니다. 애니메이션에서 색상만 변경하며 반복적으로 사용하는 등 창의성이 부족했으며, 다른 모델들에 비해 성능이 떨어졌습니다.
복잡한 칠각형 공 튀기기 테스트를 실시했습니다. 20개의 공이 회전하는 칠각형 안에서 물리 법칙에 따라 움직이고 충돌하는 HTML 프로그램을 요구했습니다.
[00:09:00] 추리 및 문제 해결 테스트

수정된 트롤리 문제, 몬티 홀 문제, 고양이 역설, 농부 퍼즐 등 다양한 추리 문제를 통해 미세한 문맥 분석 및 논리적 문제 해결 능력을 평가합니다.

라마 4 매버릭의 특징적인 한계가 발견되었습니다. 코드 생성 시 최소한의 설명만 제공하며, 다른 대형 모델들과 달리 상세한 설명이 부족했습니다.
칠각형 공 튀기기 테스트 결과, 초기 중앙 배치 이후 공들이 한 줄로 정렬되어 비현실적으로 움직이고 화면 밖으로 사라지는 등 심각한 문제점을 보였습니다.
마지막 테스트로 p5.js를 사용한 물리 기반 글자 낙하 애니메이션을 요구했습니다. 다양한 크기의 글자가 지구 중력의 영향을 받아 떨어지는 효과를 구현해야 했습니다.
낙하하는 글자 애니메이션에 대한 요구사항을 검토합니다. 글자들은 실제 크기 기반의 충돌 감지가 필요하고, 다른 글자들 및 화면 경계와 상호작용해야 하며, 화면 크기 변화에도 대응해야 합니다.
구현된 결과를 확인해보니 글자들이 떨어지는 기본 동작은 잘 되지만, 글자들이 사라지는 문제가 발생했습니다. 화면 크기 변화 대응은 정상적으로 작동합니다.
테스트의 목적은 모델의 창의성이 아닌 정확한 지시사항 이행 능력을 평가하는 것이었으나, Llama for Maverick는 요구사항을 정확히 따르지 못했습니다.
Llama for Maverick는 간단한 코딩 작업에는 적합할 수 있으나, 복잡한 지시사항이 필요한 작업에는 Gemini 2.5 Pro나 Claude가 더 나은 선택일 것 같습니다.
추론 능력 테스트를 시작합니다. 첫 번째로 수정된 트롤리 문제를 통해 모델의 세부 사항 인식 능력을 평가합니다.
모델은 트롤리 문제에서 희생자들이 이미 사망했다는 중요한 변형 사항을 정확히 인식하고, 이를 바탕으로 추론했습니다. 이는 다른 LLM들과 차별되는 뛰어난 성과입니다.
추가로 수정된 몬티 홀 문제를 테스트하며, 모델이 문제의 변형된 요소들을 잘 인식하는 것을 확인했습니다.
몬티 홀 문제에 대한 AI의 정확한 이해와 해석을 보여줍니다. AI는 잘못된 문제 설정을 인식하고 올바른 방향으로 교정하여 해결합니다.
슈뢰딩거의 고양이 패러독스 변형 문제에서 AI는 초기 조건(이미 죽은 고양이)을 정확히 파악하고 논리적으로 결론을 도출합니다.
농부, 늑대, 염소, 양배추 건너기 문제에서 AI는 단계별 계획을 수립하지만, 원래 목적(염소만 이동)에서 벗어나 모든 것을 건너게 하는 해결책을 제시합니다.
[00:17:00] 결론 및 향후 전망

LLaMA 4 Maverick의 코딩과 추리 성능을 종합 평가하고, 복잡한 작업에서는 한계가 있으나 추리 분야에서의 잠재력과 향후 컨텍스트 윈도우 테스트 계획을 언급합니다.

AI는 명시적 요청 없이도 단계별 계획을 수립하는 능력을 보여주며, 비추론 모델 중에서는 뛰어난 성능을 보입니다.
메타가 특별한 버전의 Llama를
Maverick용으로 사용했는데, 이는 챗봇 아레나 리더보드에서 1417점을 기록했습니다
여기 공식 블로그 포스트에서 보면
Llama 4 Maverick는
최고 수준의 성능 대비 비용 효율을 제공하며
실험적인 채팅 버전에서
LM 아레나에서 ELO 점수
1417점을 기록했다고 합니다
그들은 챗봇 아레나를 위해
대화에 특화된 특별 버전을 만들었죠
여러분도 기억하실 수 있는
ELO 점수 대비 비용을 보여주는 이 이미지에서
새로운 부분이 추가되었는데
우리 모두가, 저를 포함해서
놓쳤던 부분이 있습니다
알마리나 테스트는
대화에 최적화된 Llama Maverick를 사용했고
이것이 아레나에서 엄청난 성능 향상을
가져왔습니다
이제 독립적인 벤치마크 결과들이 나오기 시작했는데
Llama 4에게 전혀 좋지 않은 결과를 보여주고 있습니다
제가 코딩 능력 평가에서 매우 신뢰하는
Ader 폴리글랏 코딩 벤치마크에서
Llama 4 Maverick는 단지
16%의 점수만을 받았는데
이는 다른 벤치마크들에서 보고된 것보다
훨씬 낮은 수준입니다
여기 다른 모델들과 비교한
성능을 보여드리겠습니다
오픈웨이트와 독점 프론티어 모델들과 비교해서
이 벤치마크에서는
32억 파라미터의 Quinn 2.5 코더보다도
성능이 떨어집니다
이 영상에서는
코딩과 추론 능력에 대한 제 자체 테스트를 진행하고
그 결과를 살펴보겠습니다
웹상에서는 이런 식의
Llama 4 학습에 대한 추측들이 있지만
이는 아마도 거짓일 것이며
메타 팀이 의도적으로
테스트 세트를 학습 데이터에 포함했을 리는
매우 낮다고 생각합니다
자, 이 영상에서 우리는
몇 가지 테스트를 진행할 건데요
오픈웨이트 모델을 테스트하기 위해서는
여러 가지 옵션이 있습니다
메타 AI는 자체 웹사이트에서
Llama 4 버전을 호스팅하고 있지만
이것이 Maverick 버전인지
더 작은 Scout 버전인지는 명확하지 않습니다
제가 고려한 다른 옵션은 Nvidia NIM인데
이는 16비트 부동소수점 정밀도로
모델을 호스팅하고 있습니다만
웹 버전은 최대 출력 토큰을
1024개로 제한하고 있어서
심각한 코딩 테스트에는 부족합니다
좋은 옵션으로 보이지만 사용할 수 없죠
API를 사용하는 것도 방법이지만
저는 더 간단한 인터페이스를 원했습니다
테스트하기 쉬운
이는 우리를 서드파티 호스팅으로 이끕니다
최근에 제가 만든 영상이 있는데
꼭 보시길 추천드립니다
다양한 추론 제공자들과
그들이 선택한 파라미터들이
모델의 출력을 어떻게 변화시키는지에 대한 내용입니다
결국 저는 오픈라우터의
Llama 4 Maverick를 사용하기로 했는데
이전 테스트 결과를 보면
다른 추론 제공자들에 비해
훨씬 더 안정적이었고
또한 이 버전은
256,000 토큰의 컨텍스트 윈도우를 제공합니다
이는 Llama 4의 실제 100만 토큰의 1/4에 불과하지만
제가 진행할 모든 테스트에는 충분합니다
테스트에 충분할 것 같고 더 유용할 것 같습니다.
이 모델은 8비트 부동소수점 정밀도로
호스팅되고 있는데
부동소수점 정밀도는 매우 큰 차이를 만듭니다.
특히 성능 면에서
중요한데
거의 모든 다른 제공업체들도
Llama for Maverick를 8비트 부동소수점
정밀도로 호스팅하고 있습니다. 우리는
두 가지 유형의 테스트를 진행할 건데
하나는 코딩이고 다른 하나는
추론 테스트입니다. 자, 시작해보죠.
먼저 아주 간단한 코딩 프롬프트로
시작하겠습니다. '첫 25개의 전설의
포켓몬에 대한 간단한 백과사전을 만들어주세요.
포켓몬의 타입, 코드 스니펫,
이미지를 포함해서 CSS, JS, HTML이 모두 들어있는
단일 파일로 만들어주세요.' 이 프롬프트를 사용한 이유는
첫째로 코딩 능력을 체크할 수 있고
매우 간단한 웹 인터페이스이며
둘째로는 학습 데이터를 확인할 수 있기 때문입니다.
포켓몬과 같은 데이터의 경우
이미지 URL이
저장되어 있을 것으로 예상됩니다.
이 모델은 제가 '게으른 모델'이라고 부르는 유형인데
예를 들어, 이러한 지시사항에도
다음과 같은 결과를 보여줬습니다.
'placeholder.jpg를
실제 이미지 URL로
교체하세요'라고 했고
처음에는 5개의 포켓몬에 대한
코드만 생성했으며
나머지 7개를 추가해달라고 요청했습니다.
이는 제가 기대했던 것과는 확실히 달랐지만
때로는 조금 끈기있게 요청하면
이러한 모델들이 도움이 될 수 있습니다.
그래서 저는 전체 25개를
URL과 함께 제공해달라고 요청했고
그 후에는 기꺼이 코드를 제공했습니다.
이제 실제로 작동하는 이미지 URL을
추가한 것을 볼 수 있습니다. 실제 출력이
어떤지 테스트해보겠습니다.
자, 여기 모델이 만든 웹사이트가 있습니다.
우리가 요청한 이미지와
모든 정보가 포함되어 있고
'자세히 보기' 버튼을 클릭하면
각 포켓몬에 대한
간단한 설명을 보여줍니다.
꽤 괜찮지만
UI는 확실히 개선이 필요해 보입니다.
다음 프롬프트는 코딩 창의성과
지시사항 준수 능력을 테스트합니다.
0부터 9까지의 숫자 키로
채널을 변경할 수 있는 TV를 코딩하도록 요청했습니다.
각 채널에 대한 아이디어를 제시해야 하며
전통적인 TV 채널 장르에서
영감을 받아야 하고
채널 화면에 흥미로운 애니메이션과
창의적인 이름을 추가해야 합니다.
출력은 800x800 크기의 P5JS 스케치여야 하며
HTML 없이 검은 배경에 정사각형으로 표시되어야 합니다.
그리고 모든 콘텐츠가 TV 화면 영역 안에
마스킹되도록 요청했습니다.
이것은 상당히 복잡한 작업입니다.
모델이 코드를 생성했고
코드를 실행했을 때 문제가 발생했는데
에러 메시지를 제공했더니
업데이트된 코드를 제공했습니다.
출력이 어떻게 나오는지 보여드리겠습니다.
이것이 모델이 만든 출력인데
모든 키가 실제로 작동합니다.
하지만 한 가지 큰 문제가 있는데
모든 다른 키에서 작동하지만
한 가지 큰 문제가 있습니다.
그것은 바로 재사용의 문제입니다.
이 점을 염두에 두면
기본적으로 대부분의 애니메이션을
색상만 바꿔가며 반복적으로 재사용하고 있습니다
이 모델의 창의성은 확실히 그다지 좋지 않다고 생각합니다
코딩은 분명히 할 수 있지만
제가 기대했던 수준은 아닙니다
다른 모델들이 창의성 면에서
훨씬 더 나은 성능을 보여줍니다
하지만 전반적으로 프롬프트의
본질은 잘 따랐다는 점은 긍정적입니다
다음은 바이럴했던 육각형 공 튀기기 프롬프트의
복잡한 버전입니다
여기서는 HTML 프로그램을 작성하도록 요청했는데
20개의 공이 회전하는 칠각형 안에서
튀어다니는 것을 보여주는 것입니다
육각형을 칠각형으로 바꾼 이유는
이 모델이 단순히 바이럴 트렌드를 따라하는 것인지
아니면 새로운 것을 만들 수 있는지 확인하기 위해서입니다
모든 공은 동일한 반지름을 가져야 하고
1부터 20까지 번호가 매겨져야 하며
애니메이션이 시작될 때 칠각형의 중심에서
떨어져야 합니다
지정된 색상으로 표시되어야 하고
중력과 마찰의 영향을 받아야 하며
회전하는 벽에 현실적으로
튕겨야 합니다
또한 벽과의 충돌도 있어야 하는데
이처럼 여러 가지 요구사항이 있어서
일반적인 육각형 안의
공 튀기기보다 훨씬 더 어려운 과제입니다
이것은 확실히 더 복잡한 프롬프트이고
이 더 큰 라마 4 매버릭이
이런 복잡한 작업에서 얼마나 잘 수행하는지
보고 싶었습니다
결과를 보여드리기 전에
라마 4 매버릭으로 작업하면서
깨달은 한 가지가 있는데
코드를 생성할 때 정확히 무슨 일이 일어나는지에 대해
최소한의 설명만 제공한다는 것입니다
보통 Gemini 2.5 Pro나 Claude Sonnet 같은
더 큰 모델들은
코드의 각 부분에 대한 설명을
제공하지만, 이 모델은 출력이
매우 간결합니다
LM Arena에서 테스트할 때와는
매우 다른데, 그쪽은 훨씬 더 대화적이고
Open Router나 Together AI,
또는 Fireworks에서 호스팅되는 버전에 비해
더 많은 텍스트를 생성합니다
자, 이제 출력이 어떻게 나오는지 보겠습니다
중앙에서 시작하는 것은 좋지만
그 이후에는 정말 성능이 떨어집니다
지금 보시면 모든 공들이
한 줄로 비스듬히 정렬되어 있고
천천히 칠각형에서 벗어나고 있습니다
우리가 기대했던 현실적인 움직임이나
벽에서의 튕김이 전혀 없습니다
애니메이션을 계속 재생하면
공들이 하나씩 화면 밖으로 굴러
사라져버립니다
이는 확실히 라마 4 매버릭이
한계를 보이기 시작하는 지점이며
코딩 능력에 대해
의문을 갖게 되는 부분입니다
자, 이제 마지막 코딩 테스트를 보기 전에
추론과 이해력 능력을 살펴보겠습니다
이번에는 p5.js를 사용해
현실적인 물리 효과가 적용된
떨어지는 글자 애니메이션을 만들어보겠습니다
글자들은 화면 상단에서 무작위로 나타나야 하고
크기도 다양해야 합니다
모든 글자는 지구 중력의 영향을 받아
떨어져야 합니다
충돌 감지 기능이 필요하고
실제 크기를 기반으로
글자들끼리 상호작용해야 하며
바닥과 화면 경계와도 상호작용하고
화면 크기 변화에도 대응해야 합니다
자, 이제 결과를 보겠습니다
글자들이 떨어지는 것은 잘 되고 있지만
하지만 문제가 발생하기 시작했네요
보시다시피
글자들이 그저 사라져버리고 있습니다
이는 우리가 기대하거나 원하던 것이 아닙니다
또한 화면 크기 변화에 대한 대응을
확인해보겠습니다. 이건 잘 작동하는 것 같네요
하지만 글자들이 사라지는 것은
요구사항에 없는 동작입니다
저는 보통 테스트에서
매우 구체적인 요구사항을 제시하려 합니다
모델이 창의적으로 접근하는 것이 아니라
얼마나 지시사항을 잘 따르는지 보고 싶은데
이 경우에는 Llama for Maverick가
그렇게 하지 않는 것 같네요
이러한 빠른 테스트들을 바탕으로
간단한 코딩 작업에는
괜찮은 모델일 수 있지만
복잡한 지시사항이 필요한 경우에는
제가 코딩을 위해
선택할 모델은 아닌 것 같습니다
저는 여전히 Gemini 2.5 Pro나
Claude를 사용할 것 같네요
이건 확실히 신뢰할 만한 코딩 모델은 아닙니다
이제 추론 능력은 어떨까요?
여기서 정말 흥미로운 부분이 나옵니다
이 모델에 대해서
이번에도 역시
몇 가지 프롬프트로 테스트해보겠습니다
잘못된 주의를 유도하는 프롬프트로요
혹시 잘 모르시는 분들을 위해
제가 이전에 테스트했던
여러 영상들이 있으니
참고해 주시면 좋겠습니다
첫 번째 프롬프트는
유명한 트롤리 문제의 변형된 버전입니다
유일한 차이점은 선로 위의 사람들이
이미 사망했다는 것입니다
이건 제가 본 것 중에서
비추론 모델의 가장 흥미로운 출력 중 하나입니다
모델은 제어 불능의 트롤리가
다섯 명의 시신을 향해 달려가고 있다는 것을
인식하고, 사람들이 이미 사망했다는 것과
레버를 당기는 결정이
트롤리의 방향을
다섯 구의 시신이 있는 선로에서
한 명의 생존자가 있는 선로로 바꾸는 것임을 이해했습니다
보통 다른 LLM들은, 심지어
추론 능력이 있는 모델들조차도
이 변형된 트롤리 문제의
구체적인 표현에 주의를 기울이지 않고
원래 문제에 대한 답을 하려고 합니다
이것은 LLM들의 일반적인 문제로
논리적 추론보다는
패턴 매칭에 의존하는 경향이 있죠
하지만 이번에는 Llama for Maverick가
문제의 구체적인 표현을 분석하고
원래 트롤리 문제에 대한 가정을
하지 않았다는 점이 매우 놀랍습니다
이는 매우 영리한 접근이며
이 모델이 이런 작은 뉘앙스도
포착할 수 있다는 것은 매우 기분 좋은 발견입니다
흥미로운 일이 또 있었는데
수정된 몬티 홀 문제를
시도했을 때입니다
이 경우에 모델은 기본적으로
몇 가지 차이점을 인식했고
당신이 1번 문을 선택하고 몬티가 그것을 열었다는 점을 파악했습니다
염소를 보여주는 것은 표준적인 몬티 홀 문제가
아닙니다. 일반적으로
당신이 문을 고른 후 몬티는 나머지 두 개의
문 중 하나를 엽니다. 이해를
바로잡아보죠. 당신이 1번 문을
선택하고 몬티가 다른 문 중 하나를
연다면, 기본적으로 AI의 사고 과정에서
우리는 원래의 몬티 홀 문제를 풀고 싶은데
잘못 표현했다는 것을
인식하고 있습니다.
AI는 이를 교정하고
원래의 몬티 홀 문제를 완벽하게
해결해냅니다. 자, 이제
다른 문제를 보겠습니다. 이것은
유명한 슈뢰딩거의 고양이 패러독스의
변형된 버전인데, 이 경우 고양이는
이미 죽어있습니다. AI는 매우 영리하게
처음부터 이를 인식하여
고양이가 처음부터 죽어있고
상자에 핵 동위원소와
독가스, 방사선 감지기와 함께 들어있다고 설명합니다.
고양이가 이미 죽어있기 때문에
상자를 열었을 때 고양이가
살아있을 확률은 0이라고 합니다.
고양이가 상자에 들어갈 때
이미 죽어있었기 때문이죠. 매우 영리한
추론을 보여주는데, 비추론 모델임에도
제가 테스트한 몇몇 패러독스에서
이러한 모습을 보였습니다. 하지만
항상 그런 것은 아닙니다. 예를 들어
농부가 강 한쪽에 늑대, 염소,
양배추와 함께 있고 염소만
건너편으로 데려가야 하는
요구사항이 있는 문제에서는
단계별 계획을 세우긴 했지만
그 계획에는 모든 것을
강 건너편으로 옮기는 내용이 포함되어 있어서
우리가 원하는 것과는 다릅니다.
그래서 다시 계획을 검증하는데
기본적으로 모든 것을
강 건너편으로 옮기려 하고
각 단계에서 안전성도
확인하려 합니다. 1단계 후에는
염소가 혼자 건너편에 있고
3단계에서 염소를 데려오기 전에는
늑대와 염소가 함께 있어 위험하므로
농부가 염소를 데려오고
4단계 후에는 늑대와 양배추가
건너편에 있어 안전합니다.
염소가 둘 중 어느 것과도 함께 있지 않기 때문이죠.
그리고 최종 답을 박스 1이라고 하는데
1단계에서 멈추려는 것 같습니다.
만약 그렇다면 이는 매우 영리하지만
그것이 정확히 의도하는 바인지
명확한 표시가 없습니다.
그래서 확인을 위해 다시 실행해봤는데
매우 유사한 해결책을
제시했습니다. 단계별로
진행하면서 모든 것을
건너편으로 옮기려 했고 다시
최종 답을 박스 1이라고 했는데
정확히 무슨 의미인지는 모르겠지만
이러한 모든 문제 해결에서
공통된 특징이 있습니다.
명시적으로 요청하지 않았음에도
단계별 계획을 수립하는데
이는 매우 좋은 점이며
제가 테스트한 비추론 모델 중
이런 오해의 소지가 있는 데이터셋에서
가장 뛰어난 것 같습니다. Llama 4
Maverick을 추론 모델의
기본 모델로 사용한다면
매우 좋은 추론 능력을
얻을 수 있을 것 같습니다. 이미 어느 정도
그러한 능력을 보여주고 있기 때문입니다.
전반적으로 괜찮은 모델이라고 생각합니다.
코딩에서는 최고는 아니지만
추론 작업에는 사용하지 않을 것입니다.
꽤 괜찮은 모델로 보입니다.
용도에 따라 만약
많은 추론이 필요하다면
이 모델이 잠재적 선택이 될 수 있습니다.
비추론 또는 비사고형 오픈웨이트 모델을
찾고 있다면 좋은 선택일 것 같습니다.
곧 새로운 영상이 나올 예정인데
Llama 4 Maverick과 Scout의 컨텍스트 윈도우를
테스트할 것입니다. 두 모델 모두
매우 큰 컨텍스트 윈도우를 가지고 있죠.
현재 X에서는
긴 컨텍스트로 인해 RAG가 죽었다는
많은 논의가 있는데, 개인적으로는
동의하지 않습니다. 다음 영상에서
이러한 긴 컨텍스트 모델이
RAG 파이프라인의 잠재적
대체재가 될 수 있는지 살펴볼 예정입니다.
관심 있으시다면 구독하시고
기다려 주세요.
이번 주 남은 기간 동안
Google Next에 참석할 예정이라
관련 콘텐츠가 있을 예정입니다.
채널 구독하시고
시청해 주세요. 이번 주는
다양한 릴리스로 흥미진진할 것 같습니다.
이 영상이 도움이 되었길 바랍니다.
시청해 주셔서 감사합니다.
다음 영상에서 만나요.