라마 4 무리 - 오픈 소스가 이겼는가?

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

본 영상은 Meta가 공개한 Llama 4 시리즈의 다양한 모델들을 심도 있게 소개하며, 오픈 소스 AI의 미래와 접근성을 강조합니다. Llama Force Scout, Maverick, 그리고 향후 출시될 Reasoning과 Behemoth 모델의 기술적 세부사항과 성능 지표가 구체적으로 설명됩니다. 또한, 긴 문맥 처리, 멀티모달 기능, 그리고 혼합전문가(MOE) 구조 등 혁신적 기술 요소와 실행 환경, 라이선스 조건에 대해서도 논의합니다. 전반적으로, 이번 발표는 오픈 소스 AI 모델이 경쟁 모델들과 견줄만한 성능을 갖추고 있음을 보여주며, 향후 발전 가능성을 시사합니다.

주요 키워드

Llama 4 오픈 소스 MOE 컨텍스트 창 벤치마크 멀티모달 GPU 라이선스 모델 스케일링 AI 성능

하이라이트

  • 🔑 Llama 4 시리즈는 Llama Force Scout, Maverick, Reasoning, Behemoth 등 다양한 모델로 구성되어 있으므로, 각 모델의 특징과 용도가 명확하게 구분됩니다.
  • ⚡️ 오픈 소스 AI의 접근성과 확산을 목표로 하며, 전 세계 누구나 최신 AI 기술을 활용할 수 있게 함을 강조합니다.
  • 🌟 각 모델은 파라미터 수, 전문가 수, 긴 컨텍스트 창 등 세부 기술 지표를 통해 성능과 효율성에서 혁신을 이룹니다.
  • 📌 벤치마크 결과와 비교를 통해 경쟁 모델(GPT-4, Gemini 등) 대비 우수하거나 유사한 성능을 보임으로써 시장에서의 입지를 강화합니다.
  • 🚀 혼합전문가(MOE) 구조와 긴 문맥 처리 능력은 모델의 비용 효율성과 실제 응용 가능성을 높이는 핵심 요소로 소개됩니다.
  • 📊 라이선스 제한과 하드웨어 요구사항(H100 GPU 등)에 대한 논의는 실사용 환경과 서비스 제공 측면에서 중요한 고려사항임을 시사합니다.

용어 설명

MOE (Mixture of Experts)

여러 개의 전문가 모델을 조합하여 효율성과 성능을 극대화하는 기법을 의미합니다.

Open-source

소스 코드와 관련 자료를 공개하여 누구나 사용, 수정, 배포할 수 있도록 한 소프트웨어 개발 방식을 뜻합니다.

Context window

모델이 한 번에 처리할 수 있는 텍스트의 토큰(단어 단위) 수를 의미하며, 긴 문맥 처리 능력과 직결됩니다.

Quantization

모델의 수치 정밀도를 낮추어 연산 효율성과 메모리 사용량을 줄이는 기술입니다.

H100/B200 GPU

최신 AI 연산에 최적화된 고성능 그래픽 처리 장치로, 대규모 모델 운용 시 필수적인 하드웨어입니다.

[00:00:00] 소개 및 비전

영상은 Llama 4 데이를 맞아 오픈 소스 AI 리더 구축 목표와 비전을 소개합니다. 전 세계 접근성을 강조하며 시작됩니다.

마크 저커버그가 라마 4의 출시를 발표하며, 세계 최고의 AI를 오픈소스로 만들어 모든 사람이 접근할 수 있게 하겠다는 비전을 제시합니다.
라마 4는 왓츠앱, 메신저, 인스타그램 다이렉트 또는 meta.ai 웹사이트를 통해 사용할 수 있음을 안내합니다.
[00:00:35] 주요 모델 발표

첫 두 모델인 Llama Force Scout와 Llama 4 Maverick의 출시 소식과 주요 기술 지표가 설명됩니다. 향후 Reasoning과 Behemoth 모델도 언급됩니다.

첫 번째 모델인 라마 4 스카우트는 170억 파라미터를 가진 빠른 멀티모달 모델로, 1000만 토큰의 컨텍스트 길이를 지원합니다.
두 번째 모델인 라마 4 매버릭은 GPT 4.0과 제미니 프로 2를 능가하는 성능을 보여주며, 170억 파라미터와 128개의 전문가 모델을 갖추고 있습니다.
향후 출시될 라마 4 리즈닝과 2조 개 이상의 파라미터를 가진 라마 4 비히모스에 대해 예고합니다.
발표된 모델들의 실제 규모와 기술적 세부사항이 상세히 설명되며, 특히 스카우트와 매버릭의 총 파라미터 수와 활성 파라미터 수가 공개됩니다.
[00:03:00] 모델 사양 및 성능 비교

각 모델의 파라미터 수, 전문가 수, 컨텍스트 창 크기 등 기술적 세부사항이 비교됩니다. 벤치마크 결과와 경쟁 모델과의 성능 차이가 논의됩니다.

GPT-4.0은 1조 파라미터 규모의 모델이 될 것으로 예상되며, 업계 전반이 대규모 모델 개발 방향으로 움직이고 있습니다.
Llama 4 Maverick이 챗봇 아레나 리더보드에서 2위를 차지하며, GPT-4.0과 Claude 3를 앞서는 놀라운 성과를 보여주고 있습니다.
Meta가 처음으로 MoE(전문가 혼합) 모델을 도입했으며, 이는 업계의 새로운 트렌드로 자리잡고 있습니다.
Llama 4 Maverick은 비용 대비 최고의 성능을 보여주지만, 실행을 위해서는 80GB VRAM을 갖춘 H100 GPU가 필요합니다.
벤치마크 테스트에서 Llama 4 Maverick은 이미지 추론 분야에서 최고 성능을 보여주지만, 다른 영역에서는 DeepSeek 3와 비슷하거나 약간 뒤처지는 결과를 보입니다.
Llama 4 Scout는 테스트된 모든 벤치마크에서 최고 성능을 보여주지만, 코딩 능력은 상대적으로 부족한 것으로 나타났습니다. 독립적인 벤치마크 결과를 기다리는 중입니다.
[00:07:00] 멀티모달 기능 및 긴 문맥 처리

모델의 이미지 이해, 이미지 그라운딩 및 긴 문맥(최대 10 million 토큰) 처리 능력이 강조됩니다. 멀티모달 입력을 통한 질문 응답 기능도 소개됩니다.

모델은 멀티모달 기능을 갖추고 있어 이미지 이해와 추론이 가능합니다. 이미지에 대한 질문에 답변하고 시각적 정보를 기반으로 판단할 수 있습니다.
1천만 토큰의 긴 컨텍스트 윈도우를 지원하여 검색 시스템 대체 가능성을 보여줍니다. 비용과 컴퓨팅 파워를 고려해야 하지만 성능이 인상적입니다.
'건초더미 속 바늘 찾기' 테스트에서 다양한 깊이의 정보 검색 능력을 입증했으며, 특히 단일 사실 검색에서 우수한 성능을 보여줍니다.
여러 검색 단계가 필요한 복잡한 작업에서의 성능은 아직 검증이 필요하며, Maverick도 70분위수까지는 효과적으로 작동하지만 그 이상에서는 한계가 있습니다.
Llama 4 Scout는 동영상 검색에서도 우수한 성능을 보여주지만, 토큰 제한을 넘어가면 검색 능력이 저하됩니다. 동영상 처리 방식에 대해서는 추가 연구가 필요합니다.
챗봇 아레나 리더보드에서 Llama는 이전 세대(ELO 1,270)에서 현재(ELO 1,417)로 가장 큰 성능 향상을 보여주며, Gemini 2.5 Pro에 근접한 성과를 달성했습니다.
[00:11:36] 라이선스 및 실행 환경

모델 사용의 라이선스 조건과 700백만 이상의 활성 사용자 제한이 언급됩니다. H100 GPU 요구사항 등 실제 실행 환경에 대한 주의점이 설명됩니다.

Llama 4의 대규모 컨텍스트 윈도우(1천만/100만 토큰) 실행을 위해서는 H100 GPU와 대량의 VRAM이 필요하며, 실제로 이런 규모의 서비스는 대형 기술 기업들만 가능할 것으로 예상됩니다.
Llama 4의 라이선스는 7억 명 이상의 활성 사용자를 가진 기업에 대한 제한과 'built with meta' 표시 요구사항이 있으나, 대부분의 기업에는 영향을 미치지 않습니다.
라마 4는 완전한 오픈소스가 아닌 오픈 웨이트 모델로, 학습 코드와 데이터에 접근할 수 없습니다. 활성 사용자 7억 명 미만이면 사용 가능하며, 이는 라마 2, 3와 동일한 라이선스 조건입니다.
모델 테스트는 Together AI, Groq의 플레이그라운드, API를 통해 가능하며, 허깅페이스에서 모델 가중치를 직접 다운로드할 수 있습니다.
H200이나 B200 하드웨어에서 실행 가능하며, B200이 3.4배 더 빠른 성능을 보여줍니다. Meta.ai에서 페이스북 계정으로 직접 테스트도 가능합니다.
[00:15:00] 향후 전망 및 결론

향후 독립 벤치마크와 테스트 결과에 대한 기대와 함께, 오픈 소스 AI 모델 발전과 서비스 확대 가능성이 결론적으로 제시됩니다. 시청자에게 유용한 정보와 고민거리를 제공합니다.

이는 오픈웨이트 모델의 중요한 진전으로, 전문가 혼합 모델(MoE)이 대형 언어 모델의 미래임을 보여줍니다.
천만 토큰의 긴 컨텍스트 윈도우는 새로운 트렌드이며, 코딩 능력에 대한 추가 벤치마크가 필요합니다.
오늘은 라마 4의 날입니다. 당사자의 이야기를 들어보겠습니다.
안녕하세요, 여러분. 오늘은 라마 4의 날입니다.
우리의 목표는 세계 최고의 AI를 만들어
오픈소스로 공개하고 모든 사람이
접근할 수 있도록 하는 것입니다.
저는 계속해서 말씀드렸듯이
오픈소스 AI가
선도적인 모델이 될 것이라 생각했고
라마 4와 함께 이제 그것이 현실화되고 있습니다.
메타 AI가 오늘 큰 업그레이드를 하게 됩니다.
라마 4를 사용해보고 싶으시다면
왓츠앱, 메신저, 인스타그램 다이렉트에서 메타를 이용하거나
또는 우리 웹사이트
meta.ai를 방문하시면 됩니다.
오늘 우리는 첫 두 개의 오픈소스 라마 4 모델을 공개하며
추가로 두 개가 더 준비되어 있습니다.
첫 번째 모델은 라마 4 스카우트입니다.
매우 빠르고 기본적으로 멀티모달이며
업계 최고 수준의 거의 무한대에 가까운
1000만 토큰의 컨텍스트 길이를 가지고 있고
단일 GPU에서 실행되도록 설계되었습니다.
170억 파라미터에 16개의 전문가 모델을 갖추고 있으며
동급에서 가장 성능이 뛰어난
소형 모델입니다.
두 번째 모델은 라마 4 매버릭입니다.
이 주력 모델은 GPT 4.0과 제미니 프로 2를
모든 벤치마크에서 능가하며
딥시크 v3보다 더 작고 효율적이지만
텍스트 처리 능력은 비슷한 수준입니다.
게다가 기본적으로 멀티모달을 지원합니다.
이 모델은 170억 파라미터에 128개의
전문가 모델을 갖추고 있으며
쉬운 추론을 위해 단일 호스트에서 실행되도록
설계되었습니다. 정말 강력한 모델이죠.
추가로 두 개의 모델이 더 있는데
하나는 라마 4 리즈닝이며
다음 달에 더 자세한 소식을 전해드릴 예정입니다.
마지막 모델은 라마 4 비히모스라고 부릅니다.
이 모델은 정말 거대한 규모로
2조 개 이상의 파라미터를 가지고 있습니다.
이보다 더 큰 모델을 훈련시키는 곳은
본 적이 없을 정도입니다.
이미 세계에서 가장 성능이 좋은 기본 모델이며
아직 훈련이 완료되지도 않았습니다.
라마 4 비히모스에 대해서는
곧 더 자세한 정보를 공유하겠습니다.
전반적으로 라마 4는 메타 AI와
오픈소스 진영의 이정표가 될 것입니다.
최초로 소형, 중형, 그리고 곧
프론티어급 모델까지 모두 오픈소스가 될 것입니다.
아직 해야 할 일이 많지만
방향성은 명확합니다.
더 많은 모델이 곧 공개될 예정이니 기대해 주세요.
자, 마크의 발표에서 주목할 점은
라마 4 스카우트를 소형 모델이라고 불렀지만
실제로는 거의 1100억 개의
총 파라미터와 170억 개의 활성 파라미터를 가진
16개의 전문가 모델이 있으며
1억 토큰의 거대한 컨텍스트 윈도우를
가지고 있다는 것입니다.
그가 언급한 다른 모델인
매버릭 역시 엄청나게 거대한 모델로
4000억 개의 총 파라미터와
170억 개의 활성 파라미터, 128개의
전문가 모델을 갖추고 있습니다.
100만 토큰의 컨텍스트 윈도우는
상대적으로 작은 편이지만
서구권 오픈 웨이트 모델 중에서는
가장 긴 컨텍스트 윈도우입니다.
그리고 2조 토큰 이상이 될 것으로 예상되는
라마 4 비히모스는
3000억 개의 활성 파라미터를 가질 예정입니다.
이를 보면 실제로는
활성 파라미터 측면에서
16개의 전문가 모델과 함께 훨씬 더 큰 규모가 될 것입니다.
1조 개의 토큰 또는 1조 개의 파라미터를
가진 모델이 될 것이라는 소문이 있었는데
한 가지 분명한 점은 모든 기업이
이런 거대 모델로 향하고 있다는 것입니다
이러한 모델의 크기를 고려하면
우리가 보고 있는 성능 향상은
매우 타당합니다. 하지만 놀라운 점은
Llama 4 Maverick이 현재
챗봇 아레나 리더보드에서
2위를 차지하고 있다는 것입니다
이는 정말 놀라운 일인데
GPT-4.0, Claude 3, GPT-4.5를 훨씬 앞서
사용자 선호도 면에서 앞서고 있어
이는 Llama와 Meta 팀의
큰 승리입니다
Llama 4에서는 밀집 모델에서 벗어나
이번이 Meta가 처음으로
MoE(전문가 혼합) 모델을 출시한 것입니다
업계 전체가 이 방향으로 움직이는 것 같습니다
Gemini 모델들도 그렇고
DeepSeek 모델들도
Claude도 출시하고 있죠
대부분의 더 크고 성능 좋은 모델들이
MoE를 사용하고 있어서
밀집 모델의 시대가 끝나가는 것 같습니다
MoE의 좋은 점은
연산 효율성이 높다는 것인데
이 그래프에서 잘 보여집니다
이것은 LM 아레나 ELO 점수 대비 비용입니다
Llama 4 Maverick은 최고 성능의 모델이면서
다른 최첨단 모델들과 비교해
가장 적은 비용으로 운영되며
최고의 ELO 점수를 보여줍니다
이는 사용자 선호도를
측정하는 지표인데
로컬 머신에서는 실행할 수 없고
H100 GPU가 필요합니다
80GB의 VRAM이 있어야 하므로
낮은 양자화로 실행하더라도
최소 H100이 필요합니다
이제 벤치마크를 살펴보겠습니다
자체 내부 벤치마크로 테스트하는 것을
강력히 추천드리지만
이런 표준 벤치마크들도
다른 모델들과 비교할 때
좋은 기준이 됩니다. 이미지 추론에서는
멀티모달인 Llama 4 Maverick이
같은 급에서 최고 성능을 보입니다
Gemini 2.0 Flash와 GPT-4와
비교했는데, 비슷한 크기의
모델들이라고 추정됩니다
DeepSeek 3과도 비교했는데
대부분의 벤치마크에서
최고 성능을 보입니다
하지만 멀티모달 벤치마크를 제외하면
6천억 파라미터의 다른 MoE 모델인
DeepSeek 3와 비슷하거나 뒤처집니다
예를 들어 HumanEval에서
DeepSeek 3가 Llama 4 Maverick보다
실제로 더 좋은 성능을 보입니다
마찬가지로 MMLU에서도 DeepSeek 3가
Llama 4 Maverick보다 우수하고
GPQA에서는 Llama 4 Maverick이
DeepSeek 3보다 나은데
점수 차이는
그리 크지 않습니다
흥미롭게도 코딩에서는
HumanEval 결과만 보고하고 있는데
BIG-Bench도 포함할 것으로 예상했지만
이번에는 제외했습니다
Llama 4 Scout의 경우
이전 Llama 버전들과
27B Gemma, 24B Mistral 7B 3.1,
Gemini 2.0 Flash와 비교했고
이러한 모델들과 비교했을 때
더 작은 모델들과 비교했을 때, Llama 4 Scout는
테스트된 모든 벤치마크에서 최고 수준의
성능을 보여주고 있습니다. 하지만
보고된 벤치마크를 보면 코딩 능력은
그다지 뛰어나지 않은 것 같습니다.
개인적으로 코딩이 주요 사용 사례 중 하나라
모델을 볼 때마다
코딩 능력을 중점적으로 살펴봅니다.
곧 ADER 벤치마크와
독립적인 벤치마크 결과들이
공개될 것 같습니다.
Llama 4 Scout와
Llama 4 Maverick의 독립적인
벤치마크 성능이 궁금해지네요.
다른 영상에서 더 자세한 테스트를
진행할 예정이지만,
이제 몇 가지 기능들을 살펴보겠습니다.
이 모델은 멀티모달 특성을 가지고 있어
이미지 이해 능력이 있습니다.
이미지를 입력하고
해당 이미지에 대해 질문할 수 있으며
지금까지 본 벤치마크에 따르면
상당히 우수한 성능을 보여주고 있습니다.
또 다른 특징은 이미지 그라운딩으로,
입력된 이미지를 기반으로
추론도 가능합니다. 예를 들어,
'이미지에서 길이를 측정하는 데
사용할 수 있는 도구는 무엇인가요?'라는
질문에 대해 제시된 도구들 중에서
이미지를 기반으로 답변할 수 있습니다.
이미지 이해 능력과
이미지 추론 능력을 모두 갖춘 것은
정말 좋은 특징입니다. 저는 개인적으로
긴 컨텍스트 처리 능력에
관심이 많습니다. 검색 시스템 관련 작업을 많이 하고
기업들을 지원하고 있기 때문에
1천만 토큰의 컨텍스트 윈도우는
매우 유용하며, 특정 상황에서는
기존 검색 시스템을 대체할 수도 있습니다.
물론 비용과 컴퓨팅 파워를
고려해야 하겠지만,
그들이 제공한
'건초더미 속 바늘 찾기' 테스트에서
텍스트만 처리하는 Llama 4 Maverick과
텍스트를 처리하는 Llama 4 Scout, 그리고
20시간 분량의 비디오를 처리하는 Llama 4 Scout의
1천만 토큰 컨텍스트 윈도우 덕분에
이제 이 테스트의
작동 방식을 보면,
하나의 사실을 텍스트의 여러 위치에 삽입하고
여기서 보시면,
상위 7분위수부터 시작해서 상위 35분위수,
그리고 100분위수까지 다양한 위치에
해당 사실을 배치하고
LLM에게 그 사실을 찾아내도록 요청합니다.
긴 컨텍스트 검색에 있어서
1천만 토큰을 지원하는 Llama 4 Scout는
다양한 깊이의 검색에서
매우 우수한 성능을 보여주고 있습니다.
전체 1천만 토큰 컨텍스트 윈도우가
특히 단일 사실 검색에
효과적으로 활용되는 것으로 보입니다.
하지만 일반적으로 사람들은 여러 가지
다른 사실이나 정보를
검색 작업에서 찾아보기 때문에
단일 프롬프트에서
여러 검색 단계가 필요할 때
어떤 성능을 보여줄지 흥미롭습니다.
Maverick의 경우에도
꽤 좋은 성능을 보여주고 있습니다.
예를 들어, 70분위수까지
사실을 배치했을 때도 백만 토큰
컨텍스트 윈도우를 효과적으로 활용할 수 있지만
그 이상으로 가면 한계가 있는 것 같습니다.
그 범위를 넘어가면
검색 측면에서 어려움이 있는 것 같습니다
그리고 Llama 4 Scout는
동영상 검색에서도 상당히 좋은
정확도를 보여주고 있습니다. 흥미로운 점은
동영상을 처리할 때
프레임 단위로 처리하는지, 아니면
텍스트만 처리하는지인데,
이 부분은 더 자세히 살펴봐야
멀티모달 정보를 어떻게 정확히
처리하는지 알 수 있을 것 같습니다
또한 챗봇 아레나 리더보드의
벤치마크 점수에서 보여주는
매우 흥미로운 차트가 있는데
여러 모델 제공업체들의 ELO 점수 변화를
보여줍니다. 가장 큰 도약을 보여준 것이
한 세대에서 다음 세대로 넘어가는
Llama입니다. 이전 세대는
약 1,250이나
1,270점 정도였던 ELO 점수가
현재는
1,417점으로, Gemini 2.5 Pro 바로 뒤를
따라가고 있습니다. 이는
사용자 선호도 측면에서
어떤 모델 제품군과 비교해도
정말 놀라운 성과입니다. Llama 팀의
훌륭한 작업으로
한 세대 만에 엄청난
성능 향상을 이뤄냈습니다. 여기서
몇 가지 더 강조하고 싶은데
특히 1천만 토큰이나 100만 토큰
컨텍스트 윈도우의 Llama 4
Maverick을 실행하려면 H100 GPU가 필요하고
Llama 4 Scout를 4비트 양자화로
실행하려고 해도 마찬가지입니다
만약 1천만 토큰을 사용하려면
모델을 VM에 로드하는 것보다
훨씬 더 많은 GPU VRAM이 필요합니다
실제로는 아무도 1천만 토큰의
컨텍스트 윈도우를 제공할 수 없을 것입니다
여러 서비스 제공업체들도 마찬가지고
자체 인프라에서 호스팅하는 건
아예 생각도 하지 마세요
TPU로 100만 토큰 컨텍스트를
호스팅하는 구글이나
메타가 직접 호스팅하기로 결정하지 않는 한
불가능할 것입니다
두 번째로
라이선스 자체에 대한
논의가 있습니다. Maxim이 지적한 대로
Llama 4 라이선스에는
몇 가지 제한사항이 있습니다. 7억 명 이상의
활성 사용자를 보유한 기업은
메타로부터 특별 라이선스를 요청해야 하며
메타는 이를 재량껏 승인하거나 거부할 수 있습니다
또한 웹사이트, 인터페이스,
문서 등에 'built with meta'를
눈에 띄게 표시해야 합니다. 개인적으로
7억 명의 활성 사용자를 가진 기업에
요구하는 것은 문제가 되지 않습니다
메타를 포함해 구글, 애플
정도의 소수 기업만이
해당될 것이기 때문입니다
실제로 월간 활성 사용자 7억 명이
넘는 기업들의 경우
구글처럼
자체 대규모 언어 모델을 보유하는 것이
더 나을 것 같습니다
애플의 경우는 메타나 구글
또는 OpenAI의 도움이 필요할 수도 있죠
하지만 활성 사용자 7억 명 미만의
기업이라면 모델을 실행할 수 있는 한
전혀 문제가 없을 것입니다
비록 완전한 오픈소스의 정의에는
부합하지 않더라도
그렇다 하더라도
이런 것이 없더라도
오픈소스 모델이 아닙니다. 단지
오픈 웨이트
모델일 뿐이에요. 우리는
학습 코드나 학습 데이터에 접근할 수 없죠.
그래서 우리는 문제없다고 봅니다.
활성 사용자가 7억 명 미만이라면
둘째로, 이것은 라마 2와 3에서
사용했던 것과 동일한 라이선스입니다.
새로운 것이 아닙니다. 모델을 테스트하고 싶다면
여러 가지 선택지가 있습니다.
예를 들어
Together AI에서 호스팅하고 있고, Groq도
라마 4 스카우트를 자사의
플레이그라운드에서 제공하며
API를 통해서도 사용 가능합니다. 직접
모델을 실행하고 싶다면 모델 가중치가
허깅페이스에서 제공됩니다.
라마 4 스카우트와 라마 4
매버릭 모두 가능하죠. H200이나
B200에 접근할 수 있다면 실행할 수 있는데
B200의 성능이 H200보다
3.4배 더 빠르다는 게
꽤나 놀랍습니다.
라마 4 스카우트에서 거의 초당 4만 토큰에
근접할 수 있죠. 만약
모델을 바로 시험해보고 싶다면
Meta.ai에 가입하면 됩니다.
페이스북 계정으로 로그인하고
모델과 상호작용을 시작할 수 있습니다.
예를 들어 "너는 어떤 모델이니?"라고
물어볼 수 있죠. 더 자세한 테스트
영상을 만들 예정이지만,
질문하면 '라마 4 기반이에요'라고 답변합니다.
라마 4 스카우트가 이미
활성화된 것 같네요. 마무리하자면
이는 오픈웨이트 모델의
중요한 진전이며, 솔직히
아무도 이런 모델을 내놓지 못했습니다.
확장성 측면에서 우리는
더 큰 규모로 확장할 수 있고
예를 들어 2조 파라미터의
'비히모스'라는 이름이 적절한
모델도 있죠. 그리고 이것은
추론 모델이 아니므로
메타가 이러한 기본 모델을 바탕으로
정말 좋은 추론 모델을 만들
기회가 있습니다. 둘째로 이번 출시는
전문가 혼합 모델(MoE)이
앞으로 나아갈 길이라는 생각을 확고히 했습니다.
현재 더 크고 성능 좋은 모델들은
대부분 MoE입니다. Gemma 3같은 작은 모델은
여전히 밀집 모델이지만
큰 모델의 경우 모든
프론티어 연구소가 MoE 구축을
고려하고 있습니다.
긴 컨텍스트는 또 다른
트렌드로, 앞으로 더 많이 보게 될 것입니다.
천만 토큰의 컨텍스트 윈도우로
라마 4 스카우트는 아마도
제미나이에 이어 선두주자일 것입니다.
구글이 제미나이 1.5 프로를
천만 토큰 컨텍스트로 선보였지만
실제 모델은 아직
출시하지 않았죠.
영상에서 언급했듯이
한 가지 확실하지 않은 점은
성능 면에서
코딩 능력입니다. 벤치마크를 보면
메타 팀이 보여준 것에서
더 많은 벤치마크,
특히 SWBench 같은 것을 보고 싶습니다.
이는 기본적으로 파이썬 프로그래밍 언어를
기반으로 모델의 코딩 능력을
측정하는 것인데, 그래도
LLM이나 에이전트 시스템의
코딩 능력을 평가하는
좋은 지표입니다.
이는 또한 코딩 모델이나 에이전트로서
얼마나 좋을지에 대한
의문을 제기하게 합니다.
곧 이러한 능력과
벤치마크 점수를
보게 될 것 같습니다. 하지만
최첨단 프론티어 모델이
주말에 공개된 것은 처음이라
정말 좋았습니다. 어쨌든
이 영상이 도움이 되었길 바랍니다.
시청해주셔서 감사하고 다음에
다시 만나요.