[00:00]
오늘은 라마 4의 날입니다. 당사자의 이야기를 들어보겠습니다.
[00:02]
안녕하세요, 여러분. 오늘은 라마 4의 날입니다.
[00:05]
우리의 목표는 세계 최고의 AI를 만들어
[00:07]
오픈소스로 공개하고 모든 사람이
[00:10]
접근할 수 있도록 하는 것입니다.
[00:12]
저는 계속해서 말씀드렸듯이
[00:14]
오픈소스 AI가
[00:16]
선도적인 모델이 될 것이라 생각했고
[00:18]
라마 4와 함께 이제 그것이 현실화되고 있습니다.
[00:20]
메타 AI가 오늘 큰 업그레이드를 하게 됩니다.
[00:23]
라마 4를 사용해보고 싶으시다면
[00:25]
왓츠앱, 메신저, 인스타그램 다이렉트에서 메타를 이용하거나
[00:28]
또는 우리 웹사이트
[00:31]
meta.ai를 방문하시면 됩니다.
[00:32]
오늘 우리는 첫 두 개의 오픈소스 라마 4 모델을 공개하며
[00:38]
추가로 두 개가 더 준비되어 있습니다.
[00:40]
첫 번째 모델은 라마 4 스카우트입니다.
[00:43]
매우 빠르고 기본적으로 멀티모달이며
[00:46]
업계 최고 수준의 거의 무한대에 가까운
[00:49]
1000만 토큰의 컨텍스트 길이를 가지고 있고
[00:51]
단일 GPU에서 실행되도록 설계되었습니다.
[00:55]
170억 파라미터에 16개의 전문가 모델을 갖추고 있으며
[00:58]
동급에서 가장 성능이 뛰어난
[01:00]
소형 모델입니다.
[01:02]
두 번째 모델은 라마 4 매버릭입니다.
[01:05]
이 주력 모델은 GPT 4.0과 제미니 프로 2를
[01:08]
모든 벤치마크에서 능가하며
[01:11]
딥시크 v3보다 더 작고 효율적이지만
[01:13]
텍스트 처리 능력은 비슷한 수준입니다.
[01:16]
게다가 기본적으로 멀티모달을 지원합니다.
[01:19]
이 모델은 170억 파라미터에 128개의
[01:22]
전문가 모델을 갖추고 있으며
[01:25]
쉬운 추론을 위해 단일 호스트에서 실행되도록
[01:28]
설계되었습니다. 정말 강력한 모델이죠.
[01:31]
추가로 두 개의 모델이 더 있는데
[01:33]
하나는 라마 4 리즈닝이며
[01:35]
다음 달에 더 자세한 소식을 전해드릴 예정입니다.
[01:38]
마지막 모델은 라마 4 비히모스라고 부릅니다.
[01:41]
이 모델은 정말 거대한 규모로
[01:45]
2조 개 이상의 파라미터를 가지고 있습니다.
[01:47]
이보다 더 큰 모델을 훈련시키는 곳은
[01:49]
본 적이 없을 정도입니다.
[01:52]
이미 세계에서 가장 성능이 좋은 기본 모델이며
[01:54]
아직 훈련이 완료되지도 않았습니다.
[01:56]
라마 4 비히모스에 대해서는
[01:58]
곧 더 자세한 정보를 공유하겠습니다.
[02:02]
전반적으로 라마 4는 메타 AI와
[02:04]
오픈소스 진영의 이정표가 될 것입니다.
[02:08]
최초로 소형, 중형, 그리고 곧
[02:10]
프론티어급 모델까지 모두 오픈소스가 될 것입니다.
[02:13]
아직 해야 할 일이 많지만
[02:15]
방향성은 명확합니다.
[02:18]
더 많은 모델이 곧 공개될 예정이니 기대해 주세요.
[02:21]
자, 마크의 발표에서 주목할 점은
[02:23]
라마 4 스카우트를 소형 모델이라고 불렀지만
[02:26]
실제로는 거의 1100억 개의
[02:29]
총 파라미터와 170억 개의 활성 파라미터를 가진
[02:32]
16개의 전문가 모델이 있으며
[02:36]
1억 토큰의 거대한 컨텍스트 윈도우를
[02:38]
가지고 있다는 것입니다.
[02:40]
그가 언급한 다른 모델인
[02:41]
매버릭 역시 엄청나게 거대한 모델로
[02:44]
4000억 개의 총 파라미터와
[02:48]
170억 개의 활성 파라미터, 128개의
[02:52]
전문가 모델을 갖추고 있습니다.
[02:54]
100만 토큰의 컨텍스트 윈도우는
[02:56]
상대적으로 작은 편이지만
[02:59]
서구권 오픈 웨이트 모델 중에서는
[03:03]
가장 긴 컨텍스트 윈도우입니다.
[03:05]
그리고 2조 토큰 이상이 될 것으로 예상되는
[03:07]
라마 4 비히모스는
[03:10]
3000억 개의 활성 파라미터를 가질 예정입니다.
[03:13]
이를 보면 실제로는
[03:15]
활성 파라미터 측면에서
[03:17]
16개의 전문가 모델과 함께 훨씬 더 큰 규모가 될 것입니다.
[03:22]
1조 개의 토큰 또는 1조 개의 파라미터를
[03:25]
가진 모델이 될 것이라는 소문이 있었는데
[03:28]
한 가지 분명한 점은 모든 기업이
[03:30]
이런 거대 모델로 향하고 있다는 것입니다
[03:33]
이러한 모델의 크기를 고려하면
[03:35]
우리가 보고 있는 성능 향상은
[03:37]
매우 타당합니다. 하지만 놀라운 점은
[03:40]
Llama 4 Maverick이 현재
[03:43]
챗봇 아레나 리더보드에서
[03:45]
2위를 차지하고 있다는 것입니다
[03:47]
이는 정말 놀라운 일인데
[03:49]
GPT-4.0, Claude 3, GPT-4.5를 훨씬 앞서
[03:53]
사용자 선호도 면에서 앞서고 있어
[03:56]
이는 Llama와 Meta 팀의
[04:00]
큰 승리입니다
[04:01]
Llama 4에서는 밀집 모델에서 벗어나
[04:04]
이번이 Meta가 처음으로
[04:06]
MoE(전문가 혼합) 모델을 출시한 것입니다
[04:09]
업계 전체가 이 방향으로 움직이는 것 같습니다
[04:12]
Gemini 모델들도 그렇고
[04:15]
DeepSeek 모델들도
[04:16]
Claude도 출시하고 있죠
[04:20]
대부분의 더 크고 성능 좋은 모델들이
[04:23]
MoE를 사용하고 있어서
[04:26]
밀집 모델의 시대가 끝나가는 것 같습니다
[04:30]
MoE의 좋은 점은
[04:31]
연산 효율성이 높다는 것인데
[04:34]
이 그래프에서 잘 보여집니다
[04:37]
이것은 LM 아레나 ELO 점수 대비 비용입니다
[04:40]
Llama 4 Maverick은 최고 성능의 모델이면서
[04:45]
다른 최첨단 모델들과 비교해
[04:48]
가장 적은 비용으로 운영되며
[04:51]
최고의 ELO 점수를 보여줍니다
[04:53]
이는 사용자 선호도를
[04:56]
측정하는 지표인데
[04:58]
로컬 머신에서는 실행할 수 없고
[05:00]
H100 GPU가 필요합니다
[05:04]
80GB의 VRAM이 있어야 하므로
[05:08]
낮은 양자화로 실행하더라도
[05:10]
최소 H100이 필요합니다
[05:13]
이제 벤치마크를 살펴보겠습니다
[05:15]
자체 내부 벤치마크로 테스트하는 것을
[05:18]
강력히 추천드리지만
[05:21]
이런 표준 벤치마크들도
[05:24]
다른 모델들과 비교할 때
[05:26]
좋은 기준이 됩니다. 이미지 추론에서는
[05:29]
멀티모달인 Llama 4 Maverick이
[05:32]
같은 급에서 최고 성능을 보입니다
[05:34]
Gemini 2.0 Flash와 GPT-4와
[05:38]
비교했는데, 비슷한 크기의
[05:41]
모델들이라고 추정됩니다
[05:44]
DeepSeek 3과도 비교했는데
[05:47]
대부분의 벤치마크에서
[05:49]
최고 성능을 보입니다
[05:51]
하지만 멀티모달 벤치마크를 제외하면
[05:54]
6천억 파라미터의 다른 MoE 모델인
[05:57]
DeepSeek 3와 비슷하거나 뒤처집니다
[06:01]
예를 들어 HumanEval에서
[06:03]
DeepSeek 3가 Llama 4 Maverick보다
[06:06]
실제로 더 좋은 성능을 보입니다
[06:09]
마찬가지로 MMLU에서도 DeepSeek 3가
[06:14]
Llama 4 Maverick보다 우수하고
[06:17]
GPQA에서는 Llama 4 Maverick이
[06:21]
DeepSeek 3보다 나은데
[06:24]
점수 차이는
[06:26]
그리 크지 않습니다
[06:28]
흥미롭게도 코딩에서는
[06:29]
HumanEval 결과만 보고하고 있는데
[06:32]
BIG-Bench도 포함할 것으로 예상했지만
[06:35]
이번에는 제외했습니다
[06:38]
Llama 4 Scout의 경우
[06:40]
이전 Llama 버전들과
[06:43]
27B Gemma, 24B Mistral 7B 3.1,
[06:47]
Gemini 2.0 Flash와 비교했고
[06:50]
이러한 모델들과 비교했을 때
[06:52]
더 작은 모델들과 비교했을 때, Llama 4 Scout는
[06:56]
테스트된 모든 벤치마크에서 최고 수준의
[06:59]
성능을 보여주고 있습니다. 하지만
[07:02]
보고된 벤치마크를 보면 코딩 능력은
[07:05]
그다지 뛰어나지 않은 것 같습니다.
[07:07]
개인적으로 코딩이 주요 사용 사례 중 하나라
[07:10]
모델을 볼 때마다
[07:13]
코딩 능력을 중점적으로 살펴봅니다.
[07:15]
곧 ADER 벤치마크와
[07:18]
독립적인 벤치마크 결과들이
[07:20]
공개될 것 같습니다.
[07:22]
Llama 4 Scout와
[07:23]
Llama 4 Maverick의 독립적인
[07:26]
벤치마크 성능이 궁금해지네요.
[07:29]
다른 영상에서 더 자세한 테스트를
[07:31]
진행할 예정이지만,
[07:34]
이제 몇 가지 기능들을 살펴보겠습니다.
[07:36]
이 모델은 멀티모달 특성을 가지고 있어
[07:38]
이미지 이해 능력이 있습니다.
[07:40]
이미지를 입력하고
[07:42]
해당 이미지에 대해 질문할 수 있으며
[07:45]
지금까지 본 벤치마크에 따르면
[07:47]
상당히 우수한 성능을 보여주고 있습니다.
[07:50]
또 다른 특징은 이미지 그라운딩으로,
[07:53]
입력된 이미지를 기반으로
[07:55]
추론도 가능합니다. 예를 들어,
[07:58]
'이미지에서 길이를 측정하는 데
[08:00]
사용할 수 있는 도구는 무엇인가요?'라는
[08:03]
질문에 대해 제시된 도구들 중에서
[08:06]
이미지를 기반으로 답변할 수 있습니다.
[08:09]
이미지 이해 능력과
[08:12]
이미지 추론 능력을 모두 갖춘 것은
[08:14]
정말 좋은 특징입니다. 저는 개인적으로
[08:17]
긴 컨텍스트 처리 능력에
[08:19]
관심이 많습니다. 검색 시스템 관련 작업을 많이 하고
[08:22]
기업들을 지원하고 있기 때문에
[08:24]
1천만 토큰의 컨텍스트 윈도우는
[08:27]
매우 유용하며, 특정 상황에서는
[08:30]
기존 검색 시스템을 대체할 수도 있습니다.
[08:34]
물론 비용과 컴퓨팅 파워를
[08:36]
고려해야 하겠지만,
[08:40]
그들이 제공한
[08:42]
'건초더미 속 바늘 찾기' 테스트에서
[08:45]
텍스트만 처리하는 Llama 4 Maverick과
[08:49]
텍스트를 처리하는 Llama 4 Scout, 그리고
[08:53]
20시간 분량의 비디오를 처리하는 Llama 4 Scout의
[08:56]
1천만 토큰 컨텍스트 윈도우 덕분에
[08:59]
이제 이 테스트의
[09:01]
작동 방식을 보면,
[09:03]
하나의 사실을 텍스트의 여러 위치에 삽입하고
[09:07]
여기서 보시면,
[09:09]
상위 7분위수부터 시작해서 상위 35분위수,
[09:13]
그리고 100분위수까지 다양한 위치에
[09:16]
해당 사실을 배치하고
[09:19]
LLM에게 그 사실을 찾아내도록 요청합니다.
[09:22]
긴 컨텍스트 검색에 있어서
[09:24]
1천만 토큰을 지원하는 Llama 4 Scout는
[09:27]
다양한 깊이의 검색에서
[09:29]
매우 우수한 성능을 보여주고 있습니다.
[09:32]
전체 1천만 토큰 컨텍스트 윈도우가
[09:36]
특히 단일 사실 검색에
[09:38]
효과적으로 활용되는 것으로 보입니다.
[09:41]
하지만 일반적으로 사람들은 여러 가지
[09:44]
다른 사실이나 정보를
[09:46]
검색 작업에서 찾아보기 때문에
[09:48]
단일 프롬프트에서
[09:50]
여러 검색 단계가 필요할 때
[09:52]
어떤 성능을 보여줄지 흥미롭습니다.
[09:55]
Maverick의 경우에도
[09:58]
꽤 좋은 성능을 보여주고 있습니다.
[10:00]
예를 들어, 70분위수까지
[10:03]
사실을 배치했을 때도 백만 토큰
[10:08]
컨텍스트 윈도우를 효과적으로 활용할 수 있지만
[10:11]
그 이상으로 가면 한계가 있는 것 같습니다.
[10:14]
그 범위를 넘어가면
[10:17]
검색 측면에서 어려움이 있는 것 같습니다
[10:19]
그리고 Llama 4 Scout는
[10:21]
동영상 검색에서도 상당히 좋은
[10:23]
정확도를 보여주고 있습니다. 흥미로운 점은
[10:26]
동영상을 처리할 때
[10:29]
프레임 단위로 처리하는지, 아니면
[10:32]
텍스트만 처리하는지인데,
[10:34]
이 부분은 더 자세히 살펴봐야
[10:37]
멀티모달 정보를 어떻게 정확히
[10:39]
처리하는지 알 수 있을 것 같습니다
[10:43]
또한 챗봇 아레나 리더보드의
[10:44]
벤치마크 점수에서 보여주는
[10:47]
매우 흥미로운 차트가 있는데
[10:50]
여러 모델 제공업체들의 ELO 점수 변화를
[10:53]
보여줍니다. 가장 큰 도약을 보여준 것이
[10:57]
한 세대에서 다음 세대로 넘어가는
[10:59]
Llama입니다. 이전 세대는
[11:03]
약 1,250이나
[11:06]
1,270점 정도였던 ELO 점수가
[11:09]
현재는
[11:11]
1,417점으로, Gemini 2.5 Pro 바로 뒤를
[11:15]
따라가고 있습니다. 이는
[11:19]
사용자 선호도 측면에서
[11:22]
어떤 모델 제품군과 비교해도
[11:25]
정말 놀라운 성과입니다. Llama 팀의
[11:29]
훌륭한 작업으로
[11:31]
한 세대 만에 엄청난
[11:34]
성능 향상을 이뤄냈습니다. 여기서
[11:36]
몇 가지 더 강조하고 싶은데
[11:38]
특히 1천만 토큰이나 100만 토큰
[11:40]
컨텍스트 윈도우의 Llama 4
[11:42]
Maverick을 실행하려면 H100 GPU가 필요하고
[11:47]
Llama 4 Scout를 4비트 양자화로
[11:49]
실행하려고 해도 마찬가지입니다
[11:52]
만약 1천만 토큰을 사용하려면
[11:54]
모델을 VM에 로드하는 것보다
[11:57]
훨씬 더 많은 GPU VRAM이 필요합니다
[12:00]
실제로는 아무도 1천만 토큰의
[12:04]
컨텍스트 윈도우를 제공할 수 없을 것입니다
[12:07]
여러 서비스 제공업체들도 마찬가지고
[12:10]
자체 인프라에서 호스팅하는 건
[12:11]
아예 생각도 하지 마세요
[12:14]
TPU로 100만 토큰 컨텍스트를
[12:16]
호스팅하는 구글이나
[12:18]
메타가 직접 호스팅하기로 결정하지 않는 한
[12:21]
불가능할 것입니다
[12:23]
두 번째로
[12:25]
라이선스 자체에 대한
[12:27]
논의가 있습니다. Maxim이 지적한 대로
[12:30]
Llama 4 라이선스에는
[12:31]
몇 가지 제한사항이 있습니다. 7억 명 이상의
[12:34]
활성 사용자를 보유한 기업은
[12:37]
메타로부터 특별 라이선스를 요청해야 하며
[12:40]
메타는 이를 재량껏 승인하거나 거부할 수 있습니다
[12:43]
또한 웹사이트, 인터페이스,
[12:46]
문서 등에 'built with meta'를
[12:49]
눈에 띄게 표시해야 합니다. 개인적으로
[12:52]
7억 명의 활성 사용자를 가진 기업에
[12:55]
요구하는 것은 문제가 되지 않습니다
[12:58]
메타를 포함해 구글, 애플
[13:00]
정도의 소수 기업만이
[13:03]
해당될 것이기 때문입니다
[13:06]
실제로 월간 활성 사용자 7억 명이
[13:09]
넘는 기업들의 경우
[13:11]
구글처럼
[13:13]
자체 대규모 언어 모델을 보유하는 것이
[13:16]
더 나을 것 같습니다
[13:17]
애플의 경우는 메타나 구글
[13:19]
또는 OpenAI의 도움이 필요할 수도 있죠
[13:22]
하지만 활성 사용자 7억 명 미만의
[13:25]
기업이라면 모델을 실행할 수 있는 한
[13:27]
전혀 문제가 없을 것입니다
[13:29]
비록 완전한 오픈소스의 정의에는
[13:32]
부합하지 않더라도
[13:34]
그렇다 하더라도
[13:36]
이런 것이 없더라도
[13:38]
오픈소스 모델이 아닙니다. 단지
[13:42]
오픈 웨이트
[13:43]
모델일 뿐이에요. 우리는
[13:46]
학습 코드나 학습 데이터에 접근할 수 없죠.
[13:48]
그래서 우리는 문제없다고 봅니다.
[13:51]
활성 사용자가 7억 명 미만이라면
[13:54]
둘째로, 이것은 라마 2와 3에서
[13:56]
사용했던 것과 동일한 라이선스입니다.
[13:59]
새로운 것이 아닙니다. 모델을 테스트하고 싶다면
[14:02]
여러 가지 선택지가 있습니다.
[14:04]
예를 들어
[14:06]
Together AI에서 호스팅하고 있고, Groq도
[14:09]
라마 4 스카우트를 자사의
[14:12]
플레이그라운드에서 제공하며
[14:14]
API를 통해서도 사용 가능합니다. 직접
[14:17]
모델을 실행하고 싶다면 모델 가중치가
[14:20]
허깅페이스에서 제공됩니다.
[14:23]
라마 4 스카우트와 라마 4
[14:26]
매버릭 모두 가능하죠. H200이나
[14:29]
B200에 접근할 수 있다면 실행할 수 있는데
[14:32]
B200의 성능이 H200보다
[14:35]
3.4배 더 빠르다는 게
[14:37]
꽤나 놀랍습니다.
[14:39]
라마 4 스카우트에서 거의 초당 4만 토큰에
[14:42]
근접할 수 있죠. 만약
[14:45]
모델을 바로 시험해보고 싶다면
[14:47]
Meta.ai에 가입하면 됩니다.
[14:50]
페이스북 계정으로 로그인하고
[14:52]
모델과 상호작용을 시작할 수 있습니다.
[14:54]
예를 들어 "너는 어떤 모델이니?"라고
[14:58]
물어볼 수 있죠. 더 자세한 테스트
[15:00]
영상을 만들 예정이지만,
[15:04]
질문하면 '라마 4 기반이에요'라고 답변합니다.
[15:06]
라마 4 스카우트가 이미
[15:09]
활성화된 것 같네요. 마무리하자면
[15:11]
이는 오픈웨이트 모델의
[15:13]
중요한 진전이며, 솔직히
[15:15]
아무도 이런 모델을 내놓지 못했습니다.
[15:18]
확장성 측면에서 우리는
[15:20]
더 큰 규모로 확장할 수 있고
[15:22]
예를 들어 2조 파라미터의
[15:25]
'비히모스'라는 이름이 적절한
[15:26]
모델도 있죠. 그리고 이것은
[15:29]
추론 모델이 아니므로
[15:32]
메타가 이러한 기본 모델을 바탕으로
[15:35]
정말 좋은 추론 모델을 만들
[15:38]
기회가 있습니다. 둘째로 이번 출시는
[15:41]
전문가 혼합 모델(MoE)이
[15:44]
앞으로 나아갈 길이라는 생각을 확고히 했습니다.
[15:47]
현재 더 크고 성능 좋은 모델들은
[15:49]
대부분 MoE입니다. Gemma 3같은 작은 모델은
[15:52]
여전히 밀집 모델이지만
[15:56]
큰 모델의 경우 모든
[15:58]
프론티어 연구소가 MoE 구축을
[16:01]
고려하고 있습니다.
[16:03]
긴 컨텍스트는 또 다른
[16:07]
트렌드로, 앞으로 더 많이 보게 될 것입니다.
[16:09]
천만 토큰의 컨텍스트 윈도우로
[16:11]
라마 4 스카우트는 아마도
[16:14]
제미나이에 이어 선두주자일 것입니다.
[16:18]
구글이 제미나이 1.5 프로를
[16:22]
천만 토큰 컨텍스트로 선보였지만
[16:24]
실제 모델은 아직
[16:26]
출시하지 않았죠.
[16:28]
영상에서 언급했듯이
[16:30]
한 가지 확실하지 않은 점은
[16:33]
성능 면에서
[16:35]
코딩 능력입니다. 벤치마크를 보면
[16:38]
메타 팀이 보여준 것에서
[16:41]
더 많은 벤치마크,
[16:43]
특히 SWBench 같은 것을 보고 싶습니다.
[16:45]
이는 기본적으로 파이썬 프로그래밍 언어를
[16:48]
기반으로 모델의 코딩 능력을
[16:50]
측정하는 것인데, 그래도
[16:52]
LLM이나 에이전트 시스템의
[16:55]
코딩 능력을 평가하는
[16:57]
좋은 지표입니다.
[17:00]
이는 또한 코딩 모델이나 에이전트로서
[17:03]
얼마나 좋을지에 대한
[17:05]
의문을 제기하게 합니다.
[17:08]
곧 이러한 능력과
[17:10]
벤치마크 점수를
[17:11]
보게 될 것 같습니다. 하지만
[17:14]
최첨단 프론티어 모델이
[17:16]
주말에 공개된 것은 처음이라
[17:19]
정말 좋았습니다. 어쨌든
[17:21]
이 영상이 도움이 되었길 바랍니다.
[17:23]
시청해주셔서 감사하고 다음에
[17:26]
다시 만나요.