[00:00]
메타가 방금 라마 4를 공개했습니다. 1천만 토큰
[00:04]
컨텍스트 윈도우를 지원하는데, 이는 정말
[00:06]
놀라운 수치입니다. 세 가지 다른
[00:08]
버전으로 출시되는데, 스몰, 미디엄, 라지입니다.
[00:10]
이에 대해 모든 것을 설명해드리겠습니다.
[00:12]
블로그 포스트를 보시죠. 라마 4 시리즈는
[00:14]
네이티브 멀티모달 AI 혁신의
[00:16]
새로운 시대의 시작을 알립니다. 오늘
[00:19]
발표된 라마 4의 세 가지 버전 중
[00:21]
두 가지는 즉시 다운로드가
[00:22]
가능하고, 나머지 하나는 곧 출시될 예정입니다.
[00:25]
먼저 알아야 할 점은
[00:26]
세 모델 모두 멀티모달이라는 것입니다.
[00:28]
텍스트와 이미지를 입력하고
[00:31]
출력할 수 있다는 의미입니다.
[00:34]
현재 우리가 가진 정보에 따르면
[00:37]
세 모델 모두
[00:38]
전문가 혼합 모델입니다. 아직
[00:41]
싱킹 모델은 아닙니다. 이에 대해서는
[00:43]
곧 설명하겠습니다. 앞으로 올 것에 대한
[00:45]
작은 힌트가 있습니다. 먼저 라마 4
[00:48]
스카우트입니다. 총 1,090억 개의
[00:51]
파라미터를 가진 모델입니다. 가장 작은 모델인데도
[00:53]
이 정도라는 게 놀랍습니다.
[00:55]
세 모델 모두 정말
[00:57]
거대한 규모입니다. 스카우트는
[00:59]
1,090억 개의 총 파라미터 중 170억 개가
[01:03]
활성 파라미터이며, 16개의 전문가를 가지고 있습니다.
[01:05]
전문가 혼합 모델이란
[01:07]
모델의 각 부분이 서로 다른 작업에
[01:09]
특화되어 있다는 의미입니다. 1천만 토큰의
[01:11]
컨텍스트 길이를 지원하는데,
[01:15]
이를 현재 시장을 선도하는
[01:17]
제미니의 컨텍스트 윈도우와 비교해보면,
[01:20]
제미니는 2백만 토큰이고, 이것이
[01:22]
최첨단 기술이었는데, 이제
[01:24]
1천만이라니 놀랍습니다. 이렇게 많은
[01:27]
활용 사례가 이런 컨텍스트 크기로
[01:29]
가능해질 것입니다. 메타 관계자들이
[01:32]
계속해서 말하길, 업계 최고의
[01:34]
거의 무한대에 가까운 1천만 토큰
[01:36]
컨텍스트 길이라고 합니다. 거의 무한대라니,
[01:39]
컨텍스트 제한의 시대가
[01:41]
곧 끝날 수도 있겠네요.
[01:43]
다음으로 라마 4
[01:45]
매버릭입니다. 170억 개의 활성
[01:48]
파라미터를 가진 모델로, 이번에는
[01:50]
128개의 전문가로 총 4천억 개의
[01:53]
파라미터를 가지고 있습니다. 네이티브
[01:56]
멀티모달이며 백만 토큰 컨텍스트 길이를 지원하고
[01:59]
앞으로 이 길이는 더 늘어날
[02:02]
것으로 예상됩니다. 발표는 됐지만
[02:05]
아직 출시되지 않은 모델이 있는데
[02:06]
바로 라마 4 비히모스입니다.
[02:10]
들어보세요. 2조 개의 총
[02:14]
파라미터입니다. 이는 정말 거대한 모델로,
[02:16]
프론티어 모델이며 클로드나 OpenAI의
[02:19]
ChatGPT 모델과 비슷한 규모입니다.
[02:23]
가장 지능적인 교사 모델로
[02:26]
디스틸레이션에 사용될 것입니다.
[02:28]
정말 놀랍습니다. 이 모델은
[02:30]
곧 출시될 예정입니다. 현재까지 알려진 바로는
[02:32]
아직 싱킹 모델은 아니지만, 팀에서
[02:35]
싱킹 기능을 추가하는 것은 매우
[02:37]
간단할 것으로 보입니다.
[02:39]
벤치마크를 보여드리기 전에
[02:40]
몇 가지 사실을 말씀드리겠습니다. 라마 4 스카우트는
[02:42]
가장 작은 모델임에도 170억 개의
[02:45]
활성 파라미터와 16개의 전문가를 가지고 있으며
[02:48]
같은 급에서 세계 최고의 멀티모달 모델이고
[02:50]
이전 세대의 모든 라마
[02:53]
모델보다 더 강력하면서도
[02:56]
단일 엔비디아 H100 GPU에서 실행 가능합니다.
[02:58]
라마 4 스카우트는 업계를 선도하는 1천만
[03:01]
토큰의 컨텍스트 윈도우를 제공하며
[03:03]
더 나은 결과를 보여줍니다.
[03:04]
Gemma 3, Gemini 2.0, Flashlight 및
[03:06]
Mistral 3.1보다 광범위한 벤치마크에서
[03:09]
더 좋은 성능을 보여줍니다. 좋은 소식이지만
[03:11]
이 Gemma 3, Gemini 2.0, Flashlight,
[03:14]
Mistral 3.1은 전체 크기가 훨씬
[03:16]
작은 모델들입니다. 정확한 비교는
[03:19]
어려울 수 있지만, 활성 파라미터 측면에서는
[03:21]
비교가 가능합니다. 그리고
[03:24]
1천만 토큰 이상의 컨텍스트 윈도우로
[03:26]
기업용 사례가 폭발적으로
[03:29]
증가할 것입니다. 그래서 Box에 대해
[03:31]
말씀드리게 되어 기쁩니다. Box는
[03:33]
곧 Box AI Studio에 Llama 4를
[03:36]
도입할 예정입니다. 모든 기업은 엄청난 양의
[03:39]
비정형 데이터를 보유하고 있습니다. 하지만
[03:42]
이 모든 데이터의 진정한 잠재력은
[03:44]
아직 충분히 활용되지 않고 있습니다.
[03:47]
문제는 이러한 비정형 데이터를
[03:49]
분석하는 것이 정말 정말
[03:51]
어렵다는 것입니다. 하지만 Box AI가
[03:54]
이를 해결합니다. Box AI를 통해 개발자와
[03:57]
기업들은 최신 AI 기술을 활용하여
[03:58]
문서 처리와 워크플로우를 자동화하고
[04:01]
콘텐츠에서 인사이트를 추출하며
[04:03]
맞춤형 AI 에이전트를 구축하여
[04:06]
콘텐츠 작업을 수행하는 등
[04:08]
다양한 기능을 제공합니다. Box AI는 모든 주요
[04:11]
모델 제공업체와 연동되어
[04:13]
항상 최신 AI 기술을
[04:14]
콘텐츠에 활용할 수 있습니다.
[04:16]
계약서, 청구서, 재무 문서,
[04:18]
이력서 등에서 주요 메타데이터 필드를
[04:21]
추출하여 워크플로우를 자동화할 수 있습니다.
[04:23]
또한 Box 생태계 내의
[04:25]
모든 콘텐츠에 대해 질문할 수 있습니다.
[04:26]
영업 프레젠테이션이나
[04:29]
긴 연구 보고서도 포함됩니다. 개발자라면
[04:31]
Box AI의 API를 활용하여 자체 콘텐츠 위에
[04:34]
멋진 자동화와 애플리케이션을
[04:36]
구축할 수 있습니다. Box AI는
[04:39]
전체 RAG 파이프라인을 처리합니다.
[04:42]
이 모든 것을 최고 수준의
[04:44]
보안, 규정 준수 및
[04:46]
데이터 거버넌스를 유지하면서 수행하며
[04:49]
115,000개 이상의 기업이 신뢰하고 있습니다.
[04:52]
Box의 지능형 콘텐츠 관리로
[04:54]
콘텐츠의 힘을 발휘하세요. Box에 다시 한번
[04:56]
감사드립니다. 이제 영상으로 돌아가겠습니다. Llama 4
[04:59]
Maverick은 GPT4.0과 Gemini 2.0 Flash를
[05:04]
전반적으로 능가하며
[05:06]
최근 출시된 Deepseek V3와
[05:09]
추론과 코딩 면에서 비슷한 성능을 보이지만
[05:11]
활성 파라미터는 절반 이하입니다.
[05:13]
특히 돋보이는 점은
[05:17]
컨텍스트 크기뿐만 아니라 비용입니다.
[05:20]
운영 비용이 매우 저렴하며, 잠시 후
[05:23]
자세히 보여드리겠습니다. Llama 4
[05:25]
Maverick은 최고 수준의
[05:26]
성능 대비 비용 효율성을 제공하며
[05:28]
실험적 채팅 버전에서 ELO 점수
[05:32]
1417점으로 2위를 기록했습니다.
[05:36]
지금 LM Arena를 열어보면
[05:38]
Gemini 2.5 Pro가 여전히 1위이고
[05:41]
20점 이상 앞서 있습니다. 하지만
[05:45]
오픈소스이자 가중치가 공개된 Llama 4 Maverick을
[05:49]
지금 당장 다운로드할 수 있으며
[05:52]
2위를 차지했습니다. 흥미로운 점은
[05:55]
오늘 발표되었지만 아직 공개되지 않은
[05:58]
거대 모델이 바로
[06:00]
다른 Llama 4 버전들을 학습시키는데
[06:02]
사용된 원본 모델이라는 것입니다.
[06:05]
아직 개발 중이며 계속
[06:07]
발전하고 있습니다. 출시될 때쯤에는
[06:09]
더 발전된 형태의 4.1 버전을
[06:11]
이 Maverick와 Scout 모델의 4.1 버전을
[06:14]
이제 흥미로운 점은
[06:16]
2880억 개의 활성 파라미터를 가진 거대 모델이
[06:20]
단 16개의 전문가만을 사용한다는 것입니다
[06:23]
이 거대한 모델은 현재 사용할 수 없지만
[06:25]
지금까지 우리가 만든 것 중 가장 강력합니다
[06:28]
세계에서 가장 똑똑한 LLM들 중에서도
[06:32]
GPT4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를
[06:37]
여러 STEM 벤치마크에서 능가했습니다
[06:42]
그것도 아직 학습 중인 상태에서 말이죠
[06:45]
정말 믿을 수 없죠
[06:47]
이제 아키텍처에 대해 이야기해보겠습니다
[06:49]
우리의 Llama 4 모델은 처음으로
[06:52]
Mixture of Experts를 사용한 모델입니다
[06:55]
Mixture of Experts가 약간
[06:57]
구식처럼 느껴질 수 있는데
[06:59]
흥미롭죠. 현재 트렌드는
[07:01]
생각하는 모델입니다. 하지만 말이죠
[07:03]
이것들은 기본 모델이며
[07:05]
강화학습을 통해
[07:06]
사고 능력을 만들어낼 수 있습니다
[07:09]
구조는 이렇습니다
[07:10]
어텐션이 있고 프롬프트가 들어오면
[07:13]
공유 전문가와 라우터가 있습니다
[07:15]
라우터는 16개의 전문가 중 하나로 전달하고
[07:19]
이를 종합한 다음
[07:21]
최종 출력이 나옵니다
[07:22]
여기에는 많은 기술적 세부사항이 있는데
[07:24]
블로그 포스트 링크를 아래에 두겠습니다
[07:27]
계속해서, Llama 4는 오픈소스 파인튜닝을
[07:29]
200개 언어에 대한 사전 학습을 통해 지원하며
[07:33]
100개 이상의 언어에서 각각
[07:36]
10억 개 이상의 토큰을 사용했고
[07:39]
Llama 3보다 10배 더 많은
[07:42]
다국어 토큰을 사용했습니다
[07:44]
FP8을 사용하여 효율적인 모델 학습에 집중했는데
[07:47]
이는 흥미로운 점입니다
[07:48]
보통은 더 높은 정밀도를 사용하기 때문이죠
[07:51]
품질을 희생하지 않으면서도
[07:53]
높은 모델 플롭스 활용도를 보장합니다
[07:56]
Llama 4 거대 모델을
[07:57]
FP8과 32,000개의 GPU로 사전 학습시키면서
[08:01]
GPU당 390 테라플롭스를 달성했습니다
[08:05]
매우 효율적인 학습이죠
[08:07]
이제 벤치마크를 살펴보겠습니다
[08:09]
여기 Llama 4 Maverick가 있는데
[08:12]
먼저 비용을 보겠습니다
[08:14]
비용에 대해 몇 가지 가정을 하고 있는데
[08:16]
자체적으로 추론을 제공하지는 않는 것 같습니다
[08:18]
제가 틀릴 수도 있지만
[08:20]
WhatsApp이나 Meta.ai같은
[08:22]
자사 제품에 모두 통합하고 있지만
[08:25]
실제로 API 엔드포인트로는
[08:26]
제공하지 않는 것 같습니다
[08:28]
파트너사들이 그렇게 하도록 하죠
[08:31]
입력과 출력 토큰 백만 개당 비용을 보면
[08:33]
3:1 혼합 비율로 19센트에서
[08:36]
49센트로 믿을 수 없이 저렴합니다. Gemini 2.0은
[08:42]
17센트지만 곧 보시겠지만
[08:45]
Llama 4 Maverick가 더 우수합니다
[08:47]
Deepseek V3.1은 높은 가격대에 있고
[08:50]
GPT4.0은 놀랍게도
[08:53]
$4.38이나 됩니다. 이는 크게
[08:56]
낮춰야 할 것 같네요
[08:59]
이건 GPT4.5가 아닌데도 그렇습니다
[09:01]
이미지 추론 MMU 벤치마크에서
[09:03]
Maverick는 73.4점을 기록했고
[09:06]
다른 모델들과 비교하면
[09:08]
Deepseek V3.1은 멀티모달을 지원하지 않고
[09:10]
Math Vista는 73.7, 차트 QA는
[09:14]
이미지 이해 벤치마크에서 90점, Doc VQ
[09:17]
QA에서 94.4점으로 전반적으로
[09:22]
같은 클래스의 모델들을
[09:24]
압도했습니다. 이제 Scout를 살펴보죠
[09:26]
다른 모델들과 Scout 모델을 비교해보겠습니다.
[09:28]
Scout와 동일한 벤치마크로 Llama 3.370B,
[09:30]
멀티모달을 지원하지 않는 Llama 3.1405B,
[09:34]
그리고 Gemma 327B,
[09:36]
Mistral 3.124B, Gemini 2.0 플래시라이트가 있습니다.
[09:40]
예상하셨겠지만, 전반적으로
[09:43]
Llama 4 Scout가 1위를 차지했습니다. 단,
[09:46]
흥미로운 점은 여기 Live
[09:48]
codebench에서 Llama
[09:50]
3.370B가 근소한 차이로 이겼다는 것입니다.
[09:53]
이제 이것을 들어보세요. 1천만 토큰 이상의
[09:56]
컨텍스트 윈도우를 가진 Llama 4
[09:58]
Scout는 사전 학습과
[10:00]
후속 학습 모두 256k 컨텍스트 길이로 진행되었는데,
[10:03]
이는 기본 모델에
[10:05]
향상된 길이 일반화
[10:07]
능력을 부여했습니다. 기본적으로
[10:10]
평소보다 훨씬 큰 컨텍스트 윈도우로
[10:12]
학습되어 실제 서비스될 때
[10:14]
더 큰 컨텍스트 윈도우를
[10:16]
사용할 수 있게 되었습니다. 자, 여기
[10:18]
건초더미 속 바늘 찾기 테스트 결과입니다.
[10:20]
파란색은 성공, 흰색은 실패를 의미합니다.
[10:23]
Llama 4 Maverick는 백만 토큰까지
[10:26]
약간의 실패가 있었지만,
[10:27]
보세요. Llama 4
[10:30]
Scout는 천만 토큰에서 파란색 물결을 보여줍니다.
[10:34]
단 하나의 실패도 없이 매우 높은
[10:38]
성능을 보여주었습니다.
[10:39]
거대한 텍스트 속에서 정보를 회상하는
[10:41]
능력이 탁월합니다. 여기 비디오 관련 Llama 4 Scout입니다.
[10:44]
멀티모달이라는 걸 기억하세요.
[10:45]
비디오, 이미지 등 모든 것을 이해할 수 있습니다.
[10:48]
비디오 길이는 시간 단위로, 20시간의
[10:50]
비디오까지 처리할 수 있습니다. 여기에도
[10:54]
약간의 실패가 있지만 전반적으로 여전히
[10:56]
좋은 성능을 보여줍니다. 앞서 말씀드렸듯이 이것들은
[11:00]
추론 모델은 아닙니다. 하지만
[11:02]
곧 출시될 것에 대한 작은 힌트가
[11:04]
있습니다. 보세요.
[11:08]
llama.com/lama4reasoning이 출시 예정이며
[11:10]
귀여운 라마 영상과 함께
[11:12]
'라마를 기다리세요'라는 메시지를 보여줍니다.
[11:15]
곧 출시된다고 합니다. 하지만 몇 가지 문제가 있습니다.
[11:18]
가장 큰 문제는 라이선스인 것 같습니다.
[11:21]
Llama 3에서도 문제였고
[11:22]
여전히 문제로 남아있습니다.
[11:24]
MIT 라이선스와 같은 표준화된 라이선스를
[11:25]
사용하지 않습니다. 이것을 들어보세요. Maxim Labon의 말입니다.
[11:28]
Llama 4의 새로운 라이선스에는 여러 제한이 있습니다.
[11:31]
7억 명 이상의 활성 사용자를 보유한 기업은
[11:32]
특별 라이선스를 요청해야 하며 Meta가
[11:34]
이를 승인하거나 거부할 수 있습니다.
[11:37]
이는 Llama 3와 동일한
[11:39]
조건입니다. 웹사이트,
[11:41]
인터페이스, 문서 등에 'built with Llama'를
[11:43]
눈에 띄게 표시해야 합니다.
[11:46]
이 역시 Llama 3의 경우와 동일합니다.
[11:48]
여전히 좋지 않네요. Llama 자료를 사용해 만든
[11:51]
AI 모델은 반드시 이름 앞에 llama를
[11:54]
포함해야 합니다. 이것은
[11:56]
큰 문제는 아닌 것 같습니다. 모든 배포에
[11:58]
특정 저작권 고지를
[12:01]
notice.txt 파일에
[12:03]
포함해야 합니다. 이것도
[12:05]
가벼운 조건이네요. 그리고 Meta의
[12:06]
별도의 이용 정책을 준수해야 합니다.
[12:09]
지금 당장 읽지는 않겠지만,
[12:11]
오픈소스 모델이고
[12:13]
제게 주는 거라면,
[12:15]
마음대로 사용하게 해주면 좋겠습니다. 자,
[12:17]
AI 리더 Jeremy Howard가 Llama 4에 대해
[12:19]
언급한 것이 있습니다. 기본적으로 가장
[12:22]
작은 버전조차도 일반 GPU에서는
[12:24]
실행하기 어렵다고 합니다. 하지만 가능할 수도 있죠.
[12:27]
이 모델들은 모두
[12:30]
거대한 전문가 혼합 모델이라 양자화를
[12:32]
해도 일반 GPU에서는 실행할 수 없다고 합니다.
[12:36]
정말 놀라운 사실이죠.
[12:38]
하지만 아마도 Llama 4는
[12:41]
Mac에서 실행하기에 좋을 것 같습니다. Mac은
[12:44]
이런 모델에 특히 유용한데,
[12:46]
메모리가 많고
[12:47]
낮은 연산 성능도 크게 문제되지 않습니다.
[12:50]
활성화되는 매개변수가 적기 때문이죠.
[12:53]
멋지네요. 제가 막
[12:54]
96GB RAM의 Mac Studio를 구매했는데
[12:57]
테스트해보고 싶네요. RTX A6000 두 대로도
[12:59]
테스트해볼 계획이라
[13:02]
이 모델들을 확실히
[13:03]
테스트해볼 것입니다. Google DeepMind의
[13:06]
수석 과학자 Jeff Dean이 말하길 "왜 일반 GPU에서
[13:08]
실행할 수 없나요?" Jeremy는
[13:11]
이렇게 답했습니다. 4비트 양자화한
[13:12]
가장 작은 109B 모델조차
[13:15]
4090 한 대나 두 대에서도 돌릴 수 없다고요.
[13:18]
그러자 Meta의 누군가가
[13:19]
"현재 개발 중입니다. 기대해주세요"라고 했습니다.
[13:22]
Stability AI의 설립자 Emad Mostique는
[13:25]
1.58비트가 승리할 것이라고 말했습니다. 결국
[13:28]
초고압축 양자화를 사용하거나
[13:30]
아예 실행이 불가능할 수 있습니다. 더 많은
[13:33]
모델이 곧 출시될 예정입니다.
[13:35]
추론 모델도 곧 나올 예정이고,
[13:37]
거의 무한한 컨텍스트 윈도우를 가진
[13:39]
초고속 모델도 있습니다. 우리는 지금
[13:42]
오픈소스의 시대에 살고 있습니다. 저는
[13:44]
이것을 실험해보게 되어 정말 설렙니다.
[13:45]
이 영상이 마음에 드셨다면 좋아요와
[13:47]
구독 부탁드립니다.