LLaMA 4 출시! Meta가 대폭 준비

채널 아이콘
Matthew Berman 구독자 419,000명

요약

이번 영상은 Meta가 출시한 LLaMA 4 모델군에 대해 상세히 소개한다. LLaMA 4는 텍스트, 이미지 등 다양한 데이터를 동시에 처리할 수 있는 멀티모달 모델로, 10백만 토큰에 달하는 긴 컨텍스트 윈도우를 자랑한다. 세 가지 버전(Scout, Maverick, 그리고 향후 공개될 Behemoth) 각각의 파라미터 수, 전문가 구성 및 성능 벤치마크를 통해 경쟁 모델들과의 우위를 설명한다. 또한 Box AI와의 협업, 효율적인 FP8 기반 학습 및 라이선스 제한과 같은 기술적·상업적 이슈도 함께 다루어 향후 발전 방향을 제시합니다.

주요 키워드

LLaMA 4 멀티모달 토큰 컨텍스트 Mixture of Experts Active Parameters 벤치마크 FP8 라이선스 Box AI 증류

하이라이트

  • 🔑 LLaMA 4는 10백만 토큰 컨텍스트 윈도우를 지원하며, 이는 기존 모델들이 가졌던 한계를 크게 뛰어넘는 점이다.
  • ⚡️ 세 가지 모델 버전—Scout, Maverick, 그리고 곧 공개될 Behemoth—은 각각 서로 다른 파라미터 수와 전문가(Expert) 구성을 갖춰 다양한 응용 분야에 최적화되어 있습니다.
  • 🌟 모든 버전은 멀티모달 처리를 지원하여 텍스트, 이미지 등 다양한 데이터를 동시에 입력 받고 출력할 수 있습니다.
  • 📌 Maverick은 비용 효율성과 뛰어난 벤치마크 성능을 보이며, 경쟁 모델들(GPT-4, Gemini 등)과 견줄만한 성과를 기록합니다.
  • 🚀 Box AI와의 협업을 통해 기업들이 방대한 비정형 데이터를 효과적으로 분석하고, 문서 처리 및 워크플로우 자동화를 실현할 수 있는 가능성을 엿볼 수 있습니다.
  • 🔍 모델의 학습 과정에서 FP8 정밀도를 활용한 효율적인 트레이닝과 Mixture of Experts 구조가 사용되어 비용과 계산 효율을 동시에 달성합니다.
  • 📄 LLaMA 4의 라이선스 제한은 대규모 사용자 기반을 가진 기업에게 별도의 승인 요청이 필요하다는 점 등, 상업적 활용 시 고려해야 할 중요한 이슈로 남아 있습니다.

용어 설명

멀티모달 (Multimodal)

텍스트, 이미지 등 다양한 형태의 데이터를 동시에 처리할 수 있는 모델 특성을 의미합니다.

토큰 컨텍스트 윈도우 (Token Context Window)

모델이 한 번에 처리할 수 있는 입력 토큰의 최대 길이를 나타내며, LLaMA 4는 10백만 토큰이라는 업계 최고 수준의 길이를 자랑합니다.

Mixture of Experts

모델 내 여러 전문가(Expert) 중 입력에 가장 적합한 부분만 활성화하여 처리하는 구조로, 모델의 효율성과 성능을 향상시킵니다.

Active Parameters

전체 파라미터 중 실제 입력 처리에 사용되는 활성화된 파라미터를 의미하며, 효과적인 모델 운용에 중요한 역할을 합니다.

FP8

8비트 부동소수점 연산을 의미하며, 높은 계산 효율을 가져오면서도 모델 품질 저하를 최소화하는 학습 기법입니다.

[00:00:00] 소개 및 개요

Meta가 LLaMA 4를 발표하며 10백만 토큰 컨텍스트 윈도우와 멀티모달 기능을 강조하는 내용입니다. 세 가지 모델 버전이 존재하며, 혁신적인 구조와 성능을 예고합니다.

메타가 라마 4를 발표했으며, 1천만 토큰 컨텍스트 윈도우를 지원하는 스몰, 미디엄, 라지 세 가지 버전으로 출시됩니다.
라마 4는 네이티브 멀티모달 AI의 새로운 시대를 열며, 세 모델 모두 텍스트와 이미지를 처리할 수 있는 전문가 혼합 모델입니다.
[00:00:48] LLaMA 4 Scout 세부 정보

Scout 모델은 1090억 개의 전체 파라미터 중 170억 개의 활성 파라미터와 16명의 전문가 구성을 갖추고 있습니다. 10백만 토큰의 컨텍스트 윈도우로 다양한 작업에서 우수한 성능을 발휘합니다.

라마 4 스카우트는 1,090억 파라미터와 16개의 전문가를 갖춘 가장 작은 모델로, 1천만 토큰의 컨텍스트 길이를 지원합니다.
라마 4 매버릭은 170억 활성 파라미터와 128개의 전문가를 가진 4천억 파라미터 규모의 모델입니다.
아직 출시되지 않은 라마 4 비히모스는 2조 개의 파라미터를 가진 거대 모델로, 클로드와 ChatGPT 수준의 성능을 보여줄 것으로 예상됩니다.
라마 4 스카우트는 단일 H100 GPU에서 실행 가능하면서도 세계 최고의 성능을 보여주는 혁신적인 모델입니다.
Llama 4가 Gemma 3, Gemini 2.0 등 기존 모델들보다 더 우수한 성능을 보여주며, 특히 활성 파라미터 측면에서 효율적인 비교가 가능합니다.
Box가 Llama 4를 Box AI Studio에 도입할 예정이며, 이를 통해 기업들의 방대한 비정형 데이터 활용이 가능해질 것입니다.
Box AI는 문서 처리 자동화, 인사이트 추출, 맞춤형 AI 에이전트 구축 등 다양한 기능을 제공하며, 주요 AI 모델들과 연동됩니다.
Box AI는 완벽한 RAG 파이프라인을 제공하며, 최고 수준의 보안과 규정 준수를 보장합니다.
[00:04:59] LLaMA 4 Maverick 성능 및 벤치마크

Maverick 모델은 170억 활성 파라미터, 128 전문가를 활용하며 비용 효율성과 뛰어난 성능을 입증합니다. 경쟁 모델 대비 우수한 결과와 탁월한 비용 대비 성능비를 보여줍니다.

타임라인 정보가 없습니다.

[00:02:05] Behemoth 모델 및 증류 기법

아직 출시되지 않은 Behemoth 모델은 2조 개의 파라미터로, LLaMA 4의 확장판 역할을 합니다. 이 모델은 증류 과정을 통해 Scout와 Maverick 등 다른 모델의 기반이 됩니다.

Llama 4 Maverick은 GPT4.0과 Gemini 2.0을 능가하며, Deepseek V3와 비슷한 성능을 절반의 파라미터로 달성했습니다.
Llama 4 Maverick은 오픈소스로 제공되며, ELO 점수 1417점으로 Gemini 2.5 Pro에 이어 2위를 기록했습니다.
Meta의 Llama 4 모델이 공개되었으며, Maverick와 Scout 모델의 4.1 버전이 출시되었습니다. 특히 2880억 개의 활성 파라미터를 가진 거대 모델은 16개의 전문가만을 사용합니다.
이 모델은 현재 사용할 수 없지만, GPT4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 여러 STEM 벤치마크에서 능가했으며, 아직도 학습 중입니다.
Llama 4는 Mixture of Experts를 처음으로 도입했으며, 강화학습을 통해 사고 능력을 개발할 수 있는 기본 모델로 설계되었습니다.
[00:07:00] 아키텍처 및 학습 기법

LLaMA 4는 Mixture of Experts 구조와 FP8 정밀도 기반 학습 방식을 채택하여 효율적으로 트레이닝되었습니다. 강화학습을 통해 추후 '생각하는' 모델로 진화할 가능성을 엿봅니다.

200개 언어에 대한 사전 학습을 지원하며, 100개 이상의 언어에서 각각 10억 개 이상의 토큰을 사용했습니다. Llama 3보다 10배 더 많은 다국어 토큰을 처리했습니다.
32,000개의 GPU를 사용하여 FP8 형식으로 학습을 진행했으며, GPU당 390 테라플롭스의 높은 성능을 달성했습니다.
비용 면에서도 매우 효율적이며, 입출력 토큰 백만 개당 19-49센트로 매우 저렴한 가격을 제시했습니다.
벤치마크 결과에서 이미지 추론, 차트 이해, 문서 처리 등 다양한 분야에서 우수한 성능을 보여주며 경쟁 모델들을 압도했습니다.
Scout 모델을 다른 모델들과 비교 분석한 결과, Llama 4 Scout가 대부분의 벤치마크에서 우수한 성능을 보여주었으나, Live codebench에서는 Llama 3.370B가 근소한 차이로 앞섰습니다.
Llama 4 Scout는 256k 컨텍스트 길이로 사전/후속 학습되어 1천만 토큰 이상의 컨텍스트 윈도우를 지원하며, 정보 회상 테스트에서 뛰어난 성능을 보여주었습니다.
Llama 4 Scout는 멀티모달 기능을 갖추어 비디오, 이미지 등 다양한 형식의 데이터를 처리할 수 있으며, 20시간 길이의 비디오도 처리 가능합니다.
Llama 4의 주요 이슈는 라이선스 문제로, 대규모 사용자 기업에 대한 특별 라이선스 요구, 브랜딩 의무화, 이름 규정 등 여러 제한사항이 있습니다.
[00:12:00] 라이선스, 소비자 GPU 문제 및 미래 전망

라이선스 제한으로 대규모 사용자 기업은 별도 승인을 받아야 하며, 소비자용 GPU에서 실행하기에는 어려움이 있습니다. 향후 모델 경량화, 양자화 및 새로운 발전이 기대됩니다.

Jeremy Howard는 Llama 4가 일반 소비자 GPU로는 실행이 어렵다고 지적했으나, Mac 환경에서는 효과적으로 실행될 가능성이 있다고 언급했습니다.
메타가 방금 라마 4를 공개했습니다. 1천만 토큰
컨텍스트 윈도우를 지원하는데, 이는 정말
놀라운 수치입니다. 세 가지 다른
버전으로 출시되는데, 스몰, 미디엄, 라지입니다.
이에 대해 모든 것을 설명해드리겠습니다.
블로그 포스트를 보시죠. 라마 4 시리즈는
네이티브 멀티모달 AI 혁신의
새로운 시대의 시작을 알립니다. 오늘
발표된 라마 4의 세 가지 버전 중
두 가지는 즉시 다운로드가
가능하고, 나머지 하나는 곧 출시될 예정입니다.
먼저 알아야 할 점은
세 모델 모두 멀티모달이라는 것입니다.
텍스트와 이미지를 입력하고
출력할 수 있다는 의미입니다.
현재 우리가 가진 정보에 따르면
세 모델 모두
전문가 혼합 모델입니다. 아직
싱킹 모델은 아닙니다. 이에 대해서는
곧 설명하겠습니다. 앞으로 올 것에 대한
작은 힌트가 있습니다. 먼저 라마 4
스카우트입니다. 총 1,090억 개의
파라미터를 가진 모델입니다. 가장 작은 모델인데도
이 정도라는 게 놀랍습니다.
세 모델 모두 정말
거대한 규모입니다. 스카우트는
1,090억 개의 총 파라미터 중 170억 개가
활성 파라미터이며, 16개의 전문가를 가지고 있습니다.
전문가 혼합 모델이란
모델의 각 부분이 서로 다른 작업에
특화되어 있다는 의미입니다. 1천만 토큰의
컨텍스트 길이를 지원하는데,
이를 현재 시장을 선도하는
제미니의 컨텍스트 윈도우와 비교해보면,
제미니는 2백만 토큰이고, 이것이
최첨단 기술이었는데, 이제
1천만이라니 놀랍습니다. 이렇게 많은
활용 사례가 이런 컨텍스트 크기로
가능해질 것입니다. 메타 관계자들이
계속해서 말하길, 업계 최고의
거의 무한대에 가까운 1천만 토큰
컨텍스트 길이라고 합니다. 거의 무한대라니,
컨텍스트 제한의 시대가
곧 끝날 수도 있겠네요.
다음으로 라마 4
매버릭입니다. 170억 개의 활성
파라미터를 가진 모델로, 이번에는
128개의 전문가로 총 4천억 개의
파라미터를 가지고 있습니다. 네이티브
멀티모달이며 백만 토큰 컨텍스트 길이를 지원하고
앞으로 이 길이는 더 늘어날
것으로 예상됩니다. 발표는 됐지만
아직 출시되지 않은 모델이 있는데
바로 라마 4 비히모스입니다.
들어보세요. 2조 개의 총
파라미터입니다. 이는 정말 거대한 모델로,
프론티어 모델이며 클로드나 OpenAI의
ChatGPT 모델과 비슷한 규모입니다.
가장 지능적인 교사 모델로
디스틸레이션에 사용될 것입니다.
정말 놀랍습니다. 이 모델은
곧 출시될 예정입니다. 현재까지 알려진 바로는
아직 싱킹 모델은 아니지만, 팀에서
싱킹 기능을 추가하는 것은 매우
간단할 것으로 보입니다.
벤치마크를 보여드리기 전에
몇 가지 사실을 말씀드리겠습니다. 라마 4 스카우트는
가장 작은 모델임에도 170억 개의
활성 파라미터와 16개의 전문가를 가지고 있으며
같은 급에서 세계 최고의 멀티모달 모델이고
이전 세대의 모든 라마
모델보다 더 강력하면서도
단일 엔비디아 H100 GPU에서 실행 가능합니다.
라마 4 스카우트는 업계를 선도하는 1천만
토큰의 컨텍스트 윈도우를 제공하며
더 나은 결과를 보여줍니다.
Gemma 3, Gemini 2.0, Flashlight 및
Mistral 3.1보다 광범위한 벤치마크에서
더 좋은 성능을 보여줍니다. 좋은 소식이지만
이 Gemma 3, Gemini 2.0, Flashlight,
Mistral 3.1은 전체 크기가 훨씬
작은 모델들입니다. 정확한 비교는
어려울 수 있지만, 활성 파라미터 측면에서는
비교가 가능합니다. 그리고
1천만 토큰 이상의 컨텍스트 윈도우로
기업용 사례가 폭발적으로
증가할 것입니다. 그래서 Box에 대해
말씀드리게 되어 기쁩니다. Box는
곧 Box AI Studio에 Llama 4를
도입할 예정입니다. 모든 기업은 엄청난 양의
비정형 데이터를 보유하고 있습니다. 하지만
이 모든 데이터의 진정한 잠재력은
아직 충분히 활용되지 않고 있습니다.
문제는 이러한 비정형 데이터를
분석하는 것이 정말 정말
어렵다는 것입니다. 하지만 Box AI가
이를 해결합니다. Box AI를 통해 개발자와
기업들은 최신 AI 기술을 활용하여
문서 처리와 워크플로우를 자동화하고
콘텐츠에서 인사이트를 추출하며
맞춤형 AI 에이전트를 구축하여
콘텐츠 작업을 수행하는 등
다양한 기능을 제공합니다. Box AI는 모든 주요
모델 제공업체와 연동되어
항상 최신 AI 기술을
콘텐츠에 활용할 수 있습니다.
계약서, 청구서, 재무 문서,
이력서 등에서 주요 메타데이터 필드를
추출하여 워크플로우를 자동화할 수 있습니다.
또한 Box 생태계 내의
모든 콘텐츠에 대해 질문할 수 있습니다.
영업 프레젠테이션이나
긴 연구 보고서도 포함됩니다. 개발자라면
Box AI의 API를 활용하여 자체 콘텐츠 위에
멋진 자동화와 애플리케이션을
구축할 수 있습니다. Box AI는
전체 RAG 파이프라인을 처리합니다.
이 모든 것을 최고 수준의
보안, 규정 준수 및
데이터 거버넌스를 유지하면서 수행하며
115,000개 이상의 기업이 신뢰하고 있습니다.
Box의 지능형 콘텐츠 관리로
콘텐츠의 힘을 발휘하세요. Box에 다시 한번
감사드립니다. 이제 영상으로 돌아가겠습니다. Llama 4
Maverick은 GPT4.0과 Gemini 2.0 Flash를
전반적으로 능가하며
최근 출시된 Deepseek V3와
추론과 코딩 면에서 비슷한 성능을 보이지만
활성 파라미터는 절반 이하입니다.
특히 돋보이는 점은
컨텍스트 크기뿐만 아니라 비용입니다.
운영 비용이 매우 저렴하며, 잠시 후
자세히 보여드리겠습니다. Llama 4
Maverick은 최고 수준의
성능 대비 비용 효율성을 제공하며
실험적 채팅 버전에서 ELO 점수
1417점으로 2위를 기록했습니다.
지금 LM Arena를 열어보면
Gemini 2.5 Pro가 여전히 1위이고
20점 이상 앞서 있습니다. 하지만
오픈소스이자 가중치가 공개된 Llama 4 Maverick을
지금 당장 다운로드할 수 있으며
2위를 차지했습니다. 흥미로운 점은
오늘 발표되었지만 아직 공개되지 않은
거대 모델이 바로
다른 Llama 4 버전들을 학습시키는데
사용된 원본 모델이라는 것입니다.
아직 개발 중이며 계속
발전하고 있습니다. 출시될 때쯤에는
더 발전된 형태의 4.1 버전을
이 Maverick와 Scout 모델의 4.1 버전을
이제 흥미로운 점은
2880억 개의 활성 파라미터를 가진 거대 모델이
단 16개의 전문가만을 사용한다는 것입니다
이 거대한 모델은 현재 사용할 수 없지만
지금까지 우리가 만든 것 중 가장 강력합니다
세계에서 가장 똑똑한 LLM들 중에서도
GPT4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를
여러 STEM 벤치마크에서 능가했습니다
그것도 아직 학습 중인 상태에서 말이죠
정말 믿을 수 없죠
이제 아키텍처에 대해 이야기해보겠습니다
우리의 Llama 4 모델은 처음으로
Mixture of Experts를 사용한 모델입니다
Mixture of Experts가 약간
구식처럼 느껴질 수 있는데
흥미롭죠. 현재 트렌드는
생각하는 모델입니다. 하지만 말이죠
이것들은 기본 모델이며
강화학습을 통해
사고 능력을 만들어낼 수 있습니다
구조는 이렇습니다
어텐션이 있고 프롬프트가 들어오면
공유 전문가와 라우터가 있습니다
라우터는 16개의 전문가 중 하나로 전달하고
이를 종합한 다음
최종 출력이 나옵니다
여기에는 많은 기술적 세부사항이 있는데
블로그 포스트 링크를 아래에 두겠습니다
계속해서, Llama 4는 오픈소스 파인튜닝을
200개 언어에 대한 사전 학습을 통해 지원하며
100개 이상의 언어에서 각각
10억 개 이상의 토큰을 사용했고
Llama 3보다 10배 더 많은
다국어 토큰을 사용했습니다
FP8을 사용하여 효율적인 모델 학습에 집중했는데
이는 흥미로운 점입니다
보통은 더 높은 정밀도를 사용하기 때문이죠
품질을 희생하지 않으면서도
높은 모델 플롭스 활용도를 보장합니다
Llama 4 거대 모델을
FP8과 32,000개의 GPU로 사전 학습시키면서
GPU당 390 테라플롭스를 달성했습니다
매우 효율적인 학습이죠
이제 벤치마크를 살펴보겠습니다
여기 Llama 4 Maverick가 있는데
먼저 비용을 보겠습니다
비용에 대해 몇 가지 가정을 하고 있는데
자체적으로 추론을 제공하지는 않는 것 같습니다
제가 틀릴 수도 있지만
WhatsApp이나 Meta.ai같은
자사 제품에 모두 통합하고 있지만
실제로 API 엔드포인트로는
제공하지 않는 것 같습니다
파트너사들이 그렇게 하도록 하죠
입력과 출력 토큰 백만 개당 비용을 보면
3:1 혼합 비율로 19센트에서
49센트로 믿을 수 없이 저렴합니다. Gemini 2.0은
17센트지만 곧 보시겠지만
Llama 4 Maverick가 더 우수합니다
Deepseek V3.1은 높은 가격대에 있고
GPT4.0은 놀랍게도
$4.38이나 됩니다. 이는 크게
낮춰야 할 것 같네요
이건 GPT4.5가 아닌데도 그렇습니다
이미지 추론 MMU 벤치마크에서
Maverick는 73.4점을 기록했고
다른 모델들과 비교하면
Deepseek V3.1은 멀티모달을 지원하지 않고
Math Vista는 73.7, 차트 QA는
이미지 이해 벤치마크에서 90점, Doc VQ
QA에서 94.4점으로 전반적으로
같은 클래스의 모델들을
압도했습니다. 이제 Scout를 살펴보죠
다른 모델들과 Scout 모델을 비교해보겠습니다.
Scout와 동일한 벤치마크로 Llama 3.370B,
멀티모달을 지원하지 않는 Llama 3.1405B,
그리고 Gemma 327B,
Mistral 3.124B, Gemini 2.0 플래시라이트가 있습니다.
예상하셨겠지만, 전반적으로
Llama 4 Scout가 1위를 차지했습니다. 단,
흥미로운 점은 여기 Live
codebench에서 Llama
3.370B가 근소한 차이로 이겼다는 것입니다.
이제 이것을 들어보세요. 1천만 토큰 이상의
컨텍스트 윈도우를 가진 Llama 4
Scout는 사전 학습과
후속 학습 모두 256k 컨텍스트 길이로 진행되었는데,
이는 기본 모델에
향상된 길이 일반화
능력을 부여했습니다. 기본적으로
평소보다 훨씬 큰 컨텍스트 윈도우로
학습되어 실제 서비스될 때
더 큰 컨텍스트 윈도우를
사용할 수 있게 되었습니다. 자, 여기
건초더미 속 바늘 찾기 테스트 결과입니다.
파란색은 성공, 흰색은 실패를 의미합니다.
Llama 4 Maverick는 백만 토큰까지
약간의 실패가 있었지만,
보세요. Llama 4
Scout는 천만 토큰에서 파란색 물결을 보여줍니다.
단 하나의 실패도 없이 매우 높은
성능을 보여주었습니다.
거대한 텍스트 속에서 정보를 회상하는
능력이 탁월합니다. 여기 비디오 관련 Llama 4 Scout입니다.
멀티모달이라는 걸 기억하세요.
비디오, 이미지 등 모든 것을 이해할 수 있습니다.
비디오 길이는 시간 단위로, 20시간의
비디오까지 처리할 수 있습니다. 여기에도
약간의 실패가 있지만 전반적으로 여전히
좋은 성능을 보여줍니다. 앞서 말씀드렸듯이 이것들은
추론 모델은 아닙니다. 하지만
곧 출시될 것에 대한 작은 힌트가
있습니다. 보세요.
llama.com/lama4reasoning이 출시 예정이며
귀여운 라마 영상과 함께
'라마를 기다리세요'라는 메시지를 보여줍니다.
곧 출시된다고 합니다. 하지만 몇 가지 문제가 있습니다.
가장 큰 문제는 라이선스인 것 같습니다.
Llama 3에서도 문제였고
여전히 문제로 남아있습니다.
MIT 라이선스와 같은 표준화된 라이선스를
사용하지 않습니다. 이것을 들어보세요. Maxim Labon의 말입니다.
Llama 4의 새로운 라이선스에는 여러 제한이 있습니다.
7억 명 이상의 활성 사용자를 보유한 기업은
특별 라이선스를 요청해야 하며 Meta가
이를 승인하거나 거부할 수 있습니다.
이는 Llama 3와 동일한
조건입니다. 웹사이트,
인터페이스, 문서 등에 'built with Llama'를
눈에 띄게 표시해야 합니다.
이 역시 Llama 3의 경우와 동일합니다.
여전히 좋지 않네요. Llama 자료를 사용해 만든
AI 모델은 반드시 이름 앞에 llama를
포함해야 합니다. 이것은
큰 문제는 아닌 것 같습니다. 모든 배포에
특정 저작권 고지를
notice.txt 파일에
포함해야 합니다. 이것도
가벼운 조건이네요. 그리고 Meta의
별도의 이용 정책을 준수해야 합니다.
지금 당장 읽지는 않겠지만,
오픈소스 모델이고
제게 주는 거라면,
마음대로 사용하게 해주면 좋겠습니다. 자,
AI 리더 Jeremy Howard가 Llama 4에 대해
언급한 것이 있습니다. 기본적으로 가장
작은 버전조차도 일반 GPU에서는
실행하기 어렵다고 합니다. 하지만 가능할 수도 있죠.
이 모델들은 모두
거대한 전문가 혼합 모델이라 양자화를
해도 일반 GPU에서는 실행할 수 없다고 합니다.
정말 놀라운 사실이죠.
하지만 아마도 Llama 4는
Mac에서 실행하기에 좋을 것 같습니다. Mac은
이런 모델에 특히 유용한데,
메모리가 많고
낮은 연산 성능도 크게 문제되지 않습니다.
활성화되는 매개변수가 적기 때문이죠.
멋지네요. 제가 막
96GB RAM의 Mac Studio를 구매했는데
테스트해보고 싶네요. RTX A6000 두 대로도
테스트해볼 계획이라
이 모델들을 확실히
테스트해볼 것입니다. Google DeepMind의
수석 과학자 Jeff Dean이 말하길 "왜 일반 GPU에서
실행할 수 없나요?" Jeremy는
이렇게 답했습니다. 4비트 양자화한
가장 작은 109B 모델조차
4090 한 대나 두 대에서도 돌릴 수 없다고요.
그러자 Meta의 누군가가
"현재 개발 중입니다. 기대해주세요"라고 했습니다.
Stability AI의 설립자 Emad Mostique는
1.58비트가 승리할 것이라고 말했습니다. 결국
초고압축 양자화를 사용하거나
아예 실행이 불가능할 수 있습니다. 더 많은
모델이 곧 출시될 예정입니다.
추론 모델도 곧 나올 예정이고,
거의 무한한 컨텍스트 윈도우를 가진
초고속 모델도 있습니다. 우리는 지금
오픈소스의 시대에 살고 있습니다. 저는
이것을 실험해보게 되어 정말 설렙니다.
이 영상이 마음에 드셨다면 좋아요와
구독 부탁드립니다.