애플 실리콘에서 DeepSeek 심층 분석 | 4대 맥북 테스트

채널 아이콘
Alex Ziskind 구독자 388,000명

요약

이 영상은 무료로 제공되는 최신 DeepSeek R1 대형 언어 모델을 다양한 애플 실리콘 기반 맥북에서 실행하여 하드웨어의 영향력을 상세하게 분석합니다. 영상은 모델 다운로드부터 설치, 실행 명령어 입력, 그리고 각 맥북(M1, M2, M3, M4 Max)별 토큰 생성 속도 비교를 통해 성능 차이를 보여줍니다. 또한, quantization(양자화) 수준에 따른 모델 크기와 결과 품질의 트레이드오프도 설명하며, 로컬 환경에서 실행할 때의 주의사항을 전달합니다. 핵심 메시지는 “하드웨어가 모델 성능의 관건”임을 강조하는 데 있습니다.

주요 키워드

DeepSeek Apple Silicon 대형 언어 모델 Quantization 토큰 속도 GPU Offload LM Studio RAM 하드웨어 성능 AMA

하이라이트

  • 🔑 DeepSeek R1은 무료 모델이지만, 실행 환경의 하드웨어 사양이 전체 성능에 결정적인 영향을 미칩니다.
  • 🚀 olama, LM Studio, 그리고 Llama CPP와 같은 도구를 활용하면 다양한 플랫폼(Mac, Windows, Linux)에서 손쉽게 모델을 다운로드하고 실행할 수 있습니다.
  • ⚡️ MacBook Air와 Pro, 특히 M4 Max와 같은 고사양 기기는 토큰 생성 속도에서 월등한 성능을 보여줍니다.
  • 📌 모델의 크기(1.5B, 14B, 70B 파라미터)와 양자화(quantization) 수준은 메모리 요구량 및 결과의 질에 큰 영향을 미칩니다.
  • 🌟 quantization은 모델의 불필요한 데이터를 줄여 크기를 작게 만들지만, 품질에 약간의 영향을 줄 수 있습니다.
  • 🚫 데이터 보호를 위해 DeepSeek 공식 웹사이트 대신 로컬에서 실행하는 것을 권장합니다.
  • 🛠️ LM Studio와 AMA를 통해 간편 명령어로 모델을 로드하고, GPU offload 설정 등으로 최적화하여 사용할 수 있습니다.

용어 설명

DeepSeek R1

최신 state-of-the-art 대형 언어 모델로, 무료로 제공되지만 하드웨어 성능에 따라 결과가 달라지는 모델입니다.

Quantization (양자화)

모델의 크기를 줄이기 위해 일부 데이터를 축소 및 압축하는 기법으로, 메모리 요구량과 결과 품질 사이의 균형을 맞추는 데 사용됩니다.

Tokens per second

모델이 텍스트를 생성할 때 초당 처리하는 토큰(단어 혹은 sub-word)의 수를 의미하며, 성능 지표로 활용됩니다.

GPU Offload

모델의 일부 연산을 GPU로 이전하여 처리 속도를 높이는 기술로, 특히 대형 모델 실행 시 중요합니다.

Unified Memory (통합 메모리)

Apple 실리콘에서 CPU와 GPU가 메모리를 공유하는 구조로, 메모리 효율성과 성능 향상에 기여합니다.

[00:00:00] DeepSeek 소개 및 하드웨어 중요성

영상은 DeepSeek R1 대형 언어 모델을 소개하며, 무료임에도 불구하고 하드웨어 성능이 결과에 결정적임을 강조합니다. 모델 실행 시 기기 사양이 왜 중요한지에 대해 개괄적으로 설명합니다.

DeepSeek R1이라는 최신 대규모 언어 모델이 무료로 제공되지만, 무료 서비스의 특성상 사용자가 상품이 될 수 있다는 점을 언급합니다.
LLM을 로컬에서 실행할 때 하드웨어의 중요성을 강조하며, 이제는 누구나 최첨단 오픈소스 모델을 다운로드하고 실행할 수 있다고 설명합니다.
다양한 하드웨어(라즈베리 파이, 젯슨 나노, 미니 PC)에서 DeepSeek R1을 실행할 수 있으며, M1부터 M4 Max까지 다양한 맥북에서 테스트할 예정임을 소개합니다.
올라마와 LM 스튜디오라는 두 가지 주요 도구를 소개하고, llama.cpp는 개발자용 커맨드라인 도구라고 설명합니다.
사용하기 쉬운 도구들을 중심으로 설명하며, ollama.com에서의 설치 과정과 기본적인 실행 방법을 안내합니다.
[00:02:00] 모델 다운로드 및 설치

ama.com에서 모델을 다운로드하고 터미널 명령어를 통해 설치하는 과정을 상세히 보여줍니다. olama, LM Studio, Llama CPP와 같은 도구에 대한 기본 설명도 포함되어 있습니다.

DeepSeek 모델의 다양한 버전을 소개하며, 파라미터 크기에 따른 모델의 종류를 설명합니다.
DeepSeek 모델은 최대 671억 개의 파라미터까지 지원하며, 모델 크기에 따라 더 많은 메모리가 필요합니다. GPU에서는 VRAM이 필요하지만, 반드시 고사양 GPU가 필요한 것은 아닙니다.
모델 선택 시 크기와 양자화 수준을 확인할 수 있으며, 1.5B 모델의 실제 크기는 1.1GB입니다. 양자화는 모델의 크기를 줄이는 방법으로, 별도의 영상에서 자세히 다룰 예정입니다.
Hugging Face 플랫폼에서 다양한 DeepSeek 모델을 찾을 수 있으며, Bowski의 모델들이 높은 인기를 얻고 있습니다. 각 모델은 다양한 양자화 레벨을 제공합니다.
양자화는 모델의 핵심 데이터만 유지하면서 크기를 줄이는 방법입니다. 품질은 다소 저하될 수 있지만, 더 작은 하드웨어에서도 실행이 가능해집니다.
4GB RAM 기기에서도 낮은 양자화 레벨의 모델을 실행할 수 있으며, 8GB RAM 기기에서는 더 높은 품질의 모델을 사용할 수 있습니다. 8비트 양자화(Q8_0)는 높은 품질을 유지하면서도 효율적인 크기를 제공합니다.
140억 파라미터의 더 큰 모델도 제공되지만, Q8 버전은 15GB로 8GB RAM 기기에서는 실행이 불가능하며, 16GB 기기에서도 겨우 실행 가능한 수준입니다.
맥북 프로 16GB에서도 Q8 모델 실행이 어려우며, Q6 KL 모델은 임베딩과 출력 가중치에 Q8을 사용하여 높은 품질을 제공하지만 8GB 이하 메모리에서는 중저품질 모델을 선택해야 함
Bowski 외에도 UNS sloth, cyber agent, Mobius labs 등 여러 그룹이 원본 모델을 양자화하는 작업을 수행하고 있으며, 각각 다른 방식으로 접근
성능은 결과 품질과 속도 두 가지 측면이 있으며, 하드웨어 성능이 더 좋을수록 더 큰 모델을 실행할 수 있고 더 나은 결과를 얻을 수 있음
[00:07:00] 하드웨어별 성능 비교

M1, M2, M3, M4 Max 등 다양한 맥북에서 DeepSeek 실행 시 토큰 생성 속도를 측정하여 하드웨어 성능 차이를 비교합니다. 각 기기의 RAM 및 GPU 사용량이 결과에 미치는 영향도 설명됩니다.

15억 파라미터 DeepSeek R1 모델 실행 방법을 설명하고, 실제로 실행해본 결과 간단한 응답은 빠르지만 복잡한 작업은 제한적임을 확인
모델 크기가 작고 양자화가 많이 될수록 속도가 빨라지며, ollama run 명령어로 성능 메트릭을 확인할 수 있음
LLM 모델 실행 시 '--verbose' 옵션을 사용하여 1,000자 이야기 작성을 요청하면 모델이 실제로 잘 작동하며 좋은 결과를 보여줍니다.
다양한 Apple Silicon 맥북에서의 성능 테스트 결과, M3는 초당 45토큰, M2는 50토큰, M1은 33토큰의 처리 속도를 보여줍니다.
M4 Max에서는 놀라운 성능을 보여주며, 실시간으로 초당 162개의 토큰을 처리하는 매우 빠른 속도를 달성했습니다.
Ollama가 실행 중일 때는 코드 에디터나 대화 인터페이스를 통해 모델과 상호작용할 수 있습니다.
LM Studio 소개 및 설치 방법 설명. Mac, Linux, Windows 모두 지원하며 사용이 간편한 강력한 도구입니다.
Mac 사용자들은 GGUF 형식과 MLX 모델을 모두 실행할 수 있어 더 많은 옵션이 제공되며, 특히 Apple Silicon에서 성능 개선을 기대할 수 있습니다.
LM Studio에서는 다양한 버전의 DeepSeek 모델을 선택할 수 있으며, 양자화 레벨도 4K, 6K, 8K 등으로 조정 가능합니다.
LM Studio에서 DeepSeek 모델의 다양한 양자화 옵션들을 살펴보고, UNS 슬로스 버전과 바토스키 등 여러 버전들을 확인합니다.
8GB RAM 기기에서 F32 버전(7.11GB)은 너무 크다는 것을 확인하고, LM 스튜디오 커뮤니티 버전을 선택하여 설치를 진행합니다.
모델 설치 후 GPU 오프로드를 최대로 설정하고 기본 설정을 유지한 채 모델을 로드하는 과정을 설명합니다.
성능 테스트 결과, 초당 58토큰의 속도를 보여주며 이는 Oobabooga보다 빠른 성능입니다. DeepSeek 모델의 특징적인 '생각하는 시간'에 대해 설명합니다.
여러 MacBook 모델(M1, M2, M3, M4 Max)에서 성능 비교 테스트를 진행하며, M4 Max가 가장 빠른 초당 182토큰의 처리 속도를 보여줍니다.
M2 맥북에서 DeepSeek 모델의 토큰 처리 속도가 40-182 토큰으로 예측 가능한 성능을 보여줍니다.
활동 모니터를 통해 8GB 메모리 중 6.86GB를 사용 중이며, GPU도 거의 최대치에 근접한 사용량을 보여줍니다.
MLX 버전은 애플 실리콘에 최적화되어 있어 GGF 버전보다 더 효율적으로 GPU를 활용하고 더 높은 토큰 처리량을 보여줍니다.
Deep Seek R1 Distill LLaMA 8B 모델의 GGF 버전과 MLX 버전을 비교 테스트를 진행합니다.
80억 파라미터 모델 테스트에서는 메모리 부하가 증가하여 주황색 경고 수준까지 도달했으며, 초당 7.5 토큰의 처리 속도를 보여줍니다.
MLX 버전은 애플 실리콘에 최적화되어 있어 더 높은 GPU 사용량을 보이며, 특히 대형 모델에서 더 큰 성능 향상을 기대할 수 있습니다.
MLX를 사용하면 토큰 생성 속도가 훨씬 빨라지며, 메모리 사용량도 GGF 모델보다 안정적인 것을 확인했습니다.
MLX는 80억 파라미터 모델에서 초당 19.38개 토큰을 생성하여, GGF의 7.5개보다 훨씬 더 높은 성능을 보여줍니다.
다양한 M 시리즈 칩의 성능을 비교했을 때, M1은 11.28, M2는 9.59, M3는 7.5, M4 Max는 68.76 토큰/초의 성능을 보여줬습니다.
M4 Max에서는 다양한 모델을 테스트하기 위해 많은 모델을 다운로드했으며, 크기와 양자화 레벨에 대한 추가 테스트를 예고했습니다.
8GB 메모리 기기에서 140억 파라미터 모델 실행 가능성을 테스트하며, Bowski의 IQ2 XS Quant 모델을 시도해보기로 했습니다.
Bowski의 모델은 IM Matrix 기술을 사용해 2비트로 양자화되었으며, 저품질이지만 사용 가능한 상태로 최적화되었습니다.
[00:20:00] Quantization과 모델 최적화

모델의 파라미터 수와 양자화 수준이 어떻게 크기와 실행 품질에 영향을 주는지 설명합니다. 1.5B, 14B, 70B 모델 사이의 트레이드오프와 적절한 quantization 선택이 강조됩니다.

140억 파라미터 모델을 로드하고 48개 레이어를 GPU로 오프로드하여 테스트를 시작했습니다.
AI 모델이 극심한 양자화로 인해 응답을 하지 못하는 상황이 발생했습니다.
과도한 양자화의 한계점을 설명하면서, 대형 모델을 실행하기 위해서는 압축이 불가피함을 설명합니다.
Ons Sloth 팀이 670억 파라미터 DeepSeek R1 모델을 1.58비트로 성공적으로 양자화한 사례를 소개합니다.
대형 모델의 양자화가 성공적일 수 있음을 설명하면서, 8GB 맥북의 한계점도 함께 언급합니다.
16GB M1 맥북 에어에서 140억 파라미터 GGF 모델을 4비트로 양자화하여 성공적으로 실행하는 과정을 보여줍니다.
M1 맥북 에어에서 초당 6.2개의 토큰 속도로 실행되며, M4 Max를 제외한 각 기기들의 성능 한계를 테스트했습니다.
70억 파라미터 모델의 성능을 설명하며, 14억은 괜찮은 수준, 32억은 우수한 수준, 70억은 채팅과 코딩에 적합한 탁월한 모델임을 설명합니다.
Bartowski의 Q4 km 모델을 테스트하며 다양한 양자화 레벨과 메모리 사용량에 대해 설명합니다.
모델의 실제 테스트를 진행하며 초당 약 9.7개의 토큰 생성 속도를 확인합니다.
Deep Seek R1의 올바른 사용법을 설명하며, 보안을 위해 중국 서버를 통한 웹사이트 사용을 피하고 로컬 실행을 권장합니다.
[00:26:00] 결론 및 주의사항

전체 실행 과정과 성능 차이를 종합하며, 로컬에서 실행할 때 데이터 프라이버시를 지키는 방법을 제시합니다. 또한, DeepSeek 실행 시 주의해야 할 점과 앞으로의 발전 가능성에 대해 언급합니다.

타임라인 정보가 없습니다.

DeepSeek R1, 최신 최첨단
대규모 언어 모델은 무료입니다. 하지만
무료라면 당신이
상품이라는
말이 있죠. 제 가치는 최소 두 배는 될 텐데요.
그래서 DeepSeek를 실행하는 방법과
실행하지 않는 방법이 있습니다.
이 모든 하드웨어가 중요한데,
특히 LLM을 로컬에서 실행할 때
더욱 그렇습니다.
이제는 누구나 다운로드할 수 있죠.
최첨단 모델을요. 네,
오픈소스라서 다운로드해서
직접 실행할 수 있지만, 실제로 중요한 건
하드웨어입니다.
이게 바로 다른 사람들과의 차이를 만듭니다.
물론 오해하지 마세요.
DeepSeek R1의 어떤 버전은 다양한
하드웨어에서 실행할 수 있습니다.
Jeff Garing이 라즈베리 파이에서
실행하는 방법을 보여줬고, 저도 최근에
젯슨 나노에서 해봤죠.
다양한 미니 PC에서도 가능한데,
최근에 관련 영상도 찍었습니다.
오늘은 M1, M2, M3, M4 Max 등 모든 하드웨어를
준비해서 DeepSeek R1을
설치하고 실행해보겠습니다.
결과는 다르겠지만 가능하다는 걸
보여드리려고 합니다. 또한
크로스플랫폼 방식을 사용할 거라
맥, 윈도우, 리눅스에서 모두
작동할 겁니다.
필요한 도구가 몇 가지 있는데,
하나는 올라마이고 다른 하나는
LM 스튜디오입니다. llama.cpp라는
도구도 있는데, 이건 커맨드라인
도구라 매우 설정 가능하고
커스터마이징이 가능하지만, GitHub에서
다운로드해야 하고, 개발자가
아니면 어려울 수 있습니다.
이 채널에서 개발자를 위한
영상을 많이 만들어서
이미 관련 영상이 있습니다.
오늘은 설치가 쉬운 간단한
도구들을 다루겠습니다. 바로 그게
핵심이니까요. 사용의 편의성과
이 도구들이 제공하는 서버를
개발자도 사용해서 모델을
서빙할 수 있고
코딩 환경에 연결해서 로컬에서
사용할 수 있습니다. 채널 멤버들을 위한
자세한 단계별 설명
영상도 있습니다.
이제 ollama.com에 가보면
다운로드 버튼을 클릭하고
플랫폼을 선택한 다음 MacOS용
다운로드를 클릭하면 됩니다.
이제 응용프로그램으로
드래그해서 실행하면 됩니다. 화면에는
아무것도 뜨지 않지만
이미 실행 중이고 메뉴 바에서
확인할 수 있습니다. 접근하는 방법은
터미널을 통해서입니다.
터미널을 열고 ollama를 입력하면
응답이 오는데, 이는
작동한다는 의미입니다. 이제
모델을 실행하려면 ollama run하고
모델 이름을 입력하면 되는데,
어떤 모델을 실행할까요? models에 가보면
DeepSeek가 매우 인기가 있어서
첫 번째로 나열되어 있습니다.
클릭해보면 실행할 수 있는
다양한 버전의 모델들이 있습니다.
1.5B는 15억 개의 파라미터를 의미하고
7B는 70억 개의 파라미터를 의미합니다.
모델 크기는 최대 671억 개의 파라미터까지 있습니다
당연하게도 모델이 클수록
더 많은 RAM이나 통합 메모리가
필요하게 됩니다. NVIDIA 4090에서
실행할 경우에는 VRAM이 필요한데, 이전에
제 채널에서 다룬 적이 있죠
4090이 꼭 필요한 것은 아니고
어떤 GPU든 사용 가능합니다. GPU는
대규모 언어 모델과 AI 처리에
매우 적합하기 때문이죠. 일반적으로는
AI라고 부르지만, 실제로는
머신러닝 모델입니다. 여기서
원하는 모델을 선택할 수 있고
모델 옆에 크기가 표시되어 있는 걸
확인할 수 있습니다. 1.5B를 선택하면
실제로는 1.1GB 크기라는 것을 볼 수 있죠
그런데 잠깐, 여기에
양자화(Quantization)라고 표시된 게 있는데
이것에 대해서는 별도의 영상으로
양자화 선택 방법을 다룰 예정입니다
기본적으로 LM Studio는 자동으로
선택해 주는데, 이 경우에는
Q4_K_M이 선택됩니다. 사용 가능한 모델을
확인하고 싶다면
Hugging Face에서 찾을 수 있습니다
huggingface.co에 가서
모델 섹션을 보면 DeepSeek 모델들이
모두 나열되어 있습니다
예를 들어 DeepSeek R1
1.5B를 검색하면, 인기 기여자인
Bowski의 모델이 나옵니다
많은 다운로드 수를 기록하고 있죠
그는 이 특정 모델 크기에 대해
다양한 양자화 유형을 제공합니다
여기에는 모델의 이름이 있는데
이 경우에는 distill quen이고
모델 크기는 1.5B로, 15억 개의
파라미터를 가지고 있습니다
그리고 Quant 유형이 있는데, 양자화는
불필요한 데이터는 제거하고
핵심 데이터만 유지하는 것입니다
모델을 양자화하는 방법은
다양한데, 이를 통해 더 작은
하드웨어에서도 실행할 수 있지만
그렇게 하면
품질이 약간 저하됩니다
여기서 Bowski는 DeepSeek R1 distill
quen이라는 이름의 1.5B 크기 모델에
Q3_KS 양자화 레벨을 적용했고
모델 크기를 보여주며
'품질이 낮아 권장하지 않음'이라고 표시했습니다
그래도 괜찮을 수 있지만
4GB RAM의 저사양 기기에서도
실행할 수 있다는 장점이 있죠
8GB RAM 기기를 사용한다면
이 열을 보고
RAM에 맞는 가장 큰 모델을
찾을 수 있습니다. 파일 크기가
3.50인
이 모델은 F16을 사용하는데
floating 16이라서 완전한 F16 가중치를 가지며
양자화되지 않았다는 의미입니다
Q8_0으로도 매우 높은 품질을
얻을 수 있습니다. Q8_0은 8비트로 양자화된 것이며
크기가 1.89GB에 불과합니다
이 M3 맥북 에어는 8GB RAM이
있으므로 더 큰 모델로
넘어갈 수 있습니다. URL에서
14B를 검색해 볼까요? 보세요
Bowski가 140억 파라미터 모델도
다양한 양자화 레벨로 만들었네요
크기를 한번 볼까요?
Q8 버전이 15GB라서 여기서는
실행이 안 되겠네요. 16GB 맥북 에어나
프로에서는 겨우겨우 돌아갈 수 있을 것 같습니다
MacBook Pro에서도 힘들 것 같습니다.
이 Q6 KL 모델은
임베딩과 출력 가중치에 Q8을 사용하는데
품질이 매우 높고 거의 완벽해서
추천할 만합니다.
16GB 메모리 기기에서는 잘 작동하지만
안타깝게도 이 기기는 그렇지 않아서
8GB 이하로 내려가야 하고
이런 모델을 살펴봐야 합니다.
예를 들어 이 6.92 중저품질 모델의 경우
괜찮은 결과를 보여주지만
140억 파라미터 모델이라는 점에서
파라미터가 훨씬 많기 때문에
더 나은 품질을
15억 파라미터 모델보다 얻을 수 있습니다.
여기서 한 가지 더 말씀드리자면
Bowski만 모델을
만드는 것이 아닙니다.
원본 모델을 가져와서 양자화하는
다른 개발자들도 있습니다.
예를 들어 UNS sloth나
cyber agent, Mobius labs 같은 그룹들이 있고
이런 그룹들은 각각
약간씩 다른 방식으로
이 작업을 수행합니다. ollama로 돌아가서
1.5B 모델을 실행해보겠습니다.
용량이 작고
다운로드도 오래 걸리지 않아서
속도 성능을 확인해보겠습니다.
지금까지 결과 품질 측면에서의
성능을 이야기했는데
또 다른 성능 지표는 속도이고
여기서 하드웨어가 중요합니다.
더 강력한 하드웨어가 필요한 이유죠.
더 큰 모델을 실행하기 위해서는
예를 들어 M2 맥북 에어는 8GB RAM이고
M4 Max 맥북 프로는 128GB RAM입니다.
더 큰 모델을 실행할 수 있고
더 빠른 속도로 실행하며
전반적으로 더 나은 결과를 얻을 수 있죠.
여기 이 특정 Quant Q4
15억 파라미터 DeepSeek R1 모델을
실행하는데 필요한 명령어입니다.
이 전체 명령어를 복사해서
커맨드 라인에 붙여넣고 실행하면 됩니다.
이제 하는 일은
인터넷에서 자동으로 가져와서
다운로드하고 로컬에 저장한 다음 실행합니다.
모든 기기에서
동일한 작업을 수행하고
어느 것이 더 빠른지 보겠습니다.
답은 이미 아실 거예요.
다운로드가 완료되면
이런 프롬프트가 나타나고
'hi'라고 입력해보면
많이 생각할 필요 없이
'도움이 필요하신가요?'라고 답합니다.
하지만 '이야기를 써줘'라고 하면
DeepSeek R1은 사고하는 모델이라
먼저 생각을 하는데, 이 경우에는
15억 파라미터 모델이라
많이 생각하지 않네요. 보시다시피
결과의 품질이 그리 좋지 않습니다.
'어떤 이야기를 쓰고 싶으신지
자세히 말씀해 주세요'라고 하네요.
보세요, 바로 이야기를 쓰지 않고
저에게 이야기를 써달라고 하죠.
15억 파라미터라 이런 작업은 못하지만
속도는 빠릅니다. 모델 크기가 작고
양자화가 많이 될수록
더 빨라지죠.
여기서 'bye'를 입력해서 종료하고
ollama에서 메트릭을 보려면
'ollama run' 명령어를 사용하면 됩니다.
모델을 실행할 때 먼저 '--verbose'를
입력하고, 예를 들어 '1,000자 이야기를 작성해'라고 하면
이야기를 작성하기 시작합니다.
보세요, 실제로 잘 작동하고 있네요.
꽤 좋은 결과를 보여주고 있습니다.
이제 같은 작업을 해볼 텐데, M3에서는
초당 45개의 토큰을 처리했습니다.
M2에서는 더 많은 토큰을 처리했지만
오차 범위 내에서 초당 50개의
토큰을 처리했고, 이제
M1을 살펴보겠습니다. 상당히 빠른 속도로
처리하고 있네요. 실용적인 속도입니다.
최근에 트위터 설문조사를 했는데
LLM의 적정 토큰 처리 속도에 대해
물어봤더니, 대부분은 당연히
초당 40개 이상이라고 답했고
그 다음으로는 20-29개를 선택했습니다.
M1은 초당 33개의 토큰을 처리하는데
꽤 괜찮은 성능이라고 봅니다.
이제 M4 Max의 성능을 살펴보겠습니다.
와우! 텍스트가 물 흐르듯이 나오네요.
실시간으로 보여드리는 겁니다. 속도를 조작하지 않았어요.
거의 완료되어 가고 있습니다.
초당 162개의 토큰, 엄청난 차이죠.
이제 Ollama가 실행 중이고
모델이 로드된 상태에서는
코드 에디터에서 직접 사용하거나
이렇게 대화를 나눌 수 있습니다.
하지만 더 다양한 기능을 제공하면서도
Ollama의 모든 기능을
사용할 수 있는 다른 도구가 있는데
바로 LM Studio입니다.
이것도 사용하기 쉽습니다.
LM Studio 웹사이트에 가서
Mac, Linux 또는 Windows 버전을 다운로드하면 됩니다.
정말 놀라운 도구인데
아직 버전 1.0도 안 된 상태에서
이렇게 발전했다는 게 대단합니다.
이 분야가 얼마나 빠르게 발전하는지 보여주죠.
설치하려면 더블클릭하고
애플리케이션 폴더로 드래그한 다음
애플리케이션에서 더블클릭하면 실행됩니다.
처음 실행할 때는
초기 모델을 다운로드할지
물어볼 수 있는데, 저는 이미
설치했다가 여러분을 위해
데모를 보여드리려고 지웠습니다.
'내 모델' 폴더를 보면
이전에 설치했던 Llama 3.2가 있고
그리고 'Discover' 폴더가 있는데
보세요, DeepSeek이
목록 맨 위에 있습니다.
Mac을 사용하시는 분들은
Linux나 Windows 사용자보다 더 많은 옵션이 있는데
Mac에서는 GGUF 형식의 모델을
실행할 수 있습니다. 이는 모델들이
패키징되는 형식의 한 종류입니다.
그리고 MLX 모델도 실행할 수 있는데
MLX 모델은 Apple Silicon에서만
사용 가능하며
속도면에서 개선을 제공합니다.
Ollama에서 사용했던 같은 모델을
찾아보겠습니다. 여기 있네요.
앞서 말씀드렸듯이
서로 다른 제작자들이 만든
다양한 버전이 있는데, LM Studio에서는
이들 중에서 선택할 수 있습니다.
예를 들어, DeepSeek R1 Distill이라는 모델이 있고
이건 LM Studio 커뮤니티에서 제공한 것입니다.
아래쪽에서 원하는
양자화 레벨을 선택할 수 있는데, 4K가 기본으로
선택되어 있고, 6이나
8로 설정할 수도 있습니다. 저는 4K로 두겠습니다.
올라멀과 함께 사용했던 것입니다
그리고 여기 UNS 슬로스 버전이 있는데
UNS 슬로스는 다양한 양자화를 제공합니다
여기 바토스키가 있죠
Q40과 훨씬 더 많은 양자화 옵션들이 있네요
여기 보세요, F32가 있습니다
15억 파라미터 모델의
32비트 부동소수점 버전인데
7.11GB라서 이 기기에는
너무 큰 것 같다고 하네요
이 기기가 8GB RAM 또는
통합 메모리만 있다는 걸 알고 있어서죠
LM 스튜디오 커뮤니티 버전을
선택해보겠습니다
여기서 다운로드를 클릭해서 Q4 KM 양자화 버전을 받을게요
와, 말하기가 좀 어렵네요
머리를 좀 깨워야겠어요. 제 아들이 이걸 만들었는데
영상에 넣어주기로 약속했거든요
모델 다운로드가 완료되면
여기서 모델 불러오기를 클릭할 수 있지만
아무것도 로드되지 않은
초기 화면으로 돌아가보면
상단에서 드롭다운을 할 수 있고
모델 목록이 표시됩니다
원하는 모델을 선택하면 되는데
DeepSeek-Coder-1을 선택하고
GPU 오프로드는 최대로
설정하시기 바랍니다
GPU를 최대한 활용하기 위해서죠
저는 보통 이 설정들은
건드리지 않고
그대로 두고 모델 불러오기를 클릭합니다
물론 나중에 시간을 들여서
이 설정들이 무엇인지 알아볼 수 있죠
저도 아직 모르니까
배울 게 또 하나 늘었네요
모델이 로드되면 새 채팅을 클릭하고
타이핑을 시작할 수 있는데 정말 빠릅니다
초당 58토큰의 속도가 나왔는데
이는 실제로 같은 모델을
Oobabooga로 실행했을 때보다 더 빠르네요
1000단어 이야기를 써보죠
여기 이 부분이 생각하는 중인데
이게 DeepSeek-Coder-1이
다른 모델들과 다른 점입니다
예를 들어 기본 Qwen은
그냥 바로 타이핑을 시작하죠
아쉽게도 LM 스튜디오는
생각하는 시간을 보고하지 않고
첫 토큰까지 0.12초라고만 표시하는데
이는 정확하지 않습니다
생성 시작까지의 시간이지만 괜찮아요
초당 54.9토큰의 속도가 나오는데
오차 범위 내에서 Oobabooga와
비슷하다고 볼 수 있습니다
이제 이걸 모든
기기에서 실행해보겠습니다
모든 기기가 준비되었고
15억 파라미터 모델은 매우 정적인 모델이라
제가 '안녕'이라고 하면
'안녕하세요, 어떻게 도와드릴까요?'라고
스마일과 함께 모든 인스턴스에서
똑같이 대답하는데
그것보다 더 많은 사고력은
없기 때문입니다
자, 1000단어 이야기를 써보라고 하고 시작해볼게요
보세요, M4 Max가 얼마나 빠르게
출력하는지, M2나
특히 M1보다 훨씬 빠릅니다
이쪽은 이미 완료됐네요
초당 182토큰, 정말 대단한 속도입니다
M3에서는 54토큰, 이쪽은 완료, M1에서는 40토큰
초당 나오고
M2는 아직도 기다리는 중이네요
아주 창의적으로 작성 중입니다, M2에서는 초당 47토큰으로
M2에서는 40, 47, 54, 182로 꽤 예측 가능한 수치를 보여주고 있습니다
자, 실행되는 동안
활동 모니터를 살펴보고
GPU 기록을 열어보면
메모리 부분에서
통합 메모리 6.86GB를 사용하고 있는 것을 볼 수 있습니다
이는 이 기기의 거의 한계치입니다
이 특정 기기는
8GB만 가지고 있거든요. GPU도
상당히 많이 활용되고 있어서
GPU 100%까지는 아니지만
거의 근접해 있습니다
만약 MLX 버전을 사용한다면
GPU를 100%에 더 가깝게
사용하게 될 것입니다. 왜냐하면
매우 최적화가 잘 되어있어서
초당 토큰 처리량을
GG UF 모델보다 MLX 모델에서
조금 더 늘릴 수 있기 때문입니다
자, 여기 Deep Seek R1 Distill LLaMA 8B의 GGF 버전이 있는데
이것은 Q3 KL로 3비트까지 양자화된 버전입니다
그리고 MLX 버전도 받아왔습니다
MLX와 GGF를 비교해보기 위해
MLX 박스를 체크하고
혼동을 피하기 위해 GGF는 체크 해제하고
LLaMA 8B 3비트를 찾으면 됩니다
MLX 표시가 있는지 확인하세요
새로운 채팅을 시작하고
기존 모델을 제거한 다음
로드해보겠습니다. 자,
먼저 GGF 버전부터 시작해보죠
이것이 80억 파라미터 모델이라는 점에 주목하세요
이제 GPU 오프로드에서
오프로드할 레이어 수가
더 높아질 텐데요
모델의 파라미터가 많을수록
일반적으로 레이어도 더 많기 때문입니다
32로 설정해서
모든 레이어를 GPU로 오프로드하고
모델을 로드한 다음 '안녕하세요'라고 인사하고
1000단어 이야기를 써달라고 해보겠습니다
저는 보통 예의 바르게 먼저 인사하고
워밍업도 할 겸
GPU에 완전히 로드되고
메모리에 준비가 되었는지 확인합니다
이번에는 메모리 부하가
좀 더 높아진 것을 볼 수 있는데
이 모델이 약 4기가바이트 크기이기 때문입니다
아까 실행했던 1.5B 모델은
1기가바이트 정도였는데, 이건 4기가라서
메모리 부하가 많이 걸리고
약간의 빨간색이 보이고
대부분 주황색 영역에 있습니다
이 기기의 거의 한계치죠
출력도 좀 느린 것을 보실 수 있는데
여기서 중단하겠습니다
이 정도면 충분히
속도를 확인할 수 있을 것 같네요
여기서는 초당 7.5 토큰이 나왔습니다
이제 다른 모델로
MLX 버전으로 전환해보겠습니다
로드해보면 GPU 사용량이
MLX 모델에서 좀 더 높은 것을 볼 수 있는데
MLX가 애플 실리콘에서
더 많은 이점을 가지고
더 최적화되어 있기 때문입니다
방금 그 증거를 보셨죠
이렇게 하면 초당 토큰 수가
조금 더 늘어날 것입니다만
이것은 규모에 따라 다른데
이런 작은 모델에서는 1-2 토큰 정도 증가하지만
700억 파라미터와 같은 큰 모델에서는
토큰 수가 훨씬 더 많이 증가합니다
초당 토큰 생성이 훨씬 더 많을 거예요.
MLX를 사용하면 훨씬 빨라질 겁니다. 그리고
메모리 사용량을 한번 보세요.
메모리 부하가 상당히 안정적이네요.
저는 메모리 부하가
GGF 모델과 비슷할 거라 예상했는데
실제로는 더 안정적으로 보이네요.
꽤 흥미롭죠. 아, 제가 잘못 봤네요.
이게 훨씬 더 빠르네요.
우리가 지금 초당
80억 파라미터 모델에서 MLX를 사용해서 19.38개의 토큰을
생성하고 있는데, GGF를 사용할 때는
초당 7.5개의 토큰을 생성했어요.
결과가 정말 놀랍네요.
이건 아마도 모델에
따라 다를 것 같아요. 다른 모델에서는
이렇게 큰 차이가 나지 않았지만,
전반적으로 MLX가 더 나은 결과를
보여줄 겁니다. 최적화가 잘 되어 있거든요.
자, M1이 32초 동안 실행됐고
지금 문단을 작성하고 있는데요,
여기서 중단해보겠습니다.
보시다시피 초당 11.28개의 토큰이 나오는데
이는 꽤 좋은 성능이에요. M2에서는 9.59개,
M3에서는 7.5개네요. 이건 좀
이상한데요. 뭔가 잘못된 것 같아요.
물론 이건 모두 오차 범위
내에 있어요. 초당 플러스마이너스
2토큰 정도죠. 그리고 마지막으로 M4 Max에서는 68.76
토큰이 나왔는데, 예상보다는 좀 낮지만
여전히 흥미로운 결과네요.
M4 Max에서는 제가 좀 과하게
많은 모델을 다운로드했어요.
4TB SSD가 감당하기 힘들 정도네요.
이건 다른 영상에서 테스트해볼
예정인데요, 모델 크기뿐만 아니라
다양한 창의성 설정과
양자화 레벨도
테스트할 예정이에요.
그 영상을 기대해주세요. 지금은
8GB 메모리의 기기에서
어떤 것을 더 실행할 수 있는지 보겠습니다. M2와 M3
맥북 에어에서 140억 파라미터
모델을 실행할 수 있을까요?
140억 3비트 버전은 맞지 않을 것 같네요.
6.47GB니까요. 하지만 여기 Bowski의
모델이 있네요.
IQ2 XS Quant인데요, 이것들은 모두 이 기기에는
너무 크다고 표시되어 있지만,
4.7GB라서 한번 시도해볼 만하네요.
이건 140억 파라미터 모델의 2비트 버전이라
상당히 많이 양자화되어 있죠.
Bowski가 아마도 이걸 저품질로
표시해뒀을 거예요.
이걸 확인하려면
모델 카드 버튼을 클릭하면 되는데
이러면 바로 허깅 페이스의
해당 모델 페이지로 이동합니다.
여기서 찾을 수 있죠.
여기 IQ2 XS가 있고, 저품질이라고
표시되어 있네요. STETH 기술을 사용해
사용 가능하게 만들었대요. Bowski가
IM Matrix라는 기술을 사용해서 정말 많이
양자화했지만 여전히 사용 가능하게
만들었네요. 무의미한 결과를 내지 않도록요.
자, 140억 파라미터 모델을 로드해보죠.
내 기기에는 너무 크다고 했던
이 모델 말이에요. 자, 됐네요!
이 모델은 GPU로 오프로드할 48개의 레이어가 있어서
최대로 올려서 모델을
로드해보죠. 메모리 사용량을
지켜보세요. 네, MLX 모델도
약간의 주황색 경고선을
보여줬었죠. 어, 뭐가 문제가 생겼나요?
이런, 좋지 않은데요. 처음 보는
메시지네요. 이 메시지에는 내용이
없습니다. AI가 할 말이 없나 봐요. 오 맙소사.
양자화 수준 때문인지는 모르겠지만
아마도 여기서는 양자화 수준이
너무 심해서 AI가 아무 말도
할 수 없는 것 같네요
할 말이 없으면 아무 말도 하지 말라고
하잖아요, 그게 바로 이거죠
이야기를 써보라고 해볼까요? 자, 시작!
안 되네요, 전혀 작동하지 않아요.
모델이 로드된 것은 확실한데,
메모리 사용량이 올라가 있거든요.
하지만 작동을 안 하네요.
이걸 보면 무언가를 너무 많이
양자화했을 때 어떤 일이 일어나는지
알 수 있죠. 대형 모델의 경우
우리가 가진 하드웨어에서
실행하기 위해서는 어쩔 수 없이
압축하고 양자화해야 하는데
안타깝게도 이번 경우에는
실패했네요. 하지만 이게
2비트 양자화가 불가능하다는 건 아닙니다
앞서 언급했던 Ons Sloth 팀이
DeepSeek R1 전체를 양자화했는데
670억 파라미터 모델을 1.58비트로
줄였죠. 하지만 그들은 단순히 이렇게 하지 않았어요
영리하게 계층화했고
중요한 레이어들은
동적 2비트 양자화를 유지했죠
그래서 큰 폭의 축소가 가능했고
최종 결과물로
131GB 모델이 나왔어요. 최근에 제 M2 맥북에서
실행해보려 했는데 잘 안 됐어요
128GB라서... 뭔가 잘못 생각했네요
간단한 수학도 못했나 봐요
128에서 131을 빼면 마이너스잖아요
마이너스 램은 없으니까요
그런데 Ons Sloth 팀은
자신들의 1.5비트 버전이
플래피 버드를 작성할 수 있다고 했어요
이는 매우 큰 모델을 극단적으로
양자화해도 꽤 괜찮은
결과를 얻을 수 있다는 걸 보여주죠
일반적으로 모델이 클수록 더 좋은데
이건 제가 가진 8GB 맥북같은
기기에는 좋지 않은 소식이에요
16GB M1 맥북 에어는 어떨까요?
구세대라 좀 느리지만
16기가가 있으니 뭘 할 수 있을지 보죠
보니까 140억 파라미터의
GGF 모델을 4비트로 양자화하면
8.99GB네요. 한번 받아볼까요?
LM 스튜디오에서 용량이
너무 크다는 경고도 없고
이 모델이 8GB RAM의
M2 맥북에는 너무 크다고 나오네요
Q3에서도 그렇고 Q4면
당연히 너무 크겠죠
자, 이제 로드해볼게요. 48개 레이어
모델 로드하고 인사해볼까요? 안녕!
작동하네요! 이야기 써보라고 할까요? 시작!
좋아요, 생각하고 있네요
램 사용량을 한번 볼까요?
14.58%네요
M1이나 M2, M3에서도 할 수 있어요
16GB 메모리만 있다면
문제없이 돌아갈 거예요. 제가
기가바이트라고 했나요? 오 맙소사
드디어 글을 쓰기 시작하네요! '옛날 옛적에
작은 마을에...' 아니에요, 목소리 연기는
안 할게요. 하지 않을 거예요. 6.2
초당 6.2개의 토큰 속도로, 그리 좋지는 않지만
M1 맥북 에어에서도 실행됩니다. 지금까지
각 기기들의 한계를 살펴봤는데
M4 Max MacBook Pro를 제외하고는 다 봤죠.
여기에 여러 모델들이 있으니
한번 실행해 보도록 하겠습니다.
제 모델 목록으로 가서
가장 큰 모델인 70억 파라미터를 보겠습니다.
참고로 말씀드리면 14억 파라미터는 괜찮은 모델이고
32억은 아주 좋은 모델입니다. 70억은 훌륭한
모델이죠. 속도와 정확도 사이의
좋은 균형을 원한다면
70억 파라미터 모델이 채팅할 때
여전히 괜찮은 속도를 제공합니다.
코딩을 하거나 할 때도 좋죠.
자, 이제 시도해보겠습니다.
Bartowski의 Q4 km 모델을 로드해보죠.
이 모델을 로드하고
70억 파라미터 모델의 여러 버전이 있는데
각각 다른 양자화 레벨을 가지고 있습니다.
보시다시피 크기가 조금씩 다른데
Q4 km보다 Q40이
약간 더 빠를 것입니다.
양자화에 대해서는 다른 영상에서 다루도록 하고
GPU 오프로드는 80 레이어입니다.
이 모델을 로드하고 메모리 사용량을
지켜보도록 하겠습니다.
이 기계는 128GB RAM이 있어서
아마도 8비트 버전의 모델도 올릴 수 있을 겁니다.
Bartowski의 모델을 보면
70억 파라미터 모델이 있는데
여기 Q8은 매우 고품질 양자화로
74GB입니다. 그래서 이것도
이 기계에서 실행할 수 있지만
일단 4비트 양자화 버전을 시도해보겠습니다.
속도를 확인하기 위해서죠.
'오늘 어떻게 도와드릴까요?' 이야기를 써볼게요.
뭔가 출력을 보고 싶어서
생각하는 과정을 보겠습니다.
20초 동안 생각해보죠.
지금 글을 쓰고 있는데
무슨 생각을 하고 있을까요?
사용자가 이야기를 써달라고 했고
흥미로운 것을 찾고 있을 수도 있죠.
사실 저는 그렇지 않습니다.
주로 속도를 보고 있지만
만약 출력 내용에 관심이 있다면
그렇죠. 지금 초당 약 9개의 토큰이
나오고 있네요. 9.7개 정도로
제가 생각하는 실용적인 수준보다는
약간 낮지만, 여전히 출력은
꽤 괜찮게 되고 있습니다.
이게 개인용 맥북에서 가능한 거예요.
만약 데스크톱이나 이런 것들을
몇 개 더 있다면 정말 좋겠죠.
결국 하드웨어의 문제입니다.
이렇게 Deep Seek R1을
로컬에서 실행하는 방법을 봤는데
Deep Seek R1을 실행하지 말아야 할 방법은
공식 웹사이트에서 하는 겁니다.
그렇게 하면 여러분의 데이터가
중국의 서버로 전송되니까요.
로컬에서 가능하다면
데이터를 공유하지 마세요.
R1을 실행하면 안 되는 방법이었습니다.
이 모델의 속도가 궁금하시다면
여기 있는 영상을 보세요.
시청해주셔서 감사합니다.
다음에 만나요.