[00:00]
DeepSeek R1, 최신 최첨단
[00:02]
대규모 언어 모델은 무료입니다. 하지만
[00:05]
무료라면 당신이
[00:07]
상품이라는
[00:08]
말이 있죠. 제 가치는 최소 두 배는 될 텐데요.
[00:11]
그래서 DeepSeek를 실행하는 방법과
[00:13]
실행하지 않는 방법이 있습니다.
[00:15]
이 모든 하드웨어가 중요한데,
[00:17]
특히 LLM을 로컬에서 실행할 때
[00:19]
더욱 그렇습니다.
[00:22]
이제는 누구나 다운로드할 수 있죠.
[00:24]
최첨단 모델을요. 네,
[00:25]
오픈소스라서 다운로드해서
[00:27]
직접 실행할 수 있지만, 실제로 중요한 건
[00:30]
하드웨어입니다.
[00:31]
이게 바로 다른 사람들과의 차이를 만듭니다.
[00:34]
물론 오해하지 마세요.
[00:36]
DeepSeek R1의 어떤 버전은 다양한
[00:39]
하드웨어에서 실행할 수 있습니다.
[00:40]
Jeff Garing이 라즈베리 파이에서
[00:42]
실행하는 방법을 보여줬고, 저도 최근에
[00:44]
젯슨 나노에서 해봤죠.
[00:46]
다양한 미니 PC에서도 가능한데,
[00:48]
최근에 관련 영상도 찍었습니다.
[00:50]
오늘은 M1, M2, M3, M4 Max 등 모든 하드웨어를
[00:55]
준비해서 DeepSeek R1을
[00:57]
설치하고 실행해보겠습니다.
[00:59]
결과는 다르겠지만 가능하다는 걸
[01:01]
보여드리려고 합니다. 또한
[01:02]
크로스플랫폼 방식을 사용할 거라
[01:05]
맥, 윈도우, 리눅스에서 모두
[01:07]
작동할 겁니다.
[01:08]
필요한 도구가 몇 가지 있는데,
[01:10]
하나는 올라마이고 다른 하나는
[01:12]
LM 스튜디오입니다. llama.cpp라는
[01:16]
도구도 있는데, 이건 커맨드라인
[01:18]
도구라 매우 설정 가능하고
[01:20]
커스터마이징이 가능하지만, GitHub에서
[01:22]
다운로드해야 하고, 개발자가
[01:23]
아니면 어려울 수 있습니다.
[01:25]
이 채널에서 개발자를 위한
[01:27]
영상을 많이 만들어서
[01:28]
이미 관련 영상이 있습니다.
[01:30]
오늘은 설치가 쉬운 간단한
[01:32]
도구들을 다루겠습니다. 바로 그게
[01:34]
핵심이니까요. 사용의 편의성과
[01:36]
이 도구들이 제공하는 서버를
[01:39]
개발자도 사용해서 모델을
[01:41]
서빙할 수 있고
[01:43]
코딩 환경에 연결해서 로컬에서
[01:45]
사용할 수 있습니다. 채널 멤버들을 위한
[01:47]
자세한 단계별 설명
[01:48]
영상도 있습니다.
[01:50]
이제 ollama.com에 가보면
[01:52]
다운로드 버튼을 클릭하고
[01:53]
플랫폼을 선택한 다음 MacOS용
[01:56]
다운로드를 클릭하면 됩니다.
[01:58]
이제 응용프로그램으로
[02:01]
드래그해서 실행하면 됩니다. 화면에는
[02:03]
아무것도 뜨지 않지만
[02:04]
이미 실행 중이고 메뉴 바에서
[02:07]
확인할 수 있습니다. 접근하는 방법은
[02:09]
터미널을 통해서입니다.
[02:11]
터미널을 열고 ollama를 입력하면
[02:14]
응답이 오는데, 이는
[02:16]
작동한다는 의미입니다. 이제
[02:18]
모델을 실행하려면 ollama run하고
[02:20]
모델 이름을 입력하면 되는데,
[02:22]
어떤 모델을 실행할까요? models에 가보면
[02:24]
DeepSeek가 매우 인기가 있어서
[02:26]
첫 번째로 나열되어 있습니다.
[02:28]
클릭해보면 실행할 수 있는
[02:30]
다양한 버전의 모델들이 있습니다.
[02:33]
1.5B는 15억 개의 파라미터를 의미하고
[02:36]
7B는 70억 개의 파라미터를 의미합니다.
[02:39]
모델 크기는 최대 671억 개의 파라미터까지 있습니다
[02:43]
당연하게도 모델이 클수록
[02:45]
더 많은 RAM이나 통합 메모리가
[02:48]
필요하게 됩니다. NVIDIA 4090에서
[02:50]
실행할 경우에는 VRAM이 필요한데, 이전에
[02:53]
제 채널에서 다룬 적이 있죠
[02:54]
4090이 꼭 필요한 것은 아니고
[02:56]
어떤 GPU든 사용 가능합니다. GPU는
[03:00]
대규모 언어 모델과 AI 처리에
[03:02]
매우 적합하기 때문이죠. 일반적으로는
[03:04]
AI라고 부르지만, 실제로는
[03:06]
머신러닝 모델입니다. 여기서
[03:08]
원하는 모델을 선택할 수 있고
[03:10]
모델 옆에 크기가 표시되어 있는 걸
[03:13]
확인할 수 있습니다. 1.5B를 선택하면
[03:16]
실제로는 1.1GB 크기라는 것을 볼 수 있죠
[03:19]
그런데 잠깐, 여기에
[03:21]
양자화(Quantization)라고 표시된 게 있는데
[03:24]
이것에 대해서는 별도의 영상으로
[03:26]
양자화 선택 방법을 다룰 예정입니다
[03:28]
기본적으로 LM Studio는 자동으로
[03:30]
선택해 주는데, 이 경우에는
[03:33]
Q4_K_M이 선택됩니다. 사용 가능한 모델을
[03:36]
확인하고 싶다면
[03:38]
Hugging Face에서 찾을 수 있습니다
[03:41]
huggingface.co에 가서
[03:43]
모델 섹션을 보면 DeepSeek 모델들이
[03:46]
모두 나열되어 있습니다
[03:48]
예를 들어 DeepSeek R1
[03:51]
1.5B를 검색하면, 인기 기여자인
[03:54]
Bowski의 모델이 나옵니다
[03:56]
많은 다운로드 수를 기록하고 있죠
[03:58]
그는 이 특정 모델 크기에 대해
[04:00]
다양한 양자화 유형을 제공합니다
[04:03]
여기에는 모델의 이름이 있는데
[04:05]
이 경우에는 distill quen이고
[04:07]
모델 크기는 1.5B로, 15억 개의
[04:10]
파라미터를 가지고 있습니다
[04:11]
그리고 Quant 유형이 있는데, 양자화는
[04:14]
불필요한 데이터는 제거하고
[04:16]
핵심 데이터만 유지하는 것입니다
[04:18]
모델을 양자화하는 방법은
[04:20]
다양한데, 이를 통해 더 작은
[04:22]
하드웨어에서도 실행할 수 있지만
[04:24]
그렇게 하면
[04:26]
품질이 약간 저하됩니다
[04:28]
여기서 Bowski는 DeepSeek R1 distill
[04:31]
quen이라는 이름의 1.5B 크기 모델에
[04:34]
Q3_KS 양자화 레벨을 적용했고
[04:39]
모델 크기를 보여주며
[04:40]
'품질이 낮아 권장하지 않음'이라고 표시했습니다
[04:43]
그래도 괜찮을 수 있지만
[04:45]
4GB RAM의 저사양 기기에서도
[04:48]
실행할 수 있다는 장점이 있죠
[04:50]
8GB RAM 기기를 사용한다면
[04:52]
이 열을 보고
[04:54]
RAM에 맞는 가장 큰 모델을
[04:56]
찾을 수 있습니다. 파일 크기가
[04:58]
3.50인
[04:59]
이 모델은 F16을 사용하는데
[05:02]
floating 16이라서 완전한 F16 가중치를 가지며
[05:05]
양자화되지 않았다는 의미입니다
[05:08]
Q8_0으로도 매우 높은 품질을
[05:12]
얻을 수 있습니다. Q8_0은 8비트로 양자화된 것이며
[05:15]
크기가 1.89GB에 불과합니다
[05:18]
이 M3 맥북 에어는 8GB RAM이
[05:21]
있으므로 더 큰 모델로
[05:23]
넘어갈 수 있습니다. URL에서
[05:26]
14B를 검색해 볼까요? 보세요
[05:29]
Bowski가 140억 파라미터 모델도
[05:32]
다양한 양자화 레벨로 만들었네요
[05:34]
크기를 한번 볼까요?
[05:37]
Q8 버전이 15GB라서 여기서는
[05:41]
실행이 안 되겠네요. 16GB 맥북 에어나
[05:45]
프로에서는 겨우겨우 돌아갈 수 있을 것 같습니다
[05:48]
MacBook Pro에서도 힘들 것 같습니다.
[05:50]
이 Q6 KL 모델은
[05:53]
임베딩과 출력 가중치에 Q8을 사용하는데
[05:56]
품질이 매우 높고 거의 완벽해서
[05:58]
추천할 만합니다.
[06:00]
16GB 메모리 기기에서는 잘 작동하지만
[06:03]
안타깝게도 이 기기는 그렇지 않아서
[06:05]
8GB 이하로 내려가야 하고
[06:07]
이런 모델을 살펴봐야 합니다.
[06:09]
예를 들어 이 6.92 중저품질 모델의 경우
[06:13]
괜찮은 결과를 보여주지만
[06:15]
140억 파라미터 모델이라는 점에서
[06:17]
파라미터가 훨씬 많기 때문에
[06:19]
더 나은 품질을
[06:20]
15억 파라미터 모델보다 얻을 수 있습니다.
[06:23]
여기서 한 가지 더 말씀드리자면
[06:25]
Bowski만 모델을
[06:27]
만드는 것이 아닙니다.
[06:30]
원본 모델을 가져와서 양자화하는
[06:33]
다른 개발자들도 있습니다.
[06:35]
예를 들어 UNS sloth나
[06:38]
cyber agent, Mobius labs 같은 그룹들이 있고
[06:41]
이런 그룹들은 각각
[06:44]
약간씩 다른 방식으로
[06:46]
이 작업을 수행합니다. ollama로 돌아가서
[06:48]
1.5B 모델을 실행해보겠습니다.
[06:52]
용량이 작고
[06:53]
다운로드도 오래 걸리지 않아서
[06:54]
속도 성능을 확인해보겠습니다.
[06:56]
지금까지 결과 품질 측면에서의
[06:58]
성능을 이야기했는데
[07:00]
또 다른 성능 지표는 속도이고
[07:02]
여기서 하드웨어가 중요합니다.
[07:04]
더 강력한 하드웨어가 필요한 이유죠.
[07:06]
더 큰 모델을 실행하기 위해서는
[07:09]
예를 들어 M2 맥북 에어는 8GB RAM이고
[07:13]
M4 Max 맥북 프로는 128GB RAM입니다.
[07:18]
더 큰 모델을 실행할 수 있고
[07:20]
더 빠른 속도로 실행하며
[07:21]
전반적으로 더 나은 결과를 얻을 수 있죠.
[07:24]
여기 이 특정 Quant Q4
[07:25]
15억 파라미터 DeepSeek R1 모델을
[07:29]
실행하는데 필요한 명령어입니다.
[07:33]
이 전체 명령어를 복사해서
[07:36]
커맨드 라인에 붙여넣고 실행하면 됩니다.
[07:39]
이제 하는 일은
[07:41]
인터넷에서 자동으로 가져와서
[07:43]
다운로드하고 로컬에 저장한 다음 실행합니다.
[07:46]
모든 기기에서
[07:48]
동일한 작업을 수행하고
[07:49]
어느 것이 더 빠른지 보겠습니다.
[07:51]
답은 이미 아실 거예요.
[07:52]
다운로드가 완료되면
[07:54]
이런 프롬프트가 나타나고
[07:55]
'hi'라고 입력해보면
[07:57]
많이 생각할 필요 없이
[07:59]
'도움이 필요하신가요?'라고 답합니다.
[08:01]
하지만 '이야기를 써줘'라고 하면
[08:03]
DeepSeek R1은 사고하는 모델이라
[08:05]
먼저 생각을 하는데, 이 경우에는
[08:08]
15억 파라미터 모델이라
[08:10]
많이 생각하지 않네요. 보시다시피
[08:12]
결과의 품질이 그리 좋지 않습니다.
[08:14]
'어떤 이야기를 쓰고 싶으신지
[08:16]
자세히 말씀해 주세요'라고 하네요.
[08:18]
보세요, 바로 이야기를 쓰지 않고
[08:21]
저에게 이야기를 써달라고 하죠.
[08:23]
15억 파라미터라 이런 작업은 못하지만
[08:26]
속도는 빠릅니다. 모델 크기가 작고
[08:29]
양자화가 많이 될수록
[08:32]
더 빨라지죠.
[08:33]
여기서 'bye'를 입력해서 종료하고
[08:36]
ollama에서 메트릭을 보려면
[08:37]
'ollama run' 명령어를 사용하면 됩니다.
[08:40]
모델을 실행할 때 먼저 '--verbose'를
[08:42]
입력하고, 예를 들어 '1,000자 이야기를 작성해'라고 하면
[08:46]
이야기를 작성하기 시작합니다.
[08:49]
보세요, 실제로 잘 작동하고 있네요.
[08:51]
꽤 좋은 결과를 보여주고 있습니다.
[08:52]
이제 같은 작업을 해볼 텐데, M3에서는
[08:56]
초당 45개의 토큰을 처리했습니다.
[08:59]
M2에서는 더 많은 토큰을 처리했지만
[09:01]
오차 범위 내에서 초당 50개의
[09:03]
토큰을 처리했고, 이제
[09:05]
M1을 살펴보겠습니다. 상당히 빠른 속도로
[09:08]
처리하고 있네요. 실용적인 속도입니다.
[09:10]
최근에 트위터 설문조사를 했는데
[09:12]
LLM의 적정 토큰 처리 속도에 대해
[09:14]
물어봤더니, 대부분은 당연히
[09:16]
초당 40개 이상이라고 답했고
[09:18]
그 다음으로는 20-29개를 선택했습니다.
[09:21]
M1은 초당 33개의 토큰을 처리하는데
[09:24]
꽤 괜찮은 성능이라고 봅니다.
[09:26]
이제 M4 Max의 성능을 살펴보겠습니다.
[09:28]
와우! 텍스트가 물 흐르듯이 나오네요.
[09:31]
실시간으로 보여드리는 겁니다. 속도를 조작하지 않았어요.
[09:33]
거의 완료되어 가고 있습니다.
[09:37]
초당 162개의 토큰, 엄청난 차이죠.
[09:40]
이제 Ollama가 실행 중이고
[09:42]
모델이 로드된 상태에서는
[09:44]
코드 에디터에서 직접 사용하거나
[09:47]
이렇게 대화를 나눌 수 있습니다.
[09:49]
하지만 더 다양한 기능을 제공하면서도
[09:51]
Ollama의 모든 기능을
[09:53]
사용할 수 있는 다른 도구가 있는데
[09:55]
바로 LM Studio입니다.
[09:57]
이것도 사용하기 쉽습니다.
[09:59]
LM Studio 웹사이트에 가서
[10:01]
Mac, Linux 또는 Windows 버전을 다운로드하면 됩니다.
[10:04]
정말 놀라운 도구인데
[10:06]
아직 버전 1.0도 안 된 상태에서
[10:09]
이렇게 발전했다는 게 대단합니다.
[10:11]
이 분야가 얼마나 빠르게 발전하는지 보여주죠.
[10:13]
설치하려면 더블클릭하고
[10:14]
애플리케이션 폴더로 드래그한 다음
[10:17]
애플리케이션에서 더블클릭하면 실행됩니다.
[10:19]
처음 실행할 때는
[10:20]
초기 모델을 다운로드할지
[10:22]
물어볼 수 있는데, 저는 이미
[10:24]
설치했다가 여러분을 위해
[10:25]
데모를 보여드리려고 지웠습니다.
[10:27]
'내 모델' 폴더를 보면
[10:28]
이전에 설치했던 Llama 3.2가 있고
[10:31]
그리고 'Discover' 폴더가 있는데
[10:33]
보세요, DeepSeek이
[10:35]
목록 맨 위에 있습니다.
[10:37]
Mac을 사용하시는 분들은
[10:40]
Linux나 Windows 사용자보다 더 많은 옵션이 있는데
[10:43]
Mac에서는 GGUF 형식의 모델을
[10:46]
실행할 수 있습니다. 이는 모델들이
[10:49]
패키징되는 형식의 한 종류입니다.
[10:52]
그리고 MLX 모델도 실행할 수 있는데
[10:53]
MLX 모델은 Apple Silicon에서만
[10:56]
사용 가능하며
[10:58]
속도면에서 개선을 제공합니다.
[11:01]
Ollama에서 사용했던 같은 모델을
[11:02]
찾아보겠습니다. 여기 있네요.
[11:05]
앞서 말씀드렸듯이
[11:06]
서로 다른 제작자들이 만든
[11:08]
다양한 버전이 있는데, LM Studio에서는
[11:10]
이들 중에서 선택할 수 있습니다.
[11:12]
예를 들어, DeepSeek R1 Distill이라는 모델이 있고
[11:15]
이건 LM Studio 커뮤니티에서 제공한 것입니다.
[11:18]
아래쪽에서 원하는
[11:20]
양자화 레벨을 선택할 수 있는데, 4K가 기본으로
[11:23]
선택되어 있고, 6이나
[11:25]
8로 설정할 수도 있습니다. 저는 4K로 두겠습니다.
[11:27]
올라멀과 함께 사용했던 것입니다
[11:29]
그리고 여기 UNS 슬로스 버전이 있는데
[11:32]
UNS 슬로스는 다양한 양자화를 제공합니다
[11:34]
여기 바토스키가 있죠
[11:37]
Q40과 훨씬 더 많은 양자화 옵션들이 있네요
[11:40]
여기 보세요, F32가 있습니다
[11:43]
15억 파라미터 모델의
[11:45]
32비트 부동소수점 버전인데
[11:49]
7.11GB라서 이 기기에는
[11:52]
너무 큰 것 같다고 하네요
[11:54]
이 기기가 8GB RAM 또는
[11:56]
통합 메모리만 있다는 걸 알고 있어서죠
[11:58]
LM 스튜디오 커뮤니티 버전을
[12:00]
선택해보겠습니다
[12:01]
여기서 다운로드를 클릭해서 Q4 KM 양자화 버전을 받을게요
[12:05]
와, 말하기가 좀 어렵네요
[12:07]
머리를 좀 깨워야겠어요. 제 아들이 이걸 만들었는데
[12:09]
영상에 넣어주기로 약속했거든요
[12:12]
모델 다운로드가 완료되면
[12:13]
여기서 모델 불러오기를 클릭할 수 있지만
[12:15]
아무것도 로드되지 않은
[12:17]
초기 화면으로 돌아가보면
[12:18]
상단에서 드롭다운을 할 수 있고
[12:20]
모델 목록이 표시됩니다
[12:21]
원하는 모델을 선택하면 되는데
[12:23]
DeepSeek-Coder-1을 선택하고
[12:26]
GPU 오프로드는 최대로
[12:28]
설정하시기 바랍니다
[12:29]
GPU를 최대한 활용하기 위해서죠
[12:31]
저는 보통 이 설정들은
[12:33]
건드리지 않고
[12:34]
그대로 두고 모델 불러오기를 클릭합니다
[12:37]
물론 나중에 시간을 들여서
[12:39]
이 설정들이 무엇인지 알아볼 수 있죠
[12:42]
저도 아직 모르니까
[12:43]
배울 게 또 하나 늘었네요
[12:45]
모델이 로드되면 새 채팅을 클릭하고
[12:48]
타이핑을 시작할 수 있는데 정말 빠릅니다
[12:50]
초당 58토큰의 속도가 나왔는데
[12:54]
이는 실제로 같은 모델을
[12:56]
Oobabooga로 실행했을 때보다 더 빠르네요
[13:00]
1000단어 이야기를 써보죠
[13:03]
여기 이 부분이 생각하는 중인데
[13:05]
이게 DeepSeek-Coder-1이
[13:08]
다른 모델들과 다른 점입니다
[13:09]
예를 들어 기본 Qwen은
[13:12]
그냥 바로 타이핑을 시작하죠
[13:14]
아쉽게도 LM 스튜디오는
[13:17]
생각하는 시간을 보고하지 않고
[13:20]
첫 토큰까지 0.12초라고만 표시하는데
[13:25]
이는 정확하지 않습니다
[13:27]
생성 시작까지의 시간이지만 괜찮아요
[13:30]
초당 54.9토큰의 속도가 나오는데
[13:33]
오차 범위 내에서 Oobabooga와
[13:35]
비슷하다고 볼 수 있습니다
[13:37]
이제 이걸 모든
[13:39]
기기에서 실행해보겠습니다
[13:41]
모든 기기가 준비되었고
[13:43]
15억 파라미터 모델은 매우 정적인 모델이라
[13:47]
제가 '안녕'이라고 하면
[13:49]
'안녕하세요, 어떻게 도와드릴까요?'라고
[13:51]
스마일과 함께 모든 인스턴스에서
[13:54]
똑같이 대답하는데
[13:56]
그것보다 더 많은 사고력은
[13:58]
없기 때문입니다
[14:01]
자, 1000단어 이야기를 써보라고 하고 시작해볼게요
[14:05]
보세요, M4 Max가 얼마나 빠르게
[14:08]
출력하는지, M2나
[14:10]
특히 M1보다 훨씬 빠릅니다
[14:13]
이쪽은 이미 완료됐네요
[14:15]
초당 182토큰, 정말 대단한 속도입니다
[14:18]
M3에서는 54토큰, 이쪽은 완료, M1에서는 40토큰
[14:22]
초당 나오고
[14:24]
M2는 아직도 기다리는 중이네요
[14:26]
아주 창의적으로 작성 중입니다, M2에서는 초당 47토큰으로
[14:29]
M2에서는 40, 47, 54, 182로 꽤 예측 가능한 수치를 보여주고 있습니다
[14:34]
자, 실행되는 동안
[14:36]
활동 모니터를 살펴보고
[14:40]
GPU 기록을 열어보면
[14:42]
메모리 부분에서
[14:44]
통합 메모리 6.86GB를 사용하고 있는 것을 볼 수 있습니다
[14:48]
이는 이 기기의 거의 한계치입니다
[14:50]
이 특정 기기는
[14:52]
8GB만 가지고 있거든요. GPU도
[14:54]
상당히 많이 활용되고 있어서
[14:56]
GPU 100%까지는 아니지만
[14:59]
거의 근접해 있습니다
[15:01]
만약 MLX 버전을 사용한다면
[15:03]
GPU를 100%에 더 가깝게
[15:06]
사용하게 될 것입니다. 왜냐하면
[15:08]
매우 최적화가 잘 되어있어서
[15:11]
초당 토큰 처리량을
[15:13]
GG UF 모델보다 MLX 모델에서
[15:16]
조금 더 늘릴 수 있기 때문입니다
[15:19]
자, 여기 Deep Seek R1 Distill LLaMA 8B의 GGF 버전이 있는데
[15:23]
이것은 Q3 KL로 3비트까지 양자화된 버전입니다
[15:26]
그리고 MLX 버전도 받아왔습니다
[15:29]
MLX와 GGF를 비교해보기 위해
[15:32]
MLX 박스를 체크하고
[15:34]
혼동을 피하기 위해 GGF는 체크 해제하고
[15:36]
LLaMA 8B 3비트를 찾으면 됩니다
[15:39]
MLX 표시가 있는지 확인하세요
[15:41]
새로운 채팅을 시작하고
[15:43]
기존 모델을 제거한 다음
[15:44]
로드해보겠습니다. 자,
[15:47]
먼저 GGF 버전부터 시작해보죠
[15:50]
이것이 80억 파라미터 모델이라는 점에 주목하세요
[15:53]
이제 GPU 오프로드에서
[15:56]
오프로드할 레이어 수가
[15:57]
더 높아질 텐데요
[15:59]
모델의 파라미터가 많을수록
[16:02]
일반적으로 레이어도 더 많기 때문입니다
[16:05]
32로 설정해서
[16:07]
모든 레이어를 GPU로 오프로드하고
[16:10]
모델을 로드한 다음 '안녕하세요'라고 인사하고
[16:14]
1000단어 이야기를 써달라고 해보겠습니다
[16:17]
저는 보통 예의 바르게 먼저 인사하고
[16:19]
워밍업도 할 겸
[16:21]
GPU에 완전히 로드되고
[16:24]
메모리에 준비가 되었는지 확인합니다
[16:26]
이번에는 메모리 부하가
[16:29]
좀 더 높아진 것을 볼 수 있는데
[16:31]
이 모델이 약 4기가바이트 크기이기 때문입니다
[16:33]
아까 실행했던 1.5B 모델은
[16:36]
1기가바이트 정도였는데, 이건 4기가라서
[16:38]
메모리 부하가 많이 걸리고
[16:40]
약간의 빨간색이 보이고
[16:42]
대부분 주황색 영역에 있습니다
[16:44]
이 기기의 거의 한계치죠
[16:46]
출력도 좀 느린 것을 보실 수 있는데
[16:49]
여기서 중단하겠습니다
[16:51]
이 정도면 충분히
[16:53]
속도를 확인할 수 있을 것 같네요
[16:55]
여기서는 초당 7.5 토큰이 나왔습니다
[16:59]
이제 다른 모델로
[17:00]
MLX 버전으로 전환해보겠습니다
[17:03]
로드해보면 GPU 사용량이
[17:05]
MLX 모델에서 좀 더 높은 것을 볼 수 있는데
[17:08]
MLX가 애플 실리콘에서
[17:11]
더 많은 이점을 가지고
[17:12]
더 최적화되어 있기 때문입니다
[17:15]
방금 그 증거를 보셨죠
[17:16]
이렇게 하면 초당 토큰 수가
[17:19]
조금 더 늘어날 것입니다만
[17:21]
이것은 규모에 따라 다른데
[17:23]
이런 작은 모델에서는 1-2 토큰 정도 증가하지만
[17:26]
700억 파라미터와 같은 큰 모델에서는
[17:29]
토큰 수가 훨씬 더 많이 증가합니다
[17:30]
초당 토큰 생성이 훨씬 더 많을 거예요.
[17:32]
MLX를 사용하면 훨씬 빨라질 겁니다. 그리고
[17:34]
메모리 사용량을 한번 보세요.
[17:36]
메모리 부하가 상당히 안정적이네요.
[17:38]
저는 메모리 부하가
[17:40]
GGF 모델과 비슷할 거라 예상했는데
[17:43]
실제로는 더 안정적으로 보이네요.
[17:45]
꽤 흥미롭죠. 아, 제가 잘못 봤네요.
[17:47]
이게 훨씬 더 빠르네요.
[17:50]
우리가 지금 초당
[17:52]
80억 파라미터 모델에서 MLX를 사용해서 19.38개의 토큰을
[17:54]
생성하고 있는데, GGF를 사용할 때는
[17:57]
초당 7.5개의 토큰을 생성했어요.
[18:00]
결과가 정말 놀랍네요.
[18:02]
이건 아마도 모델에
[18:03]
따라 다를 것 같아요. 다른 모델에서는
[18:05]
이렇게 큰 차이가 나지 않았지만,
[18:07]
전반적으로 MLX가 더 나은 결과를
[18:08]
보여줄 겁니다. 최적화가 잘 되어 있거든요.
[18:10]
자, M1이 32초 동안 실행됐고
[18:14]
지금 문단을 작성하고 있는데요,
[18:17]
여기서 중단해보겠습니다.
[18:18]
보시다시피 초당 11.28개의 토큰이 나오는데
[18:21]
이는 꽤 좋은 성능이에요. M2에서는 9.59개,
[18:26]
M3에서는 7.5개네요. 이건 좀
[18:29]
이상한데요. 뭔가 잘못된 것 같아요.
[18:30]
물론 이건 모두 오차 범위
[18:32]
내에 있어요. 초당 플러스마이너스
[18:34]
2토큰 정도죠. 그리고 마지막으로 M4 Max에서는 68.76
[18:38]
토큰이 나왔는데, 예상보다는 좀 낮지만
[18:40]
여전히 흥미로운 결과네요.
[18:42]
M4 Max에서는 제가 좀 과하게
[18:45]
많은 모델을 다운로드했어요.
[18:47]
4TB SSD가 감당하기 힘들 정도네요.
[18:51]
이건 다른 영상에서 테스트해볼
[18:53]
예정인데요, 모델 크기뿐만 아니라
[18:55]
다양한 창의성 설정과
[18:57]
양자화 레벨도
[18:59]
테스트할 예정이에요.
[19:01]
그 영상을 기대해주세요. 지금은
[19:03]
8GB 메모리의 기기에서
[19:05]
어떤 것을 더 실행할 수 있는지 보겠습니다. M2와 M3
[19:09]
맥북 에어에서 140억 파라미터
[19:11]
모델을 실행할 수 있을까요?
[19:14]
140억 3비트 버전은 맞지 않을 것 같네요.
[19:17]
6.47GB니까요. 하지만 여기 Bowski의
[19:21]
모델이 있네요.
[19:23]
IQ2 XS Quant인데요, 이것들은 모두 이 기기에는
[19:28]
너무 크다고 표시되어 있지만,
[19:30]
4.7GB라서 한번 시도해볼 만하네요.
[19:34]
이건 140억 파라미터 모델의 2비트 버전이라
[19:36]
상당히 많이 양자화되어 있죠.
[19:38]
Bowski가 아마도 이걸 저품질로
[19:41]
표시해뒀을 거예요.
[19:43]
이걸 확인하려면
[19:45]
모델 카드 버튼을 클릭하면 되는데
[19:47]
이러면 바로 허깅 페이스의
[19:50]
해당 모델 페이지로 이동합니다.
[19:52]
여기서 찾을 수 있죠.
[19:54]
여기 IQ2 XS가 있고, 저품질이라고
[19:58]
표시되어 있네요. STETH 기술을 사용해
[20:00]
사용 가능하게 만들었대요. Bowski가
[20:02]
IM Matrix라는 기술을 사용해서 정말 많이
[20:05]
양자화했지만 여전히 사용 가능하게
[20:08]
만들었네요. 무의미한 결과를 내지 않도록요.
[20:10]
자, 140억 파라미터 모델을 로드해보죠.
[20:14]
내 기기에는 너무 크다고 했던
[20:15]
이 모델 말이에요. 자, 됐네요!
[20:18]
이 모델은 GPU로 오프로드할 48개의 레이어가 있어서
[20:22]
최대로 올려서 모델을
[20:24]
로드해보죠. 메모리 사용량을
[20:26]
지켜보세요. 네, MLX 모델도
[20:29]
약간의 주황색 경고선을
[20:30]
보여줬었죠. 어, 뭐가 문제가 생겼나요?
[20:34]
이런, 좋지 않은데요. 처음 보는
[20:36]
메시지네요. 이 메시지에는 내용이
[20:38]
없습니다. AI가 할 말이 없나 봐요. 오 맙소사.
[20:41]
양자화 수준 때문인지는 모르겠지만
[20:42]
아마도 여기서는 양자화 수준이
[20:45]
너무 심해서 AI가 아무 말도
[20:47]
할 수 없는 것 같네요
[20:50]
할 말이 없으면 아무 말도 하지 말라고
[20:52]
하잖아요, 그게 바로 이거죠
[20:53]
이야기를 써보라고 해볼까요? 자, 시작!
[20:56]
안 되네요, 전혀 작동하지 않아요.
[20:58]
모델이 로드된 것은 확실한데,
[21:01]
메모리 사용량이 올라가 있거든요.
[21:03]
하지만 작동을 안 하네요.
[21:05]
이걸 보면 무언가를 너무 많이
[21:07]
양자화했을 때 어떤 일이 일어나는지
[21:09]
알 수 있죠. 대형 모델의 경우
[21:12]
우리가 가진 하드웨어에서
[21:14]
실행하기 위해서는 어쩔 수 없이
[21:16]
압축하고 양자화해야 하는데
[21:18]
안타깝게도 이번 경우에는
[21:21]
실패했네요. 하지만 이게
[21:22]
2비트 양자화가 불가능하다는 건 아닙니다
[21:25]
앞서 언급했던 Ons Sloth 팀이
[21:27]
DeepSeek R1 전체를 양자화했는데
[21:29]
670억 파라미터 모델을 1.58비트로
[21:33]
줄였죠. 하지만 그들은 단순히 이렇게 하지 않았어요
[21:36]
영리하게 계층화했고
[21:39]
중요한 레이어들은
[21:41]
동적 2비트 양자화를 유지했죠
[21:43]
그래서 큰 폭의 축소가 가능했고
[21:45]
최종 결과물로
[21:47]
131GB 모델이 나왔어요. 최근에 제 M2 맥북에서
[21:50]
실행해보려 했는데 잘 안 됐어요
[21:54]
128GB라서... 뭔가 잘못 생각했네요
[21:56]
간단한 수학도 못했나 봐요
[21:57]
128에서 131을 빼면 마이너스잖아요
[22:01]
마이너스 램은 없으니까요
[22:03]
그런데 Ons Sloth 팀은
[22:06]
자신들의 1.5비트 버전이
[22:09]
플래피 버드를 작성할 수 있다고 했어요
[22:11]
이는 매우 큰 모델을 극단적으로
[22:14]
양자화해도 꽤 괜찮은
[22:16]
결과를 얻을 수 있다는 걸 보여주죠
[22:19]
일반적으로 모델이 클수록 더 좋은데
[22:21]
이건 제가 가진 8GB 맥북같은
[22:24]
기기에는 좋지 않은 소식이에요
[22:27]
16GB M1 맥북 에어는 어떨까요?
[22:30]
구세대라 좀 느리지만
[22:32]
16기가가 있으니 뭘 할 수 있을지 보죠
[22:35]
보니까 140억 파라미터의
[22:37]
GGF 모델을 4비트로 양자화하면
[22:42]
8.99GB네요. 한번 받아볼까요?
[22:45]
LM 스튜디오에서 용량이
[22:47]
너무 크다는 경고도 없고
[22:49]
이 모델이 8GB RAM의
[22:51]
M2 맥북에는 너무 크다고 나오네요
[22:54]
Q3에서도 그렇고 Q4면
[22:57]
당연히 너무 크겠죠
[22:58]
자, 이제 로드해볼게요. 48개 레이어
[23:02]
모델 로드하고 인사해볼까요? 안녕!
[23:04]
작동하네요! 이야기 써보라고 할까요? 시작!
[23:08]
좋아요, 생각하고 있네요
[23:10]
램 사용량을 한번 볼까요?
[23:12]
14.58%네요
[23:28]
M1이나 M2, M3에서도 할 수 있어요
[23:31]
16GB 메모리만 있다면
[23:34]
문제없이 돌아갈 거예요. 제가
[23:36]
기가바이트라고 했나요? 오 맙소사
[23:38]
드디어 글을 쓰기 시작하네요! '옛날 옛적에
[23:40]
작은 마을에...' 아니에요, 목소리 연기는
[23:42]
안 할게요. 하지 않을 거예요. 6.2
[23:45]
초당 6.2개의 토큰 속도로, 그리 좋지는 않지만
[23:48]
M1 맥북 에어에서도 실행됩니다. 지금까지
[23:51]
각 기기들의 한계를 살펴봤는데
[23:52]
M4 Max MacBook Pro를 제외하고는 다 봤죠.
[23:56]
여기에 여러 모델들이 있으니
[23:58]
한번 실행해 보도록 하겠습니다.
[24:00]
제 모델 목록으로 가서
[24:02]
가장 큰 모델인 70억 파라미터를 보겠습니다.
[24:05]
참고로 말씀드리면 14억 파라미터는 괜찮은 모델이고
[24:07]
32억은 아주 좋은 모델입니다. 70억은 훌륭한
[24:10]
모델이죠. 속도와 정확도 사이의
[24:13]
좋은 균형을 원한다면
[24:15]
70억 파라미터 모델이 채팅할 때
[24:18]
여전히 괜찮은 속도를 제공합니다.
[24:21]
코딩을 하거나 할 때도 좋죠.
[24:23]
자, 이제 시도해보겠습니다.
[24:25]
Bartowski의 Q4 km 모델을 로드해보죠.
[24:28]
이 모델을 로드하고
[24:30]
70억 파라미터 모델의 여러 버전이 있는데
[24:32]
각각 다른 양자화 레벨을 가지고 있습니다.
[24:35]
보시다시피 크기가 조금씩 다른데
[24:37]
Q4 km보다 Q40이
[24:39]
약간 더 빠를 것입니다.
[24:41]
양자화에 대해서는 다른 영상에서 다루도록 하고
[24:45]
GPU 오프로드는 80 레이어입니다.
[24:46]
이 모델을 로드하고 메모리 사용량을
[24:49]
지켜보도록 하겠습니다.
[24:51]
이 기계는 128GB RAM이 있어서
[24:54]
아마도 8비트 버전의 모델도 올릴 수 있을 겁니다.
[24:57]
Bartowski의 모델을 보면
[25:00]
70억 파라미터 모델이 있는데
[25:01]
여기 Q8은 매우 고품질 양자화로
[25:04]
74GB입니다. 그래서 이것도
[25:07]
이 기계에서 실행할 수 있지만
[25:10]
일단 4비트 양자화 버전을 시도해보겠습니다.
[25:13]
속도를 확인하기 위해서죠.
[25:15]
'오늘 어떻게 도와드릴까요?' 이야기를 써볼게요.
[25:17]
뭔가 출력을 보고 싶어서
[25:19]
생각하는 과정을 보겠습니다.
[25:21]
20초 동안 생각해보죠.
[25:22]
지금 글을 쓰고 있는데
[25:24]
무슨 생각을 하고 있을까요?
[25:27]
사용자가 이야기를 써달라고 했고
[25:28]
흥미로운 것을 찾고 있을 수도 있죠.
[25:30]
사실 저는 그렇지 않습니다.
[25:32]
주로 속도를 보고 있지만
[25:34]
만약 출력 내용에 관심이 있다면
[25:36]
그렇죠. 지금 초당 약 9개의 토큰이
[25:38]
나오고 있네요. 9.7개 정도로
[25:41]
제가 생각하는 실용적인 수준보다는
[25:44]
약간 낮지만, 여전히 출력은
[25:46]
꽤 괜찮게 되고 있습니다.
[25:48]
이게 개인용 맥북에서 가능한 거예요.
[25:51]
만약 데스크톱이나 이런 것들을
[25:54]
몇 개 더 있다면 정말 좋겠죠.
[25:55]
결국 하드웨어의 문제입니다.
[25:58]
이렇게 Deep Seek R1을
[25:59]
로컬에서 실행하는 방법을 봤는데
[26:01]
Deep Seek R1을 실행하지 말아야 할 방법은
[26:04]
공식 웹사이트에서 하는 겁니다.
[26:07]
그렇게 하면 여러분의 데이터가
[26:09]
중국의 서버로 전송되니까요.
[26:11]
로컬에서 가능하다면
[26:13]
데이터를 공유하지 마세요.
[26:15]
R1을 실행하면 안 되는 방법이었습니다.
[26:17]
이 모델의 속도가 궁금하시다면
[26:19]
여기 있는 영상을 보세요.
[26:21]
시청해주셔서 감사합니다.
[26:22]
다음에 만나요.