[00:00]
안녕하세요, 저는 Dave입니다. 제 작업실에 오신 것을 환영합니다.
[00:03]
이것은 엔비디아의 젯슨 오린 나노 수퍼인데요,
[00:05]
딥시크 R1 모델을 직접 실행할 수 있는
[00:07]
인상적인 엣지 컴퓨터입니다.
[00:09]
1024개의 쿠다 코어와 32개의
[00:12]
텐서 코어, 8GB의
[00:14]
LPDDR5 메모리, 6개의 ARM CPU 코어, SSD 확장성을 갖추고 있습니다.
[00:18]
오늘은 이것을 사용해서 AI의 새로운 방향을 제시하려고 합니다.
[00:20]
여러분의 데스크톱이나 나노에서
[00:22]
로컬로 실행하는 방법을 보여드리고
[00:24]
비교를 위해 최상급 스레드리퍼에서 실행되는
[00:27]
670억 파라미터 버전의
[00:30]
완전 해제된 성능도 보여드리겠습니다.
[00:31]
보시다시피 AI와 관련해서
[00:34]
대부분의 사람들은 웹 브라우저 창에서
[00:36]
질문을 하고
[00:37]
클라우드가 처리하기를 기다리는 데 익숙합니다.
[00:39]
하지만 클라우드가 전혀 필요 없다면 어떨까요?
[00:41]
같은 질문을 하고
[00:43]
여러분의 책상 위에서 직접 실행되는
[00:44]
AI로부터 답변을 받을 수 있다면 어떨까요?
[00:46]
여러분의 홈 랩이나 심지어 차고에서도 말이죠.
[00:49]
여기서 딥시크 R1이 등장합니다.
[00:51]
이것은 차세대 대화형 AI로,
[00:54]
클라우드에 묶여있는 다른 AI들과 달리
[00:56]
집에서 직접 호스팅할 수 있습니다.
[00:58]
이것의 장점은 생각해보면 명확합니다.
[01:00]
데이터를 완전히 통제할 수 있고,
[01:02]
개인정보 보호가 다른 사람의 문제가 아니며,
[01:04]
많은 서비스들이 청구하는
[01:06]
반복되는 구독료를 피할 수 있습니다.
[01:07]
그리고 아마도 가장 좋은 점은
[01:10]
단순히 더 빠르거나,
[01:12]
서버 지연이나 네트워크 지연에
[01:14]
영향을 받지 않아 더 반응성이 좋다는 것입니다.
[01:16]
갑자기 진정으로 여러분만의 AI
[01:18]
어시스턴트를 갖게 된 것이죠.
[01:19]
중개자가 필요 없습니다. 그리고 저처럼
[01:22]
큰 컨텍스트 윈도우가 필요한
[01:23]
복잡한 코드를 다루는 작업을 하고 있다면,
[01:26]
OpenAI 구독 요금이
[01:27]
그만큼 빨리 소진되지 않을 것입니다.
[01:29]
앞서 말씀드렸듯이 이 작은 기기의 스펙은
[01:31]
꽤 인상적입니다. 1024개의 쿠다 코어,
[01:33]
16개의 텐서 코어, 6개의 CPU 코어, 8GB의 RAM,
[01:38]
그리고 여기에는 1TB SSD가
[01:41]
구성되어 있는데, 이 모든 것이 실제로는 무엇을 의미할까요?
[01:43]
실용적인 관점에서 보면,
[01:45]
워크스테이션 GPU의 두뇌를
[01:46]
손바닥에 거의 들어갈 만한 크기로
[01:48]
축소한 것과 같습니다.
[01:50]
하지만 여기서 핵심은
[01:52]
AI 워크로드에 특화되어 있다는 점입니다.
[01:53]
이는 딥시크 R1을 위한 완벽한 플랫폼이 되죠.
[01:55]
엣지 하드웨어에서 뛰어난 성능을 발휘하는
[01:58]
AI 모델입니다. 이제 설정에 대해 이야기해 보겠습니다.
[02:00]
딥시크 R1을 가정에서 실행하기 위해
[02:03]
올라마라는 프로그램을 사용합니다.
[02:04]
올라마에 대해 모르신다면,
[02:06]
대규모 언어 모델을 위한
[02:08]
간소화된 배포 도구라고 생각하시면 됩니다.
[02:09]
올라마를 실행하면 모델을 다운로드하고 실행해줍니다.
[02:12]
올라마는 AI 모델의 다운로드, 설정,
[02:14]
구성 과정을 단순화합니다.
[02:16]
전문가가 되거나 많은 지식이
[02:18]
필요하지 않죠. 저도 알고 있습니다.
[02:20]
여러분 중 일부는 제가 그랬던 것처럼
[02:22]
커맨드 라인을 매우 좋아하실 거예요.
[02:23]
특히 웹 페이지도 로드할 수 없던
[02:25]
기계에서 커널을 컴파일하며 자란 분들은요.
[02:26]
하지만 믿으셔야 합니다.
[02:28]
올라마는 정말 삶을 더 쉽게 만들어줍니다.
[02:30]
몇 시간이 아닌 몇 분 만에 설정을 완료할 수 있고,
[02:32]
좋은 소식은 여전히
[02:34]
커맨드 라인으로도 조작할 수 있다는 겁니다.
[02:36]
선호하신다면 실행 후에도
[02:37]
명령줄로 작업할 수 있습니다. Jetson Nano에서
[02:40]
일반 데스크톱 PC처럼
[02:41]
LLaMA를 설정하고 동일한 방식으로 사용해보겠습니다.
[02:44]
여기서 다루는 모든 내용은
[02:45]
여러분의 데스크톱 GPU에서도 동일하게 작동합니다.
[02:48]
설치는 간단하며,
[02:49]
설치가 완료되면 Hugging Face의
[02:51]
카탈로그에서 Deepseek R1 모델을
[02:54]
다음 명령어로 다운로드합니다: 'ollama pull deepseek
[02:58]
R1:1.5B'. 이 단계에서는
[03:02]
인터넷 연결이 필요하지만,
[03:03]
모델 다운로드가 완료되면
[03:04]
더 이상 인터넷이 필요 없습니다.
[03:06]
네트워크 케이블을 뽑아도 되죠.
[03:08]
이후의 모든 작업은 완전히 로컬에서 이루어집니다.
[03:10]
이게 왜 중요할까요? 첫째로 프라이버시입니다.
[03:12]
Deepseek R1을 로컬에서 실행하면
[03:14]
여러분의 질의와 데이터가
[03:16]
절대 외부로 유출되지 않습니다.
[03:18]
클라우드 기반 AI에 민감한 질문을
[03:20]
하기 꺼려본 적이 있다면,
[03:22]
여러분만이 아닙니다. 질문이
[03:24]
먼 서버 어딘가에 영원히 남아있을 수 있다는
[03:26]
생각은 불안할 수 있죠. Deepseek
[03:28]
R1에서는 여러분의 모든 질문이
[03:30]
책상 위의 Jetson Nano 안에만
[03:32]
남아있습니다. 하지만 프라이버시만이 장점은 아닙니다.
[03:34]
직접 호스팅한다는 것에는
[03:36]
특별한 만족감이 있습니다. 마치
[03:38]
과거에 많은 사람들이
[03:40]
웹 서버를 직접 운영했던 것처럼요.
[03:42]
사실 집에서
[03:43]
Exchange 서버를 돌릴 필요는 없었지만,
[03:45]
전 그렇게 했죠. Deepseek R1을 로컬에서 실행하는 것도
[03:47]
같은 즐거움을 줍니다. 이것은
[03:49]
여러분이 직접 제어하는 프로젝트이며,
[03:51]
그에 따른 소유감도 느낄 수 있습니다.
[03:53]
게다가
[03:54]
인터넷이 끊어져도
[03:56]
계속 작동한다는 장점도 있죠.
[03:58]
Ollama가 설치되고 모델이
[04:00]
로드되면, 터미널을 열거나
[04:02]
웹 인터페이스에 연결하여
[04:03]
쉽게 쿼리를 실행할 수 있습니다.
[04:05]
다른 AI 챗봇처럼
[04:07]
질문을 입력하면 거의 실시간으로
[04:09]
응답이 돌아옵니다. 물론
[04:11]
위대한 미국 소설을 쓰거나
[04:12]
혁신적인 유체역학 시뮬레이션을
[04:15]
요청하지 않는다는 전제하에서요.
[04:17]
이것은 추론 모델이므로
[04:18]
답변을 생성하기 전에 생각하는 시간이 필요하지만,
[04:20]
즉시 시작되고 빠르게 처리됩니다.
[04:22]
Jetson Nano는
[04:24]
최적화된 텐서 코어와
[04:25]
GPU 연산 능력 덕분에 대부분의
[04:28]
일상적인 대화를 쉽게 처리합니다.
[04:30]
실용적인 측면에서
[04:31]
생각해봅시다. 예를 들어
[04:33]
파이썬이나 C++ 코딩 프로젝트를 진행 중이라고 해보죠.
[04:36]
복잡한 코드를 AI와 함께 작업하다보면
[04:37]
OpenAI의 월간 크레딧을 며칠 만에
[04:40]
모두 소진할 수 있습니다.
[04:42]
컨텍스트 윈도우가 커질수록
[04:44]
더 많은 리소스를 소비하기
[04:46]
때문이죠. 하지만 로컬에서 실행하면
[04:47]
신경 쓸 필요가 없습니다. 코드가
[04:50]
잘 작동하기만 하면 되고,
[04:51]
진행 과정에서 발생하는
[04:53]
비용도 걱정할 필요가 없죠. 홈 오토메이션
[04:55]
매니아들에게는 어떨까요? 이 설정으로
[04:57]
스마트홈의 두뇌 역할을 할 수 있어
[04:59]
음성 명령을 처리하고 센서 데이터를 분석할 수 있습니다.
[05:01]
제안을 할 수 있습니다.
[05:03]
이 모든 것이 단 한 바이트의 데이터도
[05:04]
클라우드 서버로 보낼 필요 없이 가능합니다.
[05:07]
AI에게 보안 카메라 영상을 분석하여
[05:09]
특정 인물을 찾도록 요청하면
[05:11]
모든 것이 로컬에서 안전하게 처리됩니다.
[05:14]
이전 영상에서 보셨듯이
[05:15]
제가 오린 나노를 설치하여
[05:17]
제 집 진입로를 모니터링했는데, PyTorch와
[05:20]
YOLO를 사용하여 차량이 들어오고
[05:22]
나가는 것을 감지하고 알려줬죠.
[05:24]
이것이 바로 나노의 핵심 기능입니다.
[05:26]
작지만 장난감이 아닌
[05:28]
실제 작업을 수행할 수 있는
[05:30]
하드웨어를 갖추고 있으며 훌륭하게 작동합니다.
[05:32]
물론 젯슨 나노만이
[05:34]
딥시크 R1을 실행할 수 있는 것은 아니지만
[05:36]
성능 대비 가격 면에서
[05:38]
가장 효율적인 옵션 중 하나입니다.
[05:40]
엔터프라이즈급 GPU나
[05:42]
클라우드 크레딧에 수천 달러를 투자할 필요가 없습니다.
[05:45]
250달러 미만으로
[05:47]
대부분의 개인 AI 워크로드를
[05:48]
처리할 수 있는 성능과
[05:50]
채팅 기반 쿼리를 넘어선
[05:52]
다양한 프로젝트를 처리할 수 있습니다.
[05:55]
젯슨 시리즈는 엣지 컴퓨팅용으로
[05:56]
설계되어 있어
[05:57]
모바일이나 임베디드 사용에도
[05:59]
적합하며, 로봇부터
[06:01]
커스텀 IoT 기기까지 다양하게 활용할 수 있습니다.
[06:04]
이 시점에서 의문이 들 수 있습니다.
[06:05]
단점은 무엇일까요?
[06:07]
사실 큰 단점은 없습니다.
[06:09]
로컬에서 AI 모델을 실행할 때
[06:11]
하드웨어의 제약이 있고
[06:12]
대규모 언어 모델을
[06:14]
젯슨 나노에서 학습시킬 순 없지만
[06:16]
그게 중요한 게 아닙니다. 추론, 즉
[06:19]
AI를 사용하여 답변을 생성하는 데
[06:21]
젯슨 나노는 자신의 무게급을
[06:22]
훨씬 뛰어넘는 성능을 보여줍니다.
[06:25]
이를 입증하기 위해 15억 개의
[06:27]
매개변수만 가진 가장 작은 모델로 시작해
[06:29]
'왜 모든 눈송이가
[06:31]
서로 다르게 보이는가'와 같은
[06:33]
간단한 과학 질문을 해보겠습니다.
[06:35]
프롬프트를 처리하고
[06:36]
거의 즉시 생각하기 시작하여
[06:38]
1초도 안 되는 시간 안에
[06:40]
추론 단계로 들어갑니다.
[06:42]
딥시크는 단순한
[06:44]
대규모 언어 모델이 아닌 추론 모델입니다.
[06:46]
추론 모델은 표면적인 응답을 넘어서
[06:48]
더 깊은 맥락적 이해와
[06:50]
논리적 추론을 바탕으로
[06:52]
결론을 도출하도록 설계된 AI 시스템입니다.
[06:54]
전통적인 대규모 언어 모델과 달리
[06:56]
대규모 데이터셋의 패턴을 기반으로
[06:58]
단어나 토큰을 예측하는 데
[07:00]
중점을 두는 것이 아니라
[07:01]
추론 모델은 사실을 평가하고
[07:04]
가능한 결과를 고려하며
[07:06]
구조화된 사고를 보여주는 답변을
[07:08]
종합하도록 설계되었습니다.
[07:10]
여기서 딥시크 R1이 차별화됩니다.
[07:12]
웹에서 본 학습 데이터의 패턴을
[07:14]
단순히 재생산하는 것이 아니라
[07:16]
개념 간의 관계를 이해하고
[07:18]
연역적 또는
[07:20]
귀납적이나 가설적 추론
[07:22]
프로세스를 적용할 수 있습니다.
[07:24]
연역적 추론은 일반적인 규칙을
[07:26]
특정 사례에 적용하는 방식으로 작동합니다.
[07:28]
예를 들어 '모든 인간은 죽는다. 소크라테스는
[07:31]
인간이다. 그러므로 소크라테스는
[07:33]
죽는다'와 같은 논리입니다. 귀납적 추론은
[07:36]
관찰을 기반으로 일반화합니다. 예를 들어 '내가
[07:38]
지금까지 본 모든 백조는 하얀색이었다.
[07:40]
따라서 백조는 아마도 하얀색일 것이다'와 같습니다.
[07:43]
변증법적 추론은 주어진 증거를 바탕으로
[07:44]
최선의 설명을 찾는 방식으로,
[07:46]
하나의 관찰에 대해 여러 가지
[07:48]
가설이 가능한 상황에서 주로 사용됩니다.
[07:50]
딥시크는 추론 모델로서 여러 정보들 간의
[07:53]
관계를 고려하고, 주어진 응답이
[07:54]
제시된 맥락에서 논리적으로 맞는지
[07:57]
평가합니다. 예를 들어, 만약
[07:58]
시스템 과열 원인을 설명해달라고 하면,
[08:01]
추론 모델은 단순히 학습 데이터에서
[08:03]
일반적인 원인들을 나열하는 대신
[08:05]
공기 흐름이나 부품 사양,
[08:07]
최근 시스템 동작과 같은 상황별
[08:09]
변수들을 종합적으로 평가하여
[08:11]
체계적인 진단을 제공합니다.
[08:13]
이는 자체 호스팅 AI에 있어 큰 진전입니다.
[08:16]
로컬 하드웨어에서 딥시크와 같은 추론
[08:18]
모델을 실행하면 대역폭 절약뿐만 아니라,
[08:20]
의미 있는 의사결정을 기기에서 직접 수행할 수 있어
[08:23]
개인정보 보호, 지연 시간, 비용이
[08:25]
중요한 환경에 매우 적합합니다.
[08:26]
시스템 로그 분석, 예측,
[08:28]
복잡한 문제 해결 등에 활용할 수 있으며,
[08:30]
추론 모델은 대규모 언어 모델이
[08:32]
때때로 간과할 수 있는
[08:35]
구조화된 사고 방식을 제공합니다.
[08:37]
가장 작은 모델인 15억 파라미터
[08:39]
모델에서는 초당 약 32개의
[08:41]
토큰을 처리할 수 있었는데,
[08:43]
이는 대부분의 상호작용 용도에
[08:45]
충분한 속도입니다.
[08:47]
적어도 사고 과정이 끝난 후에는
[08:49]
충분히 빠른 속도라고 생각합니다.
[08:51]
다음 단계인 70억 파라미터
[08:53]
모델로 넘어가면,
[08:55]
추론 속도가 초당 약 12개의
[08:57]
토큰으로 처리됩니다. 이는
[08:59]
가장 작은 모델보다는 꽤 느리지만,
[09:01]
클라우드에서 경험할 수 있는
[09:03]
정도의 속도입니다.
[09:04]
속도 면에서는 제가
[09:06]
읽는 속도보다 약간 느린 정도라
[09:07]
모델이 생각하는 과정을
[09:10]
실시간으로 따라갈 수 있습니다.
[09:12]
게다가 모두 로컬에서 실행되고
[09:14]
저렴한 하드웨어로도 구동 가능합니다.
[09:16]
우리는 모델을 더 이상 로드할 수 없을 때까지
[09:18]
계속 테스트해볼 수 있는데,
[09:19]
실제로 제가 그렇게 해보았지만
[09:21]
모든 과정을 보여드리지는 않겠습니다.
[09:22]
8GB 이상의 모델은
[09:23]
메모리에 로드할 수 없어서
[09:25]
70억 파라미터 모델 정도가 한계입니다.
[09:26]
더 큰 모델을 실행하려면
[09:28]
Orin Nano를 잠시 제쳐두고
[09:30]
NVIDIA의 또 다른 강력한 제품을
[09:32]
사용해야 합니다. 더 큰 모델을 실행하려면
[09:34]
RTX 6000 GPU를 사용해야 하는데,
[09:36]
이는 현재 소매가로
[09:37]
약 11만 달러이며, NVIDIA의 주요
[09:39]
제품 중 하나입니다.
[09:41]
이 GPU는 48GB GDDR6 메모리,
[09:44]
18,176개의 CUDA 코어, 91 테라플롭스의
[09:47]
부동소수점 연산 성능을 제공합니다.
[09:52]
이와 비슷한 가격대의 CPU로
[09:55]
799달러짜리 AMD Threadripper를 페어링하고,
[09:57]
512GB RAM을 추가하여
[10:00]
충분한 메모리를 확보할 수 있습니다.
[10:03]
가장 큰 모델을 돌리기 위한
[10:05]
충분한 공간이 필요할 것이고
[10:07]
딥시크 R1의 가장 큰 모델은
[10:09]
6,710억 개의 파라미터를 가지고 있습니다. 다행히도
[10:12]
제가 5GB 광랜을 사용하고 있어서 44GB를
[10:16]
다운로드 받는데도
[10:17]
20분 정도밖에 걸리지 않았습니다.
[10:19]
하지만 모델을 다운로드 받은 후에도
[10:21]
해시 값을 확인하는 데에만도
[10:23]
몇 분이 걸리고, 게다가
[10:25]
모델을 실행할 때마다
[10:27]
로딩하는 데 시간이 걸립니다. 결국
[10:29]
모델 크기가 404GB이고, SSD가 초당 4GB의
[10:33]
지속적인 읽기 속도를 낸다고 해도
[10:35]
최소 100초는 걸리게 됩니다.
[10:37]
완벽하게 효율적이지 않기 때문에
[10:38]
실제로는 모델을 로딩하는 데
[10:40]
몇 분 정도 걸린다고 봐야 합니다.
[10:43]
하지만 일단 로딩이 되면 잘 작동하고
[10:44]
인상적인 추론 능력을 보여줍니다. 실제로
[10:47]
요즘 화제가 되고 있는
[10:49]
딥시크의 성능 슬라이드를 보면
[10:50]
일부 작업에서는 ChatGPT를 능가하고
[10:52]
나머지 작업에서도 동등한 수준의
[10:54]
성능을 보여주는 것을 알 수 있습니다.
[10:57]
하지만 실시간 상호작용 측면에서는
[10:58]
성능이 아쉬운 점이 있습니다.
[11:00]
이렇게 강력한 하드웨어를 사용해도
[11:02]
시스템이 처리할 수 있는 최대 속도는
[11:04]
초당 약 4개의 토큰에 불과합니다.
[11:05]
또한 윈도우에서 AMD는
[11:08]
CPU 코어를 모두 활용하는 데
[11:10]
그다지 좋지 않다는 것을 발견했습니다.
[11:12]
특히 64개 이상의 코어가 있는 경우에는
[11:14]
중요한 점은
[11:15]
인터프리터에서 명령어를
[11:17]
실행하여 최대 스레드 수를
[11:18]
CPU에 맞게 설정해야
[11:21]
모든 코어를 활용할 수 있다는 것입니다.
[11:23]
스레드리퍼 관련 영상 설명을 보시면
[11:25]
CPU는 100% 사용률을 보이지만
[11:27]
더 작은 모델들의 경우
[11:29]
대부분이 GPU에서 실행되어
[11:31]
GPU 사용률이 100%에 근접합니다. 이제
[11:34]
마지막으로 가장 작은 모델과
[11:36]
가장 빠른 하드웨어로
[11:37]
초당 생성할 수 있는 토큰 수를
[11:40]
확인해보겠습니다. 딥시크에게
[11:41]
긴 이야기를 해달라고 요청하여
[11:43]
생각할 시간을 주면, GPU
[11:46]
사용률이 100%가 되는 것을 볼 수 있고
[11:48]
이번에는 CPU는 거의 유휴 상태입니다.
[11:51]
15억 개의 파라미터를 가진 모델을 실행하면
[11:53]
강력한 RTX 6000이
[11:55]
초당 233개의 토큰을 처리합니다.
[11:59]
오늘 다양한 하드웨어에서
[12:01]
딥시크를 살펴본 이 영상이 마음에 드셨다면
[12:02]
구독과 좋아요가 제게는 큰 도움이 되니
[12:04]
채널 구독을 고려해 주시면
[12:05]
영광이겠습니다.
[12:07]
이미 구독하신 분들께는 감사드리며
[12:09]
알림 설정도 켜주시고
[12:11]
좋아요도 눌러주시고
[12:12]
관심 있을 만한 친구들에게
[12:14]
공유도 해주시면 감사하겠습니다.
[12:15]
다른 유튜버가 말하듯이
[12:17]
유튜브 알고리즘을 해킹하는
[12:19]
자발적인 노력에 항상 감사드립니다.
[12:21]
그리고 자폐 스펙트럼과
[12:22]
관련된 주제에 관심이 있으시다면
[12:24]
제 책의 샘플을
[12:26]
아마존에서 확인해 주세요. 링크는 영상 설명에 있습니다.
[12:28]
스펙트럼 상에서
[12:29]
더 나은 삶을 살기 위해
[12:31]
제가 일찍 알았더라면 좋았을 모든 것들을 담았습니다.
[12:34]
그럼 다음에 또
[12:35]
Dave's Garage에서 만나요.
[12:38]
안녕 내 베이비, 안녕 내 허니, 안녕 내 소중한
[12:41]
걸