250달러부터 2만5천 달러까지 하드웨어로 집에서 Deepseek R1 실행하기: 설치부터 질문까지

Dave's Garage 구독자 1,040,000명

요약

본 영상은 NVIDIA Jetson Nano와 같은 엣지 컴퓨팅 장비를 활용해 Deepseek R1 대화형 AI 모델을 로컬 환경에서 실행하는 방법을 상세히 설명합니다. 올라마(olama)를 이용한 간편한 설치 과정과 모델 다운로드, 그리고 데이터 프라이버시와 낮은 지연 시간을 비롯해 클라우드 의존 없이 AI를 운영하는 다양한 이점을 강조합니다. 또한 1.5억 파라미터부터 7억 파라미터 모델, 그리고 고성능 RTX 6000 GPU 시스템을 이용한 성능 비교와 실제 활용 사례를 제시하며, AI 추론 및 합리적 사고 모델의 작동 원리를 설명합니다. 마지막으로, 실용적 활용법과 시스템 구성 팁, 그리고 사용자 참여를 유도하는 마무리 멘트를 통해 AI self-hosting의 매력을 전달합니다.

주요 키워드

Deepseek R1 Jetson Nano 올라마 자체 호스팅 프라이버시 추론 모델 CUDA 코어 텐서 코어 인퍼런스 로컬 AI

하이라이트

🔑 Deepseek R1은 클라우드를 거치지 않고 로컬에서 AI 모델 실행이 가능하여 데이터 프라이버시와 빠른 응답성을 보장합니다.
⚡️ 영상 초반에 소개되는 NVIDIA Jetson Nano는 1024 CUDA 코어, 32 텐서 코어, 8GB RAM 등 뛰어난 사양을 갖춘 엣지 컴퓨팅 장치입니다.
🚀 올라마(olama)를 통해 복잡한 설치 과정을 간소화하여 누구나 명령줄에서 손쉽게 실행하고 관리할 수 있는 환경을 제공합니다.
🌟 1.5억 파라미터 모델부터 7억 파라미터 모델, 그리고 RTX 6000 GPU를 사용한 고성능 시스템까지, 다양한 하드웨어에서의 성능 비교가 이루어집니다.
📌 Deepseek R1은 단순한 텍스트 예측을 넘어서, 추론(deductive, inductive, abductive reasoning) 기능을 포함한 구조적 사고 모델임을 강조합니다.
🛠️ 로컬 AI 실행은 코딩 프로젝트, 홈 오토메이션 등 다양한 실생활 활용 사례에 적용되며, 클라우드 기반 서비스의 한계를 극복합니다.
💡 비용 효율적인 시스템 구성이 가능하여 250달러 정도의 저가 하드웨어로도 높은 수준의 AI 추론 작업 실행이 가능합니다.

용어 설명

Deepseek R1

대화형 AI 모델로, 로컬 하드웨어에서 동작하며 일반 LLM보다 추론 능력이 뛰어난 모델입니다.

올라마(olama)

대형 언어 모델의 설치, 구성, 다운로드 과정을 단순화시켜주는 배포 도구로, 커맨드 라인에서도 사용 가능합니다.

Jetson Nano

NVIDIA에서 제공하는 소형 엣지 컴퓨팅 장치로, 강력한 GPU와 CPU 코어를 갖추어 AI 추론 작업에 최적화되어 있습니다.

CUDA 코어

GPU 내에서 병렬 연산 작업을 수행하는 처리 코어로, 대규모 연산에 효과적입니다.

텐서 코어

딥러닝 연산에 특화된 GPU의 구성 요소로, AI 모델의 학습 및 추론 속도를 향상시킵니다.

추론 모델

단순한 패턴 예측을 넘어, 데이터 간 관계를 분석하고 논리적 결론을 도출할 수 있는 AI 시스템입니다.

Dave가 NVIDIA Jetson Nano 및 Deepseek R1의 기본 사양과 역할에 대해 소개합니다. 모델이 로컬에서 AI 추론을 수행할 수 있는 강력한 하드웨어임을 설명합니다.

[00:00] 엔비디아 젯슨 오린 나노 수퍼를 소개하고, 이 장치가 갖춘 1024개의 쿠다 코어, 32개의 텐서 코어, 8GB RAM 등의 하드웨어 스펙을 설명합니다.

[00:18] 데스크톱이나 나노에서 딥시크 R1을 로컬로 실행하는 방법과 스레드리퍼에서 670억 파라미터 버전을 실행하는 것을 비교할 계획을 소개합니다.

[00:34] 기존의 클라우드 기반 AI 서비스와 달리, 로컬에서 AI를 실행할 때의 장점으로 개인정보 보호, 비용 절감, 응답 속도 개선 등을 설명합니다.

클라우드를 사용하지 않고 집이나 개인 실험실에서 AI를 실행하는 이점에 대해 언급합니다. 데이터 프라이버시, 구독료 절감, 낮은 네트워크 지연 시간의 이점을 강조합니다.

[01:29] 젯슨 오린 나노의 상세 스펙을 다시 설명하고, 이 장치가 AI 워크로드에 특화되어 있음을 강조합니다.

[02:00] 올라마(ollama)라는 프로그램을 소개하고, 이를 통해 AI 모델의 설치와 실행이 얼마나 간단해지는지 설명합니다.

올라마(olama) 도구를 활용한 Deepseek R1 설치 및 모델 다운로드 과정을 자세히 설명합니다. 커맨드 라인 명령을 통해 빠르게 모델을 불러오는 방법을 시연합니다.

[02:36] Ollama 설치 후에는 명령줄이나 웹 인터페이스를 통해 LLaMA를 Jetson Nano에서 데스크톱 PC처럼 실행할 수 있습니다.

[02:49] Deepseek R1 모델을 'ollama pull deepseek R1:1.5B' 명령어로 다운로드하면, 이후에는 인터넷 없이도 완전히 로컬에서 실행 가능합니다.

[03:10] 로컬 실행의 주요 장점은 프라이버시로, 모든 데이터가 사용자의 기기에만 저장되어 외부 유출 걱정이 없습니다.

[03:34] 자체 호스팅의 만족감과 소유감을 느낄 수 있으며, 인터넷 연결 없이도 지속적으로 사용할 수 있습니다.

[03:58] 설치 완료 후에는 터미널이나 웹 인터페이스를 통해 실시간으로 질의응답이 가능하며, 텐서 코어 최적화로 빠른 처리가 가능합니다.

[04:30] 코딩 프로젝트나 홈 오토메이션 등 실제 응용에서 비용 걱정 없이 자유롭게 사용할 수 있습니다.

[05:01] 클라우드 서버 없이도 로컬에서 AI가 보안 카메라 영상을 분석하고 특정 인물을 찾을 수 있는 기능을 소개합니다.

[05:14] 젯슨 나노를 이용한 진입로 모니터링 시스템 구현 사례를 설명하며, PyTorch와 YOLO를 활용한 차량 감지 기능을 소개합니다.

[05:32] 젯슨 나노의 가성비와 활용성을 설명하며, 250달러 미만으로 다양한 AI 워크로드와 프로젝트를 처리할 수 있음을 강조합니다.

[06:04] 젯슨 나노의 한계점을 설명하면서, 대규모 모델 학습은 불가능하지만 추론 성능은 매우 우수함을 강조합니다.

[06:42] 딥시크 R1이 단순한 언어 모델이 아닌 추론 모델임을 설명하며, 깊은 맥락적 이해와 논리적 추론 능력을 강조합니다.

[07:28] 연역적, 귀납적, 변증법적 추론의 개념과 예시를 설명합니다. 연역적 추론은 일반 원칙에서 특수한 결론을, 귀납적 추론은 관찰을 통한 일반화를, 변증법적 추론은 최선의 설명을 찾는 방식입니다.

[07:50] 딥시크 추론 모델의 작동 방식을 설명합니다. 여러 정보를 종합적으로 분석하여 맥락에 맞는 논리적 답변을 제공하며, 시스템 과열 원인 분석과 같은 실제 사례를 들어 설명합니다.

[08:16] 자체 호스팅 AI의 장점을 설명합니다. 로컬 하드웨어에서의 추론 모델 실행이 가져오는 개인정보 보호, 지연 시간 감소, 비용 절감 등의 이점을 강조합니다.

[08:37] 다양한 크기의 딥시크 모델 성능을 비교합니다. 15억 파라미터 모델(초당 32토큰)과 70억 파라미터 모델(초당 12토큰)의 처리 속도와 실용성을 분석합니다.

1.5억 파라미터 모델과 7억 파라미터 모델 간의 성능 차이를 비교합니다. RTX 6000 GPU를 사용한 고성능 시스템에서의 토큰 처리 속도 및 모델 확장에 대해 다룹니다.

[09:16] 하드웨어 요구사항과 확장성에 대해 설명합니다. 8GB 메모리 제한으로 인한 한계와 더 큰 모델 실행을 위한 고성능 하드웨어(RTX 6000 GPU, ThreadRipper CPU) 구성을 소개합니다.

[10:03] 대형 언어 모델을 실행하기 위해 512GB RAM을 설치하고, 딥시크 R1의 6,710억 파라미터 모델을 다운로드합니다.

[10:19] 44GB 크기의 모델을 다운로드하고 해시를 확인하는 데 시간이 소요되며, 404GB 모델 로딩에도 상당한 시간이 필요합니다.

[10:44] 모델이 로드되면 ChatGPT와 유사하거나 더 나은 성능을 보여주지만, 초당 4토큰 정도의 느린 처리 속도가 단점입니다.

[11:05] 윈도우에서 64코어 이상 CPU의 활용도 문제와 해결 방법에 대해 설명합니다.

[11:29] 작은 모델은 GPU를 주로 사용하며, 최소 모델에서는 RTX 6000이 초당 233토큰의 처리 속도를 보여줍니다.

실제 스토리텔링을 통한 성능 시연과 함께 최종 토큰 생성 속도 테스트를 진행합니다. 구독 및 SNS 공유를 유도하며 마무리 멘트를 전달합니다.

타임라인 정보가 없습니다.

[00:00] 안녕하세요, 저는 Dave입니다. 제 작업실에 오신 것을 환영합니다.

[00:03] 이것은 엔비디아의 젯슨 오린 나노 수퍼인데요,

[00:05] 딥시크 R1 모델을 직접 실행할 수 있는

[00:07] 인상적인 엣지 컴퓨터입니다.

[00:09] 1024개의 쿠다 코어와 32개의

[00:12] 텐서 코어, 8GB의

[00:14] LPDDR5 메모리, 6개의 ARM CPU 코어, SSD 확장성을 갖추고 있습니다.

[00:18] 오늘은 이것을 사용해서 AI의 새로운 방향을 제시하려고 합니다.

[00:20] 여러분의 데스크톱이나 나노에서

[00:22] 로컬로 실행하는 방법을 보여드리고

[00:24] 비교를 위해 최상급 스레드리퍼에서 실행되는

[00:27] 670억 파라미터 버전의

[00:30] 완전 해제된 성능도 보여드리겠습니다.

[00:31] 보시다시피 AI와 관련해서

[00:34] 대부분의 사람들은 웹 브라우저 창에서

[00:36] 질문을 하고

[00:37] 클라우드가 처리하기를 기다리는 데 익숙합니다.

[00:39] 하지만 클라우드가 전혀 필요 없다면 어떨까요?

[00:41] 같은 질문을 하고

[00:43] 여러분의 책상 위에서 직접 실행되는

[00:44] AI로부터 답변을 받을 수 있다면 어떨까요?

[00:46] 여러분의 홈 랩이나 심지어 차고에서도 말이죠.

[00:49] 여기서 딥시크 R1이 등장합니다.

[00:51] 이것은 차세대 대화형 AI로,

[00:54] 클라우드에 묶여있는 다른 AI들과 달리

[00:56] 집에서 직접 호스팅할 수 있습니다.

[00:58] 이것의 장점은 생각해보면 명확합니다.

[01:00] 데이터를 완전히 통제할 수 있고,

[01:02] 개인정보 보호가 다른 사람의 문제가 아니며,

[01:04] 많은 서비스들이 청구하는

[01:06] 반복되는 구독료를 피할 수 있습니다.

[01:07] 그리고 아마도 가장 좋은 점은

[01:10] 단순히 더 빠르거나,

[01:12] 서버 지연이나 네트워크 지연에

[01:14] 영향을 받지 않아 더 반응성이 좋다는 것입니다.

[01:16] 갑자기 진정으로 여러분만의 AI

[01:18] 어시스턴트를 갖게 된 것이죠.

[01:19] 중개자가 필요 없습니다. 그리고 저처럼

[01:22] 큰 컨텍스트 윈도우가 필요한

[01:23] 복잡한 코드를 다루는 작업을 하고 있다면,

[01:26] OpenAI 구독 요금이

[01:27] 그만큼 빨리 소진되지 않을 것입니다.

[01:29] 앞서 말씀드렸듯이 이 작은 기기의 스펙은

[01:31] 꽤 인상적입니다. 1024개의 쿠다 코어,

[01:33] 16개의 텐서 코어, 6개의 CPU 코어, 8GB의 RAM,

[01:38] 그리고 여기에는 1TB SSD가

[01:41] 구성되어 있는데, 이 모든 것이 실제로는 무엇을 의미할까요?

[01:43] 실용적인 관점에서 보면,

[01:45] 워크스테이션 GPU의 두뇌를

[01:46] 손바닥에 거의 들어갈 만한 크기로

[01:48] 축소한 것과 같습니다.

[01:50] 하지만 여기서 핵심은

[01:52] AI 워크로드에 특화되어 있다는 점입니다.

[01:53] 이는 딥시크 R1을 위한 완벽한 플랫폼이 되죠.

[01:55] 엣지 하드웨어에서 뛰어난 성능을 발휘하는

[01:58] AI 모델입니다. 이제 설정에 대해 이야기해 보겠습니다.

[02:00] 딥시크 R1을 가정에서 실행하기 위해

[02:03] 올라마라는 프로그램을 사용합니다.

[02:04] 올라마에 대해 모르신다면,

[02:06] 대규모 언어 모델을 위한

[02:08] 간소화된 배포 도구라고 생각하시면 됩니다.

[02:09] 올라마를 실행하면 모델을 다운로드하고 실행해줍니다.

[02:12] 올라마는 AI 모델의 다운로드, 설정,

[02:14] 구성 과정을 단순화합니다.

[02:16] 전문가가 되거나 많은 지식이

[02:18] 필요하지 않죠. 저도 알고 있습니다.

[02:20] 여러분 중 일부는 제가 그랬던 것처럼

[02:22] 커맨드 라인을 매우 좋아하실 거예요.

[02:23] 특히 웹 페이지도 로드할 수 없던

[02:25] 기계에서 커널을 컴파일하며 자란 분들은요.

[02:26] 하지만 믿으셔야 합니다.

[02:28] 올라마는 정말 삶을 더 쉽게 만들어줍니다.

[02:30] 몇 시간이 아닌 몇 분 만에 설정을 완료할 수 있고,

[02:32] 좋은 소식은 여전히

[02:34] 커맨드 라인으로도 조작할 수 있다는 겁니다.

[02:36] 선호하신다면 실행 후에도

[02:37] 명령줄로 작업할 수 있습니다. Jetson Nano에서

[02:40] 일반 데스크톱 PC처럼

[02:41] LLaMA를 설정하고 동일한 방식으로 사용해보겠습니다.

[02:44] 여기서 다루는 모든 내용은

[02:45] 여러분의 데스크톱 GPU에서도 동일하게 작동합니다.

[02:48] 설치는 간단하며,

[02:49] 설치가 완료되면 Hugging Face의

[02:51] 카탈로그에서 Deepseek R1 모델을

[02:54] 다음 명령어로 다운로드합니다: 'ollama pull deepseek

[02:58] R1:1.5B'. 이 단계에서는

[03:02] 인터넷 연결이 필요하지만,

[03:03] 모델 다운로드가 완료되면

[03:04] 더 이상 인터넷이 필요 없습니다.

[03:06] 네트워크 케이블을 뽑아도 되죠.

[03:08] 이후의 모든 작업은 완전히 로컬에서 이루어집니다.

[03:10] 이게 왜 중요할까요? 첫째로 프라이버시입니다.

[03:12] Deepseek R1을 로컬에서 실행하면

[03:14] 여러분의 질의와 데이터가

[03:16] 절대 외부로 유출되지 않습니다.

[03:18] 클라우드 기반 AI에 민감한 질문을

[03:20] 하기 꺼려본 적이 있다면,

[03:22] 여러분만이 아닙니다. 질문이

[03:24] 먼 서버 어딘가에 영원히 남아있을 수 있다는

[03:26] 생각은 불안할 수 있죠. Deepseek

[03:28] R1에서는 여러분의 모든 질문이

[03:30] 책상 위의 Jetson Nano 안에만

[03:32] 남아있습니다. 하지만 프라이버시만이 장점은 아닙니다.

[03:34] 직접 호스팅한다는 것에는

[03:36] 특별한 만족감이 있습니다. 마치

[03:38] 과거에 많은 사람들이

[03:40] 웹 서버를 직접 운영했던 것처럼요.

[03:42] 사실 집에서

[03:43] Exchange 서버를 돌릴 필요는 없었지만,

[03:45] 전 그렇게 했죠. Deepseek R1을 로컬에서 실행하는 것도

[03:47] 같은 즐거움을 줍니다. 이것은

[03:49] 여러분이 직접 제어하는 프로젝트이며,

[03:51] 그에 따른 소유감도 느낄 수 있습니다.

[03:53] 게다가

[03:54] 인터넷이 끊어져도

[03:56] 계속 작동한다는 장점도 있죠.

[03:58] Ollama가 설치되고 모델이

[04:00] 로드되면, 터미널을 열거나

[04:02] 웹 인터페이스에 연결하여

[04:03] 쉽게 쿼리를 실행할 수 있습니다.

[04:05] 다른 AI 챗봇처럼

[04:07] 질문을 입력하면 거의 실시간으로

[04:09] 응답이 돌아옵니다. 물론

[04:11] 위대한 미국 소설을 쓰거나

[04:12] 혁신적인 유체역학 시뮬레이션을

[04:15] 요청하지 않는다는 전제하에서요.

[04:17] 이것은 추론 모델이므로

[04:18] 답변을 생성하기 전에 생각하는 시간이 필요하지만,

[04:20] 즉시 시작되고 빠르게 처리됩니다.

[04:22] Jetson Nano는

[04:24] 최적화된 텐서 코어와

[04:25] GPU 연산 능력 덕분에 대부분의

[04:28] 일상적인 대화를 쉽게 처리합니다.

[04:30] 실용적인 측면에서

[04:31] 생각해봅시다. 예를 들어

[04:33] 파이썬이나 C++ 코딩 프로젝트를 진행 중이라고 해보죠.

[04:36] 복잡한 코드를 AI와 함께 작업하다보면

[04:37] OpenAI의 월간 크레딧을 며칠 만에

[04:40] 모두 소진할 수 있습니다.

[04:42] 컨텍스트 윈도우가 커질수록

[04:44] 더 많은 리소스를 소비하기

[04:46] 때문이죠. 하지만 로컬에서 실행하면

[04:47] 신경 쓸 필요가 없습니다. 코드가

[04:50] 잘 작동하기만 하면 되고,

[04:51] 진행 과정에서 발생하는

[04:53] 비용도 걱정할 필요가 없죠. 홈 오토메이션

[04:55] 매니아들에게는 어떨까요? 이 설정으로

[04:57] 스마트홈의 두뇌 역할을 할 수 있어

[04:59] 음성 명령을 처리하고 센서 데이터를 분석할 수 있습니다.

[05:01] 제안을 할 수 있습니다.

[05:03] 이 모든 것이 단 한 바이트의 데이터도

[05:04] 클라우드 서버로 보낼 필요 없이 가능합니다.

[05:07] AI에게 보안 카메라 영상을 분석하여

[05:09] 특정 인물을 찾도록 요청하면

[05:11] 모든 것이 로컬에서 안전하게 처리됩니다.

[05:14] 이전 영상에서 보셨듯이

[05:15] 제가 오린 나노를 설치하여

[05:17] 제 집 진입로를 모니터링했는데, PyTorch와

[05:20] YOLO를 사용하여 차량이 들어오고

[05:22] 나가는 것을 감지하고 알려줬죠.

[05:24] 이것이 바로 나노의 핵심 기능입니다.

[05:26] 작지만 장난감이 아닌

[05:28] 실제 작업을 수행할 수 있는

[05:30] 하드웨어를 갖추고 있으며 훌륭하게 작동합니다.

[05:32] 물론 젯슨 나노만이

[05:34] 딥시크 R1을 실행할 수 있는 것은 아니지만

[05:36] 성능 대비 가격 면에서

[05:38] 가장 효율적인 옵션 중 하나입니다.

[05:40] 엔터프라이즈급 GPU나

[05:42] 클라우드 크레딧에 수천 달러를 투자할 필요가 없습니다.

[05:45] 250달러 미만으로

[05:47] 대부분의 개인 AI 워크로드를

[05:48] 처리할 수 있는 성능과

[05:50] 채팅 기반 쿼리를 넘어선

[05:52] 다양한 프로젝트를 처리할 수 있습니다.

[05:55] 젯슨 시리즈는 엣지 컴퓨팅용으로

[05:56] 설계되어 있어

[05:57] 모바일이나 임베디드 사용에도

[05:59] 적합하며, 로봇부터

[06:01] 커스텀 IoT 기기까지 다양하게 활용할 수 있습니다.

[06:04] 이 시점에서 의문이 들 수 있습니다.

[06:05] 단점은 무엇일까요?

[06:07] 사실 큰 단점은 없습니다.

[06:09] 로컬에서 AI 모델을 실행할 때

[06:11] 하드웨어의 제약이 있고

[06:12] 대규모 언어 모델을

[06:14] 젯슨 나노에서 학습시킬 순 없지만

[06:16] 그게 중요한 게 아닙니다. 추론, 즉

[06:19] AI를 사용하여 답변을 생성하는 데

[06:21] 젯슨 나노는 자신의 무게급을

[06:22] 훨씬 뛰어넘는 성능을 보여줍니다.

[06:25] 이를 입증하기 위해 15억 개의

[06:27] 매개변수만 가진 가장 작은 모델로 시작해

[06:29] '왜 모든 눈송이가

[06:31] 서로 다르게 보이는가'와 같은

[06:33] 간단한 과학 질문을 해보겠습니다.

[06:35] 프롬프트를 처리하고

[06:36] 거의 즉시 생각하기 시작하여

[06:38] 1초도 안 되는 시간 안에

[06:40] 추론 단계로 들어갑니다.

[06:42] 딥시크는 단순한

[06:44] 대규모 언어 모델이 아닌 추론 모델입니다.

[06:46] 추론 모델은 표면적인 응답을 넘어서

[06:48] 더 깊은 맥락적 이해와

[06:50] 논리적 추론을 바탕으로

[06:52] 결론을 도출하도록 설계된 AI 시스템입니다.

[06:54] 전통적인 대규모 언어 모델과 달리

[06:56] 대규모 데이터셋의 패턴을 기반으로

[06:58] 단어나 토큰을 예측하는 데

[07:00] 중점을 두는 것이 아니라

[07:01] 추론 모델은 사실을 평가하고

[07:04] 가능한 결과를 고려하며

[07:06] 구조화된 사고를 보여주는 답변을

[07:08] 종합하도록 설계되었습니다.

[07:10] 여기서 딥시크 R1이 차별화됩니다.

[07:12] 웹에서 본 학습 데이터의 패턴을

[07:14] 단순히 재생산하는 것이 아니라

[07:16] 개념 간의 관계를 이해하고

[07:18] 연역적 또는

[07:20] 귀납적이나 가설적 추론

[07:22] 프로세스를 적용할 수 있습니다.

[07:24] 연역적 추론은 일반적인 규칙을

[07:26] 특정 사례에 적용하는 방식으로 작동합니다.

[07:28] 예를 들어 '모든 인간은 죽는다. 소크라테스는

[07:31] 인간이다. 그러므로 소크라테스는

[07:33] 죽는다'와 같은 논리입니다. 귀납적 추론은

[07:36] 관찰을 기반으로 일반화합니다. 예를 들어 '내가

[07:38] 지금까지 본 모든 백조는 하얀색이었다.

[07:40] 따라서 백조는 아마도 하얀색일 것이다'와 같습니다.

[07:43] 변증법적 추론은 주어진 증거를 바탕으로

[07:44] 최선의 설명을 찾는 방식으로,

[07:46] 하나의 관찰에 대해 여러 가지

[07:48] 가설이 가능한 상황에서 주로 사용됩니다.

[07:50] 딥시크는 추론 모델로서 여러 정보들 간의

[07:53] 관계를 고려하고, 주어진 응답이

[07:54] 제시된 맥락에서 논리적으로 맞는지

[07:57] 평가합니다. 예를 들어, 만약

[07:58] 시스템 과열 원인을 설명해달라고 하면,

[08:01] 추론 모델은 단순히 학습 데이터에서

[08:03] 일반적인 원인들을 나열하는 대신

[08:05] 공기 흐름이나 부품 사양,

[08:07] 최근 시스템 동작과 같은 상황별

[08:09] 변수들을 종합적으로 평가하여

[08:11] 체계적인 진단을 제공합니다.

[08:13] 이는 자체 호스팅 AI에 있어 큰 진전입니다.

[08:16] 로컬 하드웨어에서 딥시크와 같은 추론

[08:18] 모델을 실행하면 대역폭 절약뿐만 아니라,

[08:20] 의미 있는 의사결정을 기기에서 직접 수행할 수 있어

[08:23] 개인정보 보호, 지연 시간, 비용이

[08:25] 중요한 환경에 매우 적합합니다.

[08:26] 시스템 로그 분석, 예측,

[08:28] 복잡한 문제 해결 등에 활용할 수 있으며,

[08:30] 추론 모델은 대규모 언어 모델이

[08:32] 때때로 간과할 수 있는

[08:35] 구조화된 사고 방식을 제공합니다.

[08:37] 가장 작은 모델인 15억 파라미터

[08:39] 모델에서는 초당 약 32개의

[08:41] 토큰을 처리할 수 있었는데,

[08:43] 이는 대부분의 상호작용 용도에

[08:45] 충분한 속도입니다.

[08:47] 적어도 사고 과정이 끝난 후에는

[08:49] 충분히 빠른 속도라고 생각합니다.

[08:51] 다음 단계인 70억 파라미터

[08:53] 모델로 넘어가면,

[08:55] 추론 속도가 초당 약 12개의

[08:57] 토큰으로 처리됩니다. 이는

[08:59] 가장 작은 모델보다는 꽤 느리지만,

[09:01] 클라우드에서 경험할 수 있는

[09:03] 정도의 속도입니다.

[09:04] 속도 면에서는 제가

[09:06] 읽는 속도보다 약간 느린 정도라

[09:07] 모델이 생각하는 과정을

[09:10] 실시간으로 따라갈 수 있습니다.

[09:12] 게다가 모두 로컬에서 실행되고

[09:14] 저렴한 하드웨어로도 구동 가능합니다.

[09:16] 우리는 모델을 더 이상 로드할 수 없을 때까지

[09:18] 계속 테스트해볼 수 있는데,

[09:19] 실제로 제가 그렇게 해보았지만

[09:21] 모든 과정을 보여드리지는 않겠습니다.

[09:22] 8GB 이상의 모델은

[09:23] 메모리에 로드할 수 없어서

[09:25] 70억 파라미터 모델 정도가 한계입니다.

[09:26] 더 큰 모델을 실행하려면

[09:28] Orin Nano를 잠시 제쳐두고

[09:30] NVIDIA의 또 다른 강력한 제품을

[09:32] 사용해야 합니다. 더 큰 모델을 실행하려면

[09:34] RTX 6000 GPU를 사용해야 하는데,

[09:36] 이는 현재 소매가로

[09:37] 약 11만 달러이며, NVIDIA의 주요

[09:39] 제품 중 하나입니다.

[09:41] 이 GPU는 48GB GDDR6 메모리,

[09:44] 18,176개의 CUDA 코어, 91 테라플롭스의

[09:47] 부동소수점 연산 성능을 제공합니다.

[09:52] 이와 비슷한 가격대의 CPU로

[09:55] 799달러짜리 AMD Threadripper를 페어링하고,

[09:57] 512GB RAM을 추가하여

[10:00] 충분한 메모리를 확보할 수 있습니다.

[10:03] 가장 큰 모델을 돌리기 위한

[10:05] 충분한 공간이 필요할 것이고

[10:07] 딥시크 R1의 가장 큰 모델은

[10:09] 6,710억 개의 파라미터를 가지고 있습니다. 다행히도

[10:12] 제가 5GB 광랜을 사용하고 있어서 44GB를

[10:16] 다운로드 받는데도

[10:17] 20분 정도밖에 걸리지 않았습니다.

[10:19] 하지만 모델을 다운로드 받은 후에도

[10:21] 해시 값을 확인하는 데에만도

[10:23] 몇 분이 걸리고, 게다가

[10:25] 모델을 실행할 때마다

[10:27] 로딩하는 데 시간이 걸립니다. 결국

[10:29] 모델 크기가 404GB이고, SSD가 초당 4GB의

[10:33] 지속적인 읽기 속도를 낸다고 해도

[10:35] 최소 100초는 걸리게 됩니다.

[10:37] 완벽하게 효율적이지 않기 때문에

[10:38] 실제로는 모델을 로딩하는 데

[10:40] 몇 분 정도 걸린다고 봐야 합니다.

[10:43] 하지만 일단 로딩이 되면 잘 작동하고

[10:44] 인상적인 추론 능력을 보여줍니다. 실제로

[10:47] 요즘 화제가 되고 있는

[10:49] 딥시크의 성능 슬라이드를 보면

[10:50] 일부 작업에서는 ChatGPT를 능가하고

[10:52] 나머지 작업에서도 동등한 수준의

[10:54] 성능을 보여주는 것을 알 수 있습니다.

[10:57] 하지만 실시간 상호작용 측면에서는

[10:58] 성능이 아쉬운 점이 있습니다.

[11:00] 이렇게 강력한 하드웨어를 사용해도

[11:02] 시스템이 처리할 수 있는 최대 속도는

[11:04] 초당 약 4개의 토큰에 불과합니다.

[11:05] 또한 윈도우에서 AMD는

[11:08] CPU 코어를 모두 활용하는 데

[11:10] 그다지 좋지 않다는 것을 발견했습니다.

[11:12] 특히 64개 이상의 코어가 있는 경우에는

[11:14] 중요한 점은

[11:15] 인터프리터에서 명령어를

[11:17] 실행하여 최대 스레드 수를

[11:18] CPU에 맞게 설정해야

[11:21] 모든 코어를 활용할 수 있다는 것입니다.

[11:23] 스레드리퍼 관련 영상 설명을 보시면

[11:25] CPU는 100% 사용률을 보이지만

[11:27] 더 작은 모델들의 경우

[11:29] 대부분이 GPU에서 실행되어

[11:31] GPU 사용률이 100%에 근접합니다. 이제

[11:34] 마지막으로 가장 작은 모델과

[11:36] 가장 빠른 하드웨어로

[11:37] 초당 생성할 수 있는 토큰 수를

[11:40] 확인해보겠습니다. 딥시크에게

[11:41] 긴 이야기를 해달라고 요청하여

[11:43] 생각할 시간을 주면, GPU

[11:46] 사용률이 100%가 되는 것을 볼 수 있고

[11:48] 이번에는 CPU는 거의 유휴 상태입니다.

[11:51] 15억 개의 파라미터를 가진 모델을 실행하면

[11:53] 강력한 RTX 6000이

[11:55] 초당 233개의 토큰을 처리합니다.

[11:59] 오늘 다양한 하드웨어에서

[12:01] 딥시크를 살펴본 이 영상이 마음에 드셨다면

[12:02] 구독과 좋아요가 제게는 큰 도움이 되니

[12:04] 채널 구독을 고려해 주시면

[12:05] 영광이겠습니다.

[12:07] 이미 구독하신 분들께는 감사드리며

[12:09] 알림 설정도 켜주시고

[12:11] 좋아요도 눌러주시고

[12:12] 관심 있을 만한 친구들에게

[12:14] 공유도 해주시면 감사하겠습니다.

[12:15] 다른 유튜버가 말하듯이

[12:17] 유튜브 알고리즘을 해킹하는

[12:19] 자발적인 노력에 항상 감사드립니다.

[12:21] 그리고 자폐 스펙트럼과

[12:22] 관련된 주제에 관심이 있으시다면

[12:24] 제 책의 샘플을

[12:26] 아마존에서 확인해 주세요. 링크는 영상 설명에 있습니다.

[12:28] 스펙트럼 상에서

[12:29] 더 나은 삶을 살기 위해

[12:31] 제가 일찍 알았더라면 좋았을 모든 것들을 담았습니다.

[12:34] 그럼 다음에 또

[12:35] Dave's Garage에서 만나요.

[12:38] 안녕 내 베이비, 안녕 내 허니, 안녕 내 소중한

[12:41] 걸