[00:00]
딥시크가 V3로 마이너 업데이트를 했는데
[00:03]
이건 제가 지금까지 봤던 LLM 업데이트 중
[00:04]
가장 큰 변화 중 하나일 것 같습니다
[00:07]
코딩 능력이 정말 인상적인데요
[00:10]
예를 들어, 아주 간단한 프롬프트 하나로
[00:12]
이 전체 웹사이트를 한 번에 만들어냈습니다
[00:16]
모든 링크도 제대로 작동하고 있죠
[00:20]
제가 사용한 프롬프트는 이거였습니다:
[00:22]
'HTML, CSS, JS를 사용해서 모던한 랜딩 페이지를 코딩하고
[00:26]
전부 하나의 파일에 넣어줘'
[00:29]
그랬더니 거의 20,000 토큰에 달하는 코드를
[00:34]
생성했습니다. 비교를 위해
[00:37]
Sonnet 3.7의 결과물과
[00:41]
Claude-3-Opus의 최고 설정 출력을 보여드리겠습니다
[00:45]
많은 사람들이 자체 벤치마크를
[00:46]
보고하기 시작했는데, 이건 정말
[00:50]
인상적입니다. 특히 코딩 관련 작업에서요
[00:52]
여기 제가 시도한 다른 코딩 과제가 있는데
[00:55]
'회전하는 직사각형 안에서 공이 튀는
[00:58]
HTML 스크립트를 작성해줘'입니다
[01:01]
처음에는 파이썬 스크립트로
[01:03]
요청했다가 나중에 HTML로 바꿨는데
[01:05]
딥시크 앱에서 HTML을
[01:08]
바로 렌더링할 수 있기 때문이었죠
[01:11]
여기 생성된 결과물을 보시면
[01:15]
정말 인상적입니다. 출력물의 품질이
[01:17]
시각적인 면에서나
[01:20]
상호작용의 정확도 면에서나 놀랍습니다
[01:23]
그래서 저는 공이 어느 면에 부딪히는지
[01:27]
강조 표시를 하고 싶어서
[01:30]
'공이 면에 닿을 때
[01:33]
해당 면이 강조되도록
[01:35]
표시해줘'라고 추가했더니
[01:38]
단 한 번의 시도로 오류 없이
[01:41]
코드를 업데이트했고 실행해보면
[01:44]
면과 충돌할 때마다
[01:46]
여기에 표시가 되는 걸 볼 수 있습니다
[01:50]
이 모델은 추론 능력도 뛰어난 것 같은데요
[01:53]
예를 들어 일부 오도된
[01:56]
주의력 프롬프트로 테스트했을 때
[01:59]
아주 간단한 수정만으로
[02:03]
대부분 올바른 답을 얻을 수 있었습니다
[02:05]
여기 첫 번째 프롬프트를 보면
[02:08]
전형적인 트롤리 문제인데
[02:10]
유일한 차이점은
[02:12]
선로 위의 사람들이 이미 죽어있다는 겁니다
[02:15]
이 간단한 프롬프트로는 틀린 답을 주는데
[02:17]
고전적인 트롤리 문제처럼
[02:20]
답변하기 시작했거든요
[02:22]
그래서 '사용자의 입력을 주의 깊게 읽고
[02:24]
답변하기 전에 그대로 다시 써보세요'라고
[02:27]
추가했더니
[02:29]
이 트릭이 더 큰 모델들에서
[02:32]
정말 잘 작동하더라고요
[02:34]
추론 모델이 아닌
[02:36]
Gemini 1.5 Pro 같은 모델에서도
[02:39]
이 기법으로 추론 능력을
[02:42]
끌어올릴 수 있습니다
[02:45]
먼저 사용자가 제공한 프롬프트를 쓰고
[02:47]
'아니요, 레버를 당기지 않겠습니다.
[02:50]
이유는 다섯 명이
[02:52]
이미 죽어있기 때문입니다'라고 답했죠
[02:54]
사람들이 이미 죽어있다는 사실을
[02:57]
자동으로 인식해서 상황이 달라진 거죠
[03:00]
죽은 고양이 문제에서도
[03:03]
슈뢰딩거의 고양이를 변형한 버전인데
[03:05]
프롬프트를 그대로 다시 쓰고 나서야
[03:08]
답할 수 있었습니다
[03:11]
'0%입니다. 고양이가 상자에 들어갈 때
[03:14]
이미 죽어있었기 때문에
[03:16]
이후 어떤 일도 상태를 바꿀 수 없죠'라고요
[03:19]
보통 LLM들은
[03:21]
50% 확률이라고 답하는데 말이죠
[03:24]
비슷하게 '6L와 12L 물통이 있는데
[03:28]
정확히 6L를 측정하고 싶어'라고 물었을 때
[03:31]
모델이 제시한 답변은 6L 물통을 완전히 채운 다음
[03:33]
6L 물통의 물을 12L 물통에 부으라는 것이었습니다.
[03:36]
이렇게 하면 정확히 6L를 측정할 수 있고
[03:38]
다른 방법도 있다고 했지만
[03:41]
여기서 약간 혼란스러워한 것 같습니다.
[03:43]
하지만 다른 모델들의 답변에 비해
[03:46]
훨씬 더 간결한 답을 제시했습니다.
[03:49]
다른 모델들과 비교했을 때
[03:51]
하지만 여전히
[03:53]
실패하는 경우도 있습니다.
[03:55]
여기 수정된 버전의
[03:58]
몬티 홀 문제를 보면
[04:00]
처음에는 올바른 방향으로 설명을 시작했습니다.
[04:04]
예를 들어, 진행자의 개입이
[04:07]
새로운 정보를 제공한다고 설명했고
[04:10]
3번 문을 고수하면
[04:11]
두 번째 선택에서 1/2의 확률이지만
[04:14]
2번 문으로 바꾸면 초기의
[04:17]
2/3 확률을 활용할 수 있다고 했습니다.
[04:19]
하지만 여기서부터 혼란스러워졌는데
[04:22]
제가 보기에는 모델이
[04:24]
기존의 몬티 홀 문제를
[04:26]
생각하기 시작한 것 같습니다.
[04:28]
비슷하게, 제가 수정된 버전의
[04:31]
농부의 역설 문제를 제시했을 때도
[04:34]
불필요한 단계들을 나열했습니다.
[04:37]
우리의 목표는 단순히
[04:40]
염소를 반대편으로 데려가는 것뿐인데
[04:42]
첫 단계에서 이미 해결되었음에도
[04:44]
원래 문제로 돌아가서
[04:46]
불필요한 추가 단계들을
[04:49]
제시했습니다. 이런 문제는
[04:51]
더 나은 프롬프팅으로 해결될 수 있겠지만
[04:54]
모델은 원래 V3 버전과 비교해서
[04:57]
약간 더 나은 추론 능력을 보여주는 것 같습니다.
[04:59]
몇 가지 흥미로운 점이 있는데
[05:01]
현재 DeepSeek 웹사이트에서
[05:04]
이 모델을 사용할 수 있습니다.
[05:06]
DeepSeek R1을 선택하지 않으면
[05:09]
자동으로 이 새로운 모델이 기본값으로 설정됩니다.
[05:12]
생성 속도도 매우 좋았는데
[05:15]
처음 토큰을 생성하는 데
[05:17]
잠시 시간이 걸렸지만
[05:20]
이후에는 생성 속도가
[05:22]
정말 인상적이었습니다.
[05:25]
자전거를 타는 펠리컨 이미지를 생성했는데
[05:27]
결과는 괜찮아 보이지만
[05:30]
그다지 인상적이지는 않았습니다.
[05:33]
두 번째로, 모델 가중치는
[05:35]
Hugging Face에서 사용할 수 있는데
[05:38]
약 700GB 크기여서 저장 공간과
[05:42]
GPU 용량이 모두 필요합니다.
[05:44]
하지만 이 모델을 시도해볼 수 있는
[05:47]
여러 플랫폼이 있습니다.
[05:49]
하나는 Hugging Face의 API나
[05:52]
추론 엔드포인트를 이용하는 것입니다.
[05:55]
여기서 다양한 API 제공자를 선택할 수 있고
[05:58]
제가 실험해본
[05:59]
두 번째 방법은 Open Router입니다.
[06:02]
이 모델은 DeepSQ3 0324라는 이름으로
[06:07]
Open Router에서 현재
[06:10]
무료로 API를 사용할 수 있습니다.
[06:14]
흥미로운 점은 최대 출력
[06:16]
컨텍스트인데, 최대 231,000개의
[06:19]
토큰을 생성할 수 있고, 실제로도
[06:22]
많은 토큰을 생성하는 경향이 있습니다.
[06:25]
이는 특히 소프트웨어
[06:27]
개발과 같은 작업에서
[06:28]
모델이 단일 프롬프트로
[06:31]
소프트웨어를 개발할 때
[06:33]
매우 유용합니다. Open Router에서는
[06:36]
API 키를 생성할 수 있고
[06:38]
무료로 꽤 유연한 수의
[06:41]
토큰을 제공받을 수 있습니다.
[06:43]
이제 여기서 직접 채팅을 할 수 있는데
[06:46]
이것은 원래 모델과는 다를 수 있습니다
[06:49]
여기서 호스팅되는 모델과 비교하면
[06:51]
아마도 양자화된 버전을 사용하고 있을 겁니다
[06:53]
그래서 모델과 직접 대화하고 싶다면
[06:55]
저는 강력히 추천드립니다
[06:57]
딥시크에서 제공하는
[07:00]
원래 호스팅 버전을 사용하시라고요
[07:02]
하지만 무료 API를 찾고 계시다면 오픈라우터 API가
[07:06]
정말 좋은 선택이 될 것 같습니다
[07:08]
그리고 이 모델을 발표한 방식이 마음에 드는데
[07:10]
디스코드에서 올린 메시지를 보면
[07:13]
제가 번역한 내용이 이렇습니다
[07:16]
딥시크 3 모델에 따르면
[07:19]
마이너 버전 업그레이드가 완료되었고
[07:22]
공식 웹페이지 앱이나 미니 프로그램에서
[07:24]
시험해 볼 수 있습니다
[07:27]
딥시크 씽킹 기능은 비활성화된 상태로요
[07:29]
API 인터페이스와 사용 방법은
[07:32]
변경되지 않았다고 합니다
[07:34]
가격도 이전 V3 버전과
[07:36]
동일하게 유지될 것 같습니다
[07:40]
하지만 공식 문서는
[07:41]
아직 업데이트되지 않은 것 같습니다
[07:44]
현재 딥시크 챗과 딥시크 코더 모두
[07:48]
64,000 토큰의 컨텍스트 윈도우를 가지고 있고
[07:51]
생성할 수 있는 최대 토큰 수도
[07:54]
언급되어 있지 않습니다
[07:55]
여전히 8,000 토큰으로 제한되어 있지만
[07:57]
오픈라우터에서는 131,000 토큰까지
[08:00]
사용할 수 있어서 정말 인상적입니다
[08:04]
그리고 여기서 얻을 수 있는 것과는
[08:06]
매우 다릅니다
[08:08]
제가 직접 테스트해본 결과로는
[08:11]
만약 이것이 V3의 마이너 업그레이드의
[08:13]
성능이라면, R2와 V4의 성능이
[08:16]
어떨지 상상도 할 수 없을 것 같습니다
[08:20]
정말 흥미진진한 시기입니다
[08:22]
여기 토큰 수 관련 출력 예시를 보면
[08:24]
10,000 토큰을 훨씬 넘는 것 같습니다
[08:27]
이게 V3의 마이너 업그레이드 성능이라면
[08:29]
R2나 V4에서의 업그레이드가
[08:33]
어떨지 정말 모르겠네요
[08:36]
매우 인상적일 것 같습니다
[08:39]
어쨌든 저는 공식 벤치마크와
[08:41]
챗봇 아레나 리더보드 같은
[08:43]
벤치마크 결과를 기다리고 있습니다
[08:45]
현재 모델을 시험해 볼 수 있으니
[08:47]
이 모델과 성능에 대해
[08:49]
여러분의 생각을 들려주시면 좋겠습니다
[08:52]
다음 영상에서
[08:54]
만나뵙겠습니다
[08:56]
감사합니다