DeepSeek 업데이트—최고의 코딩 모델인가?

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

이번 영상은 DeepSeek의 소형 업데이트(V3)가 코딩 작업에 있어 얼마나 인상적인 성능을 보여주는지를 다룹니다. 모델이 단일 프롬프트로 웹사이트 전체를 생성하고, 다양한 코딩 및 논리 퍼즐 문제를 해결하는 모습을 시연합니다. 특히, 프롬프트 엔지니어링 기법을 통해 윤리적 딜레마나 최적화되지 않은 문제들을 개선하는 과정을 보여주며, 향후 R2 및 V4 버전에 대한 기대감을 높입니다. 또한, API 및 오픈 라우터를 통한 다양한 사용 사례와 모델의 토큰 처리 능력에 대해 설명합니다.

주요 키워드

DeepSeek V3 코딩 LLM 토큰 프롬프트 추론 API 웹 개발 벤치마크 컨텍스트 윈도우

하이라이트

  • 🔑 DeepSeek V3 업데이트가 기존 모델 대비 획기적인 코딩 성능 개선을 보여줍니다.
  • ⚡️ 단일 프롬프트로 HTML, CSS, JS를 이용해 20,000 토큰 분량의 웹사이트를 생성하는 과정을 담았습니다.
  • 🌟 바운싱 볼과 같은 인터랙티브 코딩 작업에서도 오류 없이 실행되는 모습을 시연합니다.
  • 📌 철학적 딜레마(트롤리 문제, 데드 캣 문제)와 측정 퍼즐 등 다양한 논리 문제에 대한 모델의 응답 개선 과정을 설명합니다.
  • 🚀 모델의 토큰 생성 속도와 최대 컨텍스트 길이(최대 131,000 토큰까지 생성 가능) 등 성능 요소가 크게 발전되었음을 강조합니다.
  • 🔑 API 및 오픈 라우터를 통한 접근 방법과 로컬 실행 시 필요한 하드웨어 요구사항(700GB 모델 사이즈)도 언급됩니다.

용어 설명

LLM (대형 언어 모델)

자연어 처리 및 코드 생성 등 다양한 작업을 수행하는 인공지능 모델을 의미합니다.

토큰

모델의 입력과 출력 단위로 사용되는 텍스트의 작은 단위, 보통 단어나 부분 단어를 의미합니다.

프롬프트 엔지니어링

모델에게 원하는 결과를 얻기 위해 입력 문구를 최적화하는 기법을 의미합니다.

API

애플리케이션 프로그래밍 인터페이스로, 모델의 기능을 외부 서비스에서 호출해 사용할 수 있게 합니다.

컨텍스트 윈도우

모델이 한 번에 처리할 수 있는 텍스트의 길이를 의미하며, 이번 업데이트에서는 토큰 수가 크게 확장되었습니다.

[00:00:00] 업데이트 소개 및 초기 인상

DeepSeek V3의 소형 업데이트가 소개되며, 이전보다 훨씬 인상적인 코딩 성능을 보여줍니다. 모델이 간단한 프롬프트만으로 다양한 작업을 성공적으로 수행하는 모습이 강조됩니다.

딥시크가 V3로 업데이트되어 코딩 능력이 크게 향상되었습니다. 간단한 프롬프트로 완전한 웹사이트를 생성할 수 있게 되었고, 모든 기능이 제대로 작동합니다.
[00:00:10] 웹사이트 생성 데모

HTML, CSS, JS를 단일 파일로 구현해 현대적인 랜딩 페이지를 생성하는 과정을 시연합니다. 20,000 토큰 분량의 결과물로, 링크까지 완벽하게 작동하는 웹사이트가 만들어집니다.

타임라인 정보가 없습니다.

[00:00:29] 코딩 작업: 인터랙티브 데모

공 튀기기와 같이 동적인 인터랙션을 포함한 코딩 작업을 실행하며, 충돌 시 측면을 하이라이트하는 기능을 추가합니다. 한 번에 전체 코드가 업데이트되는 모습이 인상적으로 보여집니다.

다양한 벤치마크 테스트에서 뛰어난 성능을 보여주었으며, 특히 코딩 관련 작업에서 탁월한 결과를 보여주었습니다.
[00:01:08] 논리 및 추론 작업 시연

트롤리 문제, 데드 캣 문제 및 물 측정 퍼즐 등 다양한 논리 문제에 대해 모델의 추론 능력이 시연됩니다. 프롬프트 수정으로 문제의 해법이 달라지는 과정을 통해 모델의 이해도를 평가합니다.

추론 능력도 향상되어, 복잡한 논리 문제나 윤리적 딜레마에서도 정확한 판단을 내릴 수 있게 되었습니다.
프롬프트 엔지니어링 기법을 통해 더 정확한 답변을 이끌어낼 수 있으며, 특히 '입력 재작성' 방식이 효과적입니다.
슈뢰딩거의 고양이 문제와 같은 복잡한 사고실험에서도 논리적이고 정확한 추론을 보여주었습니다.
물 측정 문제에서 모델은 6L 물통을 채워 12L 물통에 붓는 간단한 해결책을 제시했으나, 일부 논리적 혼란을 보였습니다.
수정된 몬티 홀 문제에서 초기에는 올바른 방향으로 설명을 시작했지만, 기존 버전과 혼동하여 완벽한 해답을 제시하지 못했습니다.
농부의 역설 문제에서도 불필요한 단계들을 포함시켰지만, 전반적으로 V3 버전보다 향상된 추론 능력을 보여주었습니다.
[00:05:01] 성능 비교 및 활용 방안

모델의 빠른 응답 속도와 높은 토큰 생성 능력을 설명하며, 오픈 라우터 API와 로컬 실행 등 다양한 접근법을 소개합니다. 향후 R2, V4 업데이트에 대한 기대감과 실제 벤치마크 결과를 기다리는 내용을 포함합니다.

DeepSeek 웹사이트에서 새 모델을 기본값으로 제공하며, 초기 토큰 생성 후 매우 빠른 생성 속도를 보여줍니다.
모델은 700GB의 큰 용량이 필요하지만, Hugging Face API와 Open Router 등 다양한 플랫폼에서 시도해볼 수 있습니다.
Open Router에서는 최대 231,000 토큰을 생성할 수 있어 단일 프롬프트로 소프트웨어 개발이 가능하며, 무료로 유연한 토큰 사용이 가능합니다.
딥시크의 새로운 채팅 인터페이스에 대해 설명하며, 원본 모델과 양자화된 버전의 차이점을 언급합니다.
무료 API 사용을 위한 오픈라우터 API를 추천하고, 딥시크의 새로운 업데이트 발표 내용을 공유합니다.
API 인터페이스와 가격은 이전과 동일하게 유지되며, 현재 문서의 업데이트 상태와 토큰 제한에 대해 설명합니다.
오픈라우터에서 제공하는 131,000 토큰 한도와 이전 버전과의 성능 차이를 비교 설명합니다.
딥시크가 V3로 마이너 업데이트를 했는데
이건 제가 지금까지 봤던 LLM 업데이트 중
가장 큰 변화 중 하나일 것 같습니다
코딩 능력이 정말 인상적인데요
예를 들어, 아주 간단한 프롬프트 하나로
이 전체 웹사이트를 한 번에 만들어냈습니다
모든 링크도 제대로 작동하고 있죠
제가 사용한 프롬프트는 이거였습니다:
'HTML, CSS, JS를 사용해서 모던한 랜딩 페이지를 코딩하고
전부 하나의 파일에 넣어줘'
그랬더니 거의 20,000 토큰에 달하는 코드를
생성했습니다. 비교를 위해
Sonnet 3.7의 결과물과
Claude-3-Opus의 최고 설정 출력을 보여드리겠습니다
많은 사람들이 자체 벤치마크를
보고하기 시작했는데, 이건 정말
인상적입니다. 특히 코딩 관련 작업에서요
여기 제가 시도한 다른 코딩 과제가 있는데
'회전하는 직사각형 안에서 공이 튀는
HTML 스크립트를 작성해줘'입니다
처음에는 파이썬 스크립트로
요청했다가 나중에 HTML로 바꿨는데
딥시크 앱에서 HTML을
바로 렌더링할 수 있기 때문이었죠
여기 생성된 결과물을 보시면
정말 인상적입니다. 출력물의 품질이
시각적인 면에서나
상호작용의 정확도 면에서나 놀랍습니다
그래서 저는 공이 어느 면에 부딪히는지
강조 표시를 하고 싶어서
'공이 면에 닿을 때
해당 면이 강조되도록
표시해줘'라고 추가했더니
단 한 번의 시도로 오류 없이
코드를 업데이트했고 실행해보면
면과 충돌할 때마다
여기에 표시가 되는 걸 볼 수 있습니다
이 모델은 추론 능력도 뛰어난 것 같은데요
예를 들어 일부 오도된
주의력 프롬프트로 테스트했을 때
아주 간단한 수정만으로
대부분 올바른 답을 얻을 수 있었습니다
여기 첫 번째 프롬프트를 보면
전형적인 트롤리 문제인데
유일한 차이점은
선로 위의 사람들이 이미 죽어있다는 겁니다
이 간단한 프롬프트로는 틀린 답을 주는데
고전적인 트롤리 문제처럼
답변하기 시작했거든요
그래서 '사용자의 입력을 주의 깊게 읽고
답변하기 전에 그대로 다시 써보세요'라고
추가했더니
이 트릭이 더 큰 모델들에서
정말 잘 작동하더라고요
추론 모델이 아닌
Gemini 1.5 Pro 같은 모델에서도
이 기법으로 추론 능력을
끌어올릴 수 있습니다
먼저 사용자가 제공한 프롬프트를 쓰고
'아니요, 레버를 당기지 않겠습니다.
이유는 다섯 명이
이미 죽어있기 때문입니다'라고 답했죠
사람들이 이미 죽어있다는 사실을
자동으로 인식해서 상황이 달라진 거죠
죽은 고양이 문제에서도
슈뢰딩거의 고양이를 변형한 버전인데
프롬프트를 그대로 다시 쓰고 나서야
답할 수 있었습니다
'0%입니다. 고양이가 상자에 들어갈 때
이미 죽어있었기 때문에
이후 어떤 일도 상태를 바꿀 수 없죠'라고요
보통 LLM들은
50% 확률이라고 답하는데 말이죠
비슷하게 '6L와 12L 물통이 있는데
정확히 6L를 측정하고 싶어'라고 물었을 때
모델이 제시한 답변은 6L 물통을 완전히 채운 다음
6L 물통의 물을 12L 물통에 부으라는 것이었습니다.
이렇게 하면 정확히 6L를 측정할 수 있고
다른 방법도 있다고 했지만
여기서 약간 혼란스러워한 것 같습니다.
하지만 다른 모델들의 답변에 비해
훨씬 더 간결한 답을 제시했습니다.
다른 모델들과 비교했을 때
하지만 여전히
실패하는 경우도 있습니다.
여기 수정된 버전의
몬티 홀 문제를 보면
처음에는 올바른 방향으로 설명을 시작했습니다.
예를 들어, 진행자의 개입이
새로운 정보를 제공한다고 설명했고
3번 문을 고수하면
두 번째 선택에서 1/2의 확률이지만
2번 문으로 바꾸면 초기의
2/3 확률을 활용할 수 있다고 했습니다.
하지만 여기서부터 혼란스러워졌는데
제가 보기에는 모델이
기존의 몬티 홀 문제를
생각하기 시작한 것 같습니다.
비슷하게, 제가 수정된 버전의
농부의 역설 문제를 제시했을 때도
불필요한 단계들을 나열했습니다.
우리의 목표는 단순히
염소를 반대편으로 데려가는 것뿐인데
첫 단계에서 이미 해결되었음에도
원래 문제로 돌아가서
불필요한 추가 단계들을
제시했습니다. 이런 문제는
더 나은 프롬프팅으로 해결될 수 있겠지만
모델은 원래 V3 버전과 비교해서
약간 더 나은 추론 능력을 보여주는 것 같습니다.
몇 가지 흥미로운 점이 있는데
현재 DeepSeek 웹사이트에서
이 모델을 사용할 수 있습니다.
DeepSeek R1을 선택하지 않으면
자동으로 이 새로운 모델이 기본값으로 설정됩니다.
생성 속도도 매우 좋았는데
처음 토큰을 생성하는 데
잠시 시간이 걸렸지만
이후에는 생성 속도가
정말 인상적이었습니다.
자전거를 타는 펠리컨 이미지를 생성했는데
결과는 괜찮아 보이지만
그다지 인상적이지는 않았습니다.
두 번째로, 모델 가중치는
Hugging Face에서 사용할 수 있는데
약 700GB 크기여서 저장 공간과
GPU 용량이 모두 필요합니다.
하지만 이 모델을 시도해볼 수 있는
여러 플랫폼이 있습니다.
하나는 Hugging Face의 API나
추론 엔드포인트를 이용하는 것입니다.
여기서 다양한 API 제공자를 선택할 수 있고
제가 실험해본
두 번째 방법은 Open Router입니다.
이 모델은 DeepSQ3 0324라는 이름으로
Open Router에서 현재
무료로 API를 사용할 수 있습니다.
흥미로운 점은 최대 출력
컨텍스트인데, 최대 231,000개의
토큰을 생성할 수 있고, 실제로도
많은 토큰을 생성하는 경향이 있습니다.
이는 특히 소프트웨어
개발과 같은 작업에서
모델이 단일 프롬프트로
소프트웨어를 개발할 때
매우 유용합니다. Open Router에서는
API 키를 생성할 수 있고
무료로 꽤 유연한 수의
토큰을 제공받을 수 있습니다.
이제 여기서 직접 채팅을 할 수 있는데
이것은 원래 모델과는 다를 수 있습니다
여기서 호스팅되는 모델과 비교하면
아마도 양자화된 버전을 사용하고 있을 겁니다
그래서 모델과 직접 대화하고 싶다면
저는 강력히 추천드립니다
딥시크에서 제공하는
원래 호스팅 버전을 사용하시라고요
하지만 무료 API를 찾고 계시다면 오픈라우터 API가
정말 좋은 선택이 될 것 같습니다
그리고 이 모델을 발표한 방식이 마음에 드는데
디스코드에서 올린 메시지를 보면
제가 번역한 내용이 이렇습니다
딥시크 3 모델에 따르면
마이너 버전 업그레이드가 완료되었고
공식 웹페이지 앱이나 미니 프로그램에서
시험해 볼 수 있습니다
딥시크 씽킹 기능은 비활성화된 상태로요
API 인터페이스와 사용 방법은
변경되지 않았다고 합니다
가격도 이전 V3 버전과
동일하게 유지될 것 같습니다
하지만 공식 문서는
아직 업데이트되지 않은 것 같습니다
현재 딥시크 챗과 딥시크 코더 모두
64,000 토큰의 컨텍스트 윈도우를 가지고 있고
생성할 수 있는 최대 토큰 수도
언급되어 있지 않습니다
여전히 8,000 토큰으로 제한되어 있지만
오픈라우터에서는 131,000 토큰까지
사용할 수 있어서 정말 인상적입니다
그리고 여기서 얻을 수 있는 것과는
매우 다릅니다
제가 직접 테스트해본 결과로는
만약 이것이 V3의 마이너 업그레이드의
성능이라면, R2와 V4의 성능이
어떨지 상상도 할 수 없을 것 같습니다
정말 흥미진진한 시기입니다
여기 토큰 수 관련 출력 예시를 보면
10,000 토큰을 훨씬 넘는 것 같습니다
이게 V3의 마이너 업그레이드 성능이라면
R2나 V4에서의 업그레이드가
어떨지 정말 모르겠네요
매우 인상적일 것 같습니다
어쨌든 저는 공식 벤치마크와
챗봇 아레나 리더보드 같은
벤치마크 결과를 기다리고 있습니다
현재 모델을 시험해 볼 수 있으니
이 모델과 성능에 대해
여러분의 생각을 들려주시면 좋겠습니다
다음 영상에서
만나뵙겠습니다
감사합니다