DeepSeek R1, o3-mini, Alibaba Qwen 2.5 Max 코딩 비교

채널 아이콘
Codex Community 구독자 206,000명

요약

이 영상은 DeepSeek R1, o3-mini, Alibaba Qwen 2.5 Max 등 다양한 AI 모델의 코딩 및 웹 디자인 역량을 비교합니다. 각 모델이 코드 오류 수정, 커스텀 마우스 커서 생성, 웹 디자인 평가 등의 테스트를 통해 어떤 장단점을 보이는지 분석합니다. 영상은 모델 별 응답 속도와 수정 제안의 세부사항을 자세히 다루어, 사용자가 각 모델의 성능과 한계를 명확히 이해할 수 있도록 합니다.

주요 키워드

DeepSeek R1 Quen 2.5 Max ChatGPT 코딩 웹 디자인 오류 수정 커스텀 커서 Docker 모델 비교

하이라이트

  • 🔑 DeepSeek R1은 초기 설정과 Docker 컨테이너 구성이 필요함을 설명합니다.
  • ⚡️ Quen 2.5 Max는 매우 빠른 오류 감지 및 수정 능력을 보여줍니다.
  • 🚀 ChatGPT는 상세하고 창의적인 코드 수정 제안을 제공합니다.
  • 🌟 커스텀 마우스 커서 생성 테스트에서 모델별 응답 시간과 디테일이 비교됩니다.
  • 📌 웹 디자인 평가에서는 Open AI 모델이 구체적인 권장 사항을 제시합니다.
  • 💡 지역 모델인 DeepSeek R1 14B는 속도와 정밀도에서 다소 부족함을 보입니다.
  • 🔍 전체적으로 각 AI 모델의 장단점을 명확히 파악할 수 있도록 평가가 진행됩니다.

용어 설명

Docker Container

애플리케이션 배포를 위한 격리된 가상화 환경을 의미합니다.

Chain of Thought

AI가 문제 해결 과정에서 단계별로 사고하는 방식을 지칭합니다.

14 Billion Parameters

모델의 규모를 나타내며, 많은 매개변수가 있을수록 성능에 영향을 줄 수 있습니다.

[00:00:00] 모델 소개 및 셋업

여러 AI 모델 비교를 위한 소개가 진행됩니다. 모델 계정 및 설정이 설명됩니다.

여러 AI 모델(DeepSeek R1, O3-mini, Qwen 2.5 Max)의 코딩 및 웹 디자인 능력 비교 테스트를 소개하고, 테스트 환경을 설정했습니다.
[00:00:59] 코드 오류 수정 챌린지

자바스크립트와 CSS 오류를 수정하는 테스트가 진행됩니다. 각 모델의 오류 감지 능력이 비교됩니다.

DeepSeek R1로 첫 번째 코드 분석을 시작했고, 21초 만에 menu 오타와 CSS 단위 오류를 발견했습니다.
Qwen 2.5 Max는 매우 빠른 응답으로 기본적인 오류뿐만 아니라 드롭다운 메뉴의 display 속성과 이벤트 위임 문제까지 발견했습니다.
ChatGPT는 12초의 처리 시간으로 기본적인 menu 오류와 스타일링 문제를 식별했습니다.
로컬 호스팅된 14B 파라미터 DeepSeek R1은 menu 문제와 드롭다운 메뉴의 오프셋 문제를 식별하는 등 세밀한 분석을 제공했습니다.
o3-mini High 모델 테스트 결과, 17초만에 맞춤법과 스타일 문제만을 간단히 식별했습니다.
[00:03:12] 커스텀 마우스 커서 생성 테스트

마우스 커서를 커스터마이징하는 과정을 확인합니다. 모델별 응답 속도와 결과 정교함을 평가합니다.

각 모델의 성능을 평가한 결과, Qwen은 빠른 응답과 상세한 분석으로 A등급, DeepSeek와 OpenAI는 속도와 분석 깊이의 한계로 B등급, 로컬 R1은 일부 오류 미발견으로 C등급을 받았습니다.
커스텀 마우스 커서 구현 테스트에서 DeepSeek는 58초 만에 기본적인 기능을 구현했으나, 원래 포인터가 사라지지 않는 문제가 있었습니다.
Qwen 2.5 Max는 빠른 응답과 완벽한 구현을 보여주었고, ChatGPT는 SVG를 활용한 가장 효과적인 솔루션을 제공했습니다.
커서 디자인 개선에 대한 평가에서 커서를 삼각형 모양으로 바꾸어 시도한 점이 긍정적으로 평가되었습니다.
로컬 호스팅된 DeepSeek 모델은 CSS 코드 삽입을 시도했으나, 하이퍼링크 배경만 강조되고 커서 변경에는 실패했습니다.
o3-mini-High 모델은 29초의 처리 시간 후 마우스를 따라다니는 사각형 커서를 구현했으나, 디자인이 단순했습니다.
성능 평가에서 OpenAI가 SVG 커스텀 커서로 최고 점수를 받았고, Qwen 2.5 Max는 빠른 속도로 2위를 차지했습니다.
DeepSeek 모델들은 속도와 기능 면에서 아쉬운 성능을 보였고, 특히 14B 모델은 목표를 완전히 벗어난 결과를 보여줬습니다.
웹 디자인 분석 실험을 시작하여, 의도적으로 넣은 오류들을 각 모델이 얼마나 잘 찾아내는지 테스트를 시작했습니다.
[00:07:55] 웹 디자인 평가 챌린지

웹 디자인 상의 오류와 레이아웃 문제를 분석합니다. 모델들이 디자인 요소를 인식하는 방식을 비교합니다.

DeepSeek은 24초 분석 후 오타, 시각적 계층구조, 레이아웃 문제, 템플릿같은 디자인 등 여러 문제점을 지적했습니다.
전반적인 분석은 만족스러웠으나, 더 구체적인 예시와 개선 방안이 필요했다는 결론이 도출되었습니다.
Qwen 2.5 Max는 이미지를 지원하지 않아 테스트가 불가능하여 건너뛰기로 결정했습니다.
ChatGPT O1은 이미지 업로드와 미리보기 기능을 제공하며, 디자인 분석을 시작했습니다.
ChatGPT는 제목, 연락처 텍스트, 시각적 계층구조, 색상 선택 등 디자인의 여러 문제점을 구체적으로 지적했습니다.
전반적으로 디자인 요소들을 잘 파악했으나, 이미지 위치나 특정 텍스트 색상 등 일부 세부사항은 놓쳤습니다.
DeepSeek R1 14B 모델은 일반적인 웹 디자인 원칙만 나열했을 뿐, 구체적인 분석이 부족했습니다.
최종 평가에서 OpenAI가 가장 우수한 성과를, DeepSeek이 A등급을 받았으며, Qwen은 평가 불가, 14B DeepSeek R1은 F등급을 받았습니다.
[00:11:00] 최종 점수 및 결론

각 모델의 성능이 최종 점수로 정리됩니다. 장단점과 종합 평가가 제공됩니다.

웹 디자인 평가에서 DeepSeek R1 모델이 실패한 이유를 설명하며, 디자인을 제대로 분석하지 않고 실질적인 추천도 제공하지 않았다고 평가합니다.
각 AI 모델들의 종합 평가에서 OpenAI는 전반적으로 우수한 A등급, Qwen과 DeepSeek은 B등급을 받았습니다.
로컬에서 실행되는 DeepSeek R1 14B 모델은 기대 이하의 성능을 보여 E등급을 받았으며, 하드웨어 요구사항이 높다는 단점이 지적되었습니다.
전체적인 결론으로 DeepSeek에 대한 기대가 과대 평가되었으며, Qwen 2.5 Max가 코딩 부분에서 뛰어난 성능을 보여주었다고 평가합니다.
이것은 현재 앱스토어 1위인 DeepSeek R1입니다.
이제 이것을 인기 있는 모든 모델들과
비교해보려고 합니다.
O3-mini, O1, 그리고 Qwen 2.5 Max를 포함해서
프로그래밍과 웹 디자인 측면에서
어떤 성능을 보이는지 테스트해보겠습니다.
먼저 작동 방식을 설명해드리겠습니다.
DeepSeek에 계정을 설정했고,
여기서 DeepSeek R1이 실행되고 있습니다.
Qwen 2.5 Max가 실행 중이고,
ChatGPT O1도 실행 중이며, 마지막으로 O3-mini가 있습니다.
이번 예제들에서는 O3-mini High를 사용할 예정입니다.
DeepSeek가 가끔 오프라인이 되는 문제가 있어서,
이를 해결하기 위해
Ollama에서 DeepSeek R1을 설정했습니다.
14B 파라미터의 로컬 모델로,
Docker 컨테이너에서 설정했습니다.
Open WebUI에서 마지막으로,
Wick Studio로 이동해서
템플릿 웹사이트를 설정했는데,
여기에 다양한 코드를 넣어서
모든 모델들의 성능을
다양한 작업에서 테스트해볼 것입니다.
첫 번째 도전 과제로 코드를 준비했는데,
여기에 여러 가지 실수를 넣었습니다.
JavaScript와 CSS 모두에 오류가 있고,
이제 DeepSeek로 가서
이 코드를 넣고 문제를 찾아내고 수정할 수 있는지
테스트해보겠습니다.
아무런 맥락도 제공하지 않을 것입니다.
Chain of Thought를 통해
문제를 파악할 수 있기를 바랍니다.
여기서 'menu'가 잘못 철자가 되었다는 것을 찾아냈고,
CSS의 최소 너비가
200em이 아닌 200픽셀이어야 한다는 것도 발견했습니다.
이렇게 문제들을 파악했고,
21초의 사고 시간 후에
두 가지 문제를 찾아내어
수정된 새로운 코드를 제공했습니다.
이제 Qwen 2.5 Max로 넘어가서
동일한 프롬프트를 시도해보겠습니다.
이것은 매우 빠르네요, 즉시 응답을 주고 있습니다.
보시다시피 menu 오타와
em 문제를 식별했을 뿐만 아니라,
더 나아가 드롭다운 메뉴가
페이지 로드 시 보이는 것을 발견했고,
display: none으로 시작해야 한다고 지적했습니다.
이벤트 위임 문제도 발견했네요.
이는 꽤 인상적인데요.
그리고 이벤트 위임 문제도 지적했고,
업데이트된 코드를 제공했는데
더 보기 좋게 정리되었고
응답 속도도 훨씬 빠릅니다.
지금까지 중에서는 이게 더 나은 응답이라고 봐야겠네요.
하지만 이 분야의 강자인
ChatGPT도 잊지 말아야겠죠.
마지막으로 테스트해보고
응답 시간도 체크해보겠습니다.
12초의 사고 시간이 걸렸는데,
DeepSeek보다는 빠르지만 Qwen보다는 느립니다.
menu 문제와 스타일링 문제를 찾아냈고,
그게 주된 내용이었습니다.
수정된 코드도 제공했네요.
이제 로컬에서 호스팅 중인 DeepSeek R1
14B 파라미터 Ollama 버전도 확인해보겠습니다.
이것도 몇 초밖에 걸리지 않았고,
menu 문제는 찾아냈지만
CSS 문제는 언급하지 않은 게 흥미롭네요.
하지만 아래로 스크롤해보면,
몇 가지 추가 수정사항을 제안했는데,
드롭다운 메뉴 위치가
10픽셀만큼 오프셋되어 있다는 점도 지적했습니다.
이는 매우 세밀한 관찰이네요.
이제 o3-mini High를 테스트해보는 것이 흥미롭네요
분석 시간이 훨씬 짧았고, 단 17초밖에 걸리지 않았습니다
맞춤법 오류와 스타일 문제에 대한 권장 사항만 제시했습니다
맞춤법 오류와
스타일링 문제에 대해서만 지적했네요. 이제 결과를 살펴보겠습니다
여기 작은 평가 카드가 있는데
각 모델에 대해 등급을 매기려고 합니다
이 모델들이 첫 번째 과제에서
어떤 성능을 보여줬는지 보여주기 위해서죠
그리고 우리가 진행하면서
다양한 유형의 과제들을 모두 더해볼 겁니다
첫 번째 결과에 대해
Qwen에게 A를 주겠습니다. 그 이유는
응답이 매우 빨랐고
많은 세부 사항을 매우 스마트하게 제공했기 때문입니다
존재하는지도 몰랐던 문제들에 대한
답변을 제공했고, 내가 알지 못했던
실수들도 지적해주었습니다
그리고 제가 의도적으로 넣어둔
오류들도 모두 수정해주었죠
DeepSeek와 OpenAI에 대해서는
둘 다 B를 주겠습니다
주된 이유는 DeepSeek가
좀 느렸는데, 이는 아마도
현재 인기가 많아서
서버에 부하가 많이 걸려있기 때문일 것 같습니다
하지만 여전히 좀 느렸고
분석이 다소 피상적이어서 두 가지
주요 문제만 식별했을 뿐
더 깊이 들어가지는 않았습니다. OpenAI도 마찬가지로
DeepSeek만큼 느리지는 않았지만
피상적인 답변을 제공했습니다. 마지막으로
로컬 버전 R1은 14억 개의
파라미터를 가지고 있는데, C를 주겠습니다
빠르기는 했지만
제가 의도적으로 넣은 것들 중 일부를 놓쳤기 때문입니다
예를 들어 CSS 실수에서
픽셀 값 대신 em 값을 넣은 것을
다른 모델들은 모두 발견했는데
이를 놓쳤죠. 두 번째 테스트는
코딩 테스트인데, 커스텀 마우스 커서를
생성하는 코드를 만들어보려고 합니다
링크에 마우스를 올렸을 때 작동하는
프롬프트를 준비했고
이것을 DeepSeek에 입력해서 50픽셀
× 50픽셀 크기의 청록색 마우스 커서를
웹사이트의 하이퍼링크 위에 마우스를 올렸을 때
나타나도록 만들어보겠습니다. 여기 응답이 왔는데
약 58초 정도 생각한 후에
CSS와 JavaScript 코드를
제공했습니다. 이 응답은
청록색 원을 만들고
마우스 움직임을 따라가도록 되어있습니다. 테스트해볼까요
이 코드를 넣어보고
웹사이트로 가보겠습니다
여기 하이퍼링크가 있고 마우스를 올리면
청록색 원이 보이는 것을 확인할 수 있습니다
한 가지 문제점이 있다면
원래 포인터가 사라지지 않았다는 점인데
이 부분이 개선되면 좋았을 것 같네요. 이제
Qwen 2.5 Max에서 이 프롬프트를 시도해보겠습니다
결과가 매우 빠르게 나왔네요
이 코드가 실제로 어떻게 작동하는지
테스트해보겠습니다. 스크립트에
추가하고 웹사이트로 가서
테스트해보니 완벽하게 작동하네요
이제 ChatGPT를 테스트해보겠습니다. 38초 동안
생각한 후에 이 코드를 출력했습니다
SVG를 생성했고
모든 것을 JavaScript 함수로
작성했으며, 여기에 추가할
예정입니다. 웹사이트에 붙여넣어보면
잘 작동하네요. 지금까지 중 가장 좋은 솔루션인 것 같습니다
이렇게 구현한 방식이 마음에 드네요
커서를 단순한 원이 아닌
삼각형처럼 보이는 것으로
바꾸었는데, 적어도 커서처럼
보여서 그 점은 높이 평가해야 할 것 같습니다
로컬에서 호스팅한 DeepSeek 모델은 어떨까요?
지금 처리 중이니 결과를 확인해보겠습니다
자, 이제 결과가 나왔네요
CSS 코드를 삽입하는 JavaScript 함수가 나왔습니다
코드를 여기에 적용해봤는데
실패했네요. 단순히 하이퍼링크의
a 태그 배경만 강조했을 뿐
커서는 거의 변화가 없습니다
변경사항이 전혀 없어서
안타깝게도 로컬의 DeepSeek R1 모델은
더 강력한 모델들만큼의
성능을 보여주지 못했다고 할 수 밖에 없습니다
이제 o3-mini-High를 테스트해보겠습니다
29초 동안 응답을 분석했는데
코드를 실행해보니
결과가 꽤 괜찮네요
마우스를 따라다니는 커스텀 커서를
만들어냈지만
다만 단순한 사각형 모양이라는 게
유일한 문제점입니다
이제 점수판을 업데이트해보죠
OpenAI가 확실히 최고의 솔루션을 만들어냈습니다
Qwen만큼 빠르진 않았지만
가장 똑똑한 결과를 보여주었고
커스텀 SVG를 만들어 마우스 포인터를 교체했죠
그 다음으로는 Qwen 2.5 Max가 좋았는데
굉장히 빨랐고 요청한 작업을
잘 수행했지만
OpenAI의 SVG 솔루션처럼
좀 더 복잡한 것을 만들 수도 있었는데
그래도 상당히 좋은 성능을 보여줬습니다
DeepSeek은 안타깝게도
다른 두 모델만큼 좋은 성능을 보여주지 못했고
속도도 느렸으며
답변을 제공할 때도 마우스 포인터를
실제로 교체하지 못해서
새로운 마우스 포인터와 기존 포인터가
동시에 겹쳐 보이는 문제가 있었습니다
DeepSeek R1 14억 파라미터 모델은
더 좋지 않은 결과를 보여줬는데
목표를 완전히 벗어났을 뿐만 아니라
전혀 다른 것을 수행했고
속도도 빠르지 않았습니다
이제 재미있는 실험을 해보겠습니다
웹 디자인에서는 어떤지 살펴보죠
여기 디자인이 있는데
여러 가지 실수들을 넣어뒀습니다
여러분도 찾을 수 있을지 모르겠네요
각 모델에게 물어보고
이러한 실수들을 얼마나 잘 찾아내는지
그리고 어떤 수정사항을 제안하는지 보겠습니다
DeepSeek에 업로드했고
여기에 있는 프롬프트로
어떤 권장사항이 있는지 물어봤습니다
24초 동안 생각한 후에
몇 가지 의견을 제시했는데요
우선 제가 추가한 오타들을 잘 찾아냈고
전반적으로 웹사이트가
시각적 계층구조와 레이아웃이 좋지 않다고 했습니다
템플릿이나 와이어프레임 같아 보인다고 했는데
흥미로운 요소가 없이
자리표시자 문구들만 있기 때문이라고 합니다
또한 간격이 좋지 않다는 점과
폰트와 색상의 문제점도 잘 찾아냈습니다
실제로 지금 웹사이트가
엉망진창으로 보이거든요
전반적으로 만족스러운 분석이었지만
구체적인 예시와
실제 권장사항에 대해서는
좀 더 자세히 설명할 수 있었을 것 같습니다
추천 사항을 테스트해볼 수는 없을 것 같습니다
Qwen 2.5 Max는 현재 이미지를 지원하지 않기 때문에
이 부분은 건너뛰어야 할 것 같네요
이미지 생성은 가능하지만
그것 나름대로 장점이 있긴 하죠
ChatGPT는 어떨까요?
O1은 파일 업로드가 가능하니 한번 테스트해보겠습니다
ChatGPT가 이미지 미리보기를 제공하는 것이 마음에 듭니다
어떤 분석을 내놓을지 한번 보겠습니다
제목이 적절하지 않다는 것을 짚어냈고
연락처 부분도 'Contact Us'로
바꾸는 것이 좋겠다고 제안했네요
확실히 더 나은 표현이죠
시각적 계층 구조가 잘못되었다고 지적했는데
그 이유도 상세히 설명해주었습니다
예를 들어 콘텐츠의 위치와 크기가
최적화되지 않았다고 설명했죠
색상 선택도 적절하지 않다고 지적했는데
브랜드 색상을 사용해야 한다고 제안했습니다
다만 한 섹션에서 사용된 빨간색에 대해서는
인식하지 못했네요
여백이 잘 정렬되지 않았다고 지적했는데
디자인이 떠 있는 듯한 느낌이 든다고 했죠
실제로도 그렇습니다
특히 제목 부분의 줄 간격이
너무 넓게 설정되어 있어서
이 점을 잘 짚어냈다고 생각합니다
'testing hyperlink'라는 부분도
불필요하다고 지적한 것이
좋았습니다
전반적으로 많은 요소들을
잘 파악했지만
이미지 위치가 부적절하다는 점이나
텍스트가 빨간색이라는 점은
어떤 모델도 파악하지 못했네요
이런 점들을 파악했으면 좋았겠지만
AI 모델들이 웹 디자이너로 훈련되지는 않았으니까요
주어진 과제에 대해
꽤 괜찮은 성과를 보여줬다고 생각합니다
이제 DeepSeek R1 14B 모델로
넘어가보겠습니다
이미지를 다시 한 번 업로드하고
어떤 결과가 나오는지 확인해보겠습니다
여러 가지 고려사항을 생각하는 데 시간이 걸렸지만
실질적인 내용은 많지 않았습니다
웹 디자인의 일반적인 원칙만 나열했을 뿐
이 디자인의 구체적인 문제점이나
이슈에 대해서는 언급하지 않았네요
마지막으로 O3와 O3-mini High는
현재 이미지를 지원하지 않아서
웹 디자인 평가를 할 수 없었습니다
이제 점수를 매겨보겠습니다
OpenAI가 확실히 가장 좋은 성과를 보여줬습니다
평균적인 시간이 걸렸지만
가장 스마트한 답변을 제공했고
디자인 개선을 위한 구체적인 사항들을
잘 짚어냈습니다
2위는 DeepSeek인데 A등급을 주겠습니다
좀 더 느렸고 평균적인 결과를 보여줬지만
디자인과 관련된 제안들을
잘 제시했기 때문입니다
Qwen은 아쉽게도
이미지를 처리할 수 없어서 등급을 매길 수 없고
14B DeepSeek R1 모델은
새로운 카테고리가 필요한데
F 등급을 부여하겠습니다
안타깝게도 이 부분에서는 실패했다고 생각합니다
실질적인 추천사항을 제공하지 않았을 뿐만 아니라
마치 디자인을 전혀 보지도 않은 것처럼
동작했기 때문입니다
이제 전체적인 평가를 해보겠습니다. OpenAI는
전반적으로 A등급을 받을 만합니다.
전체적으로 우수한 성능을 보여줬고
Qwen은 코딩 작업과
일반적인 작업에서 상당히 좋은
성과를 보여줬습니다. B등급을 주겠습니다
DeepSeek도 마찬가지로 B등급입니다
DeepSeek이 프로그래밍이나 디자인에서 뛰어나지는 않지만
전반적으로 모든 영역에서
좋은 성능을 보여줬기 때문에
비용 대비 성능이 인상적이었고
현재 무료로 사용할 수 있다는 점에서
매우 긍정적으로 평가됩니다
마지막으로 로컬에서 실행되는 DeepSeek R1
140억 파라미터 모델은 기대했던 것보다
성능이 좋지 않았습니다. 이는 아마도
더 작은 모델을 실행했기 때문일 수 있고
앞으로는 더 큰 모델을 시도해봐야 할 것 같지만
현재로서는
E등급을 주겠습니다
오픈소스로 제공되어 오프라인에서
실행할 수 있다는 점은 좋지만
좋은 모델을 실행하기 위해서는
상당한 하드웨어가 필요하고
대부분의 사용자들이 사용하는
하드웨어에서 테스트하는 것이 중요합니다
이번 테스트를 통해 얻은 결론은
DeepSeek에 대한 과대 평가된 기대가
모두 사실은 아니라는 것입니다. 반면
Qwen 2.5 Max는 코딩 측면에서
확실히 인상적인 결과를 보여줬습니다
여러분이 웹 디자인이나 노코드, 또는 AI에
대해 더 자세히 알고 싶으시다면
이 모든 내용을 다루는 작은 강좌를
준비했습니다
아래 설명란에서 확인하실 수 있으며
무료로 제공되니 꼭 확인해보세요
그럼 다음 영상에서 만나뵙겠습니다
감사합니다