QwQ: 딥시크 R1을 능가하는 초소형 사고 모델 (오픈 소스)

채널 아이콘
Matthew Berman 구독자 419,000명

요약

본 영상은 알리바바에서 발표한 QwQ 32b 모델에 대해 소개하며, 작지만 딥시크 R1과 유사한 성능을 발휘하는 초소형 사고 모델임을 강조합니다. 강화학습을 기반으로 수학 및 코딩 문제에 대해 명확한 결과 보상을 제공하고, 그 과정에서 모델의 사고능력을 크게 향상시킨 점이 설명됩니다. 또한, 에이전트와 웹 브라우징 자동화를 위한 오픈 소스 프레임워크인 스테이지 핸드를 포함해 다양한 벤치마크와 성능 비교를 통해 모델의 효율성 및 빠른 추론 속도를 검증합니다. 마지막으로, 향후 인공지능 에이전트와 체인 오브 사고(prompting 기법) 등의 발전 가능성에 대해 언급합니다.

주요 키워드

QwQ 32b 딥시크 R1 강화학습 벤치마크 에이전트 파라미터 토큰 속도 오픈 소스 웹 브라우징 체인 오브 사고

하이라이트

  • 🚀 QwQ 32b 모델은 딥시크 R1과 유사한 성능을 가지면서도 파라미터 수가 훨씬 작아 개인 컴퓨터에서도 실행할 수 있습니다.
  • 🔑 강화학습을 활용해 수학과 코딩 작업에서 명확한 결과 보상을 제공하며, 모델의 사고능력을 극대화한 점이 주목됩니다.
  • ⚡️ 결과 기반 보상과 과정 기반 보상의 차이를 설명하며, 과정 중 올바른 단계에 보상을 주는 방식의 장점을 강조합니다.
  • 📌 스테이지 핸드를 통해 웹 브라우징 에이전트를 구현하는 오픈 소스 프레임워크가 소개되어 자동화 작업의 효율성을 높입니다.
  • 🌟 다양한 벤치마크에서 QwQ 32b의 추론 속도(450 토큰/초)와 성능이 검증되며, 향후 인공지능 일반 능력 강화에 기여할 가능성이 제시됩니다.

용어 설명

강화학습

모델이 행동의 결과에 따라 보상을 받아 스스로 개선하는 학습 방법으로, 이 영상에서는 사고능력 향상을 위해 적용됨.

Outcome-based reward

모델의 최종 출력 결과만을 기준으로 보상을 주는 방식으로, 전체 해결 과정이 아닌 결과의 정답 여부에 초점을 맞춤.

Process-based reward

문제 해결 과정의 각 단계에서 올바른 진행에 대해 보상을 주는 방식으로, 모델이 중간 단계까지 올바르게 수행하도록 유도함.

에이전트

특정 작업이나 도구 호출 등을 자율적으로 수행하여 문제 해결에 기여하는 소프트웨어 모듈.

체인 오브 사고

모델이 문제를 단계별로 논리적으로 풀어나가도록 유도하는 프롬프트 기법으로, 불필요한 토큰 소모를 줄이는 데 도움을 줌.

[00:00:00] 모델 소개 및 개요

영상은 QwQ 32b 모델의 출시와 주요 특징을 소개합니다. 딥시크 R1과 유사한 성능을 보이나, 훨씬 적은 파라미터로 구성되어 있는 점이 강조됩니다.

딥시크 R1과 비슷한 성능을 가지면서도 크기가 훨씬 작은 새로운 QWQ 32B 모델이 알리바바에 의해 출시되었습니다.
[00:00:15] 강화학습을 통한 사고능력 강화

모델에 강화학습을 적용해 수학과 코딩 작업에서 명확한 보상 신호를 제공하는 방법을 설명합니다. 결과 기반 보상과 과정 기반 보상의 차이점을 구체적으로 비교합니다.

벤치마크 결과에서 671억 파라미터의 딥시크 R1과 비교해 320억 파라미터로도 비슷하거나 더 나은 성능을 보여주었습니다.
이 모델은 OpenAI의 GPT 시리즈나 딥시크 R1처럼 강화학습을 통해 개발되었으며, 작은 기초 모델에서 뛰어난 사고 능력을 이끌어냈습니다.
에이전트 관련 기능을 특별히 학습시켜 비판적 사고와 도구 사용에 효과적이며, Grock GRQ에서 초당 450 토큰의 빠른 처리 속도를 보여줍니다.
결과 기반 보상과 과정 기반 보상의 차이점을 설명하며, 과정 기반 보상이 단계별 학습에 더 효과적일 수 있다고 설명합니다.
초기 개발 단계에서는 수학과 코딩 작업에 특화된 강화학습을 진행했으며, 이는 명확한 정답이 있어 강력한 보상 신호를 제공할 수 있기 때문입니다.
수학 문제와 코드의 정확성을 검증하기 위해 별도의 검증기와 코드 실행 서버를 사용하는 방식을 도입했습니다.
수학과 코딩 분야에서 강화학습을 적용하여 지속적인 성능 향상을 이루었고, 이후 일반적인 능력 향상을 위한 추가 강화학습 단계를 도입했습니다.
이 접근 방식으로 지시사항 따르기, 인간 선호도 정렬, 에이전트 성능 등이 향상되었으며, 수학과 코딩 능력도 유지되었습니다.
[00:04:21] 스테이지 핸드와 에이전트 도입

스테이지 핸드라는 오픈 소스 프레임워크를 통해 에이전트가 웹 브라우징을 자동화하는 사례를 소개합니다. 자연어 명령으로 자동화 작업을 제어할 수 있는 점이 설명됩니다.

Browser Base의 Stage Hand 소개: AI 기반 웹 자동화 도구로, 자연어로 작업을 지시하고 제어할 수 있는 오픈소스 프레임워크입니다.
더 강력한 기반 모델과 대규모 컴퓨팅 자원을 활용한 강화학습의 결합이 인공일반지능 달성에 도움이 될 것이라는 확신을 표명했습니다.
GPT-4.5에 대한 초기의 부정적인 평가들이 있었지만, 최근 며칠 사이에 실제로 매우 뛰어난 성능을 보여주고 있다는 점이 입증되고 있습니다.
GPT-4.5는 GPT-4.0보다 크게 개선된 새로운 기반 모델이며, 여기에 강화학습을 결합하면 더욱 뛰어난 결과를 얻을 수 있습니다.
[00:06:00] 추론 속도 및 성능 시연

모델이 450 토큰/초의 빠른 추론 속도를 보이는 실제 시연이 진행됩니다. Python 코드 수정 예제를 통해 사고 과정을 실시간으로 보여줍니다.

에이전트와 강화학습의 통합을 통해 장기적 추론 능력을 향상시키고, 더 큰 지능을 이끌어내는 것을 목표로 하고 있습니다.
Vibe 코딩 경험을 통해 에이전트 기능, 함수 호출, 도구 호출이 잘 구현된 모델의 중요성을 강조합니다.
회전하는 육각형 안에서 중력과 마찰의 영향을 받는 공이 현실적으로 튀는 파이썬 프로그램 구현 테스트를 진행했습니다.
QwQ 모델의 놀라운 속도를 시연하기 위해 이전 코드를 사용하여 시뮬레이션 문제 해결을 테스트합니다.
모델이 초당 450 토큰의 놀라운 처리 속도를 보여주며, 이는 더 빠른 사고 처리를 가능하게 합니다.
Artificial Analysis의 벤치마크 결과, GPT QA Diamond에서는 59.5%로 DeepSeek R1(71%)보다 낮은 성능을 보였습니다.
AMI 2024 벤치마크에서는 78%를 기록하여 대부분의 경쟁 모델들을 앞섰습니다.
[00:10:00] 벤치마크 및 성능 비교

QwQ 32b와 딥시크 R1 및 다른 모델들 간의 성능 벤치마크 결과를 비교합니다. 파라미터 수, 메모리 사용량 등 모델 간의 효율성을 상세히 분석합니다.

QwQ 32B는 DeepSeek R1보다 20배 적은 파라미터를 사용하며, BF16 포맷으로 구현되어 있습니다.
132K 컨텍스트 윈도우의 제한과 과도한 사고 과정이 단점으로 지적되었으며, Chain of Draft 기법 적용이 제안되었습니다.
[00:12:00] 최종 평가 및 향후 전망

모델의 빠른 연산 속도와 효율성에 대한 최종 평가가 이루어집니다. 체인 오브 사고 등 새로운 기법 적용과 향후 발전 가능성에 대해 언급합니다.

타임라인 정보가 없습니다.

방금 딥시크 R1만큼 뛰어나지만
훨씬 작은 모델이 출시되었는데,
실제로 여러분의 컴퓨터에서
실행할 수 있을 정도입니다.
비슷한 성능을 보이는 사고형 모델이며
엄청나게 빠르게 실행되고,
가장 좋은 점은 완전히 오픈소스라는 것입니다. 이것이 QWQ 32B입니다.
알리바바의 Qwen 시리즈의 일부로
방금 공개되었습니다.
이 벤치마크 결과를 보세요.
딥시크 R1의 완전한 버전과 비교 가능한데,
671억 파라미터를 가진 모델과 비교해
단 320억 파라미터만으로
여러분의 컴퓨터에서 쉽게 실행할 수 있습니다.
AIM 2024에서는 79.5 대 79.8,
라이브 코드벤치에서는 약간 낮지만
매우 비슷한 성능을 보입니다.
라이브벤치에서는 딥시크보다 좋고,
EV valve에서도 더 좋으며
BFCL에서는 딥시크보다 6포인트 앞섭니다.
블로그 포스트는 물론
강화학습에 대해 이야기하면서 시작합니다.
이는 OpenAI가 GPT-1과 3 시리즈에
사용한 것과 같은 기술이며,
딥시크 R1도 독립적으로 검증한
기초 모델에서 사고 행동을
이끌어내는 데 정말 잘 작동하는
방법입니다. 작거나 중간 크기의
좋은 기초 모델을 가져와서
강화학습을 적용하면
갑자기 그것이
놀라운 사고 모델이 됩니다.
그들은 특별히 에이전트 관련
기능을 이 모델에 학습시켜서
비판적 사고와 도구 사용에
매우 효과적입니다. Grock GRQ에서 호스팅 중이며
초당 450 토큰의 속도를 보여주는데
정말 놀랍습니다. 잠시 후에
보여드리겠습니다.
자, 어떻게 했을까요?
콜드 스타트 체크포인트에서 시작해서
결과 기반 보상이 주도하는
스케일링 접근방식으로 강화학습을 구현했습니다.
이것을 자세히 살펴보죠.
검증 가능한 보상이 있는
강화학습을 사용하는데, 보상은
과정이 아닌 결과를 기반으로 합니다.
기억하세요,
결과 기반 보상 모델과
과정 기반 보상 모델은 다릅니다.
제 생각에는 과정 기반
보상 모델이 더 낫습니다. 왜냐하면
최종 답이 틀리더라도
여러 단계를 올바르게 수행한 것에 대해
보상할 수 있기 때문입니다.
이렇게 하면 처음 몇 단계가
맞았다는 것을 학습하고
나중에 최종 단계들을 개선하여
정답을 맞출 수 있습니다.
하지만 결과 기반 보상 모델에서는
전체 출력, 즉 최종 해결책에 대해서만
보상합니다. 맞았는지 틀렸는지만요.
만약 10단계 중 9단계를 맞추고
마지막 하나를 틀렸다면
여전히 부정적인 보상 신호를 받게 됩니다.
초기 단계에서 그들은 수학과
코딩 작업에 특화된 강화학습을
진행했다고 합니다. 이것이
사고 행동을 이끌어내는 방법인데,
피드백을 줄 수 있고 수학과 코딩에서는
정답과 오답이 명확하기 때문에
매우 강력한 보상 신호를
얻을 수 있기 때문입니다. 하지만
전통적인 보상 모델 대신
정확도를 활용했습니다
수학 문제의 정확성을 검증하기 위한
최종 해답의 정확성과
생성된 코드가 미리 정의된 테스트 케이스를
성공적으로 통과했는지 평가하는
코드 실행 서버를 사용합니다. 이는
흥미로운 접근 방식인데요. 수학을 위해
별도의 모델을 사용하고 있습니다. 기본적으로
검증기는 실제 정답과 비교하여
얼마나 정확한지 확인하고
코드의 경우에는 서버를 사용했습니다.
코드가 올바른지 테스트하기 위한 테스트를 작성하고
이를 보상 신호로 사용했습니다.
그리고 수학과 코딩에
강화학습을 적용하여
지속적으로 성능을 향상시켰습니다. 하지만
첫 단계에서 멈추지 않고
일반적인 능력을 위한
또 다른 단계의 강화학습을
추가했습니다. 이것은
하이브리드 방식이라고 할 수 있죠.
검증 가능한 보상이 있는 강화학습으로
수학과 코딩을 학습하고, 이제
더 일반화된 능력을 위해 일반 보상 모델도
사용했습니다. 우리는 이 단계의
강화학습 훈련이 적은 수의 스텝으로도
다른 일반적인 능력들의
성능을 향상시킬 수 있다는 것을
발견했습니다. 예를 들어 지시사항
따르기, 인간 선호도와의 정렬,
에이전트 성능 등을 향상시키면서도
수학과 코딩에서의 성능 저하는
크게 없었습니다. 수학과 코딩으로
시작하여 좋은 성과를 얻고
그 다음에 다른 기술들을 사용해
일반화를 진행했습니다.
더 일반적인 모델을 만들기 위한 꽤 멋진 방법이죠.
새로운 방법을 연구하는
또 다른 주체가 누구인지 아시나요?
오늘 영상의 스폰서인
Browser Base의 Stage Hand입니다.
개발자로서 사람들이
매주 같은 작업에 너무 많은 시간을 쓰고 있다는 걸
알고 계실 겁니다. 이메일 확인, 아마존에서
물건 찾기, 장보기 목록
만들기 등이요. 물론
더 쉬운 방법이 있죠. 이제 에이전트들이
사람처럼 웹을 사용하기 시작했습니다.
여기서 Stage Hand가 등장합니다.
Stage Hand는 오픈소스 프레임워크로
Playwright 위에서 작동하며
AI를 사용하여 자동화를 실제로
견고하게 만들고 에이전트가 웹을
탐색할 수 있게 합니다. 멋진 점은
자연어로 원하는 것을
설명할 수 있으면서도 자동화 작업을
완전히 제어할 수 있다는 것입니다.
이를 통해 Browser Base 팀은
OpenAI의 Operator의 오픈소스 버전인
Open Operator를 만들었습니다.
오픈소스 저장소 링크를 아래에
첨부했으니 확인하시고 스타도 눌러주세요.
에이전트를 연결해서 바로 웹 브라우징을
시작할 수 있습니다. Browser Base에
이 영상의 후원과 멋진 도구를
오픈소스 커뮤니티에 기여해 주셔서
정말 감사드립니다.
여러분의 생각을 댓글로
남겨주세요. 이제 영상으로 돌아가서,
이 말을 들어보세요. 우리는
더 강력한 기반 모델과
대규모 컴퓨팅 자원으로 구동되는 강화학습을
결합하면 인공일반지능에
한 걸음 더 가까워질 것이라고
확신합니다. 제가 이 부분을
강조하고 싶은 이유는
많은 사람들이 GPT-4.5에 대해
부정적인 평가를 많이 했었죠.
큰 발전이 아니었고 비용도 매우 비쌌지만,
그래도 그들은 이를 출시했고
최근 며칠 사이에
실제로 이 모델이
정말 뛰어나다는 것이 입증되고 있습니다.
이것은 새로운 기반 모델이며,
GPT-4.0보다 크게 개선된 기반 모델입니다.
이 기반 모델을 가지고
강화학습을 추가하면
바로 그들이 여기서 설명하는
더 강력한 기반 모델과 강화학습을
결합하는 것이 됩니다.
더 나은 시드 모델로 시작해서
강화학습을 적용하면
결과는 훨씬 더 좋아질 것입니다.
그래서 저는 GPT-4.5와
여기에 강화학습을 추가했을 때의 잠재력에 대해
정말 기대하고 있습니다.
이미 Claude 3 Pro가 그럴지도 모르지만
아직은 모르는 상황이죠.
여기서 정말 흥미로운 결론을 내립니다.
추가로, 우리는 적극적으로
에이전트와 강화학습의
통합을 탐구하고 있으며,
장기적 추론을 가능하게 하여
추론 시간 스케일링으로
더 큰 지능을 끌어내는 것을 목표로 하고 있습니다.
현재 가능한 것보다 더 많은 테스트 시간 연산을 하고
그들이 정말로
에이전트에 대해 깊이 고민했다는 게 분명합니다.
저는 에이전트에 대해 낙관적이고,
최근 Vibe 코딩을 많이 하면서
이는 본질적으로 에이전트 코딩인데
함수 호출을 하는 이러한 모델들이
함수 작성과 도구 호출을
정말 잘 수행합니다. 이러한 모델들이
Vibe 코딩을 가장 잘 수행하죠. 실제로
에이전트 작업에 특화되지 않은
모델을 선택하면 Cursor가 알려줍니다.
이걸 보세요.
Gemini 2.0 flash thinking experimental을 선택하면
이 모델은 아직 에이전트 지원이
충분하지 않다고 알려줍니다. 모델은
에이전트를 염두에 두고 파인튜닝되어야 하고
도구 호출과 함수 호출을
고려해야 합니다. 그래서 저는
이 모델을 시도해보는 것이 특히 기대되는데
이는 추론 모델로 매우 빠르고 효율적이면서도
에이전트 작업도 잘 수행합니다.
자, 제가 이런 과제를 줬습니다.
회전하는 육각형 안에서 공이 튀는
파이썬 프로그램을 작성하되,
공은 중력과 마찰의 영향을 받고
회전하는 벽에서 현실적으로
튀어야 합니다.
아마 트위터에서 이 테스트를 보셨을 텐데,
저는 Hugging Face 스페이스를 사용하고 있고
무료라서 직접 시도해 볼 수 있습니다.
보시다시피 모든 추론 과정을
출력하고 있고 꽤 빠른 편입니다.
하지만 곧
더 놀라운 것을 보여드리겠습니다.
꽤 오랜 시간 생각한 끝에,
정말 오래 걸렸지만 해결책을 찾았습니다.
시도해 보죠. 자, 작동하네요.
물론 그렇게 좋지는 않지만
중요한 건 이제 빠르게
개선할 수 있다는 점입니다.
얼마나 빠른지 보여드리죠.
정말 놀라운 걸 보여드리겠습니다. grock grq,
믿을 수 없이 빠른 추론 속도를 자랑하는 회사가
qwq 32b를 로드했는데요.
이 모델이 얼마나 빠른지 보여드리겠습니다.
이전 코드를 가져와서
여기에 붙여넣겠습니다.
'시뮬레이션에서 공이 제대로 튀지 않고
벽에 전혀 닿지 않습니다.
이 문제를 해결해주세요'라고 입력하겠습니다.
이 모델의 사고 속도가 얼마나 놀라운지 보세요.
초당 450 토큰의 속도를 보여주고 있습니다.
이제 훨씬 더 짧은 시간 안에
더 많은 사고를 할 수 있게 되었습니다.
이런 속도가 가진 잠재력은 엄청납니다.
하지만 비판적인 관점에서 보면,
Artificial Analysis가 자체적으로 실시한
벤치마크에서는
Qwen 팀의 자체 벤치마크만큼
좋은 성능을 보여주지 못했습니다. 보여드리죠.
GPT QA Diamond와 AMI 2024,
이 두 가지 점수가 있습니다. GPT QA Diamond에서는
59.5%를 기록했는데, 이는 DeepSeek R1의
71%보다 상당히 낮고, Gemini 2.0
Flash의 점수인
62%보다도 약간 낮습니다. AMI 2024에서는 78%로
자신들의 주장과 일치하는 점수를 받아
DeepSeek R1을 앞섰고, O3 Mini
High를 제외한 다른 모든 모델들을 능가했습니다.
자체 벤치마크에서는 GPT QA Diamond에서는
좋은 성능을 보여주지 못했지만
수학 분야인 AMI 2024 벤치마크에서는
좋은 성능을 보였습니다. GPT QA Diamond의
과학적 추론 분야를 보면
다양한 모델들 중 O3 Mini High가
최상위에 있고, Cloud 3.7 Sonet Thinking이
모두 77%로 최상위에 있으며, Qwen QwQ
32B는 60%로 중간 정도에 위치해
2.0 Flash, 3.7 Sonet, DeepSeek R1,
4.5 Preview보다 뒤처졌네요. 4.5
Preview는 출시 당시에는
많은 사람들이 인상적이지 않다고 했지만 실제로는 매우 좋습니다.
AMI 2024에서도 O3 Mini가 최상위에 있고
QwQ 32B는 78%로
Qwen이 주장한 점수를 기록했습니다.
Artificial Analysis의 분석에 따르면, QwQ
32B는 DeepSeek R1의 총 파라미터 수인
671B보다
20배나 적은 파라미터를 가지고 있으며
DeepSeek의 37B 활성 파라미터
수보다도 적습니다. DeepSeek R1은
전문가 혼합 모델이라서, 프롬프트 입력 시
전체 파라미터 중 일부만
추론에 실제로 사용됩니다.
하지만 활성 파라미터만 봐도 Qwen이
여전히 적습니다. QwQ 32B는
BF16으로 훈련되고 출시된 반면, DeepSeek
R1은 기본적으로 FP8로
훈련되고 출시되었습니다. 이는 기본 버전의
QwQ 32B와 R1이 각각 65GB와
QwQ 32B는 65GB,
R1은 671GB를 차지한다는 의미입니다. 흥미로운 점은
NVIDIA H100과 같은 FP8을 지원하는 하드웨어에서는
DeepSeek R1이 실제로
포워드 패스당 더 적은 실효 연산을
사용할 수 있다는 것입니다. 전반적으로 이는
매우 인상적인 모델입니다. 이제
이 정도 크기와 효율성을 가진 모델로
무엇이 가능한지 보실 수 있습니다.
몇 가지 비판적인 부분을 보면, 132K 컨텍스트
윈도우는 그리 크지 않습니다. 요즘 기준으로는
작은 편에 속하죠.
또한 DeepSeek R1이나
O1, Cloud 3.7 Thinking보다
훨씬 더 많이 '생각'하는 것을 발견했습니다.
이런 사고 과정은 많은 토큰을 사용하므로
Chain of Draft를 적용해야 할 수도 있습니다.
이전 영상에서 소개했던
Chain of Draft는
새로운 프롬프팅 기법으로
모델이 생각은 하되
전체 사고 과정이 아닌 가장 중요한 부분만
출력하도록 하는 기술입니다.
이 모델로 할 수 있는 것들이 많습니다.
오픈소스이고 가중치도 공개되어 있어서
이미 여러 플랫폼에서 호스팅되고 있습니다.
직접 사용해보시고
의견을 들려주시면 좋겠습니다.
저는 이것을 Cursor에 연동했고
곧 도구 지원이 추가될 것으로 기대됩니다.
이런 빠른 속도로 우리가
할 수 있는 일이 정말 많습니다.
이 영상이 도움이 되셨다면
좋아요와 구독 부탁드립니다.
다음 영상에서 뵙겠습니다.