[00:00]
방금 딥시크 R1만큼 뛰어나지만
[00:02]
훨씬 작은 모델이 출시되었는데,
[00:05]
실제로 여러분의 컴퓨터에서
[00:07]
실행할 수 있을 정도입니다.
[00:09]
비슷한 성능을 보이는 사고형 모델이며
[00:12]
엄청나게 빠르게 실행되고,
[00:15]
가장 좋은 점은 완전히 오픈소스라는 것입니다. 이것이 QWQ 32B입니다.
[00:19]
알리바바의 Qwen 시리즈의 일부로
[00:22]
방금 공개되었습니다.
[00:24]
이 벤치마크 결과를 보세요.
[00:26]
딥시크 R1의 완전한 버전과 비교 가능한데,
[00:30]
671억 파라미터를 가진 모델과 비교해
[00:33]
단 320억 파라미터만으로
[00:36]
여러분의 컴퓨터에서 쉽게 실행할 수 있습니다.
[00:39]
AIM 2024에서는 79.5 대 79.8,
[00:44]
라이브 코드벤치에서는 약간 낮지만
[00:46]
매우 비슷한 성능을 보입니다.
[00:49]
라이브벤치에서는 딥시크보다 좋고,
[00:51]
EV valve에서도 더 좋으며
[00:53]
BFCL에서는 딥시크보다 6포인트 앞섭니다.
[00:57]
블로그 포스트는 물론
[00:58]
강화학습에 대해 이야기하면서 시작합니다.
[01:01]
이는 OpenAI가 GPT-1과 3 시리즈에
[01:03]
사용한 것과 같은 기술이며,
[01:06]
딥시크 R1도 독립적으로 검증한
[01:08]
기초 모델에서 사고 행동을
[01:11]
이끌어내는 데 정말 잘 작동하는
[01:13]
방법입니다. 작거나 중간 크기의
[01:16]
좋은 기초 모델을 가져와서
[01:18]
강화학습을 적용하면
[01:21]
갑자기 그것이
[01:22]
놀라운 사고 모델이 됩니다.
[01:24]
그들은 특별히 에이전트 관련
[01:26]
기능을 이 모델에 학습시켜서
[01:29]
비판적 사고와 도구 사용에
[01:31]
매우 효과적입니다. Grock GRQ에서 호스팅 중이며
[01:34]
초당 450 토큰의 속도를 보여주는데
[01:37]
정말 놀랍습니다. 잠시 후에
[01:39]
보여드리겠습니다.
[01:41]
자, 어떻게 했을까요?
[01:43]
콜드 스타트 체크포인트에서 시작해서
[01:45]
결과 기반 보상이 주도하는
[01:47]
스케일링 접근방식으로 강화학습을 구현했습니다.
[01:50]
이것을 자세히 살펴보죠.
[01:51]
검증 가능한 보상이 있는
[01:53]
강화학습을 사용하는데, 보상은
[01:55]
과정이 아닌 결과를 기반으로 합니다.
[01:58]
기억하세요,
[01:59]
결과 기반 보상 모델과
[02:01]
과정 기반 보상 모델은 다릅니다.
[02:03]
제 생각에는 과정 기반
[02:05]
보상 모델이 더 낫습니다. 왜냐하면
[02:07]
최종 답이 틀리더라도
[02:08]
여러 단계를 올바르게 수행한 것에 대해
[02:10]
보상할 수 있기 때문입니다.
[02:12]
이렇게 하면 처음 몇 단계가
[02:14]
맞았다는 것을 학습하고
[02:16]
나중에 최종 단계들을 개선하여
[02:18]
정답을 맞출 수 있습니다.
[02:20]
하지만 결과 기반 보상 모델에서는
[02:23]
전체 출력, 즉 최종 해결책에 대해서만
[02:26]
보상합니다. 맞았는지 틀렸는지만요.
[02:28]
만약 10단계 중 9단계를 맞추고
[02:31]
마지막 하나를 틀렸다면
[02:33]
여전히 부정적인 보상 신호를 받게 됩니다.
[02:35]
초기 단계에서 그들은 수학과
[02:38]
코딩 작업에 특화된 강화학습을
[02:40]
진행했다고 합니다. 이것이
[02:42]
사고 행동을 이끌어내는 방법인데,
[02:43]
피드백을 줄 수 있고 수학과 코딩에서는
[02:46]
정답과 오답이 명확하기 때문에
[02:48]
매우 강력한 보상 신호를
[02:50]
얻을 수 있기 때문입니다. 하지만
[02:53]
전통적인 보상 모델 대신
[02:54]
정확도를 활용했습니다
[02:57]
수학 문제의 정확성을 검증하기 위한
[02:59]
최종 해답의 정확성과
[03:01]
생성된 코드가 미리 정의된 테스트 케이스를
[03:04]
성공적으로 통과했는지 평가하는
[03:06]
코드 실행 서버를 사용합니다. 이는
[03:09]
흥미로운 접근 방식인데요. 수학을 위해
[03:11]
별도의 모델을 사용하고 있습니다. 기본적으로
[03:13]
검증기는 실제 정답과 비교하여
[03:15]
얼마나 정확한지 확인하고
[03:18]
코드의 경우에는 서버를 사용했습니다.
[03:20]
코드가 올바른지 테스트하기 위한 테스트를 작성하고
[03:23]
이를 보상 신호로 사용했습니다.
[03:25]
그리고 수학과 코딩에
[03:27]
강화학습을 적용하여
[03:28]
지속적으로 성능을 향상시켰습니다. 하지만
[03:31]
첫 단계에서 멈추지 않고
[03:33]
일반적인 능력을 위한
[03:36]
또 다른 단계의 강화학습을
[03:37]
추가했습니다. 이것은
[03:39]
하이브리드 방식이라고 할 수 있죠.
[03:41]
검증 가능한 보상이 있는 강화학습으로
[03:42]
수학과 코딩을 학습하고, 이제
[03:45]
더 일반화된 능력을 위해 일반 보상 모델도
[03:48]
사용했습니다. 우리는 이 단계의
[03:50]
강화학습 훈련이 적은 수의 스텝으로도
[03:52]
다른 일반적인 능력들의
[03:54]
성능을 향상시킬 수 있다는 것을
[03:56]
발견했습니다. 예를 들어 지시사항
[03:58]
따르기, 인간 선호도와의 정렬,
[03:59]
에이전트 성능 등을 향상시키면서도
[04:02]
수학과 코딩에서의 성능 저하는
[04:04]
크게 없었습니다. 수학과 코딩으로
[04:06]
시작하여 좋은 성과를 얻고
[04:08]
그 다음에 다른 기술들을 사용해
[04:10]
일반화를 진행했습니다.
[04:12]
더 일반적인 모델을 만들기 위한 꽤 멋진 방법이죠.
[04:15]
새로운 방법을 연구하는
[04:17]
또 다른 주체가 누구인지 아시나요?
[04:19]
오늘 영상의 스폰서인
[04:21]
Browser Base의 Stage Hand입니다.
[04:23]
개발자로서 사람들이
[04:25]
매주 같은 작업에 너무 많은 시간을 쓰고 있다는 걸
[04:27]
알고 계실 겁니다. 이메일 확인, 아마존에서
[04:30]
물건 찾기, 장보기 목록
[04:32]
만들기 등이요. 물론
[04:33]
더 쉬운 방법이 있죠. 이제 에이전트들이
[04:35]
사람처럼 웹을 사용하기 시작했습니다.
[04:38]
여기서 Stage Hand가 등장합니다.
[04:40]
Stage Hand는 오픈소스 프레임워크로
[04:43]
Playwright 위에서 작동하며
[04:45]
AI를 사용하여 자동화를 실제로
[04:47]
견고하게 만들고 에이전트가 웹을
[04:50]
탐색할 수 있게 합니다. 멋진 점은
[04:51]
자연어로 원하는 것을
[04:53]
설명할 수 있으면서도 자동화 작업을
[04:55]
완전히 제어할 수 있다는 것입니다.
[04:57]
이를 통해 Browser Base 팀은
[05:00]
OpenAI의 Operator의 오픈소스 버전인
[05:02]
Open Operator를 만들었습니다.
[05:05]
오픈소스 저장소 링크를 아래에
[05:07]
첨부했으니 확인하시고 스타도 눌러주세요.
[05:09]
에이전트를 연결해서 바로 웹 브라우징을
[05:11]
시작할 수 있습니다. Browser Base에
[05:13]
이 영상의 후원과 멋진 도구를
[05:15]
오픈소스 커뮤니티에 기여해 주셔서
[05:17]
정말 감사드립니다.
[05:19]
여러분의 생각을 댓글로
[05:20]
남겨주세요. 이제 영상으로 돌아가서,
[05:22]
이 말을 들어보세요. 우리는
[05:24]
더 강력한 기반 모델과
[05:26]
대규모 컴퓨팅 자원으로 구동되는 강화학습을
[05:28]
결합하면 인공일반지능에
[05:30]
한 걸음 더 가까워질 것이라고
[05:32]
확신합니다. 제가 이 부분을
[05:34]
강조하고 싶은 이유는
[05:36]
많은 사람들이 GPT-4.5에 대해
[05:38]
부정적인 평가를 많이 했었죠.
[05:41]
큰 발전이 아니었고 비용도 매우 비쌌지만,
[05:44]
그래도 그들은 이를 출시했고
[05:46]
최근 며칠 사이에
[05:49]
실제로 이 모델이
[05:50]
정말 뛰어나다는 것이 입증되고 있습니다.
[05:53]
이것은 새로운 기반 모델이며,
[05:56]
GPT-4.0보다 크게 개선된 기반 모델입니다.
[05:58]
이 기반 모델을 가지고
[06:01]
강화학습을 추가하면
[06:03]
바로 그들이 여기서 설명하는
[06:04]
더 강력한 기반 모델과 강화학습을
[06:06]
결합하는 것이 됩니다.
[06:10]
더 나은 시드 모델로 시작해서
[06:12]
강화학습을 적용하면
[06:15]
결과는 훨씬 더 좋아질 것입니다.
[06:17]
그래서 저는 GPT-4.5와
[06:19]
여기에 강화학습을 추가했을 때의 잠재력에 대해
[06:22]
정말 기대하고 있습니다.
[06:23]
이미 Claude 3 Pro가 그럴지도 모르지만
[06:26]
아직은 모르는 상황이죠.
[06:28]
여기서 정말 흥미로운 결론을 내립니다.
[06:31]
추가로, 우리는 적극적으로
[06:33]
에이전트와 강화학습의
[06:35]
통합을 탐구하고 있으며,
[06:37]
장기적 추론을 가능하게 하여
[06:39]
추론 시간 스케일링으로
[06:41]
더 큰 지능을 끌어내는 것을 목표로 하고 있습니다.
[06:44]
현재 가능한 것보다 더 많은 테스트 시간 연산을 하고
[06:47]
그들이 정말로
[06:48]
에이전트에 대해 깊이 고민했다는 게 분명합니다.
[06:50]
저는 에이전트에 대해 낙관적이고,
[06:52]
최근 Vibe 코딩을 많이 하면서
[06:54]
이는 본질적으로 에이전트 코딩인데
[06:57]
함수 호출을 하는 이러한 모델들이
[06:59]
함수 작성과 도구 호출을
[07:02]
정말 잘 수행합니다. 이러한 모델들이
[07:04]
Vibe 코딩을 가장 잘 수행하죠. 실제로
[07:08]
에이전트 작업에 특화되지 않은
[07:10]
모델을 선택하면 Cursor가 알려줍니다.
[07:14]
이걸 보세요.
[07:15]
Gemini 2.0 flash thinking experimental을 선택하면
[07:18]
이 모델은 아직 에이전트 지원이
[07:20]
충분하지 않다고 알려줍니다. 모델은
[07:22]
에이전트를 염두에 두고 파인튜닝되어야 하고
[07:25]
도구 호출과 함수 호출을
[07:27]
고려해야 합니다. 그래서 저는
[07:29]
이 모델을 시도해보는 것이 특히 기대되는데
[07:32]
이는 추론 모델로 매우 빠르고 효율적이면서도
[07:34]
에이전트 작업도 잘 수행합니다.
[07:36]
자, 제가 이런 과제를 줬습니다.
[07:39]
회전하는 육각형 안에서 공이 튀는
[07:41]
파이썬 프로그램을 작성하되,
[07:42]
공은 중력과 마찰의 영향을 받고
[07:44]
회전하는 벽에서 현실적으로
[07:46]
튀어야 합니다.
[07:47]
아마 트위터에서 이 테스트를 보셨을 텐데,
[07:49]
저는 Hugging Face 스페이스를 사용하고 있고
[07:52]
무료라서 직접 시도해 볼 수 있습니다.
[07:53]
보시다시피 모든 추론 과정을
[07:55]
출력하고 있고 꽤 빠른 편입니다.
[07:58]
하지만 곧
[08:00]
더 놀라운 것을 보여드리겠습니다.
[08:02]
꽤 오랜 시간 생각한 끝에,
[08:04]
정말 오래 걸렸지만 해결책을 찾았습니다.
[08:07]
시도해 보죠. 자, 작동하네요.
[08:10]
물론 그렇게 좋지는 않지만
[08:13]
중요한 건 이제 빠르게
[08:15]
개선할 수 있다는 점입니다.
[08:17]
얼마나 빠른지 보여드리죠.
[08:19]
정말 놀라운 걸 보여드리겠습니다. grock grq,
[08:23]
믿을 수 없이 빠른 추론 속도를 자랑하는 회사가
[08:26]
qwq 32b를 로드했는데요.
[08:29]
이 모델이 얼마나 빠른지 보여드리겠습니다.
[08:32]
이전 코드를 가져와서
[08:33]
여기에 붙여넣겠습니다.
[08:35]
'시뮬레이션에서 공이 제대로 튀지 않고
[08:36]
벽에 전혀 닿지 않습니다.
[08:37]
이 문제를 해결해주세요'라고 입력하겠습니다.
[08:40]
이 모델의 사고 속도가 얼마나 놀라운지 보세요.
[08:42]
초당 450 토큰의 속도를 보여주고 있습니다.
[08:45]
이제 훨씬 더 짧은 시간 안에
[08:47]
더 많은 사고를 할 수 있게 되었습니다.
[08:50]
이런 속도가 가진 잠재력은 엄청납니다.
[08:52]
하지만 비판적인 관점에서 보면,
[08:54]
Artificial Analysis가 자체적으로 실시한
[08:56]
벤치마크에서는
[08:57]
Qwen 팀의 자체 벤치마크만큼
[08:59]
좋은 성능을 보여주지 못했습니다. 보여드리죠.
[09:01]
GPT QA Diamond와 AMI 2024,
[09:04]
이 두 가지 점수가 있습니다. GPT QA Diamond에서는
[09:09]
59.5%를 기록했는데, 이는 DeepSeek R1의
[09:13]
71%보다 상당히 낮고, Gemini 2.0
[09:16]
Flash의 점수인
[09:18]
62%보다도 약간 낮습니다. AMI 2024에서는 78%로
[09:22]
자신들의 주장과 일치하는 점수를 받아
[09:25]
DeepSeek R1을 앞섰고, O3 Mini
[09:28]
High를 제외한 다른 모든 모델들을 능가했습니다.
[09:30]
자체 벤치마크에서는 GPT QA Diamond에서는
[09:34]
좋은 성능을 보여주지 못했지만
[09:36]
수학 분야인 AMI 2024 벤치마크에서는
[09:40]
좋은 성능을 보였습니다. GPT QA Diamond의
[09:43]
과학적 추론 분야를 보면
[09:46]
다양한 모델들 중 O3 Mini High가
[09:48]
최상위에 있고, Cloud 3.7 Sonet Thinking이
[09:52]
모두 77%로 최상위에 있으며, Qwen QwQ
[09:57]
32B는 60%로 중간 정도에 위치해
[10:00]
2.0 Flash, 3.7 Sonet, DeepSeek R1,
[10:04]
4.5 Preview보다 뒤처졌네요. 4.5
[10:08]
Preview는 출시 당시에는
[10:10]
많은 사람들이 인상적이지 않다고 했지만 실제로는 매우 좋습니다.
[10:12]
AMI 2024에서도 O3 Mini가 최상위에 있고
[10:15]
QwQ 32B는 78%로
[10:20]
Qwen이 주장한 점수를 기록했습니다.
[10:23]
Artificial Analysis의 분석에 따르면, QwQ
[10:26]
32B는 DeepSeek R1의 총 파라미터 수인
[10:29]
671B보다
[10:31]
20배나 적은 파라미터를 가지고 있으며
[10:35]
DeepSeek의 37B 활성 파라미터
[10:38]
수보다도 적습니다. DeepSeek R1은
[10:41]
전문가 혼합 모델이라서, 프롬프트 입력 시
[10:43]
전체 파라미터 중 일부만
[10:45]
추론에 실제로 사용됩니다.
[10:48]
하지만 활성 파라미터만 봐도 Qwen이
[10:50]
여전히 적습니다. QwQ 32B는
[10:54]
BF16으로 훈련되고 출시된 반면, DeepSeek
[10:57]
R1은 기본적으로 FP8로
[10:59]
훈련되고 출시되었습니다. 이는 기본 버전의
[11:02]
QwQ 32B와 R1이 각각 65GB와
[11:08]
QwQ 32B는 65GB,
[11:12]
R1은 671GB를 차지한다는 의미입니다. 흥미로운 점은
[11:15]
NVIDIA H100과 같은 FP8을 지원하는 하드웨어에서는
[11:18]
DeepSeek R1이 실제로
[11:21]
포워드 패스당 더 적은 실효 연산을
[11:24]
사용할 수 있다는 것입니다. 전반적으로 이는
[11:26]
매우 인상적인 모델입니다. 이제
[11:28]
이 정도 크기와 효율성을 가진 모델로
[11:29]
무엇이 가능한지 보실 수 있습니다.
[11:31]
몇 가지 비판적인 부분을 보면, 132K 컨텍스트
[11:35]
윈도우는 그리 크지 않습니다. 요즘 기준으로는
[11:37]
작은 편에 속하죠.
[11:40]
또한 DeepSeek R1이나
[11:43]
O1, Cloud 3.7 Thinking보다
[11:45]
훨씬 더 많이 '생각'하는 것을 발견했습니다.
[11:48]
이런 사고 과정은 많은 토큰을 사용하므로
[11:50]
Chain of Draft를 적용해야 할 수도 있습니다.
[11:53]
이전 영상에서 소개했던
[11:55]
Chain of Draft는
[11:57]
새로운 프롬프팅 기법으로
[11:59]
모델이 생각은 하되
[12:01]
전체 사고 과정이 아닌 가장 중요한 부분만
[12:03]
출력하도록 하는 기술입니다.
[12:06]
이 모델로 할 수 있는 것들이 많습니다.
[12:08]
오픈소스이고 가중치도 공개되어 있어서
[12:11]
이미 여러 플랫폼에서 호스팅되고 있습니다.
[12:13]
직접 사용해보시고
[12:15]
의견을 들려주시면 좋겠습니다.
[12:16]
저는 이것을 Cursor에 연동했고
[12:18]
곧 도구 지원이 추가될 것으로 기대됩니다.
[12:20]
이런 빠른 속도로 우리가
[12:23]
할 수 있는 일이 정말 많습니다.
[12:24]
이 영상이 도움이 되셨다면
[12:27]
좋아요와 구독 부탁드립니다.
[12:28]
다음 영상에서 뵙겠습니다.