[00:00]
OpenAI가 최근 한 논문을 발표했는데,
[00:02]
인공지능이 세계 최고의 프로그래머가 되기 위해
[00:04]
무엇이 필요한지를 보여주었습니다.
[00:07]
여기서 주목할 점은
[00:09]
OpenAI가 이 논문에서 공개한 전략이
[00:12]
코딩에만 국한되지 않는다는 것입니다.
[00:16]
강화학습을 확장하는 것이
[00:18]
AGI와 그 이상으로 가는 길임을 증명했죠.
[00:22]
이제 이 논문을 분석해서
[00:24]
보여드리겠습니다.
[00:25]
강화학습과 테스트 타임 연산을 통해
[00:27]
지능의 한계는 무한하다는 것을요.
[00:30]
본론으로 들어가기 전에
[00:32]
몇 주 전에 있었던
[00:34]
샘 알트만의 일본 인터뷰 영상을
[00:36]
보여드리고 싶습니다. 그는 GPT-4가
[00:40]
작년 12월에 공개적으로 언급했듯이
[00:42]
세계에서 175번째로 뛰어난
[00:45]
경쟁 프로그래머라고 했습니다.
[00:46]
현재 내부 벤치마크는 약 50위이며,
[00:49]
올해 말까지는
[00:50]
1위에 도달할 수 있을 것이라고 했죠.
[00:52]
이제 기준이 어디에 있는지, 그리고 OpenAI가
[00:56]
올해 말까지 어디까지 갈 수 있다고
[00:58]
확신하는지 알 수 있습니다.
[01:00]
이 논문의 제목은
[01:01]
'대규모 추론 모델을 통한
[01:03]
경쟁적 프로그래밍'으로, OpenAI가
[01:06]
몇 주 전에 발표했습니다.
[01:07]
최근 몇 주 동안 DeepSeek
[01:09]
모델과 DeepSeek R1 논문이
[01:11]
공개된 이후 이 채널을 지켜보셨다면
[01:14]
우리가 어디로 향하고 있는지
[01:15]
이미 알고 계실 겁니다.
[01:18]
검증 가능한 보상이 있는 강화학습과
[01:21]
테스트 타임 연산, 이 두 가지가
[01:24]
이러한 모델에서 놀라운 지능을 달성하는데
[01:27]
필요한 핵심 확장 요소입니다.
[01:29]
인간을 방정식에서 제거하는 것이
[01:32]
핵심인 것 같습니다. 잠시 DeepSeek에
[01:35]
대해 이야기해보죠. DeepSeek R1은
[01:37]
몇 주 전에 공개되어 세상을 놀라게 했고
[01:40]
많은 사람들이 이 모델의 비용과 효율성에
[01:43]
주목했습니다. 훈련 비용이 500만 달러에
[01:46]
불과했다는 점에서요.
[01:47]
물론 이는 정확한 비교는 아니지만,
[01:50]
매우 효율적이었고 그들이 한 일은
[01:52]
정말 놀라웠습니다. 하지만 실제로
[01:55]
이 논문이 세상에 보여준 핵심은
[01:58]
강화학습이 그 모델의 성능을
[02:01]
향상시키는 주요 돌파구였다는
[02:04]
점입니다. 그 이후로
[02:06]
검증 가능한 보상이 있는
[02:09]
강화학습이 매우 작은 모델에서도
[02:11]
사고 행동을 이끌어낼 수 있다는
[02:14]
사례들이 있었죠. 일주일 전에
[02:17]
버클리 박사과정 학생이
[02:19]
30달러를 들여
[02:22]
15억 파라미터 모델에서
[02:24]
사고 행동을 이끌어낸 것에 대한
[02:26]
영상을 올렸습니다. 이것이 분명
[02:28]
인공지능의 다음 단계로 우리를
[02:30]
이끌 전략입니다.
[02:32]
검증 가능한 보상이 있는
[02:34]
강화학습이 정확히 무엇인지
[02:36]
설명해드리겠습니다. 알파고가
[02:39]
세계 최고의 바둑 기사가 되고,
[02:42]
바둑에서 인간이 한 번도
[02:45]
생각하지 못했던 전략을 발견하는데
[02:47]
사용된 것과 같은 방법입니다.
[02:49]
본질적으로 AI가 스스로
[02:51]
자가 학습하는 방식이라고 생각하면 됩니다.
[02:54]
다양한 시도를 하고,
[02:57]
원하는 만큼 확장할 수 있으며,
[02:59]
정답을 얻을 때마다
[03:01]
정답을 맞추면 보상을 받고
[03:03]
틀린 답을 하면 보상을 받지 못합니다.
[03:05]
물론 이것은 실제 작동 방식을
[03:07]
매우 단순화한 설명이지만,
[03:09]
다시 바둑 게임을 예로 들어보겠습니다.
[03:12]
두 AI가 서로 바둑을 두는 것을 상상해보세요.
[03:14]
더 나은 전략을 사용한 AI가 이기게 되고
[03:17]
그 AI는 게임에서 승리했기 때문에 보상을 받습니다.
[03:20]
이제 이 과정을 수십, 수백, 수천,
[03:23]
수백만 번 반복한다고 상상해보세요.
[03:26]
결국 AI는 모든 상황에서
[03:28]
최적의 바둑 전략을 학습하게 됩니다.
[03:30]
이러한 접근 방식이 특별한 이유가 몇 가지 있는데
[03:33]
첫째, 우리는 이 과정을 무제한으로
[03:36]
확장할 수 있습니다.
[03:38]
이런 방식이 특별한 첫 번째 이유는
[03:40]
우리가 이것을 무제한으로 확장할 수 있다는 것입니다.
[03:42]
AI 시스템들이 계속해서
[03:44]
서로 대결하도록 할 수 있죠.
[03:46]
이것이 가능한 이유는
[03:48]
사람이 개입하지 않기 때문입니다.
[03:50]
알파고는 AI에게 기존의 기보를
[03:52]
전혀 제공하지 않았습니다.
[03:55]
단순히 규칙만 알려주고
[03:58]
이기면 얻는 것과
[04:00]
지면 얻는 것을 알려줬을 뿐입니다.
[04:01]
그리고 과정 중에 사람이 성능을
[04:05]
평가하지 않았고, 이를 통해
[04:06]
알파고는 세계 최고의 바둑 기사를 이겼습니다.
[04:09]
이것이 바로 검증 가능한 보상이며,
[04:11]
이 부분이 의미하는 것은
[04:14]
바둑에는 명확한 해결책이 있다는 것입니다.
[04:17]
승리를 알 수 있고, 패배도 알 수 있죠.
[04:20]
이것이 검증 가능한 부분이며,
[04:22]
이는 다른 분야에도 적용됩니다.
[04:24]
기본적으로 모든 STEM 분야,
[04:26]
즉 과학, 기술, 공학, 수학에는
[04:29]
검증 가능한 보상이 있습니다.
[04:31]
1+1은 항상 2와 같으므로,
[04:35]
만약 모델이 1+1=3이라고 하면
[04:38]
그것이 틀렸다는 것을 알 수 있죠.
[04:41]
코딩에서도 마찬가지로 검증 가능한 보상이 있습니다.
[04:43]
코딩 문제가 있을 때 답이 무엇인지
[04:46]
알 수 있습니다. 코드가 조금씩
[04:48]
다를 수 있더라도
[04:50]
코드의 최종 출력은
[04:53]
동일해야 하고 같은 방식으로 작동해야 합니다.
[04:56]
문제가 1부터 10까지의 숫자 배열을
[04:57]
요구한다면, 출력은 이미 알고 있지만
[05:00]
그 숫자 배열을 생성하는 방법은
[05:02]
다를 수 있습니다.
[05:04]
하지만 답은 여전히 맞아야 합니다.
[05:07]
또한 코드를 실행할 수 있어서,
[05:11]
코드를 실행했을 때 오류가 발생하면
[05:13]
당연히 답이 틀렸다는 것을
[05:15]
알 수 있습니다. 이제 이 점을 염두에 두고
[05:17]
이 논문을 살펴보겠습니다.
[05:19]
이 세그먼트의 스폰서인 Lang Trace에 감사드립니다.
[05:21]
그들은 훌륭한 파트너였습니다.
[05:23]
오늘 다시 한 번 소개해드리게 되어 기쁩니다.
[05:24]
Lang Trace는 선도적인 AI
[05:26]
소프트웨어 개발 컨설팅 회사로
[05:28]
비즈니스 발전을 위한 AI 제품을 구축합니다.
[05:30]
이러한 제품에는
[05:31]
오픈소스와 오픈 텔레메트리 기반의
[05:34]
관찰 가능성 및 평가 플랫폼이 포함되어 있어
[05:36]
애플리케이션에서 LLM 사용을
[05:39]
평가하고 개선하는 데 도움을 줍니다.
[05:41]
초기 단계 회사부터
[05:43]
포춘 500대 기업에 이르기까지
[05:44]
수천 명의 개발자들이 신뢰하고 있습니다.
[05:47]
L Trace는 개발자들이 트레이스를 수집하고 분석하며
[05:49]
데이터셋을 수집하고 평가를 실행하여
[05:51]
매우 신뢰할 수 있고 안전한 결과를 얻도록 돕습니다.
[05:53]
AI 시스템은 다시 오픈소스 추적과
[05:56]
OpenTelemetry와 쉽게 연동되며,
[05:58]
OpenAI, MrAI, DeepSeek, Gemini와도 연결됩니다.
[06:02]
LangTrace는 WeaviatePinecone 등과 함께
[06:05]
엔드투엔드 관찰 가능성과 추적을 제공하며,
[06:07]
LLM부터 벡터 데이터베이스까지
[06:10]
Crew AI와 같은 프레임워크 수준의 호출,
[06:12]
Llama Index, DSPy, LangChain까지 모두 추적합니다.
[06:16]
제가 좋아하는 Crew AI에 대한
[06:18]
기본 지원과 함께, LangTrace는
[06:20]
Crew AI 세션, 에이전트, 작업,
[06:22]
도구, 메모리를 추적하는 맞춤형 대시보드를 제공합니다.
[06:26]
에이전트의 모든 활동을 추적하여
[06:28]
데모에서 신뢰할 수 있는 AI 제품으로
[06:31]
쉽게 전환할 수 있습니다. LangTrace를 확인해보세요.
[06:34]
LangTrace는 오픈소스이며,
[06:36]
호스팅 버전을 사용하고 싶다면
[06:38]
설명란의 링크를 통해 지금 20% 할인을
[06:40]
받을 수 있습니다. 더 자세히
[06:42]
알아보고 싶다면 예정된 웨비나에
[06:44]
참여하세요. 모든 내용을 다룹니다.
[06:47]
훌륭한 파트너였던 그들의
[06:48]
GitHub을 확인해보세요.
[06:50]
LangTrace에 다시 한 번 감사드립니다. 영상으로 돌아가겠습니다.
[06:52]
이 논문에서는 몇 가지 다른 접근 방식을
[06:54]
비교하지만, 주로 두 가지
[06:57]
접근 방식에 집중합니다. 먼저 기준선으로
[07:00]
코딩 대회에서 GPT-4를 사용했고
[07:03]
꽤 좋은 성능을 보여줬습니다. 그 다음
[07:06]
단계는 추론 모델입니다.
[07:09]
01과 03 모델들은
[07:11]
테스트 시간 연산을 활용하는 모델로,
[07:14]
추론 시간 동안 모델이 생각할 수 있는
[07:18]
능력을 가지고 있어 AI의
[07:21]
코딩 품질을 크게 향상시켰습니다. 또한
[07:24]
수작업으로 작성된 추론 시간 전략을
[07:27]
더 일반화된 모델로 확장하는 것과
[07:30]
비교하고자 했습니다. 잠시
[07:32]
생각해보세요. 다시 한 번,
[07:34]
추론 모델을 가져와서
[07:35]
인간을 루프에 추가하고 있습니다.
[07:37]
인간이 추론 시간 전략을
[07:40]
만드는 것입니다. 제가 말하는 것은
[07:41]
정교한 프롬프트와 실제 답변에 대한
[07:44]
선택 기준을 의미하지만, 핵심은
[07:46]
인간이 이것들을 실제로 작성한다는 것입니다.
[07:48]
그리고 이를 인간 없이
[07:51]
검증 가능한 보상으로 강화학습을 사용해
[07:53]
03까지 모델을 확장하는 것과
[07:55]
비교했고, 그 결과는 매우 흥미롭습니다.
[07:59]
논문의 일부를 읽어드리겠습니다.
[08:01]
복잡한 알고리즘 문제를 해결하려면
[08:04]
고급 연산적 사고와
[08:06]
문제 해결 능력이 필요합니다.
[08:07]
이러한 문제들은 또한
[08:10]
객관적으로 평가할 수 있다는 것이 핵심입니다.
[08:13]
검증 가능한 보상, 객관적 평가가 가능하여
[08:15]
AI 모델의 추론 능력을 평가하는
[08:18]
이상적인 테스트베드가 됩니다.
[08:20]
그들은 계속해서
[08:22]
처음에는 표준적인
[08:24]
비사고형 모델들을 가지고 있었고,
[08:26]
2억 4,400만 개의 매개변수부터
[08:28]
1,370억 개의 매개변수까지의 모델들이
[08:31]
코드를 상당히 잘 생성할 수 있으며
[08:34]
모델 크기에 따라 성능이 로그
[08:37]
선형적으로 향상되고 미세 조정이
[08:40]
정확도를 크게 향상시킨다고 설명합니다. 그다음
[08:43]
Alpha 코드에 대해 이야기하는데, Alpha라고 하면
[08:45]
강화학습을 떠올리면 됩니다.
[08:47]
여기서 사용하는 기술이 바로 그것입니다.
[08:49]
Alpha 코드는 대규모 코드 생성과
[08:52]
경쟁 프로그래밍 과제를 다루는데
[08:54]
휴리스틱을 사용했습니다.
[08:56]
알파코드 2의 추론 기능은
[08:58]
알파코드의 문제 해결 능력을
[09:00]
거의 두 배로 향상시켰고
[09:02]
코드포스에서 85퍼센타일에 도달했습니다.
[09:04]
두 알파코드 시스템 모두
[09:06]
문제당 최대 백만 개의
[09:08]
후보 솔루션을 대규모로 샘플링한 후
[09:11]
상위 10개의 제출을 선택했습니다.
[09:13]
여기서 핵심은 수작업으로 설계된 테스트 전략입니다.
[09:16]
즉, 인간이 개입된 방식이죠.
[09:18]
그리고 대규모 추론 모델인
[09:21]
01과 03이 있었습니다. 이 모델들은
[09:24]
사고 연쇄(Chain of Thought) 추론을 사용하여
[09:26]
수학과 코딩같은 복잡한 작업을 처리했습니다.
[09:28]
Deep SE, gar one hello와 Kimmy K 1.5의 연구에 따르면
[09:32]
Kimmy K 1.5는 주목받지 못했지만
[09:36]
딥시크가 이룬 많은 성과를
[09:38]
독립적으로 달성했습니다.
[09:40]
이는 사고 연쇄 학습이
[09:42]
수학과 프로그래밍 과제 모두에서
[09:44]
성능을 향상시킨다는 것을 보여줍니다.
[09:46]
이 사고 연쇄는 정말 강력하지만
[09:48]
여전히 해결되지 않은 의문이 있습니다.
[09:51]
이런 수작업으로 설계된 추론 전략이
[09:54]
과연 최선의 접근법일까요?
[09:56]
최고의 코딩 AI를 만들기 위해
[09:59]
정말 필요한 것일까요?
[10:01]
그들은 이 질문에 답할 수 있는
[10:03]
세 가지 시스템이 있다고 말합니다.
[10:05]
첫째는 단순 추론 모델인 01이고
[10:07]
둘째는 더 정교한 추론과
[10:10]
선택 기준을 갖춘 모델
[10:13]
그리고 03의 초기 체크포인트입니다.
[10:15]
일반적으로 ii3가 아닌데
[10:19]
제가 어디로 이야기를 이끌지 아시겠지만
[10:22]
다른 비유를 들어보겠습니다.
[10:23]
테슬라 완전 자율주행을 생각해보세요.
[10:26]
몇 년 전만 해도 테슬라 완전 자율주행은
[10:29]
신경망과 수작업으로 작성된
[10:31]
규칙이 혼합된 하이브리드 방식이었습니다.
[10:34]
그리고 성능의 한계에 도달했죠.
[10:38]
그러다 몇 년 전에
[10:40]
그 시스템을 완전히 제거하고
[10:43]
강화학습을 사용한 완전한
[10:45]
엔드투엔드 신경망으로 전환했습니다.
[10:47]
이는 인간의 개입이 전혀 없다는 뜻이며
[10:50]
그 이후로 성능 한계를 돌파하여
[10:52]
놀라운 성과를 보여주고 있습니다.
[10:55]
핵심은 인간의 개입이
[10:57]
불필요했을 뿐만 아니라
[11:01]
오히려 성능 향상을 제한하는
[11:03]
요소였다는 것입니다.
[11:05]
그리고 OpenAI도 코딩 AI에서
[11:08]
같은 것을 발견했습니다.
[11:11]
자, OpenAI의 01부터 시작해보죠.
[11:13]
이것은 추론 모델이지만
[11:15]
정교한 추론 시간 프롬프팅 전략 없이
[11:18]
답변하기 전에 확장된
[11:20]
내부 사고 연쇄를 생성하여
[11:21]
마치 인간이 어려운 문제를
[11:23]
단계별로 체계적으로
[11:25]
해결하는 것과 비슷합니다.
[11:28]
강화학습은 이 사고 연쇄 과정을
[11:30]
개선하여 모델이 오류를 식별하고
[11:32]
수정하며, 복잡한 작업을
[11:34]
관리 가능한 부분으로 나누고
[11:37]
접근 방식이 실패할 때 대안을 탐색합니다.
[11:40]
우리는 모두 사고 연쇄가
[11:42]
얼마나 좋은지 봤습니다. 기본적으로 그렇게 작동하죠.
[11:45]
게다가 01은 외부 도구를 사용하도록
[11:47]
훈련되어 있어서 보안 환경에서
[11:50]
코드를 작성하고 실행할 수 있으며
[11:52]
01 모델이 생성한 코드가
[11:54]
맞는지 틀린지 확인할 수 있습니다.
[11:56]
먼저 코드포스 벤치마크를 살펴보겠습니다.
[11:58]
이 모델들이 실제로 어떤 성능을 보이는지
[12:00]
코드포스는 프로그래밍 대회를 주최하는
[12:02]
웹사이트입니다. 실시간으로 대회가 열리고
[12:04]
국제적인 경쟁이 이루어지며
[12:05]
세계 최고의 경쟁적 프로그래머들이
[12:07]
자주 참여하는 플랫폼입니다.
[12:08]
이제 아래로 내려가서 보시면
[12:10]
y축에는 코드포스 등급이 있고
[12:12]
x축에는 다양한 모델들이 있습니다.
[12:14]
여기 GPT 4.0은 808점의 ELO를 기록했고
[12:18]
Claude 2는 1258점, 그리고 Claude 3는 1673점을 기록했습니다.
[12:23]
각 모델 업그레이드마다 극적인 성능 향상을 볼 수 있죠.
[12:28]
이는 복잡한 추론에 있어서
[12:30]
강화학습이 얼마나 효과적인지를 보여줍니다.
[12:32]
여기서 매우 중요한 점이 있는데
[12:35]
이것은 IOI가 적용된 Claude 3의 결과입니다.
[12:38]
IOI가 어떻게 작동하는지
[12:40]
곧 자세히 설명해드리겠습니다.
[12:43]
Claude 3의 개발과 평가 과정에서
[12:45]
우리는 다음과 같은 사실을 발견했습니다.
[12:47]
강화학습 연산량을 늘리고
[12:49]
테스트 시간을 늘리면
[12:50]
일관되게 모델의 성능이 향상되었습니다.
[12:53]
자가 학습을 통한 강화학습뿐만 아니라
[12:55]
추론 시간에도 더 많은 시간을 할애하여
[12:58]
더 많은 토큰을 사용하고
[12:59]
제가 설명했던 사고의 연쇄를 수행하면서
[13:02]
더 오래 생각할 수 있게 했습니다.
[13:04]
보시다시피 학습 시간을 늘리면
[13:06]
성능이 향상되었고
[13:08]
오른쪽을 보시면 테스트 시간도
[13:10]
마찬가지로 연산량을 늘렸을 때
[13:12]
성능이 개선되었습니다.
[13:14]
왼쪽은 강화학습 결과이고
[13:16]
오른쪽은 학습 후
[13:18]
테스트 시간 결과입니다.
[13:20]
IOI는 경쟁적 프로그래밍을 위해 특별히 설계된
[13:24]
테스트 시간 추론 전략을 포함하고 있습니다.
[13:26]
하지만 기억하셔야 할 점은
[13:28]
이것들은 사람이 직접 작성한 것이라는 겁니다.
[13:31]
작동 방식을 설명하자면, 각 IOI 문제를
[13:33]
하위 작업으로 나누고
[13:36]
각 하위 작업에 대해 Claude 3 IOI에서
[13:39]
10,000개의 해결책을 샘플링했습니다.
[13:43]
그리고 클러스터링과
[13:45]
재순위 지정 기반 접근 방식을 사용하여
[13:47]
이 해결책 중 어떤 것을 제출할지
[13:50]
결정했습니다. 지금 '와, 정말 복잡하다'고
[13:52]
생각하고 계실 텐데, 맞습니다.
[13:55]
이제 이것을 제거하고
[13:56]
강화학습과 테스트 시간 연산만
[13:58]
늘렸을 때 어떻게 되는지
[14:00]
보여드리겠습니다.
[14:02]
클러스터링과 재순위 지정에 대해 설명하자면
[14:05]
이것들은 매우 복잡한 수작업 방식이며
[14:08]
Claude 3 모델에서 최적의 답을 선택하기 위한
[14:11]
전략들입니다.
[14:14]
클러스터링의 핵심은 여러 출력을 받아
[14:16]
비슷한 것들을 함께 묶고
[14:18]
그 중에서 하나를 선택하는 것입니다.
[14:19]
재순위 지정 역시
[14:21]
정교한 접근 방식으로,
[14:24]
각 해결책을 다음과 같은
[14:26]
품질 기준으로 평가했습니다:
[14:28]
모델이 생성한 테스트 입력의 오류와
[14:30]
제공된 공개 테스트 케이스 실패 여부를
[14:33]
수작업으로 확인했습니다.
[14:36]
그리고 사람에게도 허용되는 최대 횟수인
[14:39]
50회까지 제출했는데,
[14:40]
이는 사람과 동일한 규칙을
[14:43]
따른 것입니다. 라운드 로빈 방식으로
[14:45]
가장 어려운 작업부터 시작했고
[14:47]
실제로 아주 좋은 성과를 거뒀습니다.
[14:49]
진심으로 놀라운 성과였죠. Claude 3 IOI는
[14:52]
코드포스 레이팅 1807점을 달성했는데,
[14:54]
이는 전체 참가자의 93%를 능가하는 성과였습니다.
[14:57]
그리고 테스트 시간 전략을
[15:00]
수작업으로 작성한 전략을 추가했을 때
[15:02]
상위 99.8 퍼센타일인 2214점까지 상승했습니다.
[15:05]
여기 코드포스에서 01의 성과를 보시면
[15:08]
1673점, 01 II의 수작업 전략으로는
[15:13]
1807점, 01 II의 공개 테스트 필터링으로는
[15:16]
더 좋은 성과를 보였고
[15:18]
전체 테스트 시간 전략으로는 2214점을 기록했습니다. 이제
[15:22]
03 모델을 보여드리겠습니다. 이것은 수작업 전략 없이
[15:25]
만든 모델입니다. 01 IOI가
[15:29]
강력한 결과를 달성한 것은
[15:31]
추가적인 강화학습과
[15:32]
신중하게 설계된 테스트 시간 추론 파이프라인을
[15:36]
결합했기 때문인데, 쉽게 말하면
[15:38]
많은 강화학습과
[15:40]
많은 사용자 정의 추론 전략을
[15:43]
사용했다는 것입니다. 이 성공은 사람의
[15:46]
개입에 크게 의존했습니다.
[15:48]
이것이 핵심입니다.
[15:50]
사람의 개입이요. 마치
[15:52]
테슬라가 엔드투엔드 신경망에서 사람을 제거하고
[15:55]
엄청난 개선을 이뤄낸 것처럼
[15:57]
알파고가 작동하는 방식과 같이
[15:59]
사람을 제거하고 AI가
[16:01]
스스로 학습하도록 둔 것처럼, 지금 보시게 될 것이
[16:03]
바로 이것입니다. 여기 03이
[16:06]
코드포스 레이팅에서 상위
[16:09]
99.8 퍼센타일에 도달했습니다.
[16:12]
2724 ELO 점수를 기록했는데, 이는
[16:15]
01 IOI에서 큰 도약입니다. 만약 98퍼센타일에서
[16:18]
99.8퍼센타일로의 상승이 크지 않다고 생각하신다면,
[16:22]
ELO 차이를 보세요. 2200점 대 2700점입니다.
[16:25]
여기서 중요한 점이 있습니다.
[16:27]
이것을 보세요. 01 II가
[16:30]
복잡한 사람이 정의한 테스트 시간 전략에
[16:33]
의존했던 반면, 03은 훨씬 더 단순한
[16:36]
접근 방식을 따랐습니다. 03이 01을 크게 능가했죠.
[16:40]
단순히 강화학습을
[16:42]
확장하고 테스트 시간 연산을 늘렸을 뿐
[16:44]
하위 작업별 프롬프트나
[16:47]
수동 분할 또는 복잡한
[16:50]
제출 전략이 필요하지 않았습니다. 기본적으로 AI의 규모를 키우고
[16:54]
AI가 스스로 작동하도록 두면 더 나아진다는 것입니다.
[16:57]
01 II는 50번의 제출로 213점을 얻었는데,
[17:02]
이는 금메달 커트라인을 겨우 넘은 점수입니다.
[17:05]
03은, 다시 말하지만 순수한 03 모델만으로
[17:11]
395.8점을 획득하여 금메달 기준을
[17:14]
훨씬 뛰어넘었고, 50회
[17:17]
제출 제한도 지켰습니다. 다시 말하지만,
[17:20]
이러한 모델들의 규모를 확장하는 것이
[17:23]
세계 최고의 프로그래머가 되는 데 필요한 것이며,
[17:25]
AI가 그 이상으로 나아가
[17:28]
최고의 추론가, 수학자,
[17:30]
과학자, 기술자가 되어
[17:32]
AGI에 도달하고 마침내
[17:35]
ASI에 이르게 될 것입니다. 이 논문이
[17:39]
보여주는 것은 우리가 이미 알고 있는 것입니다.
[17:42]
이 채널을 보신 분들은 아시겠지만
[17:44]
강화학습과 테스트 시간 연산이
[17:47]
AGI로 가는 명확한 길입니다. 샘 알트만이
[17:50]
이미 말했죠. 우리는
[17:52]
명확한 경로를 가지고 있고 단지 구현만 하면 된다고.
[17:54]
이것이 바로 그가 말한 것입니다. 그들은
[17:56]
알고리즘과 접근 방식을 가지고 있지만
[17:59]
단지 규모를 키우기만 하면 됩니다. 이 영상이
[18:00]
마음에 드셨다면
[18:02]
좋아요와 구독 부탁드립니다.
[18:04]
다음 영상에서 뵙겠습니다.