OpenAI, 인간 코더의 99.8%를 제치다 (AGI 및 그 너머)

채널 아이콘
Matthew Berman 구독자 419,000명

요약

영상은 OpenAI가 최근 발표한 논문을 중심으로 AI의 코드 작성 능력을 극대화하기 위한 강화학습과 테스트타임 컴퓨트 전략을 상세히 설명한다. 이를 통해 체인 오브 사우트와 자가 학습(self-play) 메커니즘이 알파고와 유사한 방식으로 문제 해결 능력을 크게 향상시킴을 보여준다. 실제 코드포스 경쟁 대회의 벤치마크 결과를 근거로, 인간의 개입을 최소화하고 스케일업하는 접근법이 AGI, 나아가 초지능(ASI)으로 가는 명확한 길임을 강조한다.

주요 키워드

강화학습 테스트타임 컴퓨트 체인 오브 사우트 코드포스 AGI ASI OpenAI 모델 스케일업 경쟁 프로그래밍 자가 학습

하이라이트

  • 🔑 OpenAI의 논문은 강화학습과 테스트타임 컴퓨트를 통한 AI 성능 향상의 핵심 전략을 제시함.
  • ⚡️ 초기 벤치마크에서 AI가 인간 코더들을 능가하며 내부 평가 점수가 급상승한 사례를 설명함.
  • 🌟 알파고와 유사하게, 체인 오브 사우트(문제 해결 사고 과정)를 활용하여 복잡한 문제도 효과적으로 풀어냄.
  • 🚀 코드포스 경쟁 결과를 통해 다양한 모델(GPT-4, 01, 01 II, 03)의 성능 차이가 명확히 드러남.
  • 📌 인간이 정의한 테스트 전략과 비교해, 단순히 스케일업한 강화학습이 더 효과적임을 분석함.
  • 🎯 최종적으로 강화학습과 테스트타임 컴퓨트 확장이 AGI, 그리고 ASI로의 발전을 위한 결정적 요소임을 시사함.

용어 설명

강화학습

모델이 시행착오를 통해 보상을 최대화하도록 학습하는 방법으로, 자가 학습(self-play)을 통해 성능을 극대화함.

테스트타임 컴퓨트

추론 과정에서 추가적인 계산 자원을 사용하여 모델의 답변 정확도와 문제 해결 능력을 향상시키는 접근법.

체인 오브 사우트

문제를 단계별로 분석하고 해결 과정을 확장하는 사고 과정으로, 복잡한 문제 해결에 도움을 줌.

코드포스

국제적으로 유명한 프로그래밍 대회 플랫폼으로, AI 모델의 코딩 능력을 비교 평가하는 기준으로 사용됨.

AGI (Artificial General Intelligence)

인간과 유사하거나 그 이상의 전반적인 지능을 갖는 인공지능을 의미함.

ASI (Artificial Super Intelligence)

인간 지능을 훨씬 능가하는 초지능을 의미하며, AI의 궁극적 발전 단계로 간주됨.

[00:00:00] 도입 및 논문 개요

영상은 OpenAI가 발표한 최신 논문에서 AI가 세계 최고 코더가 되는 과정을 소개함. 여기서는 강화학습과 테스트타임 컴퓨트의 기본 아이디어를 설명합니다.

OpenAI가 인공지능이 세계 최고의 프로그래머가 되기 위한 방법을 제시한 논문을 발표했습니다. 이 전략은 코딩에만 국한되지 않으며, 강화학습의 확장이 AGI로 가는 핵심임을 보여줍니다.
샘 알트만은 일본 인터뷰에서 GPT-4가 현재 세계 175위 수준의 프로그래머이며, 내부 벤치마크는 50위 정도로, 연말까지 1위 달성을 목표로 하고 있다고 밝혔습니다.
[00:00:32] 샘 올트먼 인터뷰와 초기 벤치마크

일본 인터뷰 클립을 통해 샘 올트먼이 내놓은 AI의 초기 경쟁력 및 내부 벤치마크 점수 변화가 언급됩니다. 이 부분에서 AI가 인간 코더와의 경쟁에서 어떤 위치에 있는지 설명합니다.

'대규모 추론 모델을 통한 경쟁적 프로그래밍' 논문이 발표되었으며, DeepSeek 모델의 성공 사례를 통해 검증 가능한 보상이 있는 강화학습의 중요성이 입증되었습니다.
DeepSeek R1은 500만 달러의 훈련 비용으로 놀라운 효율성을 보여주었고, 강화학습이 모델 성능 향상의 핵심 요소임을 증명했습니다.
검증 가능한 보상이 있는 강화학습은 알파고가 세계 최고의 바둑 기사가 되는 데 사용된 것과 같은 방법으로, AI가 자가 학습을 통해 발전하는 방식입니다.
AI 학습에서 정답을 맞추면 보상을 받고 틀리면 보상을 받지 않는 기본 원리를 설명합니다.
[00:03:12] 강화학습과 체인 오브 사우트의 원리

알파고의 성공 사례를 예시로 들며, AI가 자가 학습(self-play)과 체인 오브 사우트를 통해 복잡한 문제를 해결하는 메커니즘이 설명됩니다. 인간 개입 없이 보상을 통한 학습 방식의 효과가 강조됩니다.

바둑 게임을 예로 들어, AI가 서로 대결하면서 승리한 전략에 보상을 주는 방식으로 학습하는 과정을 설명합니다.
알파고의 학습 방식에 대해 설명하며, 기존 기보 없이 규칙만으로 학습했고 사람의 개입 없이 최고 수준에 도달했음을 강조합니다.
STEM 분야에서의 검증 가능한 보상 시스템에 대해 설명하며, 특히 수학과 코딩에서 정답을 명확히 판단할 수 있는 특성을 강조합니다.
Lang Trace 소개: AI 소프트웨어 개발 컨설팅 회사로서 LLM 평가 및 개선을 위한 플랫폼을 제공하는 기업입니다.
AI 시스템의 오픈소스 통합과 OpenTelemetry 연동에 대해 설명하고, 다양한 AI 플랫폼과의 호환성을 소개합니다.
LangTrace의 주요 기능인 엔드투엔드 관찰 가능성과 LLM, 벡터 데이터베이스, 프레임워크 수준의 추적 기능을 설명합니다.
Crew AI를 위한 맞춤형 대시보드와 추적 기능을 상세히 소개하고, 제품의 오픈소스 특성과 할인 혜택을 안내합니다.
논문에서 다룬 두 가지 주요 접근 방식: GPT-4 기준선과 추론 모델(01, 03)의 성능 비교에 대해 설명합니다.
수작업 추론 전략과 강화학습 기반 모델 확장의 비교 연구 결과를 소개합니다.
복잡한 알고리즘 문제 해결에 필요한 능력과 AI 모델 평가 방법론에 대해 설명합니다.
다양한 규모의 모델 성능과 Alpha 코드의 강화학습 접근 방식에 대해 논의합니다.
알파코드 2의 성능이 크게 향상되어 코드포스에서 85퍼센타일에 도달했으며, 문제당 최대 백만 개의 솔루션을 생성하고 상위 10개를 선택하는 방식을 사용했습니다.
대규모 추론 모델 01과 03이 도입되어 사고 연쇄 추론을 통해 수학과 코딩 문제를 해결했으며, Kimmy K 1.5도 딥시크와 유사한 성과를 독립적으로 달성했습니다.
수작업으로 설계된 추론 전략의 필요성에 대한 의문이 제기되었으며, 테슬라의 자율주행 사례처럼 인간의 개입이 오히려 성능 향상을 제한할 수 있다는 점이 지적되었습니다.
OpenAI의 01 모델은 인간처럼 문제를 단계별로 해결하며, 강화학습을 통해 사고 과정을 개선하고 외부 도구를 활용하여 코드의 정확성을 검증할 수 있습니다.
[00:11:56] 코드포스 벤치마크 및 모델 성능 분석

GPT-4부터 시작해 다양한 모델(01, 01 II, 03)의 성능이 코드포스 경쟁 결과와 ELO 점수로 비교됩니다. 각 모델의 성능 향상과 인간이 설계한 전략 대비 단순 스케일업 접근의 차이가 분석됩니다.

코드포스 벤치마크를 통해 각 AI 모델의 프로그래밍 능력을 평가한 결과, GPT 4.0은 808점, Claude 2는 1258점, Claude 3는 1673점을 기록하며 지속적인 성능 향상을 보였습니다.
Claude 3의 개발 과정에서 강화학습 연산량과 테스트 시간을 증가시킬수록 모델의 성능이 일관되게 향상되는 것을 발견했습니다.
IOI는 경쟁적 프로그래밍을 위해 특별히 설계된 테스트 시간 추론 전략을 포함하며, 각 문제를 하위 작업으로 나누고 10,000개의 해결책을 샘플링하는 방식으로 작동합니다.
해결책 평가는 모델이 생성한 테스트 입력의 오류와 공개 테스트 케이스 실패 여부를 기준으로 하며, 사람과 동일한 규칙인 최대 50회 제출 제한을 준수했습니다.
OpenAI의 코드포스 모델이 1807점을 달성하여 93%의 참가자를 능가했으며, 수작업 전략 추가 후 2214점으로 상승했습니다.
03 모델은 수작업 전략 없이도 뛰어난 성능을 보였으며, 이는 사람의 개입을 제거하고 AI가 자율적으로 학습한 결과입니다.
[00:16:00] 스케일업의 중요성과 AGI로의 도약

핸드메이드 테스트 전략 대신 강화학습과 테스트타임 컴퓨트를 단순히 확장하는 접근법이 더 우수함을 보여줍니다. 이 전략이 AGI, 나아가 ASI로 가는 결정적 열쇠임을 결론지으며 영상을 마무리합니다.

03 모델은 상위 99.8 퍼센타일인 2724 ELO 점수를 달성했으며, 이는 01 IOI보다 훨씬 뛰어난 성과입니다.
03은 복잡한 인간 개입 없이 단순히 강화학습과 테스트 시간 연산을 확장하여 더 나은 결과를 얻었습니다.
OpenAI가 최근 한 논문을 발표했는데,
인공지능이 세계 최고의 프로그래머가 되기 위해
무엇이 필요한지를 보여주었습니다.
여기서 주목할 점은
OpenAI가 이 논문에서 공개한 전략이
코딩에만 국한되지 않는다는 것입니다.
강화학습을 확장하는 것이
AGI와 그 이상으로 가는 길임을 증명했죠.
이제 이 논문을 분석해서
보여드리겠습니다.
강화학습과 테스트 타임 연산을 통해
지능의 한계는 무한하다는 것을요.
본론으로 들어가기 전에
몇 주 전에 있었던
샘 알트만의 일본 인터뷰 영상을
보여드리고 싶습니다. 그는 GPT-4가
작년 12월에 공개적으로 언급했듯이
세계에서 175번째로 뛰어난
경쟁 프로그래머라고 했습니다.
현재 내부 벤치마크는 약 50위이며,
올해 말까지는
1위에 도달할 수 있을 것이라고 했죠.
이제 기준이 어디에 있는지, 그리고 OpenAI가
올해 말까지 어디까지 갈 수 있다고
확신하는지 알 수 있습니다.
이 논문의 제목은
'대규모 추론 모델을 통한
경쟁적 프로그래밍'으로, OpenAI가
몇 주 전에 발표했습니다.
최근 몇 주 동안 DeepSeek
모델과 DeepSeek R1 논문이
공개된 이후 이 채널을 지켜보셨다면
우리가 어디로 향하고 있는지
이미 알고 계실 겁니다.
검증 가능한 보상이 있는 강화학습과
테스트 타임 연산, 이 두 가지가
이러한 모델에서 놀라운 지능을 달성하는데
필요한 핵심 확장 요소입니다.
인간을 방정식에서 제거하는 것이
핵심인 것 같습니다. 잠시 DeepSeek에
대해 이야기해보죠. DeepSeek R1은
몇 주 전에 공개되어 세상을 놀라게 했고
많은 사람들이 이 모델의 비용과 효율성에
주목했습니다. 훈련 비용이 500만 달러에
불과했다는 점에서요.
물론 이는 정확한 비교는 아니지만,
매우 효율적이었고 그들이 한 일은
정말 놀라웠습니다. 하지만 실제로
이 논문이 세상에 보여준 핵심은
강화학습이 그 모델의 성능을
향상시키는 주요 돌파구였다는
점입니다. 그 이후로
검증 가능한 보상이 있는
강화학습이 매우 작은 모델에서도
사고 행동을 이끌어낼 수 있다는
사례들이 있었죠. 일주일 전에
버클리 박사과정 학생이
30달러를 들여
15억 파라미터 모델에서
사고 행동을 이끌어낸 것에 대한
영상을 올렸습니다. 이것이 분명
인공지능의 다음 단계로 우리를
이끌 전략입니다.
검증 가능한 보상이 있는
강화학습이 정확히 무엇인지
설명해드리겠습니다. 알파고가
세계 최고의 바둑 기사가 되고,
바둑에서 인간이 한 번도
생각하지 못했던 전략을 발견하는데
사용된 것과 같은 방법입니다.
본질적으로 AI가 스스로
자가 학습하는 방식이라고 생각하면 됩니다.
다양한 시도를 하고,
원하는 만큼 확장할 수 있으며,
정답을 얻을 때마다
정답을 맞추면 보상을 받고
틀린 답을 하면 보상을 받지 못합니다.
물론 이것은 실제 작동 방식을
매우 단순화한 설명이지만,
다시 바둑 게임을 예로 들어보겠습니다.
두 AI가 서로 바둑을 두는 것을 상상해보세요.
더 나은 전략을 사용한 AI가 이기게 되고
그 AI는 게임에서 승리했기 때문에 보상을 받습니다.
이제 이 과정을 수십, 수백, 수천,
수백만 번 반복한다고 상상해보세요.
결국 AI는 모든 상황에서
최적의 바둑 전략을 학습하게 됩니다.
이러한 접근 방식이 특별한 이유가 몇 가지 있는데
첫째, 우리는 이 과정을 무제한으로
확장할 수 있습니다.
이런 방식이 특별한 첫 번째 이유는
우리가 이것을 무제한으로 확장할 수 있다는 것입니다.
AI 시스템들이 계속해서
서로 대결하도록 할 수 있죠.
이것이 가능한 이유는
사람이 개입하지 않기 때문입니다.
알파고는 AI에게 기존의 기보를
전혀 제공하지 않았습니다.
단순히 규칙만 알려주고
이기면 얻는 것과
지면 얻는 것을 알려줬을 뿐입니다.
그리고 과정 중에 사람이 성능을
평가하지 않았고, 이를 통해
알파고는 세계 최고의 바둑 기사를 이겼습니다.
이것이 바로 검증 가능한 보상이며,
이 부분이 의미하는 것은
바둑에는 명확한 해결책이 있다는 것입니다.
승리를 알 수 있고, 패배도 알 수 있죠.
이것이 검증 가능한 부분이며,
이는 다른 분야에도 적용됩니다.
기본적으로 모든 STEM 분야,
즉 과학, 기술, 공학, 수학에는
검증 가능한 보상이 있습니다.
1+1은 항상 2와 같으므로,
만약 모델이 1+1=3이라고 하면
그것이 틀렸다는 것을 알 수 있죠.
코딩에서도 마찬가지로 검증 가능한 보상이 있습니다.
코딩 문제가 있을 때 답이 무엇인지
알 수 있습니다. 코드가 조금씩
다를 수 있더라도
코드의 최종 출력은
동일해야 하고 같은 방식으로 작동해야 합니다.
문제가 1부터 10까지의 숫자 배열을
요구한다면, 출력은 이미 알고 있지만
그 숫자 배열을 생성하는 방법은
다를 수 있습니다.
하지만 답은 여전히 맞아야 합니다.
또한 코드를 실행할 수 있어서,
코드를 실행했을 때 오류가 발생하면
당연히 답이 틀렸다는 것을
알 수 있습니다. 이제 이 점을 염두에 두고
이 논문을 살펴보겠습니다.
이 세그먼트의 스폰서인 Lang Trace에 감사드립니다.
그들은 훌륭한 파트너였습니다.
오늘 다시 한 번 소개해드리게 되어 기쁩니다.
Lang Trace는 선도적인 AI
소프트웨어 개발 컨설팅 회사로
비즈니스 발전을 위한 AI 제품을 구축합니다.
이러한 제품에는
오픈소스와 오픈 텔레메트리 기반의
관찰 가능성 및 평가 플랫폼이 포함되어 있어
애플리케이션에서 LLM 사용을
평가하고 개선하는 데 도움을 줍니다.
초기 단계 회사부터
포춘 500대 기업에 이르기까지
수천 명의 개발자들이 신뢰하고 있습니다.
L Trace는 개발자들이 트레이스를 수집하고 분석하며
데이터셋을 수집하고 평가를 실행하여
매우 신뢰할 수 있고 안전한 결과를 얻도록 돕습니다.
AI 시스템은 다시 오픈소스 추적과
OpenTelemetry와 쉽게 연동되며,
OpenAI, MrAI, DeepSeek, Gemini와도 연결됩니다.
LangTrace는 WeaviatePinecone 등과 함께
엔드투엔드 관찰 가능성과 추적을 제공하며,
LLM부터 벡터 데이터베이스까지
Crew AI와 같은 프레임워크 수준의 호출,
Llama Index, DSPy, LangChain까지 모두 추적합니다.
제가 좋아하는 Crew AI에 대한
기본 지원과 함께, LangTrace는
Crew AI 세션, 에이전트, 작업,
도구, 메모리를 추적하는 맞춤형 대시보드를 제공합니다.
에이전트의 모든 활동을 추적하여
데모에서 신뢰할 수 있는 AI 제품으로
쉽게 전환할 수 있습니다. LangTrace를 확인해보세요.
LangTrace는 오픈소스이며,
호스팅 버전을 사용하고 싶다면
설명란의 링크를 통해 지금 20% 할인을
받을 수 있습니다. 더 자세히
알아보고 싶다면 예정된 웨비나에
참여하세요. 모든 내용을 다룹니다.
훌륭한 파트너였던 그들의
GitHub을 확인해보세요.
LangTrace에 다시 한 번 감사드립니다. 영상으로 돌아가겠습니다.
이 논문에서는 몇 가지 다른 접근 방식을
비교하지만, 주로 두 가지
접근 방식에 집중합니다. 먼저 기준선으로
코딩 대회에서 GPT-4를 사용했고
꽤 좋은 성능을 보여줬습니다. 그 다음
단계는 추론 모델입니다.
01과 03 모델들은
테스트 시간 연산을 활용하는 모델로,
추론 시간 동안 모델이 생각할 수 있는
능력을 가지고 있어 AI의
코딩 품질을 크게 향상시켰습니다. 또한
수작업으로 작성된 추론 시간 전략을
더 일반화된 모델로 확장하는 것과
비교하고자 했습니다. 잠시
생각해보세요. 다시 한 번,
추론 모델을 가져와서
인간을 루프에 추가하고 있습니다.
인간이 추론 시간 전략을
만드는 것입니다. 제가 말하는 것은
정교한 프롬프트와 실제 답변에 대한
선택 기준을 의미하지만, 핵심은
인간이 이것들을 실제로 작성한다는 것입니다.
그리고 이를 인간 없이
검증 가능한 보상으로 강화학습을 사용해
03까지 모델을 확장하는 것과
비교했고, 그 결과는 매우 흥미롭습니다.
논문의 일부를 읽어드리겠습니다.
복잡한 알고리즘 문제를 해결하려면
고급 연산적 사고와
문제 해결 능력이 필요합니다.
이러한 문제들은 또한
객관적으로 평가할 수 있다는 것이 핵심입니다.
검증 가능한 보상, 객관적 평가가 가능하여
AI 모델의 추론 능력을 평가하는
이상적인 테스트베드가 됩니다.
그들은 계속해서
처음에는 표준적인
비사고형 모델들을 가지고 있었고,
2억 4,400만 개의 매개변수부터
1,370억 개의 매개변수까지의 모델들이
코드를 상당히 잘 생성할 수 있으며
모델 크기에 따라 성능이 로그
선형적으로 향상되고 미세 조정이
정확도를 크게 향상시킨다고 설명합니다. 그다음
Alpha 코드에 대해 이야기하는데, Alpha라고 하면
강화학습을 떠올리면 됩니다.
여기서 사용하는 기술이 바로 그것입니다.
Alpha 코드는 대규모 코드 생성과
경쟁 프로그래밍 과제를 다루는데
휴리스틱을 사용했습니다.
알파코드 2의 추론 기능은
알파코드의 문제 해결 능력을
거의 두 배로 향상시켰고
코드포스에서 85퍼센타일에 도달했습니다.
두 알파코드 시스템 모두
문제당 최대 백만 개의
후보 솔루션을 대규모로 샘플링한 후
상위 10개의 제출을 선택했습니다.
여기서 핵심은 수작업으로 설계된 테스트 전략입니다.
즉, 인간이 개입된 방식이죠.
그리고 대규모 추론 모델인
01과 03이 있었습니다. 이 모델들은
사고 연쇄(Chain of Thought) 추론을 사용하여
수학과 코딩같은 복잡한 작업을 처리했습니다.
Deep SE, gar one hello와 Kimmy K 1.5의 연구에 따르면
Kimmy K 1.5는 주목받지 못했지만
딥시크가 이룬 많은 성과를
독립적으로 달성했습니다.
이는 사고 연쇄 학습이
수학과 프로그래밍 과제 모두에서
성능을 향상시킨다는 것을 보여줍니다.
이 사고 연쇄는 정말 강력하지만
여전히 해결되지 않은 의문이 있습니다.
이런 수작업으로 설계된 추론 전략이
과연 최선의 접근법일까요?
최고의 코딩 AI를 만들기 위해
정말 필요한 것일까요?
그들은 이 질문에 답할 수 있는
세 가지 시스템이 있다고 말합니다.
첫째는 단순 추론 모델인 01이고
둘째는 더 정교한 추론과
선택 기준을 갖춘 모델
그리고 03의 초기 체크포인트입니다.
일반적으로 ii3가 아닌데
제가 어디로 이야기를 이끌지 아시겠지만
다른 비유를 들어보겠습니다.
테슬라 완전 자율주행을 생각해보세요.
몇 년 전만 해도 테슬라 완전 자율주행은
신경망과 수작업으로 작성된
규칙이 혼합된 하이브리드 방식이었습니다.
그리고 성능의 한계에 도달했죠.
그러다 몇 년 전에
그 시스템을 완전히 제거하고
강화학습을 사용한 완전한
엔드투엔드 신경망으로 전환했습니다.
이는 인간의 개입이 전혀 없다는 뜻이며
그 이후로 성능 한계를 돌파하여
놀라운 성과를 보여주고 있습니다.
핵심은 인간의 개입이
불필요했을 뿐만 아니라
오히려 성능 향상을 제한하는
요소였다는 것입니다.
그리고 OpenAI도 코딩 AI에서
같은 것을 발견했습니다.
자, OpenAI의 01부터 시작해보죠.
이것은 추론 모델이지만
정교한 추론 시간 프롬프팅 전략 없이
답변하기 전에 확장된
내부 사고 연쇄를 생성하여
마치 인간이 어려운 문제를
단계별로 체계적으로
해결하는 것과 비슷합니다.
강화학습은 이 사고 연쇄 과정을
개선하여 모델이 오류를 식별하고
수정하며, 복잡한 작업을
관리 가능한 부분으로 나누고
접근 방식이 실패할 때 대안을 탐색합니다.
우리는 모두 사고 연쇄가
얼마나 좋은지 봤습니다. 기본적으로 그렇게 작동하죠.
게다가 01은 외부 도구를 사용하도록
훈련되어 있어서 보안 환경에서
코드를 작성하고 실행할 수 있으며
01 모델이 생성한 코드가
맞는지 틀린지 확인할 수 있습니다.
먼저 코드포스 벤치마크를 살펴보겠습니다.
이 모델들이 실제로 어떤 성능을 보이는지
코드포스는 프로그래밍 대회를 주최하는
웹사이트입니다. 실시간으로 대회가 열리고
국제적인 경쟁이 이루어지며
세계 최고의 경쟁적 프로그래머들이
자주 참여하는 플랫폼입니다.
이제 아래로 내려가서 보시면
y축에는 코드포스 등급이 있고
x축에는 다양한 모델들이 있습니다.
여기 GPT 4.0은 808점의 ELO를 기록했고
Claude 2는 1258점, 그리고 Claude 3는 1673점을 기록했습니다.
각 모델 업그레이드마다 극적인 성능 향상을 볼 수 있죠.
이는 복잡한 추론에 있어서
강화학습이 얼마나 효과적인지를 보여줍니다.
여기서 매우 중요한 점이 있는데
이것은 IOI가 적용된 Claude 3의 결과입니다.
IOI가 어떻게 작동하는지
곧 자세히 설명해드리겠습니다.
Claude 3의 개발과 평가 과정에서
우리는 다음과 같은 사실을 발견했습니다.
강화학습 연산량을 늘리고
테스트 시간을 늘리면
일관되게 모델의 성능이 향상되었습니다.
자가 학습을 통한 강화학습뿐만 아니라
추론 시간에도 더 많은 시간을 할애하여
더 많은 토큰을 사용하고
제가 설명했던 사고의 연쇄를 수행하면서
더 오래 생각할 수 있게 했습니다.
보시다시피 학습 시간을 늘리면
성능이 향상되었고
오른쪽을 보시면 테스트 시간도
마찬가지로 연산량을 늘렸을 때
성능이 개선되었습니다.
왼쪽은 강화학습 결과이고
오른쪽은 학습 후
테스트 시간 결과입니다.
IOI는 경쟁적 프로그래밍을 위해 특별히 설계된
테스트 시간 추론 전략을 포함하고 있습니다.
하지만 기억하셔야 할 점은
이것들은 사람이 직접 작성한 것이라는 겁니다.
작동 방식을 설명하자면, 각 IOI 문제를
하위 작업으로 나누고
각 하위 작업에 대해 Claude 3 IOI에서
10,000개의 해결책을 샘플링했습니다.
그리고 클러스터링과
재순위 지정 기반 접근 방식을 사용하여
이 해결책 중 어떤 것을 제출할지
결정했습니다. 지금 '와, 정말 복잡하다'고
생각하고 계실 텐데, 맞습니다.
이제 이것을 제거하고
강화학습과 테스트 시간 연산만
늘렸을 때 어떻게 되는지
보여드리겠습니다.
클러스터링과 재순위 지정에 대해 설명하자면
이것들은 매우 복잡한 수작업 방식이며
Claude 3 모델에서 최적의 답을 선택하기 위한
전략들입니다.
클러스터링의 핵심은 여러 출력을 받아
비슷한 것들을 함께 묶고
그 중에서 하나를 선택하는 것입니다.
재순위 지정 역시
정교한 접근 방식으로,
각 해결책을 다음과 같은
품질 기준으로 평가했습니다:
모델이 생성한 테스트 입력의 오류와
제공된 공개 테스트 케이스 실패 여부를
수작업으로 확인했습니다.
그리고 사람에게도 허용되는 최대 횟수인
50회까지 제출했는데,
이는 사람과 동일한 규칙을
따른 것입니다. 라운드 로빈 방식으로
가장 어려운 작업부터 시작했고
실제로 아주 좋은 성과를 거뒀습니다.
진심으로 놀라운 성과였죠. Claude 3 IOI는
코드포스 레이팅 1807점을 달성했는데,
이는 전체 참가자의 93%를 능가하는 성과였습니다.
그리고 테스트 시간 전략을
수작업으로 작성한 전략을 추가했을 때
상위 99.8 퍼센타일인 2214점까지 상승했습니다.
여기 코드포스에서 01의 성과를 보시면
1673점, 01 II의 수작업 전략으로는
1807점, 01 II의 공개 테스트 필터링으로는
더 좋은 성과를 보였고
전체 테스트 시간 전략으로는 2214점을 기록했습니다. 이제
03 모델을 보여드리겠습니다. 이것은 수작업 전략 없이
만든 모델입니다. 01 IOI가
강력한 결과를 달성한 것은
추가적인 강화학습과
신중하게 설계된 테스트 시간 추론 파이프라인을
결합했기 때문인데, 쉽게 말하면
많은 강화학습과
많은 사용자 정의 추론 전략을
사용했다는 것입니다. 이 성공은 사람의
개입에 크게 의존했습니다.
이것이 핵심입니다.
사람의 개입이요. 마치
테슬라가 엔드투엔드 신경망에서 사람을 제거하고
엄청난 개선을 이뤄낸 것처럼
알파고가 작동하는 방식과 같이
사람을 제거하고 AI가
스스로 학습하도록 둔 것처럼, 지금 보시게 될 것이
바로 이것입니다. 여기 03이
코드포스 레이팅에서 상위
99.8 퍼센타일에 도달했습니다.
2724 ELO 점수를 기록했는데, 이는
01 IOI에서 큰 도약입니다. 만약 98퍼센타일에서
99.8퍼센타일로의 상승이 크지 않다고 생각하신다면,
ELO 차이를 보세요. 2200점 대 2700점입니다.
여기서 중요한 점이 있습니다.
이것을 보세요. 01 II가
복잡한 사람이 정의한 테스트 시간 전략에
의존했던 반면, 03은 훨씬 더 단순한
접근 방식을 따랐습니다. 03이 01을 크게 능가했죠.
단순히 강화학습을
확장하고 테스트 시간 연산을 늘렸을 뿐
하위 작업별 프롬프트나
수동 분할 또는 복잡한
제출 전략이 필요하지 않았습니다. 기본적으로 AI의 규모를 키우고
AI가 스스로 작동하도록 두면 더 나아진다는 것입니다.
01 II는 50번의 제출로 213점을 얻었는데,
이는 금메달 커트라인을 겨우 넘은 점수입니다.
03은, 다시 말하지만 순수한 03 모델만으로
395.8점을 획득하여 금메달 기준을
훨씬 뛰어넘었고, 50회
제출 제한도 지켰습니다. 다시 말하지만,
이러한 모델들의 규모를 확장하는 것이
세계 최고의 프로그래머가 되는 데 필요한 것이며,
AI가 그 이상으로 나아가
최고의 추론가, 수학자,
과학자, 기술자가 되어
AGI에 도달하고 마침내
ASI에 이르게 될 것입니다. 이 논문이
보여주는 것은 우리가 이미 알고 있는 것입니다.
이 채널을 보신 분들은 아시겠지만
강화학습과 테스트 시간 연산이
AGI로 가는 명확한 길입니다. 샘 알트만이
이미 말했죠. 우리는
명확한 경로를 가지고 있고 단지 구현만 하면 된다고.
이것이 바로 그가 말한 것입니다. 그들은
알고리즘과 접근 방식을 가지고 있지만
단지 규모를 키우기만 하면 됩니다. 이 영상이
마음에 드셨다면
좋아요와 구독 부탁드립니다.
다음 영상에서 뵙겠습니다.