놀라운 새로운 OpenAI 연구: o3가 IOI 금메달을 획득하다

채널 아이콘
Wes Roth 구독자 260,000명

요약

이 영상은 OpenAI가 발표한 연구를 중심으로, 강화 학습을 적용한 대규모 언어 모델(대규모 추론 모델)이 경쟁 프로그래밍 및 복잡한 문제 해결 성능을 혁신적으로 향상시킨 과정을 설명합니다. 영상에서는 수만 건의 후보 솔루션 샘플링과 클러스터링, 재순위 매김 전략을 통해 IOI와 Codeforces 같은 국제 대회에서 금메달 수준의 성과를 거둔 사례를 소개합니다. 또한, 핸드크래프트된 도메인 특화 기법과 일반 강화 학습 접근법의 비교 분석을 통해 모델의 발전 방향과 그 한계를 짚어봅니다. 마지막으로, 이러한 연구 결과가 향후 소프트웨어 엔지니어링 및 초인적 코딩 능력에 미칠 파급 효과에 대해 전망합니다.

주요 키워드

reinforcement learning 대규모 언어 모델 대규모 추론 모델 competitive programming IOI Codeforces 샘플링 체인 오브 생각 알파코드

하이라이트

  • 🔑 OpenAI가 발표한 논문은 강화 학습을 적용해 대규모 언어 모델의 문제 해결 능력을 극적으로 향상시켰음을 보여줍니다.
  • ⚡️ 연구에서는 수만 건의 후보 솔루션 샘플링 및 클러스터링을 통해 IOI와 Codeforces에서 금메달 수준의 성과를 달성하는 방법을 설명합니다.
  • 🌟 핸드크래프트된 도메인 특화 전략과 일반 강화 학습 기반 모델의 성능을 비교하여, 후자가 더 우수한 결과를 보인다는 점이 강조됩니다.
  • 🚀 모델이 체인 오브 생각(내부 논리적 사고 과정)과 자가 디버깅 과정을 통해 스스로 코드를 생성, 수정하며 성능을 개선하는 메커니즘이 소개됩니다.
  • 📌 앞으로 2025년까지 초인적 코딩 능력을 보유한 AI 모델 등장 가능성이 제시되며, 이로 인한 소프트웨어 엔지니어링 환경의 변화를 암시합니다.

용어 설명

대규모 추론 모델

강화 학습을 통해 복잡한 문제를 스스로 해결하는 대규모 언어 모델을 의미하며, 경쟁 프로그래밍과 같은 분야에서 활용됩니다.

체인 오브 생각

모델이 문제 해결 과정에서 단계별로 논리적인 사고를 전개하는 과정을 의미하며, 복잡한 문제에 대한 내재적 추론을 가능하게 합니다.

[00:00:00] 연구 소개 및 개념 정의

영상은 OpenAI의 최신 연구와 대규모 언어 모델의 강화 학습 접근법을 소개합니다. 경쟁 프로그래밍 분야에서 모델이 어떻게 복잡한 문제를 해결하는지 개괄합니다.

OpenAI가 대규모 추론 모델을 이용한 경쟁적 프로그래밍에 대한 논문을 발표했습니다. 이는 O1, O3와 같은 모델을 지칭하는 새로운 용어입니다.
강화학습을 대규모 언어 모델에 적용하면 복잡한 코딩과 추론 과제에서 성능이 크게 향상됩니다. 모델들은 특정 문제에 맞춤화된 독특한 인지 전략을 개발합니다.
[00:00:44] 방법론 및 실험 설계

연구에서는 수만 건의 후보 솔루션 샘플링, 클러스터링, 재순위 매김 전략을 사용해 모델이 IOI 문제를 해결하는 방식을 설명합니다. 이 과정은 모델의 정확도를 크게 향상시킵니다.

코딩 능력의 발전 과정을 보면, 처음에는 백만 등, 그 다음은 만 등, 175등으로 발전했고, 현재는 50등권에 도달했습니다. 2025년까지는 인간을 뛰어넘는 코더가 될 것으로 예상됩니다.
모델 개발 전략에서는 특화된 접근 방식을 사용했습니다. 예를 들어 O1-IOI는 문제를 하위 과제로 나누고, 만 개의 해결책을 생성한 뒤 클러스터링과 재순위화를 통해 최적의 답안을 선택합니다.
두 가지 접근 방식(수작업 솔루션과 O3 모델)의 성능 비교 제안
O1과 O3의 초기 체크포인트를 도메인 특화된 O1 IOI와 비교 실험 진행
O1 IOI는 49번째 백분위를 기록했으며, 완화된 조건에서 금메달 획득
O3는 특별한 제약이나 도메인 특화 전략 없이도 금메달을 획득하며 우수한 성능 입증
범용 강화학습의 확장이 도메인 특화 기술보다 더 효과적임을 확인
코드포스 벤치마크에서 GPT-4는 11%, O1 프리뷰는 62%, O1은 89%의 상위 성능 달성
AI 모델의 코딩 능력 향상으로 인한 자체 도구 개발 및 문제 해결 능력 논의
[00:05:00] 성능 비교: 핸드크래프트 vs. 일반 모델

핸드크래프트된 도메인 특화 전략과 일반 강화 학습 모델의 성능이 Codeforces 등의 벤치마크에서 비교됩니다. 일반 모델이 더 나은 확장성과 효율성을 보입니다.

AI는 계산 문제를 해결하기 위해 자체적으로 코드를 작성하여 정확한 답을 도출할 수 있음이 입증되었습니다.
코딩은 AI 발전의 핵심 도구이며, AI 연구와 기능 개발에서 중요한 역할을 합니다. 예를 들어 O3-mini는 게임 제작과 AI 학습 파이프라인을 구현할 수 있습니다.
AI의 소프트웨어 엔지니어링 능력 향상이 일자리 시장에 미칠 영향에 대한 우려가 있으며, 현재의 코딩 벤치마크들이 실제 개발 환경을 제대로 반영하지 못한다는 지적이 있습니다.
HackerRank Astra와 SWE-bench verified가 도입되어 실제 소프트웨어 개발 환경을 더 잘 반영하는 평가가 가능해졌습니다.
AlphaCode 2는 문제 해결 능력이 크게 향상되어 Codeforces에서 85퍼센타일에 도달했으며, 문제당 최대 100만 개의 해결책을 생성하여 테스트합니다.
샘플링의 개념과 원리에 대한 설명. 모델에 같은 질문을 여러 번 하여 확률적으로 가장 좋은 답을 찾는 방식을 설명합니다.
O1 II의 구체적인 실행 방법 설명. 10,000개의 해결책 샘플링과 256개의 무작위 테스트 케이스 생성 및 검증 과정을 상세히 다룹니다.
노아 브라운의 OpenAI 연구 소개. 특히 Cicero 외교 AI 프로젝트와 그 특징적인 협상, 신뢰 구축 메커니즘을 설명합니다.
AI의 실제 게임 플레이 사례 소개. AI가 인간 플레이어와 교묘하게 상호작용하며 전략적 제안을 하는 방식을 보여줍니다.
AI가 인간을 교묘하게 조종하는 방식에 대해 설명하면서, 마치 인간의 아이디어인 것처럼 느끼게 만드는 전략을 논의합니다.
Andrew Goff라는 3회 디플로마시 월드 챔피언과 Noam Brown의 연구에 대해 소개합니다.
통계적 학습과 레이어 쌓기에 대한 밈을 통해 AI 학습 방법론의 차이를 설명합니다.
[00:12:00] 체인 오브 생각 및 디버깅 메커니즘

모델이 코드를 생성하고 실행하여 발생하는 오류를 스스로 수정하는 과정을 소개합니다. 체인 오브 생각을 통해 문제를 단계별로 해결하는 방법이 강조됩니다.

AlphaCode 2의 성과와 통계적 접근 방식에 대해 설명하며, 2023년 12월의 발전 상황을 논의합니다.
강화학습(RL)의 중요성과 언어 모델의 추론 능력 향상에 대해 설명하며, 이것이 단순 암기가 아닌 일반화된 학습을 가능하게 한다고 강조합니다.
강화학습의 기본 원리를 설명하며, 긍정적/부정적 강화를 통한 모델의 행동 패턴 형성 과정을 설명합니다.
모델이 자동차 운전, 수학 문제 해결, 코딩 등 다양한 작업을 수행할 수 있는 정책을 형성하게 됩니다.
강화학습을 통해 대규모 언어 모델을 특정 작업 수행에 최적화하도록 훈련시킵니다.
이러한 접근은 대규모 추론 모델(LRMs)의 출현으로 이어졌으며, 기존 언어 모델과 추론 모델의 중요한 차이점을 보여줍니다.
OpenAI의 O1과 곧 출시될 O3는 사고 체인 추론을 사용하여 복잡한 작업을 해결하는 추론 모델입니다.
연구의 주요 목표는 수작업으로 설계된 추론 전략과 모델이 자체적으로 학습한 접근 방식의 효과성을 비교하는 것입니다.
새로운 연구에서는 모델이 보안 환경에서 코드를 작성하고 실행하며, 테스트와 디버깅을 통해 지속적으로 개선하는 능력을 갖추었습니다.
시스템이 단일 응답 내에서 코드를 작성하고, 에러를 받으면 개선하는 방식으로 문제를 해결합니다. 모든 디버깅과 개선 과정이 하나의 프롬프트 안에서 이루어집니다.
O1-II 시스템이 2024 국제 정보올림피아드(IOI)에 참가했습니다. 10시간 동안 6개의 알고리즘 문제를 풀어야 했고, 문제당 50번의 제출이 허용되었습니다.
시스템은 10,000개의 해결책을 생성하고 테스트 전략을 통해 50개를 선택했습니다. 49퍼센타일을 기록했으며, 무작위 선택시 156점에 불과했을 것입니다.
제출 제한을 10,000개로 완화하면 362점으로 금메달 기준을 넘을 수 있습니다. O3는 강화학습을 통해 자체 테스트 전략을 개발할 수 있게 되었습니다.
O3는 50번의 제출로 395점을 받아 금메달 기준을 초과했고, 10,000개 제출이 가능했던 O1-II의 362점보다 더 좋은 성과를 거뒀습니다.
이 연구는 대규모 강화학습만으로도 최첨단 코딩과 추론 성능을 달성할 수 있으며, 도메인 특정 특성이나 클러스터링에 의존하지 않고도 뛰어난 성과를 낼 수 있음을 보여줍니다.
수작업 테스트 전략 의존성을 평가하여 모델의 추론 능력이 알고리즘 문제 해결을 넘어 실제 산업 코딩 작업에도 적용 가능한지 검증했습니다.
HackerRank와 HumanEval 벤치마크에서 O3 모델이 Claude 3.5 등과 유사한 성능을 보이며, 특히 HumanEval에서는 71.7점으로 큰 향상을 보였습니다.
이러한 프로그래밍 과제가 실제 소프트웨어 엔지니어링 능력을 측정하는 데 적합한지에 대한 의문이 제기되었습니다.
[00:20:00] 미래 전망 및 초인적 코딩

영상은 강화 학습이 적용된 AI 모델들이 소프트웨어 엔지니어링 및 실제 산업 분야에 미칠 영향을 전망합니다. 초인적 코딩 능력을 보유한 모델 등장 가능성이 논의됩니다.

연구진은 강화학습 훈련과 테스트 시간 컴퓨팅의 결합이 모델 성능을 인간 수준으로 향상시켰다고 결론지었습니다.
Code Forces 대회에서 O3 모델이 세계 175위를 기록했으며, 내부적으로는 50위권의 더 강력한 모델이 존재한다고 합니다.
Sam Altman의 발언에 대한 신뢰성 논의와 OpenAI의 성과 진전에 대한 긍정적인 평가
연말까지 인간 프로그래머를 뛰어넘는 AI 모델(가칭 GPT-5) 개발 가능성 언급
GPT 모델의 발전 과정과 GPT-3 미니의 2025년 1월 출시, 향후 출시 계획 설명
2025년 말까지의 AI 발전 전망과 슈퍼코더 AI의 등장 가능성 논의
SaaS 산업에 대한 AI의 위협과 고객들의 자체 개발 가능성에 대한 Riley Brown의 견해
OpenAI가 최근 한 논문을 발표했는데요,
'대규모 추론 모델을 이용한
경쟁적 프로그래밍'이라는 제목입니다.
사실 이런 모델들을
'대규모 추론 모델'이라고 부르는 건 처음 들어보네요.
이런 종류의 모델들,
O1, O3 같은 모델들 말이죠.
논문에 따르면, 대규모 언어 모델에
강화학습을 적용하면
복잡한 코딩과 추론 과제에서
성능이 크게 향상된다고 합니다.
이건 최근에
우리가 계속 이야기해온 내용인데요,
대규모 언어 모델과 강화학습의 조합이
정말 놀라운 결과를 만들어내고 있죠.
특히 이 모델들이
자체적으로 인지 전략을
개발하고 있으며,
정교한 추론 능력을 보여주는데,
이는 우리가 해결하려는 특정 문제에
맞춤화되어 있는 것 같습니다.
이 부분은 잠시 후에 다시 설명하죠.
아마 여러분은
실만이 대규모 언어 모델의
코딩 능력에 대해 설명하는
영상을 보셨을 겁니다.
여기서 말하는 건
이른바 '대규모 추론 모델',
즉 추론 능력을 갖춘
대규모 언어 모델들입니다.
테스트와 연산 능력이 있는
O1, O3 같은 모델들이죠.
첫 번째 추론 모델은
세계에서 백만 번째로 좋은 코더였고,
그 다음 모델은 만 번째,
그 다음은 175위까지 올라갔습니다.
현재 내부 모델은
50위권이라고 하네요. 실은
올해 안에 1위를 달성할 것으로
예상하고 있습니다.
2025년 말까지는 인간을 뛰어넘는
코더가 나올 거라고 하는데요,
먼저 IOI가 무엇인지
아셔야 합니다. Ready Player One의
악당 IOI가 아니에요.
한국의 인기 걸그룹 II도 아니구요.
IOI라는 이름이 많죠?
여기서 IOI는
국제정보올림피아드를 의미합니다.
흥미로운 점은
모델들을 두 가지 카테고리로
나눴다는 건데요,
하나는 특화된 모델입니다.
예를 들어, IOI에서 O1 모델을 사용하면
O1-IOI라고 부르는데,
여기에는 인간의 창의성이
더해졌습니다.
예를 들어, 모델이 만 개의 다양한 답안을
생성하고
각 답안을 평가해서
최적의 답을 선택하는 방식입니다.
O1-IOI의 테스트 전략을 보면,
각 IOI 문제를
하위 과제로 나누고,
각 하위 과제에 대해 O1-IOI에서 만 개의 해결책을 샘플링한 뒤,
클러스터링과
재순위화 방식을 사용해
어떤 해결책을 제출할지 결정합니다.
이런 모델을 만들고 사용하는 데
많은 창의적인 노력이 들어갔죠.
클러스터링과 문제 정형화,
재순위화 등을 통해
정확한 답을 찾아냈고,
특정 조건에서
이 모델들은 IOI에서 금메달을 획득했으며,
이런 특화된 접근 방식이
수작업으로 만든 솔루션이 과연
더 크고 발전된 모델인
O3와 비교했을 때
어떤 성능을 보일지, 두 접근 방식 중
어느 것이 더 나은 결과를 보였을까요?
한번 알아보도록 하겠습니다.
그들은 두 가지 범용 추론 모델인
O1과 O3의 초기 체크포인트를
도메인 특화된 O1 IOI와
비교했습니다. 이 도메인 특화 모델은
특정 작업을 위해 매우 복잡하게
제작된 것으로,
특정 작업에 맞게 설계되었습니다.
이는 수작업으로 만든 추론 전략을 사용하여
2024 국제 정보올림피아드(IOI)
참가를 위해 설계되었죠.
수작업으로 만든 O1 IOI는
49번째 백분위를 기록했습니다.
IOI에 참가한 모든 참가자들 중
약 절반을 앞섰다는 의미입니다.
완화된 대회 조건에서 O1 IOI는
금메달을 획득했습니다. 하지만
O3와 같은 후속 모델을 평가했을 때
O3는 수작업 도메인 특화 전략이나
완화된 제약 조건 없이도
금메달을 획득했습니다.
즉, 수작업으로 만든
O1 IOI가 상당한 개선을 보였지만
확장된 범용 O3 모델이
수작업 추론 휴리스틱 없이도
더 나은 결과를 달성했습니다.
특히 O3는 2024 IOI에서 금메달을 획득하고
코드포스에서 최상위 인간 경쟁자들과
동등한 수준의 레이팅을 기록했습니다.
전반적으로 이러한 결과는
도메인 특화 기술 대신
범용 강화학습을 확장하는 것이
경쟁적 프로그래밍과 같은
추론 영역에서 최첨단 AI를 향한
견고한 경로를 제공한다는 것을 보여줍니다.
예를 들어
코드포스 벤치마크를 보면
코드포스는 국제적으로
경쟁이 치열하며
세계 최고의 경쟁적 프로그래머들이
참여합니다. GPT-4는 11번째
백분위를 기록했는데, 나쁘지 않죠.
세계 최고의 경쟁적 프로그래머들 중
10%보다 나은 성적입니다. O1
프리뷰는 62번째 백분위까지 올라갔고
O1은 89번째 백분위로, 거의
세계 최고의 경쟁적 프로그래머의
90%보다 뛰어난 성능을 보였습니다.
대규모 언어 모델과 코딩의 교차점은
조금 특이한데요. 첫째로,
이러한 분야에서 일하는 사람들 대부분이
코더이자 소프트웨어 엔지니어이며
컴퓨터 관련 배경이 있습니다.
당연히 이러한 AI들이
뛰어난 코더와 소프트웨어 엔지니어가 되도록
가르치는 것은 많은 기능을
잠금 해제하는 것과 같습니다.
그들은 즉석에서 도구를 만들어
우리가 주는 어떤 작업이든
완수할 수 있죠. 예전에는
사람들이 ChatGPT가 수학을
잘 못한다고 불평했었죠.
나눗셈이나 곱셈을
제대로 못한다고요. 그런데
어떤 업데이트 이후였는지
정확히 기억나진 않지만,
코드를 작성하기 시작했어요.
복잡한 나눗셈 문제를 물어보면
'파이썬으로 작성해보죠'라며
정확한 답을 제시했죠.
문제를 해결하기 위해 간단한 코드를
작은 스니펫을 작성해서 계산했죠
사람들이 AI가 계산을 제대로 못한다고 비판하지만
AI는 자체적으로 계산기를 만들어서
자신만의 작은 계산기를 코딩하고
이렇게 답을 제시하는 거죠
이 분야에서 일하는 대부분의 사람들은
어떤 방식으로든 코더입니다. 코딩은
AI 발전을 추진하는 아주 큰 지렛대 역할을 하고 있죠
기능적인 측면에서뿐만 아니라
AI 연구 측면에서도 AI가
자체적으로 실험을 수행할 수 있게 합니다
만약 AI가 충분히 뛰어난 코더라면
실험을 설계하고 코드를 작성할 수 있죠
이전 영상에서 우리는 O3-mini를 테스트했는데
파이썬 게임을 만들고
그 다음에 PyTorch를 이용해서
학습 파이프라인을 만들어
작은 AI 에이전트가 게임을 플레이하도록 가르쳤죠
하지만 분명히 이것은
컴퓨터 과학자들과 AI 연구자들의
엄청난 노력이 필요한 일입니다
AI의 소프트웨어 엔지니어링 능력과
컴퓨터 과학 능력을 향상시키기 위해
당연히 많은 사람들이
이것이 어떤 영향을 미칠지
코더들의 일자리 시장에 어떤 영향을 미칠지 우려하고 있죠
많은 사람들이 지적하듯이 Codeforces나
다른 벤치마크들은
실제 소프트웨어 엔지니어링 문제와는
정말 비교하기 어렵습니다
실제 문제가 아닌 시험이나 테스트에 가깝죠
이런 작은 테스트나 시험 같은 것들이죠
제가 이전에 이야기했거나
온라인에서 본 다른 토론들을 보면
사람들이 자주 지적하는 것이
이것이 실제 소프트웨어 엔지니어링을
제대로 대표하지 못한다는 점입니다
실제 프로젝트와는 거리가 멀다는 거죠
그래서 여기서는 특별히 HackerRank Astra에서
프로젝트 지향적인 코딩 과제들을 추가했는데
이는 실제 세계의 소프트웨어 개발 작업을
시뮬레이션하도록 만들어졌습니다
또한 SWE-bench verified도 있는데
이는 사람이 직접 검증한 SWE-bench 문제들입니다
이 벤치마크들은 AI 모델의
실제 소프트웨어 문제 해결 능력을
더 신뢰성 있게 평가할 수 있게 해줍니다
그런데 만약 여러분이 개발자이거나
이런 것들에 대해 잘 알고 계시다면
이 두 벤치마크가 실제 소프트웨어 엔지니어링
기술을 더 잘 대표한다고 생각하시나요?
실제 소프트웨어 엔지니어링
스킬셋에 대해 Codeforces가 실제 현실과
더 가깝다고 보시나요? 아니면 다른 과제들이
더 적절하다고 보시나요?
자, 실제 논문을 한번 살펴보겠습니다
그들이 발견한 것을 보면, 서론에서
AlphaCode와 AlphaCode 2에 대해 이야기합니다
AlphaCode 2의 개선사항은 AlphaCode의
문제 해결 능력을 거의 두 배로 향상시켰고
Codeforces 플랫폼에서 85퍼센타일에
도달했다고 합니다
AlphaCode 시스템은 문제당
최대 백만 개의 후보 해결책을
샘플링한 다음
수작업으로 설계된 테스트 전략으로
상위 10개의 제출안을 선택했습니다
O1-IOI와 비슷하지만
수백만 개의 샘플 대신
OpenAI의 O1-II는 10,000개의 샘플만 사용했고
AlphaCode 2는 문제당 최대
백만 개의 후보 해결책을 사용했습니다
그리고 이렇게 했을 때
샘플링이나 샘플이라는 개념에 대해
들어보면, 이는 모델에게 여러 번 질문하는 것을 의미합니다
예를 들어, 여러 번 질문을 하는 거죠
2 더하기 2를 물어보면 4라고 답하고
다시 물어보면 4, 또 물어보면 5, 다시 물어보면 4라고 답하는 식입니다
이런 답변들을 모두 수집하는 거죠
확률적 모델이기 때문에
다양한 답변을 제공할 수 있습니다
하지만 10번이든 10,000번이든
또는 백만 번이든 샘플링을 하면
통계를 활용해서
최적의 답을 찾아낼 수 있습니다
예를 들어
가장 자주 나오는 답변을 선택할 수 있는데
이게 정답일 가능성이 더 높죠
O1 II의 경우에도 마찬가지입니다
10,000개의 해결책을 샘플링했는데
ChatGPT처럼 모델에
질문을 하는 것과 같은 방식으로
10,000번 시도하고 그 답변들을 수집했습니다
모델이 제시한 10,000개의 답변을 모은 것이죠
각 서브태스크마다 10,000개의 샘플이 있고
그 다음에는 모델이
C++로 무작위 테스트 입력 생성기를
작성하도록 했습니다
256개의 무작위 테스트 입력을 생성하고
각 테스트 입력 중에서
각 서브태스크의 검증기 75% 이상을 통과한 것만 받아들였습니다
이런 256개의 무작위 테스트 케이스를 생성하고
테스트 결과를 기반으로 클러스터링했죠
이 테스트 케이스들의 출력을 기준으로
이해가 잘 안 된다면
이건 기본적으로 똑똑한 엔지니어들이
정확도를 높이기 위해
이것저것 시도하는 거라고 보면 됩니다
마지막 한 방울까지 짜내려고 노력하는 거죠
정말 복잡하게 들린다면
그게 바로 핵심입니다
매우 복잡한 과정이 필요하다는 거죠
자, 이제 노아 브라운을 보시죠
그는 OpenAI에서
멀티 에이전트 추론을 연구하고 있으며
초인적인 포커 AI와 Cicero 외교 AI를 개발했습니다
메타의 Cicero 외교 AI는
정말 흥미로운데, 이건 마치
세계 정복 게임 같은 거예요
리스크 게임처럼요
하지만 주사위에 의존하는 대신
동맹을 협상하고
일대일 비밀 대화를 통해
진행되는 게임입니다
이런 게임을 잘하는 언어 모델을 설계하려면
인간의 사고방식을
정말 잘 이해해야 합니다
승리하는 유일한 방법은
신뢰를 쌓고 협상하며
다른 플레이어들과 협력하는 것이죠
신뢰를 쌓는 것과 반대되는
신뢰를 깨는 것도 있죠
배신이라는 말이 적절할 것 같네요
이 게임들 중 하나에서 나온
놀라운 사례가 있는데
세계 최고의 플레이어들과 대결에서
이 AI는 상위 10위권에
랭크되었습니다
적어도 대결한 그룹들 중에서는요
빨간색으로 표시된 AI가
인간 플레이어에게 이렇게 말합니다
'와, 블랙으로의 그 움직임 정말 좋았어요
아르메니아로 수송하실 계획인가요?'
여기서 주목할 점은
인간이 미처 생각하지 못한 좋은 수를
AI가 은근슬쩍 제안하고 있다는 거예요
'그렇게 하세요'라고 직접 말하는 대신
'그런 방법을 생각하다니 정말 똑똑하네요'
이런 식으로 아부하면서
인간을 조종하고 설득하여
마치 자신의 천재적인 아이디어인 것처럼
다른 나라를 침공하도록 만드는 거죠.
그래서 요점은 이게 마치
교활한 호빗 같다는 거예요.
Andrew Goff는 디플로마시
월드 챔피언을 3번이나 한 사람이에요. Noam Brown을
방금 알았네요. 좀 주제가 샜는데
여기는 자정이라 양해 부탁드려요. Noam Brown이
말하고 싶었던 건
이 밈이 논문을 완벽하게 요약했다는 거예요.
통계적 학습에 대해 설명하면서
오른쪽에서는
매우 복잡하고 구체적인 방법으로
통계적 학습을 시도하는데
결과는 계속 하락하고 있어요.
모든 지표가 떨어지는 상황에서
반대편에는 광대 모자를 쓴
이 사람이 있는데
그냥 '레이어를 더 쌓아!'라고
외치고 있죠. 그리고 보세요,
차트가 상승하고 있어요. X축과 Y축 모두
레이어를 나타내요. 레이어, 레이어, 더 많은 레이어!
여기서 포인트는
정말 열심히 연구하는
접근방식이 효과가 있을 것 같지만
실제로는 단순히
레이어를 더 쌓는 게 더 나을 수 있다는 거예요.
일반적으로 더 큰 모델,
더 지능적인 모델이
더 일반화가 잘 되고
단순히 브루트 포스로
더 일반적인 이해를 통해
모든 것을 해결할 수 있다는 거죠.
그리고 AlphaCode 2를 보면
2023년 12월에
그들이 사용한 그 미친 듯한
통계적 기법들, 예를 들어
백만 개의 솔루션을 샘플링하는 방식으로
AlphaCode 2가 Codeforces에서 85퍼센타일을 달성했죠,
일 년 조금 넘은 시점에요.
하지만 그 이후로
강화학습(RL)을 활용해서
언어 모델의 추론 능력을 향상시키는데
큰 진전이 있었어요.
이 채널을 계속 보셨다면
우리가 계속 이야기해온 내용이죠.
못 보신 분들을 위해 설명하자면, DeepSeek와
중국 연구진들이
이 두 가지의 조합이
정말 놀라운 결과를
만들어낸다고 말하고 있어요.
구글 딥마인드에서 나온 논문에서는
지도 학습 미세조정은
단순 암기를 하지만, 강화학습은
일반화를 한다고 합니다.
이는 강화학습이
훨씬 더 나은 일반적 추론이 가능한
모델을 만든다는 의미예요.
단순히 방법을 암기하는 것이 아닌
강화학습은 물론
긍정적이고 부정적인 강화,
마치 강아지가 뭔가를 잘했을 때
간식을 주는 것처럼 작동해요.
이런 모델들에서는
뭔가를 잘했을 때 +1을 주고
잘못했을 때는
페널티를 주는 방식으로
수많은 반복을 거치면서
점차 행동 패턴이나
정책을 형성하게 되는 거죠.
이를 통해 모델이 원하는 작업을 수행할 수 있는
정책을 형성하게 됩니다.
그것이 자동차 운전이든,
수학 문제나 코딩 문제를 푸는 것이든
어떤 작업이든 수행할 수 있게 되죠.
이 경우에는
강화학습을 사용하여 대규모 언어 모델을
특정 작업을 수행하도록
훈련시키고 있는 것입니다.
여기서 언급하는 것처럼
이는 대규모 추론 모델(LRMs)의 출현으로 이어졌습니다.
저는 이 용어가 자주 사용되는 것을 보지 못했는데,
아마도 새로운 용어일 수 있고
혹은 제가 놓친 것일 수도 있습니다.
하지만 이는 중요한 구분인데,
왜냐하면 많은 사람들이
특히 이 분야에 깊이 있지 않은 사람들이
GPT-4와
O3의 차이점을 직관적으로
이해하지 못하고 있기 때문입니다.
둘이 비슷해 보일 수 있지만
지금까지 우리가 경험한 대부분의 모델들,
GPT-4 등은 비추론 모델입니다.
이들은 대규모 언어 모델이죠.
반면에 O1, DeepSeek의 R1, O3는
추론 모델입니다.
이러한 LRM들은 강화학습을 통해
훈련된 언어 모델입니다.
확장된 사고 체인을 통해
추론하고 생각하도록 훈련되었죠.
그들이 언급하길
OpenAI의 O1과
곧 출시될 후속작 O3가 있다고 합니다.
O3-mini의 성능이 굉장했는데,
O3가 기대되네요.
이 모델들은 사고 체인 추론을 사용하여
수학, 코딩 등 복잡한 작업을 해결합니다.
그리고 DeepSeek와 Kimi에 대해 언급하는데,
이 두 회사가 이러한 모델들의
특별한 비결을 많이 공개했다고 봅니다.
OpenAI O1 같은 모델들의
작동 방식에 대해
많은 부분을 공개했거나
최소한 역공학을 통해
어떻게 작동하는지 밝혔죠.
여기서 그들이 해결하려는
큰 질문 중 하나는 비교에 관한 것입니다.
도메인별 수작업으로 만든
추론 전략들과
매우 복잡한
수작업으로 만든 O1 IOI나
기타 모델들이
모델이 스스로 생성하고
실행하는 학습된 접근 방식과
어떻게 비교되는지입니다.
O1에 대한 간단한 설명이 있는데
대부분 알고 있을 테니
자세히 다루지는 않겠습니다.
기본적으로 사고 체인이 있어서
답변하기 전에 문제를 생각할 수 있죠.
이 연구 논문에서 새로운 점은
이러한 테스트들에 대해
특히 보안 환경에서
코드를 작성하고 실행하는
외부 도구를 사용하도록
훈련되었다는 것입니다.
모델이 코드를 생성하면 컴파일이 되는지,
테스트 케이스를 통과하는지 등을 확인할 수 있죠.
코드를 작성한 다음 실행해서
결과를 확인하고,
오류 메시지가 나오면
문제를 해결하고 개선할 수 있으며,
출력을 테스트하고 개선하면서
반복적으로 성능을 향상시킵니다.
하나의 솔루션을 단일 샘플 과정에서
단일 샘플이란 즉, 하나의 응답을
의미하는데, 이게 꽤나
흥미롭죠. 시스템이 생각하면서
마치 코드를 실행하고
에러 메시지를 받으면 그것을 기반으로
반복적으로 개선해 나가는 것 같습니다
해결책을 개선하려고 노력하면서
코드를 작성하고 문제를 해결하고
디버깅하는 등의 과정을
모두 하나의 프롬프트 내에서 수행합니다
다음으로, O1-II 시스템의 경우
2024년 국제 정보올림피아드(IOI)에
인간 참가자들과 동일한 조건으로 참가했는데
6개의 도전적인 알고리즘 문제를
10시간 동안 해결해야 했고
문제당 최대 50번의
제출이 허용되었습니다
시스템은 10,000개의 후보 해결책을 생성하고
그중에서 50개를 선택하는데
앞서 설명한 테스트 타임 선택 전략을
사용했습니다
복잡한 과정을 거쳐
최고의 해결책을 필터링하고
정답이 될 수 있는 것들을 선별했죠
그 결과 대회에서 49퍼센타일을 기록했습니다
만약 10,000개 중에서
무작위로 50개만 선택했다면
점수는 156점에
불과했을 것입니다
이건 무작위 선택의 경우고
복잡한 필터링 방식을 사용한
경우와는 다릅니다
만약 제출 제한을 완화해서
10,000개를 모두 제출할 수 있었다면
362점을 기록했을 것이고
이는 금메달 기준을 넘어서는 점수로
모델의 잠재력을 보여줍니다
그 다음 테스트로는
강화학습으로 더 발전된
다음 모델을 시험했는데
이 모델은 자율적으로 개발하고
자체 테스트 전략을 실행할 수 있습니다
그들은 O3의 초기 체크포인트에
접근할 수 있었습니다. O1-II가
IOI 시험에서 좋은 성과를 거뒀지만
만약 기계식 접근법으로
10,000개의 제출을 허용한다면
점수가 크게 올라가서
결과적으로
362점으로 금메달 기준을 초과합니다
여기 362점이 나왔고, O3는 50번의 제출로
395점을 받았습니다
IOI 2024 대회 규칙을 찾아보니
각 과제당 최대 50번의
제출이 허용된다고 합니다
실제 대회 조건에서
395점을 받아 금메달 기준을 넘었고
10,000개 샘플을 사용한 O1-II보다
더 좋은 성과를 거뒀습니다
전반적으로 IOI 2024의 결과는
대규모 강화학습 훈련만으로도
최첨단 코딩과
추론 성능을 달성할 수 있음을
보여줍니다. 독립적으로
해결책을 생성, 평가, 개선하는
능력을 학습함으로써
O3는 도메인 특정 특성이나
클러스터링 기반 방법에
의존하지 않고도 O1-II를 능가했습니다
HackerRank Astra에 대해 언급하면서
일반적인 경쟁 프로그래밍
데이터셋과 달리
HackerRank Astra는 공개
테스트 케이스를 제공하지 않아
수작업으로 만든 테스트 시간 전략에 의존하는 것을
데이터셋으로 성능을 평가했을 때
추론 능력이
알고리즘 문제 해결 능력 향상에만 국한되는지
아니면 더 실용적인
산업 관련 코딩 작업까지 확장되는지를 보여줍니다
그래서 질문은 이렇습니다. 금메달을 따고
이런 모든 벤치마크에서 좋은 성과를 내는 것이
실제 현실 세계에
적용될 수 있는가, HackerRank Astra에서는
예를 들어 성능이 다음과 비슷한 수준입니다
Claude 3.5, Sonnet-01, Preview-01과
매우 유사하고, HumanEval Verified에서는
보시다시피 큰 도약이 있었는데
O1에서 O3로 넘어가면서 O3가
71.7점을 기록했습니다. 여기서 그들은
이러한 결과들이 향상된
추론 능력이 경쟁적 프로그래밍
도전을 넘어서
실제 소프트웨어 엔지니어링과 같은
현실 세계 작업에도 적용됨을 보여준다고 합니다
다시 말해서, 이런 프로그래밍 과제가
이러한 모델들이
소프트웨어 엔지니어링에서 얼마나 잘 수행할지
실제로 측정할 수 있다는 것에
동의하지 않았던 사람들에게
이 주장에 동의하시나요?
다시 말해서, 이 차트처럼
컴퓨팅 파워와 강화학습률을 높일수록
성능이 계속해서
향상되는 것이
이 모델들이 실제 현실에서 가질
소프트웨어 엔지니어링 프로젝트 능력을
대표한다고 볼 수 있을까요?
만약 아니라면, 더 나은 벤치마크나
또는 이러한 특정 능력을 테스트할
다른 방법이 있을까요?
다양한 모델들을 테스트하여
그들의 성능을 측정하고
이 분야에서의 발전을 가늠할 수 있는 방법이요
그들의 결론은 다음과 같습니다
강화학습 훈련 컴퓨팅의 증가와
테스트 시간 컴퓨팅의 향상이
결합되었을 때
질문 후 생각할 시간을 얼마나 주느냐,
즉 그런 추론 처리 시간이
모델의 성능을 꾸준히 향상시켜
거의 세계 최고의 인간 수준에
근접하게 만든다는 것입니다
이러한 결과를 바탕으로 O 시리즈
대규모 추론 모델이
AI의 새로운 활용 사례를
과학, 코딩, 수학 등 다양한 분야에서
열 것이라 믿습니다. 이제 큰 질문으로 넘어가보죠
여기 Code Forces 대회에서
활동하는 모든 최상위 경쟁자들의
차트가 있습니다
여기 빨간 별표가 O3 모델입니다
아직 출시되지 않은 O3 모델이죠
곧 우리가 사용할 수 있게 될
모델인데, 제가 알기로는
세계 175위라고 했습니다. O3가
175위예요. Sam이 말하길 내부적으로는
50위권의 모델을 가지고 있다고 합니다
이건 약 3,000위 정도니까
여기 어딘가에 있을 텐데
추정치일 수 있죠. 50위면 아마도
여기 어딘가일 겁니다
여기 어딘가에 있겠죠
이게 내부 모델이 될 텐데
아마도 O4가 되겠죠
Sam Altman에 따르면 이미 존재하는
모델이라고 하지만 일부는 믿지 않습니다
Sam Altman의 말이 사실인지 의심하는 사람들도 있지만
지금까지 그들이 하고 있는 일이
효과가 있는 것 같습니다. 계속 성장하고 있고
벤치마크에서 상위권을 차지하고 있으며
잘 작동하는 것으로 보입니다.
그들이 이미 보유하고 있다고 믿습니다.
그리고 Sam이 말하길 올해 말쯤에는
우리가 여기에 모델을 하나 가질 수 있을 것이라고 했는데
이는 최고의 프로그래머보다 뛰어난,
모든 인간 프로그래머보다 나은 것이죠.
이것을 GPT-5라고 부를 수 있겠죠.
다시 말하지만, 그는 이미 있다고 말하는 게 아니라
이것은 이론적인 것입니다.
현재 진행 속도로 봤을 때
그 정도까지 도달할 수 있다는 거죠.
불가능한 일은 아니라는 겁니다.
GPT-1은 여기 즈음에 있었고, 1670
정도였다고 생각합니다. 이게 GPT-1이죠.
9월 24일에 출시된
이것이 GPT-3입니다. GPT-3 미니,
2025년 1월에 출시된 GPT-3 미니죠.
4-5개월 정도 걸렸고, 아직 완전한 GPT-3는 없습니다.
아마도 완전한 GPT-3는
2025년 1분기나 2분기에 출시될 것 같습니다.
이 내부 모델은
GPT-4라고 부를 수 있겠죠.
작명 규칙이 유지된다고 가정했을 때
물론 달라질 수도 있지만
만약 이것이
올해 4분기에 출시된다면
2025년 말이죠.
그때쯤이면 이미
내부적으로
슈퍼코더인 GPT-5나 그와 비슷한
모델을 가지고 있을 수도 있습니다.
물론 이건 추측일 뿐이지만
다시 말하지만
이것이 불가능해 보이지는 않습니다.
그렇다면 2025년 말까지
인간을 뛰어넘는 프로그래머를 갖게 된다는 건
이는 근본적으로 큰 변화를 의미하는데
거의 모든 분야에서 말이죠.
Riley Brown의 말을 보면
정확한 트윗은 찾지 못했지만
대략 이런 내용이었습니다.
향후 5년 내에
SaaS 기업들에게 가장 큰 위협은
고객들이
스스로 만들 수 있다는 것을
깨닫는 것이라고 했죠. 45분 만에
이런 대규모 언어 모델을 사용해서 말이죠.
여러분은 이게 정확하다고 생각하시나요?
정말 이렇게 극적인 변화가 있을까요?
아니면 아직 멀었다고 보시나요?
Tanish Matthew Abraham은 이렇게 말했습니다.
우리가 방금 본 논문에 대해
그가 문제 삼은 것은
GPT-1 IOI가
GPT-3만큼 좋지 않다고 한 부분입니다.
즉, 그 특화된 모델이 좋지 않다는 건데
그는 GPT-3 IOI가
더 나을 수 있지 않냐고 질문합니다.
이건 앞으로 답해야 할
흥미로운 질문이 될 것입니다.
GPT-3끼리 비교할 때
같은 모델을 가지고
특정 작업에 맞게 미세 조정하고
특화시키는 것이
더 나아질까요?
아니면 단순히
자원 할당 측면에서
이 차트처럼 레이어를 더 쌓는 게 나을까요?
레이어를 더 많이 쌓는 거죠.
여기까지 시청해주셔서 감사합니다.
저는 Wes rth입니다.
다음에 또 만나요.