[00:00]
OpenAI가 최근 한 논문을 발표했는데요,
[00:02]
'대규모 추론 모델을 이용한
[00:03]
경쟁적 프로그래밍'이라는 제목입니다.
[00:05]
사실 이런 모델들을
[00:07]
'대규모 추론 모델'이라고 부르는 건 처음 들어보네요.
[00:09]
이런 종류의 모델들,
[00:11]
O1, O3 같은 모델들 말이죠.
[00:14]
논문에 따르면, 대규모 언어 모델에
[00:16]
강화학습을 적용하면
[00:18]
복잡한 코딩과 추론 과제에서
[00:20]
성능이 크게 향상된다고 합니다.
[00:22]
이건 최근에
[00:23]
우리가 계속 이야기해온 내용인데요,
[00:25]
대규모 언어 모델과 강화학습의 조합이
[00:27]
정말 놀라운 결과를 만들어내고 있죠.
[00:30]
특히 이 모델들이
[00:31]
자체적으로 인지 전략을
[00:33]
개발하고 있으며,
[00:34]
정교한 추론 능력을 보여주는데,
[00:36]
이는 우리가 해결하려는 특정 문제에
[00:39]
맞춤화되어 있는 것 같습니다.
[00:41]
이 부분은 잠시 후에 다시 설명하죠.
[00:43]
아마 여러분은
[00:44]
실만이 대규모 언어 모델의
[00:46]
코딩 능력에 대해 설명하는
[00:48]
영상을 보셨을 겁니다.
[00:50]
여기서 말하는 건
[00:51]
이른바 '대규모 추론 모델',
[00:53]
즉 추론 능력을 갖춘
[00:55]
대규모 언어 모델들입니다.
[00:57]
테스트와 연산 능력이 있는
[00:59]
O1, O3 같은 모델들이죠.
[01:03]
첫 번째 추론 모델은
[01:05]
세계에서 백만 번째로 좋은 코더였고,
[01:07]
그 다음 모델은 만 번째,
[01:10]
그 다음은 175위까지 올라갔습니다.
[01:13]
현재 내부 모델은
[01:15]
50위권이라고 하네요. 실은
[01:18]
올해 안에 1위를 달성할 것으로
[01:20]
예상하고 있습니다.
[01:22]
2025년 말까지는 인간을 뛰어넘는
[01:26]
코더가 나올 거라고 하는데요,
[01:29]
먼저 IOI가 무엇인지
[01:31]
아셔야 합니다. Ready Player One의
[01:33]
악당 IOI가 아니에요.
[01:35]
한국의 인기 걸그룹 II도 아니구요.
[01:37]
IOI라는 이름이 많죠?
[01:39]
여기서 IOI는
[01:41]
국제정보올림피아드를 의미합니다.
[01:44]
흥미로운 점은
[01:45]
모델들을 두 가지 카테고리로
[01:47]
나눴다는 건데요,
[01:49]
하나는 특화된 모델입니다.
[01:51]
예를 들어, IOI에서 O1 모델을 사용하면
[01:53]
O1-IOI라고 부르는데,
[01:56]
여기에는 인간의 창의성이
[01:58]
더해졌습니다.
[02:00]
예를 들어, 모델이 만 개의 다양한 답안을
[02:03]
생성하고
[02:04]
각 답안을 평가해서
[02:06]
최적의 답을 선택하는 방식입니다.
[02:08]
O1-IOI의 테스트 전략을 보면,
[02:11]
각 IOI 문제를
[02:13]
하위 과제로 나누고,
[02:16]
각 하위 과제에 대해 O1-IOI에서 만 개의 해결책을 샘플링한 뒤,
[02:19]
클러스터링과
[02:21]
재순위화 방식을 사용해
[02:24]
어떤 해결책을 제출할지 결정합니다.
[02:26]
이런 모델을 만들고 사용하는 데
[02:29]
많은 창의적인 노력이 들어갔죠.
[02:32]
클러스터링과 문제 정형화,
[02:34]
재순위화 등을 통해
[02:36]
정확한 답을 찾아냈고,
[02:38]
특정 조건에서
[02:39]
이 모델들은 IOI에서 금메달을 획득했으며,
[02:42]
이런 특화된 접근 방식이
[02:44]
수작업으로 만든 솔루션이 과연
[02:46]
더 크고 발전된 모델인
[02:49]
O3와 비교했을 때
[02:50]
어떤 성능을 보일지, 두 접근 방식 중
[02:53]
어느 것이 더 나은 결과를 보였을까요?
[02:57]
한번 알아보도록 하겠습니다.
[02:59]
그들은 두 가지 범용 추론 모델인
[03:01]
O1과 O3의 초기 체크포인트를
[03:03]
도메인 특화된 O1 IOI와
[03:06]
비교했습니다. 이 도메인 특화 모델은
[03:09]
특정 작업을 위해 매우 복잡하게
[03:11]
제작된 것으로,
[03:14]
특정 작업에 맞게 설계되었습니다.
[03:16]
이는 수작업으로 만든 추론 전략을 사용하여
[03:18]
2024 국제 정보올림피아드(IOI)
[03:20]
참가를 위해 설계되었죠.
[03:23]
수작업으로 만든 O1 IOI는
[03:26]
49번째 백분위를 기록했습니다.
[03:29]
IOI에 참가한 모든 참가자들 중
[03:32]
약 절반을 앞섰다는 의미입니다.
[03:34]
완화된 대회 조건에서 O1 IOI는
[03:37]
금메달을 획득했습니다. 하지만
[03:39]
O3와 같은 후속 모델을 평가했을 때
[03:42]
O3는 수작업 도메인 특화 전략이나
[03:44]
완화된 제약 조건 없이도
[03:46]
금메달을 획득했습니다.
[03:48]
즉, 수작업으로 만든
[03:50]
O1 IOI가 상당한 개선을 보였지만
[03:53]
확장된 범용 O3 모델이
[03:56]
수작업 추론 휴리스틱 없이도
[03:57]
더 나은 결과를 달성했습니다.
[04:00]
특히 O3는 2024 IOI에서 금메달을 획득하고
[04:02]
코드포스에서 최상위 인간 경쟁자들과
[04:06]
동등한 수준의 레이팅을 기록했습니다.
[04:08]
전반적으로 이러한 결과는
[04:10]
도메인 특화 기술 대신
[04:12]
범용 강화학습을 확장하는 것이
[04:13]
경쟁적 프로그래밍과 같은
[04:16]
추론 영역에서 최첨단 AI를 향한
[04:17]
견고한 경로를 제공한다는 것을 보여줍니다.
[04:20]
예를 들어
[04:21]
코드포스 벤치마크를 보면
[04:23]
코드포스는 국제적으로
[04:26]
경쟁이 치열하며
[04:27]
세계 최고의 경쟁적 프로그래머들이
[04:29]
참여합니다. GPT-4는 11번째
[04:32]
백분위를 기록했는데, 나쁘지 않죠.
[04:34]
세계 최고의 경쟁적 프로그래머들 중
[04:36]
10%보다 나은 성적입니다. O1
[04:38]
프리뷰는 62번째 백분위까지 올라갔고
[04:42]
O1은 89번째 백분위로, 거의
[04:45]
세계 최고의 경쟁적 프로그래머의
[04:48]
90%보다 뛰어난 성능을 보였습니다.
[04:50]
대규모 언어 모델과 코딩의 교차점은
[04:51]
조금 특이한데요. 첫째로,
[04:53]
이러한 분야에서 일하는 사람들 대부분이
[04:54]
코더이자 소프트웨어 엔지니어이며
[04:57]
컴퓨터 관련 배경이 있습니다.
[04:59]
당연히 이러한 AI들이
[05:00]
뛰어난 코더와 소프트웨어 엔지니어가 되도록
[05:03]
가르치는 것은 많은 기능을
[05:05]
잠금 해제하는 것과 같습니다.
[05:08]
그들은 즉석에서 도구를 만들어
[05:10]
우리가 주는 어떤 작업이든
[05:12]
완수할 수 있죠. 예전에는
[05:14]
사람들이 ChatGPT가 수학을
[05:15]
잘 못한다고 불평했었죠.
[05:18]
나눗셈이나 곱셈을
[05:19]
제대로 못한다고요. 그런데
[05:21]
어떤 업데이트 이후였는지
[05:23]
정확히 기억나진 않지만,
[05:24]
코드를 작성하기 시작했어요.
[05:26]
복잡한 나눗셈 문제를 물어보면
[05:28]
'파이썬으로 작성해보죠'라며
[05:30]
정확한 답을 제시했죠.
[05:32]
문제를 해결하기 위해 간단한 코드를
[05:34]
작은 스니펫을 작성해서 계산했죠
[05:36]
사람들이 AI가 계산을 제대로 못한다고 비판하지만
[05:38]
AI는 자체적으로 계산기를 만들어서
[05:40]
자신만의 작은 계산기를 코딩하고
[05:42]
이렇게 답을 제시하는 거죠
[05:43]
이 분야에서 일하는 대부분의 사람들은
[05:45]
어떤 방식으로든 코더입니다. 코딩은
[05:48]
AI 발전을 추진하는 아주 큰 지렛대 역할을 하고 있죠
[05:51]
기능적인 측면에서뿐만 아니라
[05:53]
AI 연구 측면에서도 AI가
[05:55]
자체적으로 실험을 수행할 수 있게 합니다
[05:58]
만약 AI가 충분히 뛰어난 코더라면
[05:59]
실험을 설계하고 코드를 작성할 수 있죠
[06:01]
이전 영상에서 우리는 O3-mini를 테스트했는데
[06:03]
파이썬 게임을 만들고
[06:06]
그 다음에 PyTorch를 이용해서
[06:07]
학습 파이프라인을 만들어
[06:10]
작은 AI 에이전트가 게임을 플레이하도록 가르쳤죠
[06:12]
하지만 분명히 이것은
[06:14]
컴퓨터 과학자들과 AI 연구자들의
[06:16]
엄청난 노력이 필요한 일입니다
[06:18]
AI의 소프트웨어 엔지니어링 능력과
[06:21]
컴퓨터 과학 능력을 향상시키기 위해
[06:23]
당연히 많은 사람들이
[06:24]
이것이 어떤 영향을 미칠지
[06:25]
코더들의 일자리 시장에 어떤 영향을 미칠지 우려하고 있죠
[06:28]
많은 사람들이 지적하듯이 Codeforces나
[06:30]
다른 벤치마크들은
[06:33]
실제 소프트웨어 엔지니어링 문제와는
[06:34]
정말 비교하기 어렵습니다
[06:37]
실제 문제가 아닌 시험이나 테스트에 가깝죠
[06:39]
이런 작은 테스트나 시험 같은 것들이죠
[06:42]
제가 이전에 이야기했거나
[06:44]
온라인에서 본 다른 토론들을 보면
[06:46]
사람들이 자주 지적하는 것이
[06:48]
이것이 실제 소프트웨어 엔지니어링을
[06:50]
제대로 대표하지 못한다는 점입니다
[06:52]
실제 프로젝트와는 거리가 멀다는 거죠
[06:54]
그래서 여기서는 특별히 HackerRank Astra에서
[06:56]
프로젝트 지향적인 코딩 과제들을 추가했는데
[07:00]
이는 실제 세계의 소프트웨어 개발 작업을
[07:02]
시뮬레이션하도록 만들어졌습니다
[07:04]
또한 SWE-bench verified도 있는데
[07:06]
이는 사람이 직접 검증한 SWE-bench 문제들입니다
[07:10]
이 벤치마크들은 AI 모델의
[07:13]
실제 소프트웨어 문제 해결 능력을
[07:16]
더 신뢰성 있게 평가할 수 있게 해줍니다
[07:18]
그런데 만약 여러분이 개발자이거나
[07:20]
이런 것들에 대해 잘 알고 계시다면
[07:22]
이 두 벤치마크가 실제 소프트웨어 엔지니어링
[07:24]
기술을 더 잘 대표한다고 생각하시나요?
[07:26]
실제 소프트웨어 엔지니어링
[07:29]
스킬셋에 대해 Codeforces가 실제 현실과
[07:31]
더 가깝다고 보시나요? 아니면 다른 과제들이
[07:34]
더 적절하다고 보시나요?
[07:37]
자, 실제 논문을 한번 살펴보겠습니다
[07:38]
그들이 발견한 것을 보면, 서론에서
[07:40]
AlphaCode와 AlphaCode 2에 대해 이야기합니다
[07:43]
AlphaCode 2의 개선사항은 AlphaCode의
[07:46]
문제 해결 능력을 거의 두 배로 향상시켰고
[07:47]
Codeforces 플랫폼에서 85퍼센타일에
[07:50]
도달했다고 합니다
[07:52]
AlphaCode 시스템은 문제당
[07:54]
최대 백만 개의 후보 해결책을
[07:57]
샘플링한 다음
[07:58]
수작업으로 설계된 테스트 전략으로
[08:00]
상위 10개의 제출안을 선택했습니다
[08:02]
O1-IOI와 비슷하지만
[08:05]
수백만 개의 샘플 대신
[08:07]
OpenAI의 O1-II는 10,000개의 샘플만 사용했고
[08:10]
AlphaCode 2는 문제당 최대
[08:13]
백만 개의 후보 해결책을 사용했습니다
[08:15]
그리고 이렇게 했을 때
[08:17]
샘플링이나 샘플이라는 개념에 대해
[08:19]
들어보면, 이는 모델에게 여러 번 질문하는 것을 의미합니다
[08:20]
예를 들어, 여러 번 질문을 하는 거죠
[08:22]
2 더하기 2를 물어보면 4라고 답하고
[08:24]
다시 물어보면 4, 또 물어보면 5, 다시 물어보면 4라고 답하는 식입니다
[08:27]
이런 답변들을 모두 수집하는 거죠
[08:28]
확률적 모델이기 때문에
[08:31]
다양한 답변을 제공할 수 있습니다
[08:32]
하지만 10번이든 10,000번이든
[08:34]
또는 백만 번이든 샘플링을 하면
[08:36]
통계를 활용해서
[08:39]
최적의 답을 찾아낼 수 있습니다
[08:40]
예를 들어
[08:42]
가장 자주 나오는 답변을 선택할 수 있는데
[08:44]
이게 정답일 가능성이 더 높죠
[08:46]
O1 II의 경우에도 마찬가지입니다
[08:48]
10,000개의 해결책을 샘플링했는데
[08:51]
ChatGPT처럼 모델에
[08:52]
질문을 하는 것과 같은 방식으로
[08:54]
10,000번 시도하고 그 답변들을 수집했습니다
[08:57]
모델이 제시한 10,000개의 답변을 모은 것이죠
[09:01]
각 서브태스크마다 10,000개의 샘플이 있고
[09:03]
그 다음에는 모델이
[09:05]
C++로 무작위 테스트 입력 생성기를
[09:06]
작성하도록 했습니다
[09:09]
256개의 무작위 테스트 입력을 생성하고
[09:12]
각 테스트 입력 중에서
[09:14]
각 서브태스크의 검증기 75% 이상을 통과한 것만 받아들였습니다
[09:17]
이런 256개의 무작위 테스트 케이스를 생성하고
[09:20]
테스트 결과를 기반으로 클러스터링했죠
[09:22]
이 테스트 케이스들의 출력을 기준으로
[09:24]
이해가 잘 안 된다면
[09:26]
이건 기본적으로 똑똑한 엔지니어들이
[09:28]
정확도를 높이기 위해
[09:30]
이것저것 시도하는 거라고 보면 됩니다
[09:31]
마지막 한 방울까지 짜내려고 노력하는 거죠
[09:34]
정말 복잡하게 들린다면
[09:36]
그게 바로 핵심입니다
[09:38]
매우 복잡한 과정이 필요하다는 거죠
[09:40]
자, 이제 노아 브라운을 보시죠
[09:41]
그는 OpenAI에서
[09:44]
멀티 에이전트 추론을 연구하고 있으며
[09:47]
초인적인 포커 AI와 Cicero 외교 AI를 개발했습니다
[09:50]
메타의 Cicero 외교 AI는
[09:52]
정말 흥미로운데, 이건 마치
[09:55]
세계 정복 게임 같은 거예요
[09:57]
리스크 게임처럼요
[09:58]
하지만 주사위에 의존하는 대신
[10:00]
동맹을 협상하고
[10:03]
일대일 비밀 대화를 통해
[10:04]
진행되는 게임입니다
[10:06]
이런 게임을 잘하는 언어 모델을 설계하려면
[10:08]
인간의 사고방식을
[10:09]
정말 잘 이해해야 합니다
[10:11]
승리하는 유일한 방법은
[10:13]
신뢰를 쌓고 협상하며
[10:15]
다른 플레이어들과 협력하는 것이죠
[10:17]
신뢰를 쌓는 것과 반대되는
[10:18]
신뢰를 깨는 것도 있죠
[10:20]
배신이라는 말이 적절할 것 같네요
[10:22]
이 게임들 중 하나에서 나온
[10:24]
놀라운 사례가 있는데
[10:25]
세계 최고의 플레이어들과 대결에서
[10:27]
이 AI는 상위 10위권에
[10:29]
랭크되었습니다
[10:30]
적어도 대결한 그룹들 중에서는요
[10:32]
빨간색으로 표시된 AI가
[10:34]
인간 플레이어에게 이렇게 말합니다
[10:36]
'와, 블랙으로의 그 움직임 정말 좋았어요
[10:38]
아르메니아로 수송하실 계획인가요?'
[10:41]
여기서 주목할 점은
[10:42]
인간이 미처 생각하지 못한 좋은 수를
[10:45]
AI가 은근슬쩍 제안하고 있다는 거예요
[10:48]
'그렇게 하세요'라고 직접 말하는 대신
[10:50]
'그런 방법을 생각하다니 정말 똑똑하네요'
[10:52]
이런 식으로 아부하면서
[10:53]
인간을 조종하고 설득하여
[10:55]
마치 자신의 천재적인 아이디어인 것처럼
[10:58]
다른 나라를 침공하도록 만드는 거죠.
[11:00]
그래서 요점은 이게 마치
[11:03]
교활한 호빗 같다는 거예요.
[11:05]
Andrew Goff는 디플로마시
[11:07]
월드 챔피언을 3번이나 한 사람이에요. Noam Brown을
[11:10]
방금 알았네요. 좀 주제가 샜는데
[11:11]
여기는 자정이라 양해 부탁드려요. Noam Brown이
[11:13]
말하고 싶었던 건
[11:16]
이 밈이 논문을 완벽하게 요약했다는 거예요.
[11:18]
통계적 학습에 대해 설명하면서
[11:20]
오른쪽에서는
[11:22]
매우 복잡하고 구체적인 방법으로
[11:24]
통계적 학습을 시도하는데
[11:26]
결과는 계속 하락하고 있어요.
[11:28]
모든 지표가 떨어지는 상황에서
[11:31]
반대편에는 광대 모자를 쓴
[11:33]
이 사람이 있는데
[11:35]
그냥 '레이어를 더 쌓아!'라고
[11:36]
외치고 있죠. 그리고 보세요,
[11:38]
차트가 상승하고 있어요. X축과 Y축 모두
[11:41]
레이어를 나타내요. 레이어, 레이어, 더 많은 레이어!
[11:44]
여기서 포인트는
[11:45]
정말 열심히 연구하는
[11:47]
접근방식이 효과가 있을 것 같지만
[11:49]
실제로는 단순히
[11:51]
레이어를 더 쌓는 게 더 나을 수 있다는 거예요.
[11:53]
일반적으로 더 큰 모델,
[11:56]
더 지능적인 모델이
[11:58]
더 일반화가 잘 되고
[12:00]
단순히 브루트 포스로
[12:02]
더 일반적인 이해를 통해
[12:05]
모든 것을 해결할 수 있다는 거죠.
[12:06]
그리고 AlphaCode 2를 보면
[12:08]
2023년 12월에
[12:12]
그들이 사용한 그 미친 듯한
[12:14]
통계적 기법들, 예를 들어
[12:17]
백만 개의 솔루션을 샘플링하는 방식으로
[12:20]
AlphaCode 2가 Codeforces에서 85퍼센타일을 달성했죠,
[12:23]
일 년 조금 넘은 시점에요.
[12:25]
하지만 그 이후로
[12:27]
강화학습(RL)을 활용해서
[12:29]
언어 모델의 추론 능력을 향상시키는데
[12:32]
큰 진전이 있었어요.
[12:33]
이 채널을 계속 보셨다면
[12:34]
우리가 계속 이야기해온 내용이죠.
[12:36]
못 보신 분들을 위해 설명하자면, DeepSeek와
[12:39]
중국 연구진들이
[12:41]
이 두 가지의 조합이
[12:44]
정말 놀라운 결과를
[12:46]
만들어낸다고 말하고 있어요.
[12:48]
구글 딥마인드에서 나온 논문에서는
[12:50]
지도 학습 미세조정은
[12:52]
단순 암기를 하지만, 강화학습은
[12:54]
일반화를 한다고 합니다.
[12:56]
이는 강화학습이
[12:58]
훨씬 더 나은 일반적 추론이 가능한
[13:00]
모델을 만든다는 의미예요.
[13:02]
단순히 방법을 암기하는 것이 아닌
[13:03]
강화학습은 물론
[13:05]
긍정적이고 부정적인 강화,
[13:06]
마치 강아지가 뭔가를 잘했을 때
[13:08]
간식을 주는 것처럼 작동해요.
[13:10]
이런 모델들에서는
[13:12]
뭔가를 잘했을 때 +1을 주고
[13:13]
잘못했을 때는
[13:14]
페널티를 주는 방식으로
[13:16]
수많은 반복을 거치면서
[13:18]
점차 행동 패턴이나
[13:20]
정책을 형성하게 되는 거죠.
[13:22]
이를 통해 모델이 원하는 작업을 수행할 수 있는
[13:24]
정책을 형성하게 됩니다.
[13:25]
그것이 자동차 운전이든,
[13:27]
수학 문제나 코딩 문제를 푸는 것이든
[13:29]
어떤 작업이든 수행할 수 있게 되죠.
[13:31]
이 경우에는
[13:32]
강화학습을 사용하여 대규모 언어 모델을
[13:35]
특정 작업을 수행하도록
[13:37]
훈련시키고 있는 것입니다.
[13:39]
여기서 언급하는 것처럼
[13:40]
이는 대규모 추론 모델(LRMs)의 출현으로 이어졌습니다.
[13:44]
저는 이 용어가 자주 사용되는 것을 보지 못했는데,
[13:48]
아마도 새로운 용어일 수 있고
[13:49]
혹은 제가 놓친 것일 수도 있습니다.
[13:51]
하지만 이는 중요한 구분인데,
[13:53]
왜냐하면 많은 사람들이
[13:54]
특히 이 분야에 깊이 있지 않은 사람들이
[13:56]
GPT-4와
[13:57]
O3의 차이점을 직관적으로
[13:59]
이해하지 못하고 있기 때문입니다.
[14:02]
둘이 비슷해 보일 수 있지만
[14:04]
지금까지 우리가 경험한 대부분의 모델들,
[14:07]
GPT-4 등은 비추론 모델입니다.
[14:09]
이들은 대규모 언어 모델이죠.
[14:11]
반면에 O1, DeepSeek의 R1, O3는
[14:13]
추론 모델입니다.
[14:16]
이러한 LRM들은 강화학습을 통해
[14:19]
훈련된 언어 모델입니다.
[14:22]
확장된 사고 체인을 통해
[14:24]
추론하고 생각하도록 훈련되었죠.
[14:28]
그들이 언급하길
[14:30]
OpenAI의 O1과
[14:32]
곧 출시될 후속작 O3가 있다고 합니다.
[14:35]
O3-mini의 성능이 굉장했는데,
[14:38]
O3가 기대되네요.
[14:40]
이 모델들은 사고 체인 추론을 사용하여
[14:42]
수학, 코딩 등 복잡한 작업을 해결합니다.
[14:44]
그리고 DeepSeek와 Kimi에 대해 언급하는데,
[14:47]
이 두 회사가 이러한 모델들의
[14:49]
특별한 비결을 많이 공개했다고 봅니다.
[14:52]
OpenAI O1 같은 모델들의
[14:53]
작동 방식에 대해
[14:55]
많은 부분을 공개했거나
[14:57]
최소한 역공학을 통해
[14:58]
어떻게 작동하는지 밝혔죠.
[15:00]
여기서 그들이 해결하려는
[15:02]
큰 질문 중 하나는 비교에 관한 것입니다.
[15:04]
도메인별 수작업으로 만든
[15:06]
추론 전략들과
[15:08]
매우 복잡한
[15:11]
수작업으로 만든 O1 IOI나
[15:14]
기타 모델들이
[15:15]
모델이 스스로 생성하고
[15:17]
실행하는 학습된 접근 방식과
[15:19]
어떻게 비교되는지입니다.
[15:22]
O1에 대한 간단한 설명이 있는데
[15:24]
대부분 알고 있을 테니
[15:25]
자세히 다루지는 않겠습니다.
[15:26]
기본적으로 사고 체인이 있어서
[15:29]
답변하기 전에 문제를 생각할 수 있죠.
[15:31]
이 연구 논문에서 새로운 점은
[15:33]
이러한 테스트들에 대해
[15:35]
특히 보안 환경에서
[15:38]
코드를 작성하고 실행하는
[15:39]
외부 도구를 사용하도록
[15:41]
훈련되었다는 것입니다.
[15:43]
모델이 코드를 생성하면 컴파일이 되는지,
[15:45]
테스트 케이스를 통과하는지 등을 확인할 수 있죠.
[15:48]
코드를 작성한 다음 실행해서
[15:51]
결과를 확인하고,
[15:52]
오류 메시지가 나오면
[15:53]
문제를 해결하고 개선할 수 있으며,
[15:55]
출력을 테스트하고 개선하면서
[15:57]
반복적으로 성능을 향상시킵니다.
[15:59]
하나의 솔루션을 단일 샘플 과정에서
[16:01]
단일 샘플이란 즉, 하나의 응답을
[16:04]
의미하는데, 이게 꽤나
[16:06]
흥미롭죠. 시스템이 생각하면서
[16:07]
마치 코드를 실행하고
[16:09]
에러 메시지를 받으면 그것을 기반으로
[16:11]
반복적으로 개선해 나가는 것 같습니다
[16:13]
해결책을 개선하려고 노력하면서
[16:15]
코드를 작성하고 문제를 해결하고
[16:17]
디버깅하는 등의 과정을
[16:19]
모두 하나의 프롬프트 내에서 수행합니다
[16:21]
다음으로, O1-II 시스템의 경우
[16:23]
2024년 국제 정보올림피아드(IOI)에
[16:25]
인간 참가자들과 동일한 조건으로 참가했는데
[16:27]
6개의 도전적인 알고리즘 문제를
[16:30]
10시간 동안 해결해야 했고
[16:32]
문제당 최대 50번의
[16:34]
제출이 허용되었습니다
[16:36]
시스템은 10,000개의 후보 해결책을 생성하고
[16:38]
그중에서 50개를 선택하는데
[16:41]
앞서 설명한 테스트 타임 선택 전략을
[16:43]
사용했습니다
[16:45]
복잡한 과정을 거쳐
[16:46]
최고의 해결책을 필터링하고
[16:48]
정답이 될 수 있는 것들을 선별했죠
[16:50]
그 결과 대회에서 49퍼센타일을 기록했습니다
[16:53]
만약 10,000개 중에서
[16:55]
무작위로 50개만 선택했다면
[16:57]
점수는 156점에
[16:59]
불과했을 것입니다
[17:02]
이건 무작위 선택의 경우고
[17:03]
복잡한 필터링 방식을 사용한
[17:05]
경우와는 다릅니다
[17:07]
만약 제출 제한을 완화해서
[17:09]
10,000개를 모두 제출할 수 있었다면
[17:13]
362점을 기록했을 것이고
[17:15]
이는 금메달 기준을 넘어서는 점수로
[17:17]
모델의 잠재력을 보여줍니다
[17:19]
그 다음 테스트로는
[17:22]
강화학습으로 더 발전된
[17:24]
다음 모델을 시험했는데
[17:25]
이 모델은 자율적으로 개발하고
[17:27]
자체 테스트 전략을 실행할 수 있습니다
[17:29]
그들은 O3의 초기 체크포인트에
[17:32]
접근할 수 있었습니다. O1-II가
[17:36]
IOI 시험에서 좋은 성과를 거뒀지만
[17:41]
만약 기계식 접근법으로
[17:43]
10,000개의 제출을 허용한다면
[17:45]
점수가 크게 올라가서
[17:48]
결과적으로
[17:49]
362점으로 금메달 기준을 초과합니다
[17:53]
여기 362점이 나왔고, O3는 50번의 제출로
[17:57]
395점을 받았습니다
[17:59]
IOI 2024 대회 규칙을 찾아보니
[18:02]
각 과제당 최대 50번의
[18:04]
제출이 허용된다고 합니다
[18:07]
실제 대회 조건에서
[18:10]
395점을 받아 금메달 기준을 넘었고
[18:12]
10,000개 샘플을 사용한 O1-II보다
[18:15]
더 좋은 성과를 거뒀습니다
[18:18]
전반적으로 IOI 2024의 결과는
[18:21]
대규모 강화학습 훈련만으로도
[18:25]
최첨단 코딩과
[18:27]
추론 성능을 달성할 수 있음을
[18:29]
보여줍니다. 독립적으로
[18:31]
해결책을 생성, 평가, 개선하는
[18:33]
능력을 학습함으로써
[18:36]
O3는 도메인 특정 특성이나
[18:40]
클러스터링 기반 방법에
[18:42]
의존하지 않고도 O1-II를 능가했습니다
[18:43]
HackerRank Astra에 대해 언급하면서
[18:46]
일반적인 경쟁 프로그래밍
[18:48]
데이터셋과 달리
[18:49]
HackerRank Astra는 공개
[18:52]
테스트 케이스를 제공하지 않아
[18:54]
수작업으로 만든 테스트 시간 전략에 의존하는 것을
[18:56]
데이터셋으로 성능을 평가했을 때
[18:57]
추론 능력이
[18:59]
알고리즘 문제 해결 능력 향상에만 국한되는지
[19:01]
아니면 더 실용적인
[19:03]
산업 관련 코딩 작업까지 확장되는지를 보여줍니다
[19:06]
그래서 질문은 이렇습니다. 금메달을 따고
[19:08]
이런 모든 벤치마크에서 좋은 성과를 내는 것이
[19:10]
실제 현실 세계에
[19:11]
적용될 수 있는가, HackerRank Astra에서는
[19:14]
예를 들어 성능이 다음과 비슷한 수준입니다
[19:16]
Claude 3.5, Sonnet-01, Preview-01과
[19:20]
매우 유사하고, HumanEval Verified에서는
[19:23]
보시다시피 큰 도약이 있었는데
[19:26]
O1에서 O3로 넘어가면서 O3가
[19:29]
71.7점을 기록했습니다. 여기서 그들은
[19:31]
이러한 결과들이 향상된
[19:32]
추론 능력이 경쟁적 프로그래밍
[19:34]
도전을 넘어서
[19:36]
실제 소프트웨어 엔지니어링과 같은
[19:38]
현실 세계 작업에도 적용됨을 보여준다고 합니다
[19:40]
다시 말해서, 이런 프로그래밍 과제가
[19:42]
이러한 모델들이
[19:43]
소프트웨어 엔지니어링에서 얼마나 잘 수행할지
[19:46]
실제로 측정할 수 있다는 것에
[19:48]
동의하지 않았던 사람들에게
[19:50]
이 주장에 동의하시나요?
[19:52]
다시 말해서, 이 차트처럼
[19:54]
컴퓨팅 파워와 강화학습률을 높일수록
[19:57]
성능이 계속해서
[19:58]
향상되는 것이
[20:01]
이 모델들이 실제 현실에서 가질
[20:03]
소프트웨어 엔지니어링 프로젝트 능력을
[20:06]
대표한다고 볼 수 있을까요?
[20:09]
만약 아니라면, 더 나은 벤치마크나
[20:12]
또는 이러한 특정 능력을 테스트할
[20:14]
다른 방법이 있을까요?
[20:16]
다양한 모델들을 테스트하여
[20:17]
그들의 성능을 측정하고
[20:19]
이 분야에서의 발전을 가늠할 수 있는 방법이요
[20:22]
그들의 결론은 다음과 같습니다
[20:24]
강화학습 훈련 컴퓨팅의 증가와
[20:25]
테스트 시간 컴퓨팅의 향상이
[20:27]
결합되었을 때
[20:29]
질문 후 생각할 시간을 얼마나 주느냐,
[20:31]
즉 그런 추론 처리 시간이
[20:33]
모델의 성능을 꾸준히 향상시켜
[20:35]
거의 세계 최고의 인간 수준에
[20:37]
근접하게 만든다는 것입니다
[20:39]
이러한 결과를 바탕으로 O 시리즈
[20:42]
대규모 추론 모델이
[20:43]
AI의 새로운 활용 사례를
[20:46]
과학, 코딩, 수학 등 다양한 분야에서
[20:48]
열 것이라 믿습니다. 이제 큰 질문으로 넘어가보죠
[20:51]
여기 Code Forces 대회에서
[20:55]
활동하는 모든 최상위 경쟁자들의
[20:57]
차트가 있습니다
[21:00]
여기 빨간 별표가 O3 모델입니다
[21:03]
아직 출시되지 않은 O3 모델이죠
[21:06]
곧 우리가 사용할 수 있게 될
[21:08]
모델인데, 제가 알기로는
[21:10]
세계 175위라고 했습니다. O3가
[21:13]
175위예요. Sam이 말하길 내부적으로는
[21:16]
50위권의 모델을 가지고 있다고 합니다
[21:19]
이건 약 3,000위 정도니까
[21:21]
여기 어딘가에 있을 텐데
[21:23]
추정치일 수 있죠. 50위면 아마도
[21:25]
여기 어딘가일 겁니다
[21:27]
여기 어딘가에 있겠죠
[21:30]
이게 내부 모델이 될 텐데
[21:32]
아마도 O4가 되겠죠
[21:34]
Sam Altman에 따르면 이미 존재하는
[21:37]
모델이라고 하지만 일부는 믿지 않습니다
[21:39]
Sam Altman의 말이 사실인지 의심하는 사람들도 있지만
[21:40]
지금까지 그들이 하고 있는 일이
[21:42]
효과가 있는 것 같습니다. 계속 성장하고 있고
[21:45]
벤치마크에서 상위권을 차지하고 있으며
[21:46]
잘 작동하는 것으로 보입니다.
[21:49]
그들이 이미 보유하고 있다고 믿습니다.
[21:50]
그리고 Sam이 말하길 올해 말쯤에는
[21:52]
우리가 여기에 모델을 하나 가질 수 있을 것이라고 했는데
[21:54]
이는 최고의 프로그래머보다 뛰어난,
[21:57]
모든 인간 프로그래머보다 나은 것이죠.
[21:59]
이것을 GPT-5라고 부를 수 있겠죠.
[22:01]
다시 말하지만, 그는 이미 있다고 말하는 게 아니라
[22:03]
이것은 이론적인 것입니다.
[22:04]
현재 진행 속도로 봤을 때
[22:06]
그 정도까지 도달할 수 있다는 거죠.
[22:09]
불가능한 일은 아니라는 겁니다.
[22:11]
GPT-1은 여기 즈음에 있었고, 1670
[22:13]
정도였다고 생각합니다. 이게 GPT-1이죠.
[22:15]
9월 24일에 출시된
[22:18]
이것이 GPT-3입니다. GPT-3 미니,
[22:22]
2025년 1월에 출시된 GPT-3 미니죠.
[22:24]
4-5개월 정도 걸렸고, 아직 완전한 GPT-3는 없습니다.
[22:26]
아마도 완전한 GPT-3는
[22:28]
2025년 1분기나 2분기에 출시될 것 같습니다.
[22:31]
이 내부 모델은
[22:32]
GPT-4라고 부를 수 있겠죠.
[22:36]
작명 규칙이 유지된다고 가정했을 때
[22:38]
물론 달라질 수도 있지만
[22:40]
만약 이것이
[22:43]
올해 4분기에 출시된다면
[22:45]
2025년 말이죠.
[22:48]
그때쯤이면 이미
[22:51]
내부적으로
[22:52]
슈퍼코더인 GPT-5나 그와 비슷한
[22:55]
모델을 가지고 있을 수도 있습니다.
[22:57]
물론 이건 추측일 뿐이지만
[22:58]
다시 말하지만
[23:00]
이것이 불가능해 보이지는 않습니다.
[23:02]
그렇다면 2025년 말까지
[23:04]
인간을 뛰어넘는 프로그래머를 갖게 된다는 건
[23:06]
이는 근본적으로 큰 변화를 의미하는데
[23:08]
거의 모든 분야에서 말이죠.
[23:12]
Riley Brown의 말을 보면
[23:14]
정확한 트윗은 찾지 못했지만
[23:15]
대략 이런 내용이었습니다.
[23:17]
향후 5년 내에
[23:19]
SaaS 기업들에게 가장 큰 위협은
[23:21]
고객들이
[23:23]
스스로 만들 수 있다는 것을
[23:25]
깨닫는 것이라고 했죠. 45분 만에
[23:27]
이런 대규모 언어 모델을 사용해서 말이죠.
[23:28]
여러분은 이게 정확하다고 생각하시나요?
[23:31]
정말 이렇게 극적인 변화가 있을까요?
[23:33]
아니면 아직 멀었다고 보시나요?
[23:35]
Tanish Matthew Abraham은 이렇게 말했습니다.
[23:37]
우리가 방금 본 논문에 대해
[23:39]
그가 문제 삼은 것은
[23:41]
GPT-1 IOI가
[23:42]
GPT-3만큼 좋지 않다고 한 부분입니다.
[23:45]
즉, 그 특화된 모델이 좋지 않다는 건데
[23:47]
그는 GPT-3 IOI가
[23:49]
더 나을 수 있지 않냐고 질문합니다.
[23:52]
이건 앞으로 답해야 할
[23:54]
흥미로운 질문이 될 것입니다.
[23:56]
GPT-3끼리 비교할 때
[23:59]
같은 모델을 가지고
[24:01]
특정 작업에 맞게 미세 조정하고
[24:03]
특화시키는 것이
[24:05]
더 나아질까요?
[24:06]
아니면 단순히
[24:09]
자원 할당 측면에서
[24:11]
이 차트처럼 레이어를 더 쌓는 게 나을까요?
[24:13]
레이어를 더 많이 쌓는 거죠.
[24:16]
여기까지 시청해주셔서 감사합니다.
[24:18]
저는 Wes rth입니다.
[24:20]
다음에 또 만나요.