왜 R1과 o1 모델은 복잡한 추론을 과소평가하는가 (+ 해결책)

Discover AI 구독자 79,000명

요약

이 영상은 AI 모델들이 복잡한 문제 해결 과정에서 겪는 추론 깊이의 한계를 분석합니다. 특히, R1, o1, Gemini 등 여러 모델이 다양한 인과 관계 경로를 탐색하면서도 올바른 해답 도출에 실패하는 원인을 토큰 디코딩 및 자원 할당 관점에서 설명합니다. 영상은 실험 결과와 토큰 분석을 통해 잘못된 단기 최적화가 발생하는 메커니즘을 밝히고, 이를 개선하기 위한 간단한 TIP(토큰 스위칭 페널티) 방법론을 제시합니다. 또한, 모델의 훈련 데이터와 구조적 편향이 이러한 문제에 미치는 영향을 짚으며 향후 개선 방향을 모색합니다.

주요 키워드

R1 o1 추론 디코딩 토큰 TIP 방법론 스위칭 페널티 탐색 vs 착취 훈련 데이터 인과 관계

하이라이트

🔑 영상은 AI 모델들이 복잡한 문제에서 올바른 추론 경로를 찾지 못하는 원인을 심도 있게 분석합니다.
⚡️ 다양한 모델(예: R1, o1, Gemini)의 인과 관계 기반 추론 과정과 토큰 최적화 문제를 상세히 설명합니다.
🌟 실험적 토큰 분석을 통해 올바른 추론과 잘못된 추론 간의 차이를 시각적으로 비교합니다.
📌 TIP 방법론(토큰 스위칭 페널티)을 도입하여 모델의 추론 과정에서 불필요한 전환을 줄이고, 더 깊은 reasoning 체계를 유도하는 방안을 제시합니다.
🚀 결과적으로, 단순한 계산 자원 증가보다는 훈련 데이터 재구성과 모델 내부의 추론 구조 개선이 필요함을 강조합니다.

용어 설명

R1

복잡한 추론 문제 해결에 사용되는 AI 모델 중 하나로, 실시간 추론 및 심화 문제 풀이를 목표로 함.

o1

R1과 유사한 역할을 하는 또 다른 AI 모델로, 다양한 추론 경로를 실시간으로 탐색함.

TIP 방법론

토큰 스위칭 페널티(Tip methodology)를 의미하며, 모델이 초기 올바른 해답 경로를 조기에 포기하지 않고 깊은 reasoning을 유도하기 위한 디코딩 전략임.

디코딩

자동회귀 언어 모델에서 다음 토큰의 확률을 기반으로 문장을 생성하는 과정으로, 여기서는 모델의 추론 전개 방식과 관련되어 있음.

탐색 vs 착취

모델이 다양한 추론 경로를 탐색하는(Exploration) 과정과, 최종 해답에 집중하여 착취(Exploitation)하는 과정 간의 균형 문제를 의미함.

챕터 정보가 없습니다.

[00:00] 안녕하세요 여러분, 제목부터 시작해보겠습니다.

[00:03] 이 제목이 맞는지 틀린지 증명해보도록 하겠습니다.

[00:05] 우리의 모델들이 가진 아름다움이 무엇인지 아시나요?

[00:08] Q qwq나 Deep C1, Gemini 같은 사고 모델들에서

[00:12] 우리는 이들의 작동 방식을 자세히 관찰할 수 있습니다.

[00:15] 이 논의를 시작해보겠습니다. 우리는 이 AI 모델들이

[00:20] 어떻게 작동하는지 볼 수 있죠.

[00:22] AI 모델이 다양한 추론 옵션을 탐색하는 방식과

[00:25] 서로 다른 인과관계 추론 경로를 따르는 것을 볼 수 있으며

[00:27] 각 모델이 도달할 수 있는

[00:29] 복잡성의 수준을 이해할 수 있습니다.

[00:31] 우리의 질문에 대한 답을 찾는 과정에서

[00:35] 그들이 탐색하는 방식의 복잡성 수준을

[00:37] 이해할 수 있습니다.

[00:39] 이 추론 과정을 실시간으로 보고 싶다면

[00:41] 제 최근 영상에서 확인할 수 있습니다.

[00:44] Deep Seek와 or1에 대한 영상에서도

[00:46] 천재성의 불꽃이 있었죠. 아시나요?

[00:50] 갑자기 일부 과학자들이 깨달았기 때문입니다.

[00:53] 우리가 AI 시스템을 개선할 수 있다는 것을,

[00:56] 그들의 추론 능력을 향상시킬 수 있다는 것을 말이죠.

[00:59] 그리고 여러분은 '그래요, 당연하죠'라고 말할 수 있겠죠.

[01:01] 바로 어제 1월 31일에

[01:04] 멋진 논문이 발표되었습니다.

[01:05] '더 똑똑하게, 더 어렵게가 아닌'이라는 논문인데

[01:08] 기억하시나요, 이것은

[01:11] 추론 예산 제약 정책 최적화에 관한 것으로

[01:13] 메타가 적응형 추론을 위해

[01:16] 무언가를 만들었다고 발표했죠.

[01:18] 추론 과정에서

[01:20] 하지만 이틀 전에 제가 보여드린 영상은

[01:23] 훨씬 더 단순한 것이었습니다.

[01:25] 테스트 타임 최적화에 관한 것이었는데

[01:27] 이제는 DPO 대신

[01:31] 테스트 타임 선호도 최적화가 있습니다.

[01:33] 이것이 훨씬 더 우아한 방식인데요,

[01:36] 왜냐하면 메타의 이 새로운 최신 논문에서는

[01:39] 예산 제약이 있는

[01:41] 추론 정책 최적화에 대해 다루고 있기 때문입니다.

[01:43] 예산으로

[01:45] 간단히 말해서 이해하고 싶으시다면

[01:47] 그들은 이렇게 말합니다. 모델들은

[01:50] 우리의 방법론을 통해 미세 조정되어

[01:52] 쿼리의 난이도를 이해하게 됩니다.

[01:54] 이것이 제가 말하는 복잡성 수준입니다.

[01:56] 그리고 이 모델은 추론 예산을

[01:59] 더 어려운 문제 해결에 할당합니다.

[02:02] 그리고 아시나요?

[02:04] 이것이 실제로는 해결책이

[02:07] 전혀 아닐 수 있다는 것을 보여드리겠습니다.

[02:10] 메타의 논문 자체는 좋습니다.

[02:14] 확률적 최적화라는 아이디어가 있는데

[02:16] 정말 아름답습니다.

[02:18] 실용적인 업데이트 방법을 다루고

[02:21] 준경사 등을 포함하고 있죠.

[02:23] 훌륭합니다. 하지만 아시나요?

[02:26] 제가 말하는 것은 다른 불꽃입니다.

[02:28] 때로는 아이디어가 단순하고 아름답습니다.

[02:31] 수학적인 것을 할 필요가 없죠.

[02:33] 그리고 나서 발견할 수 있습니다.

[02:36] 심지어 작동하지 않을 수도 있다는 것을요.

[02:39] 이것이 바로 그 단순한 아름다움인데

[02:42] 우리는 R1과 같은 AI 모델들이 실시간으로 생각하는 것을 볼 수 있고

[02:47] 이러한 추론 계산 모델들이

[02:50] 우리의 쿼리를 충분히 생각하지 못한다는 것을 발견했습니다.

[02:53] 이것이 무슨 의미일까요? 이 영상의 핵심으로 들어가봅시다.

[02:57] 여러분은 이렇게 물을 수 있습니다.

[03:00] '2분의 테스트 시간이

[03:02] 충분하지 않다는 말씀이신가요?'

[03:06] 기억하세요, 이것은 채팅 모델이 아닙니다.

[03:10] 우리는 이 모델을 복잡한 문제 해결에 사용하고 있습니다.

[03:12] 특정 분자 화합물을 계산하는 데 사용하고 있죠.

[03:16] 따라서 시스템이 1초 안에 응답할 필요가 없습니다.

[03:19] 5분이 걸려도 괜찮습니다.

[03:22] 만약 이전 회사에 '1시간이 걸려도 괜찮나요?'라고 물어본다면

[03:25] 그들은 '이전 방식은...

[03:28] 한 시간이 걸렸었죠'라고 말할 것입니다.

[03:29] 5년 미만의 모든 것은 아주 좋습니다. 우리는 여기서 복잡한 문제를 해결하고 있습니다.

[03:32] 이것을 기억해 주세요.

[03:37] 우리는 지금 여기 Deep Seek를 사용하고 있습니다.

[03:40] Deep Seek R1에게 간단히 물어보았습니다.

[03:42] 암흑 물질과 암흑 에너지에 대해 어떻게 구조화할 수 있는지

[03:45] 답이 아닌 아이디어의 전개 과정을 보여주고 싶었습니다.

[03:47] 시스템이 생각하는 과정을 지켜보면

[03:50] 수정된 뉴턴 역학(MOND)와 같은 대안 이론을 제시합니다.

[03:52] 이것 자체로도 아름다운 아이디어입니다.

[03:55] 그리고 O1은 이러한 생각들을 구조화해야 한다고 알려줍니다.

[03:57] 암흑 물질의 증거들을 나열해야 합니다.

[04:00] 은하의 회전 곡선, 중력 렌즈 현상

[04:02] 우주 마이크로파 배경복사(CMB) 관측

[04:04] 은하단 충돌 등을 설명할 수 있습니다.

[04:07] 그리고 R1이 등장해서

[04:08] 각 포인트를 검증해야 한다고 합니다.

[04:09] 회전 곡선의 경우, 모든 은하가 이러한 불일치를 보이는지

[04:11] 측정이 얼마나 정확한지 확인해야 합니다.

[04:13] 중력 렌즈의 경우, 질량 분포를 어떻게 매핑하는지

[04:16] 입자물리학에서는 완전히 다른 관점에서 접근합니다.

[04:18] 이론물리학의 다른 끝에서 보면

[04:21] 입자물리학 실험에서는 약한 상호작용을 하는

[04:23] 질량을 가진 입자, 즉 WIMP 입자들이

[04:25] 암흑물질 입자로 확실히 검출되었는지를 확인합니다.

[04:28] 이 모든 것을 종합해보면

[04:30] 우리는 많은 아이디어를 가지고 있고

[04:32] 이것들이 모두 통합되어

[04:34] AI 시스템이 하나의 답으로 압축하려고 합니다.

[04:37] 해결책을 찾는 것이 얼마나 쉬운지

[04:39] 시각화해서 보여드리겠습니다.

[04:41] 여기 다섯 개의 아이디어가 있고

[04:43] 파란색 화살표가 1, 2, 3, 5개 있습니다.

[04:45] 이것은 사고의 깊이, 추론의 깊이를 나타냅니다.

[04:48] 얼마나 깊은 사고가 일어나고 있는지 보여줍니다.

[04:50] 보시다시피 지금은 모두 거의 같은 수준에 있습니다.

[04:53] 하지만 실제 해결책을 찾으려면

[04:55] 첫 번째가 아닌 두 번째 해결책이 필요할 수 있습니다.

[04:59] 그리고 올바른 해결책에 도달하기 위해

[05:04] 깊은 추론 과정이 필요합니다.

[05:06] 이것은 챗봇이 아닙니다.

[05:09] 1초 만에 답이 필요한 게 아니라

[05:10] 1시간이 걸리더라도 정확한 추론 과정이 필요합니다.

[05:13] 분자 특성이나 금융 거래

[05:16] 또는 금융 위험 평가를 위해서는

[05:19] 복잡한 사고 과정이 필요합니다.

[05:23] 현재 우리의 최고 모델인 Q*, O1, R1

[05:26] 또는 Gemini와 같은 모델들은

[05:29] 왼쪽의 단순한 아이디어 수준에 머물러 있습니다.

[05:32] 어떻게 이를 달성할 수 있을까요?

[05:36] 이것이 올바른 것인지 어떻게 알 수 있냐고 물을 수 있습니다.

[05:39] 재미있는 실험이 있었는데

[05:42] 연구자들이 실험을 수행하고 돌아와서 말하길

[05:44] 다양한 모델들의 초기 해결책 중 상당수가

[05:47] 실제로 정답이었지만

[05:50] 완성까지 추구되지 않았다고 합니다.

[05:51] 즉, 두 번째 초기 해결책이

[05:54] 정답이었을 수 있지만

[05:57] 충분히 탐구되지 않았다는 것입니다.

[06:51] 이들은 완료될 때까지 진행되지 않았고,

[06:53] 저자들은 이런 경향성을 보였습니다.

[06:56] 유망한 해결책에서 갑자기 벗어나

[06:59] 다음 해결책으로 넘어가는 것은

[07:02] 불충분한 추론 깊이를 나타내며,

[07:05] 잠재적으로 올바른 해결책이

[07:06] 철저히 검토되기도 전에

[07:09] 중도 포기되었습니다.

[07:11] 이것은 정말 놀라운 점인데,

[07:14] O1 시스템이 올바른 해결책을 찾았지만

[07:17] 어떤 이유로 시스템이

[07:21] '다음으로 넘어가자'라고 판단하고

[07:23] 계속해서 다음 해결책으로 넘어갔습니다.

[07:25] 우리는 다양한 가능한 해결책들을

[07:28] 가지고 있어서 광범위한

[07:30] 탐색은 이루어졌지만,

[07:33] 좋은 해결책의 활용은 제대로 이루어지지 않았습니다.

[07:36] 제가 이전 비디오에서 보여드린

[07:38] 향상된 몬트리올 연구 적응 방법론처럼요.

[07:43] 왜 이런 일이 일어나는지 궁금하실 텐데,

[07:45] 그 이유 중 하나는

[07:47] 이제 명확해졌습니다.

[07:49] 이런 행동은 학습 데이터셋의

[07:52] 깊은 특성을 반영합니다. 아시다시피 데이터는

[07:55] AI 시스템 학습에 가장 중요한 요소입니다.

[07:59] 학습을 위해

[08:01] 하지만 오늘의 핵심으로 돌아가서,

[08:03] 제가 보여드리고 싶은 연구가 있는데,

[08:05] 이것은 O1과 같은 LLM의

[08:07] 추론 과정에 대한 전반적인 연구로

[08:10] 2025년 1월 말에 나온 것입니다.

[08:13] 물론 기억하셔야 할 점은,

[08:16] 개방형 질문을 다룰 때는

[08:19] 다양한 해석이 가능하기 때문에,

[08:22] 저자들이 검증 가능한 좋은 결과를 얻기 위해

[08:24] 과학과 수학에 초점을 맞췄습니다.

[08:27] 수학적 해결책이

[08:29] 맞는지 틀린지 즉시 검증할 수 있기

[08:32] 때문이죠.

[08:33] 정말 훌륭한 아이디어입니다.

[08:36] OpenAI의 O1 적용에서 우리가 알게 된 것은

[08:40] 여기 학습 시간 계산이 있고

[08:42] 로그 스케일로 더 많은 시간이 필요하며

[08:44] 테스트 시간 계산에서

[08:47] 성능이 어떻게 향상되는지 볼 수 있습니다.

[08:49] 여기 O1 데이터가 있지만

[08:52] O1이 폐쇄형 독점 시스템이기 때문에

[08:55] 추론 과정은 알 수 없습니다.

[08:58] 오직 OpenAI 직원들만이 이를 볼 수 있죠.

[09:01] 여기를 보시면 물리학 박사 수준의

[09:05] 과학 문제에서

[09:07] GPT-4 Omni로 60%까지 올랐지만

[09:10] 이제 O1으로 90% 이상 달성했습니다.

[09:14] 이런 학습이 바로 우리가 집중하는 부분이며

[09:18] 앞으로 개선하여

[09:20] 더 나은 성능을 얻고자 하는

[09:22] 부분입니다.

[09:23] 벤치마크 테스트를 보면

[09:25] 연구자들이 멋진 아이디어를 냈는데,

[09:29] 파란색은 AI 시스템이 시도한

[09:32] 해결책의 수를 나타내고

[09:36] 빨간색은 토큰 수를

[09:38] 천 단위로 나타낸 것입니다.

[09:42] 수학 500 테스트 세트에서

[09:44] 간단한 수학 테스트인데,

[09:46] 레벨 1부터 레벨 5까지 있고

[09:48] 레벨 5가 가장 어려운 수준입니다.

[09:52] 먼저 해결책의 수를 보면,

[09:54] 파란색 선인데,

[09:56] 수학 방정식이 어려워질수록

[09:59] AI 시스템이 해결하는데 더 많은

[10:02] 해결책이 필요하다는 것을 알 수 있습니다.

[10:05] 간단해 보이죠. 토큰 수를 보면

[10:08] 빨간색 막대가 복잡할수록, 즉 질문이 복잡할수록

[10:12] 더 많은 토큰이

[10:14] 답변 계산에

[10:16] 포함된다는 것을 알 수 있습니다.

[10:20] 우리는 지난 영상의 QW Q2B에서 이것을 보았고

[10:24] Deep Seek R1의 프리뷰 버전을 보았습니다. 이는 한 달 전의 버전인데

[10:27] 그리고 이제 최종 버전인 실제 OR1이 있습니다

[10:30] 6,710억 개의 학습 가능한 파라미터를 가진

[10:33] 전문가 시스템 혼합 모델입니다

[10:36] 보시다시피 거의 비슷한 특성을 보이는데

[10:38] 여기서 프리뷰 모델과 순수 모델을 비교할 수 있습니다

[10:43] 흥미로운 점이 있는데

[10:45] 이에 대해서는 나중에 다른 영상에서

[10:48] 더 자세히 다루도록 하겠습니다

[10:50]

[10:51] 그들이 한 일은 이렇습니다. 내 쿼리가

[10:54] 단순한 수학 함수라고 했을 때

[10:57] 구체적인 내용은 중요하지 않지만, 이 시스템이

[10:59] 이제 R1이 나와서 이렇게 말합니다

[11:01] "좋아, 나는 첫 번째 해결 방법이 있어"

[11:04] 여기 문제가 있고 변수 a, b, x, y, z가 있는 방정식이 있으니

[11:06] 이런 방식으로 접근할 수 있을 것 같아

[11:09] 두 번째 방법으로는

[11:13] 기하학적 해석이 가능할 수도 있겠네

[11:15] 그래서 기하학적 관점에서

[11:17] 문제를 바라봐야 할 수도 있어

[11:19] 세 번째로 R1은 이렇게 생각합니다

[11:23] 어떤 X와 Y의 집합에 대해

[11:26] 두 방정식이 동시에 성립하는 경우를 찾아야 할 수도 있고

[11:28] a와 b를 찾아야 할 수도 있으며, 네 번째 방법으로

[11:32] 다른 접근 방식도 있을 수 있습니다

[11:35] 가능한 해결 방법이 많다는 것을 볼 수 있죠

[11:37] 이제 연구진들이 흥미로운 작업을 했는데

[11:41] 정확한 응답에 대한 토큰을 초록색으로 세고

[11:44] 부정확한 응답에 대한 토큰을 세어보았습니다

[11:46] 그래서 어떤 일이 일어났냐면

[11:49] 수학 문제와 과학 문제에서

[11:53] 특성이 동일하게 나타났는데

[11:56] 구체적인 내용은 중요하지 않습니다

[11:57] 여기서 세 가지 모델을 보면

[12:00] 정확한 응답은

[12:03] 3,000 토큰 이하가 필요했지만

[12:06] 부정확한 응답은 약 10,000 토큰까지 도달했습니다

[12:09] 이 시스템은 멈추기 전까지 엄청난 양의 토큰을 생성했고

[12:13] 잘못된 추론 경로에서

[12:15] 해결책을 찾지 못하기 때문에

[12:18] 여기서 상당한 양의

[12:20] 토큰과 시간, 에너지를 소비하며 계속 검색했습니다

[12:24] 정확한 해결책을 찾지 못하고

[12:27] 토큰, 시간, 에너지를 계속 검색에 소비했죠

[12:31] 결론에 도달하지 못하면서

[12:33] 모든 에너지와 시간이

[12:36] 올바른 해결책을 찾는 데 쓰이지 않고

[12:40] 잘못된 응답으로 빙빙 도는 데

[12:43] 낭비되었고, 이런 패턴이

[12:45] 도처에서 발견됩니다

[12:48] 이것이 연구진들에게

[12:50] 흥미로운 시작점이 되었고

[12:52] 그래서 그들은

[12:55] 각 해결 방법이 올바른 답으로 이어지는지

[12:57] 평가하기 위해 LLM을 활용했고

[12:59] 이런 프롬프트를 사용했습니다

[13:01] 아주 좋았죠. 특히 좋았던 점은

[13:03] 최신 증류 모델을 사용했다는 것입니다

[13:05] Deep Seek R1 증류 모델과

[13:08] Llama 70B, Deep Seek R1 증류 버전

[13:11] Q132B를 이 평가에 사용했습니다

[13:16] 자세한 내용은 읽어보실 수 있지만, 중요한 것은

[13:18] 다른 사실입니다. 보세요

[13:21] 이것을

[13:22] x축에는 정확한 해결 방법의 분포 비율이 있고

[13:25] 이것이 우리에게 알려주는 것은

[13:30] 부정확한 응답의 70% 이상이

[13:33] 추론 구조의 체인에서 최소한 하나의 올바른 해결 방법을 포함하고 있다는 것이고

[13:37] 부정확한 응답의 50% 이상에서

[13:39] 해결 방법의 10% 이상이

[13:42] 올바른 것이었다는 점입니다

[13:46] 즉, 모든 것이 잘못된 것이 아니라

[13:50] 일부 올바른 추론도 포함되어 있다는 것입니다

[13:53] 그렇습니다

[13:56] 놀랍게도 높은 비율로 정확한 답변이 있지만

[13:59] 이러한 답변들은

[14:01] O1과 같은 모델들이 활성화하거나

[14:04] 올바른 추론을 시작할 수는 있지만

[14:06] 이러한 올바른 경로를 계속 이어가는 데

[14:08] 어려움을 겪을 수 있으며

[14:11] 정확한

[14:12] 결론에 도달하지 못합니다. 이제

[14:14] 가장 흥미로운 질문은 왜

[14:17] 이런 일이 발생하는가 입니다. 간단한 해결책이 있고

[14:20] 연구 저자가 여기서

[14:21] 간단한 해결책을 제시했습니다.

[14:23] 표준 디코딩에서는

[14:25] 각 위치 T에서의 토큰 확률이

[14:27] 소프트맥스 함수를 사용하여 로짓으로

[14:29] 계산됩니다. 아주 좋습니다.

[14:32] Z가 우리의 로짓, 즉 정규화되지 않은

[14:35] 토큰 점수라면, 이 단계를 반복함으로써

[14:37] 다음 토큰을 예측하는

[14:39] 자기회귀적 LLM이 됩니다.

[14:42] 무슨 일이 일어나는지 이해하시나요?

[14:44] 우리는 토큰의 선형 시퀀스를 생성하고

[14:47] 이제 단순히 전환 페널티를

[14:51] 시스템에 부과합니다. 즉,

[14:54] 시스템에게 '다음 단어로 넘어가지 말고

[14:58] 현재 단어에

[15:00] 머물러 있으라'고 합니다. 페널티 강도와

[15:03] 페널티 지속 시간이라는 두 매개변수가 있죠.

[15:05] 꽤 간단한 공식이지만,

[15:08] 이것이 하나의 해결책이긴 하나

[15:11] 이것이 실제로 우리에게 큰

[15:13] 도약과 개선을 가져다주는 진정한 해결책은

[15:16] 아닐 것 같습니다. 그들이 하는 일은

[15:19] 단순히 로짓을 보고

[15:21] 예를 들어 '대안적으로'라는 단어를

[15:24] 살펴보는 것입니다. O1이 우리에게

[15:27] 대안적으로 이 시스템을

[15:28] 볼 수 있다고 말했을 때

[15:31] 이런 단어를 보면 '잠깐만

[15:34] O1, 추론을 계속해보자.

[15:37] 조금 더 깊이 들어가보자'라고 할 수 있습니다.

[15:40] 해결책을

[15:42] 찾았을 수도 있지만, 나는 '왜'에 대해 이야기하고 있었고

[15:45] 이것이 가장 중요한

[15:47] 질문이라고 생각합니다. 왜 이런 일이 일어나고

[15:49] 왜 이전에 아무도 이것을 눈치채지 못했을까요?

[15:52] 물론 이것은 모두 훈련

[15:55] 데이터와 관련이 있습니다.

[15:57] LLM은 인간의 텍스트를 모방하도록 훈련되었는데,

[16:00] 여기에는 탐색적 추론,

[16:02] 브레인스토밍 등이 포함됩니다. 하지만

[16:05] 인간의 문제 해결은 일반적으로

[16:07] 탐색 후에 해결책으로

[16:10] 수렴하는 반면, 우리의 LLM 모델은

[16:13] 이러한 수렴을 우선시하는 메커니즘이 부족합니다.

[16:16] 우리는 모델들에게 훈련 데이터에서

[16:19] 무엇을 기대하는지 보여주지 않습니다.

[16:22] 마치 기계 안에 작은 영혼이나 천재,

[16:25] 지니가 있어서 '아하, 이제

[16:28] 이해했어. 이런 저런

[16:31] 데이터들이 있고

[16:32] 이제 수학적 해결책을 조합할 수 있어'라고

[16:35] 말할 것이라 기대하지만, 그렇게 되지 않습니다.

[16:38] 따라서 훈련 데이터는 지금

[16:41] 추론 경로를

[16:43] 완성하는 것의 중요성을 강조하지 않아

[16:44] 피상적인 탐색으로 이어지고 있습니다.

[16:49] 우리가 가진 것은

[16:51] 더 깊은 추론 구조로 나아가기 위한

[16:56] 명시적인 보상의 부재입니다.

[16:58] O1이나 R1 같은 모델들에서

[17:02] 강화학습으로 조정된 이러한 모델들은

[17:04] 최종 답변의 정확성에 대해서만

[17:07] 강화학습에서 최적화되어 있고

[17:09] 추론 효율성이나

[17:13] 추론 경로에 대해서는 최적화되어 있지 않습니다.

[17:16] 어떻게 이것이 가능한지 궁금해할 수 있는데

[17:20] 그럼, 물론 우리가 가지고 있는

[17:23] 학습 데이터셋들을 보면,

[17:25] 저자들이 지적하듯이 이것이

[17:27] 단절을 만들어냅니다.

[17:29] 모델은 무엇을 해결해야 하는지는 알지만

[17:32] 최적의 방식으로 해결책을

[17:35] 구조화하는 방법을 모릅니다.

[17:36] 그래서 이제 새로운 데이터셋을 만들어야 합니다.

[17:40] 이 새로운 데이터셋으로 모델을 재학습시켜

[17:42] 단순히 무엇을 해결해야 하는지 뿐만 아니라

[17:45] 정확히 어떻게 해결책이

[17:48] 내부 추론 시스템에서 전개되기를 원하는지

[17:51] 보여줘야 합니다. 이해하기는 쉽지만

[17:54] 실제로 구현하기는 매우

[17:58] 복잡합니다.

[17:59] 이것을 실행에 옮기는 것은

[18:03] 좀 더 자세히 설명하자면

[18:05] 더 깊이 들어가보면

[18:06] 디코딩 전략이 탐색에 편향되어 있어서

[18:08] 우리가 여기서 보는 것은

[18:10] 높은 확률의

[18:12] 즉각적인 토큰의 선형 시퀀스

[18:14] 뿐입니다. 따라서 시스템이

[18:17] 다음 깊은 토큰 사이의 확률을 마주치거나

[18:20] 또는 '대안적으로 다른 경로로 전환할 수 있다'는

[18:23] 토큰을 만날 때마다

[18:26] 그러한 전환에 대한

[18:28] 확률이 충분히 높다면

[18:33] 다음 해결책으로 조기에 전환하고

[18:35] 첫 번째 경로를 완성하지 않게 됩니다.

[18:39] 표준 디코딩에는 경로를 조기에

[18:42] 포기하는 것에 대한 페널티가 없습니다.

[18:45] 따라서 모델은 비용 없이

[18:48] 새로운 경로로 전환할 수 있고, 해결하기 쉬운

[18:52] 단기적인 토큰 최적화만 추구하게 됩니다.

[18:57] LLM은 순차적으로 토큰을

[19:00] 최적화하는데

[19:02] 전역적인 추론의 품질보다는

[19:05] 지역적 일관성과 다음 토큰의 가능성에

[19:08] 초점을 맞추고 있습니다.

[19:10] 이는 학습 데이터로

[19:12] 쉽게 변경할 수 있습니다.

[19:15] 다시 컴퓨팅 자원 할당만

[19:17] 제공하는 것으로 돌아가보면

[19:19] 비디오 초반에 보여드린

[19:21] 메타의 글을 생각해보세요.

[19:23] 메타가 말하길, 더 복잡한 문제에

[19:25] 더 많은 자원을 제공하기만 하면 된다고 하는데

[19:27] 물론 이것이 하나의 해결책이라고

[19:29] 생각할 수 있지만, 우리가 방금 살펴본 것처럼

[19:33] 학습 데이터 자체를 변경하지 않고

[19:36] 모델에게 어떻게 해결하기를 원하는지

[19:39] 그리고 10단계, 12단계,

[19:42] 15단계의 복잡성을 거쳐

[19:45] 해결책을 찾기를 원한다는 것을

[19:48] 보여주지 않는다면, 이는 단순히

[19:51] 컴퓨팅 자원의

[19:53] 할당 문제가 아니라

[19:56] 시스템을 어떻게 가르치느냐의 문제입니다.

[19:58] 따라서 메타가 부분적으로는

[20:01] 해결책을 가지고 있을 수 있지만

[20:04] 이 중요한 문제를

[20:06] 놓치고 있다고 생각합니다.

[20:09] 다음 논리적 토큰이

[20:11] 전환 단계보다 낮은 확률을 가질 수 있고

[20:14] 다음 아이디어로 넘어가자는

[20:17] 경로 전환 페널티라는 이 아이디어는

[20:19] 가장 단순한 형태로도 잘 작동합니다.

[20:23] 요약하자면

[20:26] 올바른 초기 사고의 포기,

[20:30] 시스템이 존재하고

[20:32] 처음 3-5번의 시도에서

[20:34] 올바른 해결책이 있지만

[20:37] 이는 능력의 부족 때문이 아닙니다

[20:40] 시스템이 그 능력이 있음에도 불구하고

[20:42] 컴퓨팅 파워가 부족해서가 아니라

[20:46] 디코딩 알고리즘과 학습 데이터의

[20:50] 체계적인 편향성 때문입니다

[20:53] 깊이 있는 추론 과정보다 광범위한 탐색을

[20:57] 우선시하는 경향이 있기 때문이죠

[21:01] 다시 말해, 많은 연구에서 볼 수 있듯이

[21:05] 탐색과 활용의 균형이 중요한데

[21:08] 현재 제가 고민하는

[21:10] 열린 질문 중 하나는

[21:12] 이 시스템에 멀티컬

[21:15] 연구를 어떻게 통합하고

[21:17] 더 발전된 방식으로 적용할 수 있을지

[21:20] 고민하고 있습니다

[21:22] 아직은 모르지만

[21:25] 하나의 아이디어일 뿐입니다

[21:27] 요약하자면, TIP 방법론을 통해

[21:30] 전환 행동에 페널티를 부여함으로써

[21:33] 모델의 추론 과정을 재조정하여

[21:35] 인간과 유사한 지속성을 갖도록 하고

[21:38] 이를 통해 under-thinking의

[21:40] 근본 원인을 해결합니다

[21:42] O1, R1, Q*Q, 제미나이와 같은

[21:46] 사고 모델에서 발생하는 문제인데

[21:48] 이러한 모델들 중 어느 것도

[21:52] 100% 정확한 행동을 달성하지 못했기 때문입니다

[21:56] 그리고 이제 깨달았습니다만, 실수를 했네요

[21:59] 모델이 어리석은 게 아니라

[22:02] 우리가, 개발자들이 어리석었던 거죠

[22:05] 왜 이것을 생각하지 못했는지

[22:08] 이 추론 과정을 보면서

[22:11] 모든 아이디어들이

[22:14] 어떻게 하나로 모아져서

[22:17] AI 시스템의 출력으로

[22:20] 하나의 해결책이 나오는지

[22:23] 그리고 다른 모든

[22:26] 경로들은 어떻게 되는지 말이죠

[22:28] 아직 배울 게 정말 많지만

[22:31] 때로는 AI 과학자들의 아이디어와

[22:34] 접근 방식이 얼마나 단순한지

[22:37] 추론 능력을 향상시키는 데

[22:39] 놀랍다고 생각합니다

[22:41] 그들이 말하길

[22:43] 실험 결과를 통해

[22:45] 이러한 TIP 방법론으로

[22:48] under-thinking을 효과적으로 줄이고

[22:50] 수학적이고 과학적인

[22:53] 어려운 문제들에서

[22:55] 추가적인 모델 훈련 없이도

[22:58] 정확도를 향상시킬 수 있다고 합니다

[23:01] TIP 방법론의 장점은

[23:04] 더 이상의 훈련이 필요 없고

[23:05] 수정할 필요도 없이 두 개의 하이퍼

[23:08] 파라미터만 조정하면 된다는 것입니다

[23:12] 확률 밀도를 약간 조정하여

[23:14] 더 넓은 관점을 가질 수 있게 되는데

[23:18] 전체적인 일관성이라고는 할 수 없지만

[23:20] 다음 토큰의 확률이

[23:23] 지역적 일관성에만 묶이지 않고

[23:25] 좀 더 앞을 내다보며

[23:27] 더 깊은 추론 체인

[23:29] 구조를 가질 수 있게 됩니다

[23:32] 다른 해결책들도 많이 있다고 생각하는데

[23:34] 제가 생각하는 두 가지 다른

[23:36] 해결책이 있고, 여러분도

[23:39] 하나 정도는 있을 수 있죠

[23:41] 바로 코딩하고 발견해서 발표할 수도 있겠네요

[23:44] 2025년 1월 말

[23:46] 현재 AI 분야가 얼마나 흥미진진한지

[23:50] 정말 매력적입니다

[23:53] 이 영상이 조금이나마

[23:55] 도움이 되었길 바랍니다

[23:58] 이것을 더 개선할 수 있는

[24:00] 제 나름의 생각도 있으니

[24:03] 구독하시고 다음 영상에서 만나요