[00:00]
안녕하세요 여러분, 제목부터 시작해보겠습니다.
[00:03]
이 제목이 맞는지 틀린지 증명해보도록 하겠습니다.
[00:05]
우리의 모델들이 가진 아름다움이 무엇인지 아시나요?
[00:08]
Q qwq나 Deep C1, Gemini 같은 사고 모델들에서
[00:12]
우리는 이들의 작동 방식을 자세히 관찰할 수 있습니다.
[00:15]
이 논의를 시작해보겠습니다. 우리는 이 AI 모델들이
[00:20]
어떻게 작동하는지 볼 수 있죠.
[00:22]
AI 모델이 다양한 추론 옵션을 탐색하는 방식과
[00:25]
서로 다른 인과관계 추론 경로를 따르는 것을 볼 수 있으며
[00:27]
각 모델이 도달할 수 있는
[00:29]
복잡성의 수준을 이해할 수 있습니다.
[00:31]
우리의 질문에 대한 답을 찾는 과정에서
[00:35]
그들이 탐색하는 방식의 복잡성 수준을
[00:37]
이해할 수 있습니다.
[00:39]
이 추론 과정을 실시간으로 보고 싶다면
[00:41]
제 최근 영상에서 확인할 수 있습니다.
[00:44]
Deep Seek와 or1에 대한 영상에서도
[00:46]
천재성의 불꽃이 있었죠. 아시나요?
[00:50]
갑자기 일부 과학자들이 깨달았기 때문입니다.
[00:53]
우리가 AI 시스템을 개선할 수 있다는 것을,
[00:56]
그들의 추론 능력을 향상시킬 수 있다는 것을 말이죠.
[00:59]
그리고 여러분은 '그래요, 당연하죠'라고 말할 수 있겠죠.
[01:01]
바로 어제 1월 31일에
[01:04]
멋진 논문이 발표되었습니다.
[01:05]
'더 똑똑하게, 더 어렵게가 아닌'이라는 논문인데
[01:08]
기억하시나요, 이것은
[01:11]
추론 예산 제약 정책 최적화에 관한 것으로
[01:13]
메타가 적응형 추론을 위해
[01:16]
무언가를 만들었다고 발표했죠.
[01:18]
추론 과정에서
[01:20]
하지만 이틀 전에 제가 보여드린 영상은
[01:23]
훨씬 더 단순한 것이었습니다.
[01:25]
테스트 타임 최적화에 관한 것이었는데
[01:27]
이제는 DPO 대신
[01:31]
테스트 타임 선호도 최적화가 있습니다.
[01:33]
이것이 훨씬 더 우아한 방식인데요,
[01:36]
왜냐하면 메타의 이 새로운 최신 논문에서는
[01:39]
예산 제약이 있는
[01:41]
추론 정책 최적화에 대해 다루고 있기 때문입니다.
[01:43]
예산으로
[01:45]
간단히 말해서 이해하고 싶으시다면
[01:47]
그들은 이렇게 말합니다. 모델들은
[01:50]
우리의 방법론을 통해 미세 조정되어
[01:52]
쿼리의 난이도를 이해하게 됩니다.
[01:54]
이것이 제가 말하는 복잡성 수준입니다.
[01:56]
그리고 이 모델은 추론 예산을
[01:59]
더 어려운 문제 해결에 할당합니다.
[02:02]
그리고 아시나요?
[02:04]
이것이 실제로는 해결책이
[02:07]
전혀 아닐 수 있다는 것을 보여드리겠습니다.
[02:10]
메타의 논문 자체는 좋습니다.
[02:14]
확률적 최적화라는 아이디어가 있는데
[02:16]
정말 아름답습니다.
[02:18]
실용적인 업데이트 방법을 다루고
[02:21]
준경사 등을 포함하고 있죠.
[02:23]
훌륭합니다. 하지만 아시나요?
[02:26]
제가 말하는 것은 다른 불꽃입니다.
[02:28]
때로는 아이디어가 단순하고 아름답습니다.
[02:31]
수학적인 것을 할 필요가 없죠.
[02:33]
그리고 나서 발견할 수 있습니다.
[02:36]
심지어 작동하지 않을 수도 있다는 것을요.
[02:39]
이것이 바로 그 단순한 아름다움인데
[02:42]
우리는 R1과 같은 AI 모델들이 실시간으로 생각하는 것을 볼 수 있고
[02:47]
이러한 추론 계산 모델들이
[02:50]
우리의 쿼리를 충분히 생각하지 못한다는 것을 발견했습니다.
[02:53]
이것이 무슨 의미일까요? 이 영상의 핵심으로 들어가봅시다.
[02:57]
여러분은 이렇게 물을 수 있습니다.
[03:00]
'2분의 테스트 시간이
[03:02]
충분하지 않다는 말씀이신가요?'
[03:06]
기억하세요, 이것은 채팅 모델이 아닙니다.
[03:10]
우리는 이 모델을 복잡한 문제 해결에 사용하고 있습니다.
[03:12]
특정 분자 화합물을 계산하는 데 사용하고 있죠.
[03:16]
따라서 시스템이 1초 안에 응답할 필요가 없습니다.
[03:19]
5분이 걸려도 괜찮습니다.
[03:22]
만약 이전 회사에 '1시간이 걸려도 괜찮나요?'라고 물어본다면
[03:25]
그들은 '이전 방식은...
[03:28]
한 시간이 걸렸었죠'라고 말할 것입니다.
[03:29]
5년 미만의 모든 것은 아주 좋습니다. 우리는 여기서 복잡한 문제를 해결하고 있습니다.
[03:32]
이것을 기억해 주세요.
[03:37]
우리는 지금 여기 Deep Seek를 사용하고 있습니다.
[03:40]
Deep Seek R1에게 간단히 물어보았습니다.
[03:42]
암흑 물질과 암흑 에너지에 대해 어떻게 구조화할 수 있는지
[03:45]
답이 아닌 아이디어의 전개 과정을 보여주고 싶었습니다.
[03:47]
시스템이 생각하는 과정을 지켜보면
[03:50]
수정된 뉴턴 역학(MOND)와 같은 대안 이론을 제시합니다.
[03:52]
이것 자체로도 아름다운 아이디어입니다.
[03:55]
그리고 O1은 이러한 생각들을 구조화해야 한다고 알려줍니다.
[03:57]
암흑 물질의 증거들을 나열해야 합니다.
[04:00]
은하의 회전 곡선, 중력 렌즈 현상
[04:02]
우주 마이크로파 배경복사(CMB) 관측
[04:04]
은하단 충돌 등을 설명할 수 있습니다.
[04:07]
그리고 R1이 등장해서
[04:08]
각 포인트를 검증해야 한다고 합니다.
[04:09]
회전 곡선의 경우, 모든 은하가 이러한 불일치를 보이는지
[04:11]
측정이 얼마나 정확한지 확인해야 합니다.
[04:13]
중력 렌즈의 경우, 질량 분포를 어떻게 매핑하는지
[04:16]
입자물리학에서는 완전히 다른 관점에서 접근합니다.
[04:18]
이론물리학의 다른 끝에서 보면
[04:21]
입자물리학 실험에서는 약한 상호작용을 하는
[04:23]
질량을 가진 입자, 즉 WIMP 입자들이
[04:25]
암흑물질 입자로 확실히 검출되었는지를 확인합니다.
[04:28]
이 모든 것을 종합해보면
[04:30]
우리는 많은 아이디어를 가지고 있고
[04:32]
이것들이 모두 통합되어
[04:34]
AI 시스템이 하나의 답으로 압축하려고 합니다.
[04:37]
해결책을 찾는 것이 얼마나 쉬운지
[04:39]
시각화해서 보여드리겠습니다.
[04:41]
여기 다섯 개의 아이디어가 있고
[04:43]
파란색 화살표가 1, 2, 3, 5개 있습니다.
[04:45]
이것은 사고의 깊이, 추론의 깊이를 나타냅니다.
[04:48]
얼마나 깊은 사고가 일어나고 있는지 보여줍니다.
[04:50]
보시다시피 지금은 모두 거의 같은 수준에 있습니다.
[04:53]
하지만 실제 해결책을 찾으려면
[04:55]
첫 번째가 아닌 두 번째 해결책이 필요할 수 있습니다.
[04:59]
그리고 올바른 해결책에 도달하기 위해
[05:04]
깊은 추론 과정이 필요합니다.
[05:06]
이것은 챗봇이 아닙니다.
[05:09]
1초 만에 답이 필요한 게 아니라
[05:10]
1시간이 걸리더라도 정확한 추론 과정이 필요합니다.
[05:13]
분자 특성이나 금융 거래
[05:16]
또는 금융 위험 평가를 위해서는
[05:19]
복잡한 사고 과정이 필요합니다.
[05:23]
현재 우리의 최고 모델인 Q*, O1, R1
[05:26]
또는 Gemini와 같은 모델들은
[05:29]
왼쪽의 단순한 아이디어 수준에 머물러 있습니다.
[05:32]
어떻게 이를 달성할 수 있을까요?
[05:36]
이것이 올바른 것인지 어떻게 알 수 있냐고 물을 수 있습니다.
[05:39]
재미있는 실험이 있었는데
[05:42]
연구자들이 실험을 수행하고 돌아와서 말하길
[05:44]
다양한 모델들의 초기 해결책 중 상당수가
[05:47]
실제로 정답이었지만
[05:50]
완성까지 추구되지 않았다고 합니다.
[05:51]
즉, 두 번째 초기 해결책이
[05:54]
정답이었을 수 있지만
[05:57]
충분히 탐구되지 않았다는 것입니다.
[06:51]
이들은 완료될 때까지 진행되지 않았고,
[06:53]
저자들은 이런 경향성을 보였습니다.
[06:56]
유망한 해결책에서 갑자기 벗어나
[06:59]
다음 해결책으로 넘어가는 것은
[07:02]
불충분한 추론 깊이를 나타내며,
[07:05]
잠재적으로 올바른 해결책이
[07:06]
철저히 검토되기도 전에
[07:09]
중도 포기되었습니다.
[07:11]
이것은 정말 놀라운 점인데,
[07:14]
O1 시스템이 올바른 해결책을 찾았지만
[07:17]
어떤 이유로 시스템이
[07:21]
'다음으로 넘어가자'라고 판단하고
[07:23]
계속해서 다음 해결책으로 넘어갔습니다.
[07:25]
우리는 다양한 가능한 해결책들을
[07:28]
가지고 있어서 광범위한
[07:30]
탐색은 이루어졌지만,
[07:33]
좋은 해결책의 활용은 제대로 이루어지지 않았습니다.
[07:36]
제가 이전 비디오에서 보여드린
[07:38]
향상된 몬트리올 연구 적응 방법론처럼요.
[07:43]
왜 이런 일이 일어나는지 궁금하실 텐데,
[07:45]
그 이유 중 하나는
[07:47]
이제 명확해졌습니다.
[07:49]
이런 행동은 학습 데이터셋의
[07:52]
깊은 특성을 반영합니다. 아시다시피 데이터는
[07:55]
AI 시스템 학습에 가장 중요한 요소입니다.
[07:59]
학습을 위해
[08:01]
하지만 오늘의 핵심으로 돌아가서,
[08:03]
제가 보여드리고 싶은 연구가 있는데,
[08:05]
이것은 O1과 같은 LLM의
[08:07]
추론 과정에 대한 전반적인 연구로
[08:10]
2025년 1월 말에 나온 것입니다.
[08:13]
물론 기억하셔야 할 점은,
[08:16]
개방형 질문을 다룰 때는
[08:19]
다양한 해석이 가능하기 때문에,
[08:22]
저자들이 검증 가능한 좋은 결과를 얻기 위해
[08:24]
과학과 수학에 초점을 맞췄습니다.
[08:27]
수학적 해결책이
[08:29]
맞는지 틀린지 즉시 검증할 수 있기
[08:32]
때문이죠.
[08:33]
정말 훌륭한 아이디어입니다.
[08:36]
OpenAI의 O1 적용에서 우리가 알게 된 것은
[08:40]
여기 학습 시간 계산이 있고
[08:42]
로그 스케일로 더 많은 시간이 필요하며
[08:44]
테스트 시간 계산에서
[08:47]
성능이 어떻게 향상되는지 볼 수 있습니다.
[08:49]
여기 O1 데이터가 있지만
[08:52]
O1이 폐쇄형 독점 시스템이기 때문에
[08:55]
추론 과정은 알 수 없습니다.
[08:58]
오직 OpenAI 직원들만이 이를 볼 수 있죠.
[09:01]
여기를 보시면 물리학 박사 수준의
[09:05]
과학 문제에서
[09:07]
GPT-4 Omni로 60%까지 올랐지만
[09:10]
이제 O1으로 90% 이상 달성했습니다.
[09:14]
이런 학습이 바로 우리가 집중하는 부분이며
[09:18]
앞으로 개선하여
[09:20]
더 나은 성능을 얻고자 하는
[09:22]
부분입니다.
[09:23]
벤치마크 테스트를 보면
[09:25]
연구자들이 멋진 아이디어를 냈는데,
[09:29]
파란색은 AI 시스템이 시도한
[09:32]
해결책의 수를 나타내고
[09:36]
빨간색은 토큰 수를
[09:38]
천 단위로 나타낸 것입니다.
[09:42]
수학 500 테스트 세트에서
[09:44]
간단한 수학 테스트인데,
[09:46]
레벨 1부터 레벨 5까지 있고
[09:48]
레벨 5가 가장 어려운 수준입니다.
[09:52]
먼저 해결책의 수를 보면,
[09:54]
파란색 선인데,
[09:56]
수학 방정식이 어려워질수록
[09:59]
AI 시스템이 해결하는데 더 많은
[10:02]
해결책이 필요하다는 것을 알 수 있습니다.
[10:05]
간단해 보이죠. 토큰 수를 보면
[10:08]
빨간색 막대가 복잡할수록, 즉 질문이 복잡할수록
[10:12]
더 많은 토큰이
[10:14]
답변 계산에
[10:16]
포함된다는 것을 알 수 있습니다.
[10:20]
우리는 지난 영상의 QW Q2B에서 이것을 보았고
[10:24]
Deep Seek R1의 프리뷰 버전을 보았습니다. 이는 한 달 전의 버전인데
[10:27]
그리고 이제 최종 버전인 실제 OR1이 있습니다
[10:30]
6,710억 개의 학습 가능한 파라미터를 가진
[10:33]
전문가 시스템 혼합 모델입니다
[10:36]
보시다시피 거의 비슷한 특성을 보이는데
[10:38]
여기서 프리뷰 모델과 순수 모델을 비교할 수 있습니다
[10:43]
흥미로운 점이 있는데
[10:45]
이에 대해서는 나중에 다른 영상에서
[10:48]
더 자세히 다루도록 하겠습니다
[10:50]
[10:51]
그들이 한 일은 이렇습니다. 내 쿼리가
[10:54]
단순한 수학 함수라고 했을 때
[10:57]
구체적인 내용은 중요하지 않지만, 이 시스템이
[10:59]
이제 R1이 나와서 이렇게 말합니다
[11:01]
"좋아, 나는 첫 번째 해결 방법이 있어"
[11:04]
여기 문제가 있고 변수 a, b, x, y, z가 있는 방정식이 있으니
[11:06]
이런 방식으로 접근할 수 있을 것 같아
[11:09]
두 번째 방법으로는
[11:13]
기하학적 해석이 가능할 수도 있겠네
[11:15]
그래서 기하학적 관점에서
[11:17]
문제를 바라봐야 할 수도 있어
[11:19]
세 번째로 R1은 이렇게 생각합니다
[11:23]
어떤 X와 Y의 집합에 대해
[11:26]
두 방정식이 동시에 성립하는 경우를 찾아야 할 수도 있고
[11:28]
a와 b를 찾아야 할 수도 있으며, 네 번째 방법으로
[11:32]
다른 접근 방식도 있을 수 있습니다
[11:35]
가능한 해결 방법이 많다는 것을 볼 수 있죠
[11:37]
이제 연구진들이 흥미로운 작업을 했는데
[11:41]
정확한 응답에 대한 토큰을 초록색으로 세고
[11:44]
부정확한 응답에 대한 토큰을 세어보았습니다
[11:46]
그래서 어떤 일이 일어났냐면
[11:49]
수학 문제와 과학 문제에서
[11:53]
특성이 동일하게 나타났는데
[11:56]
구체적인 내용은 중요하지 않습니다
[11:57]
여기서 세 가지 모델을 보면
[12:00]
정확한 응답은
[12:03]
3,000 토큰 이하가 필요했지만
[12:06]
부정확한 응답은 약 10,000 토큰까지 도달했습니다
[12:09]
이 시스템은 멈추기 전까지 엄청난 양의 토큰을 생성했고
[12:13]
잘못된 추론 경로에서
[12:15]
해결책을 찾지 못하기 때문에
[12:18]
여기서 상당한 양의
[12:20]
토큰과 시간, 에너지를 소비하며 계속 검색했습니다
[12:24]
정확한 해결책을 찾지 못하고
[12:27]
토큰, 시간, 에너지를 계속 검색에 소비했죠
[12:31]
결론에 도달하지 못하면서
[12:33]
모든 에너지와 시간이
[12:36]
올바른 해결책을 찾는 데 쓰이지 않고
[12:40]
잘못된 응답으로 빙빙 도는 데
[12:43]
낭비되었고, 이런 패턴이
[12:45]
도처에서 발견됩니다
[12:48]
이것이 연구진들에게
[12:50]
흥미로운 시작점이 되었고
[12:52]
그래서 그들은
[12:55]
각 해결 방법이 올바른 답으로 이어지는지
[12:57]
평가하기 위해 LLM을 활용했고
[12:59]
이런 프롬프트를 사용했습니다
[13:01]
아주 좋았죠. 특히 좋았던 점은
[13:03]
최신 증류 모델을 사용했다는 것입니다
[13:05]
Deep Seek R1 증류 모델과
[13:08]
Llama 70B, Deep Seek R1 증류 버전
[13:11]
Q132B를 이 평가에 사용했습니다
[13:16]
자세한 내용은 읽어보실 수 있지만, 중요한 것은
[13:18]
다른 사실입니다. 보세요
[13:21]
이것을
[13:22]
x축에는 정확한 해결 방법의 분포 비율이 있고
[13:25]
이것이 우리에게 알려주는 것은
[13:30]
부정확한 응답의 70% 이상이
[13:33]
추론 구조의 체인에서 최소한 하나의 올바른 해결 방법을 포함하고 있다는 것이고
[13:37]
부정확한 응답의 50% 이상에서
[13:39]
해결 방법의 10% 이상이
[13:42]
올바른 것이었다는 점입니다
[13:46]
즉, 모든 것이 잘못된 것이 아니라
[13:50]
일부 올바른 추론도 포함되어 있다는 것입니다
[13:53]
그렇습니다
[13:56]
놀랍게도 높은 비율로 정확한 답변이 있지만
[13:59]
이러한 답변들은
[14:01]
O1과 같은 모델들이 활성화하거나
[14:04]
올바른 추론을 시작할 수는 있지만
[14:06]
이러한 올바른 경로를 계속 이어가는 데
[14:08]
어려움을 겪을 수 있으며
[14:11]
정확한
[14:12]
결론에 도달하지 못합니다. 이제
[14:14]
가장 흥미로운 질문은 왜
[14:17]
이런 일이 발생하는가 입니다. 간단한 해결책이 있고
[14:20]
연구 저자가 여기서
[14:21]
간단한 해결책을 제시했습니다.
[14:23]
표준 디코딩에서는
[14:25]
각 위치 T에서의 토큰 확률이
[14:27]
소프트맥스 함수를 사용하여 로짓으로
[14:29]
계산됩니다. 아주 좋습니다.
[14:32]
Z가 우리의 로짓, 즉 정규화되지 않은
[14:35]
토큰 점수라면, 이 단계를 반복함으로써
[14:37]
다음 토큰을 예측하는
[14:39]
자기회귀적 LLM이 됩니다.
[14:42]
무슨 일이 일어나는지 이해하시나요?
[14:44]
우리는 토큰의 선형 시퀀스를 생성하고
[14:47]
이제 단순히 전환 페널티를
[14:51]
시스템에 부과합니다. 즉,
[14:54]
시스템에게 '다음 단어로 넘어가지 말고
[14:58]
현재 단어에
[15:00]
머물러 있으라'고 합니다. 페널티 강도와
[15:03]
페널티 지속 시간이라는 두 매개변수가 있죠.
[15:05]
꽤 간단한 공식이지만,
[15:08]
이것이 하나의 해결책이긴 하나
[15:11]
이것이 실제로 우리에게 큰
[15:13]
도약과 개선을 가져다주는 진정한 해결책은
[15:16]
아닐 것 같습니다. 그들이 하는 일은
[15:19]
단순히 로짓을 보고
[15:21]
예를 들어 '대안적으로'라는 단어를
[15:24]
살펴보는 것입니다. O1이 우리에게
[15:27]
대안적으로 이 시스템을
[15:28]
볼 수 있다고 말했을 때
[15:31]
이런 단어를 보면 '잠깐만
[15:34]
O1, 추론을 계속해보자.
[15:37]
조금 더 깊이 들어가보자'라고 할 수 있습니다.
[15:40]
해결책을
[15:42]
찾았을 수도 있지만, 나는 '왜'에 대해 이야기하고 있었고
[15:45]
이것이 가장 중요한
[15:47]
질문이라고 생각합니다. 왜 이런 일이 일어나고
[15:49]
왜 이전에 아무도 이것을 눈치채지 못했을까요?
[15:52]
물론 이것은 모두 훈련
[15:55]
데이터와 관련이 있습니다.
[15:57]
LLM은 인간의 텍스트를 모방하도록 훈련되었는데,
[16:00]
여기에는 탐색적 추론,
[16:02]
브레인스토밍 등이 포함됩니다. 하지만
[16:05]
인간의 문제 해결은 일반적으로
[16:07]
탐색 후에 해결책으로
[16:10]
수렴하는 반면, 우리의 LLM 모델은
[16:13]
이러한 수렴을 우선시하는 메커니즘이 부족합니다.
[16:16]
우리는 모델들에게 훈련 데이터에서
[16:19]
무엇을 기대하는지 보여주지 않습니다.
[16:22]
마치 기계 안에 작은 영혼이나 천재,
[16:25]
지니가 있어서 '아하, 이제
[16:28]
이해했어. 이런 저런
[16:31]
데이터들이 있고
[16:32]
이제 수학적 해결책을 조합할 수 있어'라고
[16:35]
말할 것이라 기대하지만, 그렇게 되지 않습니다.
[16:38]
따라서 훈련 데이터는 지금
[16:41]
추론 경로를
[16:43]
완성하는 것의 중요성을 강조하지 않아
[16:44]
피상적인 탐색으로 이어지고 있습니다.
[16:49]
우리가 가진 것은
[16:51]
더 깊은 추론 구조로 나아가기 위한
[16:56]
명시적인 보상의 부재입니다.
[16:58]
O1이나 R1 같은 모델들에서
[17:02]
강화학습으로 조정된 이러한 모델들은
[17:04]
최종 답변의 정확성에 대해서만
[17:07]
강화학습에서 최적화되어 있고
[17:09]
추론 효율성이나
[17:13]
추론 경로에 대해서는 최적화되어 있지 않습니다.
[17:16]
어떻게 이것이 가능한지 궁금해할 수 있는데
[17:20]
그럼, 물론 우리가 가지고 있는
[17:23]
학습 데이터셋들을 보면,
[17:25]
저자들이 지적하듯이 이것이
[17:27]
단절을 만들어냅니다.
[17:29]
모델은 무엇을 해결해야 하는지는 알지만
[17:32]
최적의 방식으로 해결책을
[17:35]
구조화하는 방법을 모릅니다.
[17:36]
그래서 이제 새로운 데이터셋을 만들어야 합니다.
[17:40]
이 새로운 데이터셋으로 모델을 재학습시켜
[17:42]
단순히 무엇을 해결해야 하는지 뿐만 아니라
[17:45]
정확히 어떻게 해결책이
[17:48]
내부 추론 시스템에서 전개되기를 원하는지
[17:51]
보여줘야 합니다. 이해하기는 쉽지만
[17:54]
실제로 구현하기는 매우
[17:58]
복잡합니다.
[17:59]
이것을 실행에 옮기는 것은
[18:03]
좀 더 자세히 설명하자면
[18:05]
더 깊이 들어가보면
[18:06]
디코딩 전략이 탐색에 편향되어 있어서
[18:08]
우리가 여기서 보는 것은
[18:10]
높은 확률의
[18:12]
즉각적인 토큰의 선형 시퀀스
[18:14]
뿐입니다. 따라서 시스템이
[18:17]
다음 깊은 토큰 사이의 확률을 마주치거나
[18:20]
또는 '대안적으로 다른 경로로 전환할 수 있다'는
[18:23]
토큰을 만날 때마다
[18:26]
그러한 전환에 대한
[18:28]
확률이 충분히 높다면
[18:33]
다음 해결책으로 조기에 전환하고
[18:35]
첫 번째 경로를 완성하지 않게 됩니다.
[18:39]
표준 디코딩에는 경로를 조기에
[18:42]
포기하는 것에 대한 페널티가 없습니다.
[18:45]
따라서 모델은 비용 없이
[18:48]
새로운 경로로 전환할 수 있고, 해결하기 쉬운
[18:52]
단기적인 토큰 최적화만 추구하게 됩니다.
[18:57]
LLM은 순차적으로 토큰을
[19:00]
최적화하는데
[19:02]
전역적인 추론의 품질보다는
[19:05]
지역적 일관성과 다음 토큰의 가능성에
[19:08]
초점을 맞추고 있습니다.
[19:10]
이는 학습 데이터로
[19:12]
쉽게 변경할 수 있습니다.
[19:15]
다시 컴퓨팅 자원 할당만
[19:17]
제공하는 것으로 돌아가보면
[19:19]
비디오 초반에 보여드린
[19:21]
메타의 글을 생각해보세요.
[19:23]
메타가 말하길, 더 복잡한 문제에
[19:25]
더 많은 자원을 제공하기만 하면 된다고 하는데
[19:27]
물론 이것이 하나의 해결책이라고
[19:29]
생각할 수 있지만, 우리가 방금 살펴본 것처럼
[19:33]
학습 데이터 자체를 변경하지 않고
[19:36]
모델에게 어떻게 해결하기를 원하는지
[19:39]
그리고 10단계, 12단계,
[19:42]
15단계의 복잡성을 거쳐
[19:45]
해결책을 찾기를 원한다는 것을
[19:48]
보여주지 않는다면, 이는 단순히
[19:51]
컴퓨팅 자원의
[19:53]
할당 문제가 아니라
[19:56]
시스템을 어떻게 가르치느냐의 문제입니다.
[19:58]
따라서 메타가 부분적으로는
[20:01]
해결책을 가지고 있을 수 있지만
[20:04]
이 중요한 문제를
[20:06]
놓치고 있다고 생각합니다.
[20:09]
다음 논리적 토큰이
[20:11]
전환 단계보다 낮은 확률을 가질 수 있고
[20:14]
다음 아이디어로 넘어가자는
[20:17]
경로 전환 페널티라는 이 아이디어는
[20:19]
가장 단순한 형태로도 잘 작동합니다.
[20:23]
요약하자면
[20:26]
올바른 초기 사고의 포기,
[20:30]
시스템이 존재하고
[20:32]
처음 3-5번의 시도에서
[20:34]
올바른 해결책이 있지만
[20:37]
이는 능력의 부족 때문이 아닙니다
[20:40]
시스템이 그 능력이 있음에도 불구하고
[20:42]
컴퓨팅 파워가 부족해서가 아니라
[20:46]
디코딩 알고리즘과 학습 데이터의
[20:50]
체계적인 편향성 때문입니다
[20:53]
깊이 있는 추론 과정보다 광범위한 탐색을
[20:57]
우선시하는 경향이 있기 때문이죠
[21:01]
다시 말해, 많은 연구에서 볼 수 있듯이
[21:05]
탐색과 활용의 균형이 중요한데
[21:08]
현재 제가 고민하는
[21:10]
열린 질문 중 하나는
[21:12]
이 시스템에 멀티컬
[21:15]
연구를 어떻게 통합하고
[21:17]
더 발전된 방식으로 적용할 수 있을지
[21:20]
고민하고 있습니다
[21:22]
아직은 모르지만
[21:25]
하나의 아이디어일 뿐입니다
[21:27]
요약하자면, TIP 방법론을 통해
[21:30]
전환 행동에 페널티를 부여함으로써
[21:33]
모델의 추론 과정을 재조정하여
[21:35]
인간과 유사한 지속성을 갖도록 하고
[21:38]
이를 통해 under-thinking의
[21:40]
근본 원인을 해결합니다
[21:42]
O1, R1, Q*Q, 제미나이와 같은
[21:46]
사고 모델에서 발생하는 문제인데
[21:48]
이러한 모델들 중 어느 것도
[21:52]
100% 정확한 행동을 달성하지 못했기 때문입니다
[21:56]
그리고 이제 깨달았습니다만, 실수를 했네요
[21:59]
모델이 어리석은 게 아니라
[22:02]
우리가, 개발자들이 어리석었던 거죠
[22:05]
왜 이것을 생각하지 못했는지
[22:08]
이 추론 과정을 보면서
[22:11]
모든 아이디어들이
[22:14]
어떻게 하나로 모아져서
[22:17]
AI 시스템의 출력으로
[22:20]
하나의 해결책이 나오는지
[22:23]
그리고 다른 모든
[22:26]
경로들은 어떻게 되는지 말이죠
[22:28]
아직 배울 게 정말 많지만
[22:31]
때로는 AI 과학자들의 아이디어와
[22:34]
접근 방식이 얼마나 단순한지
[22:37]
추론 능력을 향상시키는 데
[22:39]
놀랍다고 생각합니다
[22:41]
그들이 말하길
[22:43]
실험 결과를 통해
[22:45]
이러한 TIP 방법론으로
[22:48]
under-thinking을 효과적으로 줄이고
[22:50]
수학적이고 과학적인
[22:53]
어려운 문제들에서
[22:55]
추가적인 모델 훈련 없이도
[22:58]
정확도를 향상시킬 수 있다고 합니다
[23:01]
TIP 방법론의 장점은
[23:04]
더 이상의 훈련이 필요 없고
[23:05]
수정할 필요도 없이 두 개의 하이퍼
[23:08]
파라미터만 조정하면 된다는 것입니다
[23:12]
확률 밀도를 약간 조정하여
[23:14]
더 넓은 관점을 가질 수 있게 되는데
[23:18]
전체적인 일관성이라고는 할 수 없지만
[23:20]
다음 토큰의 확률이
[23:23]
지역적 일관성에만 묶이지 않고
[23:25]
좀 더 앞을 내다보며
[23:27]
더 깊은 추론 체인
[23:29]
구조를 가질 수 있게 됩니다
[23:32]
다른 해결책들도 많이 있다고 생각하는데
[23:34]
제가 생각하는 두 가지 다른
[23:36]
해결책이 있고, 여러분도
[23:39]
하나 정도는 있을 수 있죠
[23:41]
바로 코딩하고 발견해서 발표할 수도 있겠네요
[23:44]
2025년 1월 말
[23:46]
현재 AI 분야가 얼마나 흥미진진한지
[23:50]
정말 매력적입니다
[23:53]
이 영상이 조금이나마
[23:55]
도움이 되었길 바랍니다
[23:58]
이것을 더 개선할 수 있는
[24:00]
제 나름의 생각도 있으니
[24:03]
구독하시고 다음 영상에서 만나요