[00:00]
세상이 이제야 깨닫기 시작한 것 같습니다
[00:02]
인공지능이 예상보다 훨씬 빨리 자동화될 것이라는 사실을
[00:04]
몇 년 전만 해도 상상도 못했던 속도로
[00:07]
하지만 아직도 한 가지를 간과하고 있습니다
[00:10]
그 혜택을 누가 가져갈 것인가 하는 점입니다
[00:12]
바로 오늘 미국 부통령은
[00:15]
AI가 절대 노동자를 대체하지 못하고
[00:18]
생산성만 향상시킬 것이라고 말했습니다
[00:20]
반면 OpenAI의 CEO 샘 알트만은
[00:23]
바로 어제 노동력이 자본에 대한 영향력을 잃을 수 있다고 썼고
[00:26]
유명 싱크탱크 랜드는
[00:30]
얼마 전 보고서를 통해
[00:31]
세계가 아직 준비되지 않았다고 했습니다
[00:33]
일자리 손실과 사회 불안에 대해
[00:36]
이는 더 발전된 인공지능이 가져올 수 있는
[00:38]
범용 인공지능과 함께 올 변화입니다
[00:40]
하지만 노동력이 영향력을 잃더라도
[00:42]
자본가들이 수익 분배를 마음대로 결정할 순 없습니다
[00:45]
오늘 머스크와 그의 동료들이
[00:49]
샘 알트만과 마이크로소프트를 상대로 OpenAI 통제권에 대해 도전장을 냈고
[00:52]
물론 이런 연구 논문들도 있습니다
[00:55]
스탠포드의 이 논문처럼
[00:56]
최고 수준의 모델에
[00:58]
필요한 추론 능력 향상이
[01:01]
단 20달러로 가능하다는 주장도 있어서
[01:03]
여러분도 AGI를 감당할 수 있을 것 같네요
[01:05]
한편 Claude를 만든 Anthropic의 CEO 다리오 아모데이는
[01:08]
AGI를 통제할 시간이 얼마 남지 않았다고 말합니다
[01:11]
저는 단지 바랍니다
[01:13]
인공지능이 완전히 자동화되는 날이 불가피하게 왔을 때
[01:17]
우리가 지금보다는
[01:19]
좀 더 단합된 모습을 보였으면 합니다
[01:21]
다룰 내용이 너무 많아서
[01:24]
가장 흥미로운 7가지 발전 사항만
[01:27]
다뤄보도록 하겠습니다
[01:29]
샘 알트만의 에세이를
[01:31]
시작점으로 삼아
[01:32]
각각의 사항들을 살펴보겠습니다
[01:35]
우선 그는 AGI에 대한
[01:38]
다섯 번째, 아니 어쩌면 15번째 정의를 내렸는데
[01:41]
이번에는 이렇습니다
[01:43]
점점 더 복잡한 문제를 다룰 수 있는 시스템으로
[01:46]
여러 분야에서 인간 수준의 능력을 보이는 것
[01:48]
이런 정의로 본다면 우리는
[01:52]
꽤나 가까이 와 있습니다
[01:54]
코딩을 예로 들어보면
[01:56]
12월에 O3 모델이 코드포스 ELO 랭킹에서 175위를 기록했고
[02:01]
많은 사람들에게는 큰 의미가 없을 수 있지만
[02:04]
바로 어제 일본에서
[02:06]
샘 알트만이 밝힌 바로는
[02:08]
내부적으로 50위권 수준의 성적을 내는 모델이 있다고 합니다
[02:10]
이제 우리는 명백히 모방 학습을 넘어섰습니다
[02:13]
이 시스템들, O1, O3, O4는
[02:15]
상위 50위권 경쟁자들의 코드를 단순히 복사하는 게 아닙니다
[02:18]
코딩에서 그들은 스스로 시도하고
[02:20]
강화학습을 통해
[02:22]
스스로를 가르치고 있습니다
[02:24]
무엇이 효과가 있는지
[02:25]
우리는 인간 수준에 머물러 있지 않으며
[02:27]
이는 코딩에만 국한되지 않습니다
[02:29]
코딩뿐만이 아닙니다
[02:30]
저는 이번 주에 OpenAI의 딥 리서치를
[02:32]
프로 티어로 사용해서 친척의 진단을 도왔는데
[02:36]
의사 한 분이 자신도 생각하지 못했던 부분을
[02:39]
AI가 발견했다고 말했습니다
[02:42]
물론 가끔 환각을 일으키기도 하지만
[02:44]
동시에 우리가 생각하지 못한
[02:46]
부분도 찾아냅니다
[02:47]
그리고 이것은 O3가
[02:49]
겨우 20개 정도의 소스만 검색한 결과입니다
[02:52]
O5가 500개의 소스를 검색한다면 어떨까요?
[02:56]
'지식을 아는 건 좋지만
[02:58]
사무직 근로자들은 실제로
[03:00]
컴퓨터로 작업을 한다'고 말할 수 있겠지만
[03:02]
OpenAI의 카리나 넨은 이런 작업에 대해 이렇게 말합니다
[03:06]
모든 벤치마크에서 최고 성능을 보이고 있다고
[03:09]
그리고 프롬프트 체이닝 자체는
[03:11]
한계에 부딪히지 않고 있습니다. 우리는
[03:14]
원시 데이터 사고에서 특징 모델링을 거쳐
[03:17]
모델이 무한한 작업을 학습할 수 있는 단계로 발전했습니다
[03:22]
프롬프트 체이닝 세계에서
[03:24]
강화학습을 통해
[03:26]
예를 들어, 웹 검색 방법이나
[03:30]
컴퓨터 사용법, 글쓰기 등
[03:32]
모든 종류의 작업을 수행할 수 있습니다
[03:36]
모델에게 다양한 기술을
[03:38]
가르치려고 시도하고 있죠
[03:41]
그래서 우리가 말하는 것처럼
[03:43]
데이터 한계가 없다고 하는 겁니다
[03:45]
무한한 양의 작업이 있을 것이고
[03:48]
이를 통해 모델이
[03:49]
초지능적이 되어가고 있습니다
[03:52]
모든 벤치마크에서 포화상태에 도달하고 있어서
[03:54]
실제로 병목현상은
[03:56]
평가에 있다고 생각합니다
[03:58]
현재 그들의 운영 시스템이
[04:00]
월 200달러의 프로 버전으로만 이용 가능하고
[04:03]
다소 불안정함에도 제가 이를 믿는 이유는
[04:06]
온라인 구매나
[04:07]
스프레드시트 작성 같은 작업들이
[04:09]
대부분 검증 가능하기 때문입니다
[04:11]
검증 가능하거나 확인 가능하다는 말을 들으면
[04:14]
강화학습이 완전히 흡수할 준비가 된 것이라 생각하세요
[04:17]
코드 영역처럼 말이죠
[04:19]
강화학습의 발전 효과를 볼 수 있는
[04:21]
GPT-4 0.1 프리뷰에서 0.3까지의 변화처럼요
[04:24]
다음은 이 모든 것을 실현하기 위해
[04:26]
필요한 투자입니다. 샘 알트만은
[04:28]
에세이 후반부에서 이렇게 말했습니다
[04:31]
지능 향상을 예측하는 스케일링 법칙은
[04:33]
여러 규모에 걸쳐
[04:35]
정확했다고 합니다
[04:37]
AI 모델의 지능은
[04:39]
대략 학습과 실행에 사용된
[04:41]
리소스의 로그값과 같습니다
[04:43]
즉, 지능을 한 단계 높이기 위해
[04:46]
투입하는 리소스가 기하급수적으로 증가한다는 뜻이죠
[04:48]
그리 인상적으로 들리지 않을 수 있지만
[04:50]
세 번째 포인트를 읽어보면
[04:52]
저도 동의하는 부분인데
[04:54]
선형적으로 증가하는 지능의
[04:57]
사회경제적 가치는
[04:59]
초기하급수적이라는 것입니다. 간단히 말해서
[05:01]
만약 누군가가 GPT-4 0.3의 지능을
[05:04]
두 배로 높일 수 있다면, 그 가치는 4배가 아니라
[05:06]
제게, 그리고 많은 사람들에게
[05:08]
그보다 훨씬 더 클 것입니다
[05:10]
초기하급수적이죠. 그는 계속해서
[05:12]
이로 인해 우리는
[05:14]
기하급수적으로 증가하는 투자가
[05:17]
가까운 미래에 멈출 이유가 없다고 봅니다
[05:19]
다시 말해, AI가 항상 투자 대비
[05:22]
10배의 수익을 가져다 준다면
[05:24]
투자를 멈출 이유가 없죠. 많은 사람들이 잊고 있지만
[05:27]
2년도 채 되지 않은 전에 알트만 본인이
[05:29]
OpenAI가 AGI 개발을 통해
[05:32]
세계의 부 대부분을 확보한 뒤
[05:35]
이를 인류에게 재분배하는 것이
[05:37]
자신의 원대한 구상이라고 말했습니다
[05:39]
우리가 얘기하는 규모는
[05:41]
1천억이 아닌 1조 또는 100조 달러입니다
[05:43]
이는 그의 말에 따른 것이며
[05:45]
만약 AGI가 그런 부를 창출한다면
[05:47]
회사가 어떻게
[05:49]
이를 재분배할지는 확실치 않다고 합니다
[05:51]
규모를 이해하기 쉽게 말하면, 100조 달러는
[05:54]
전 세계 노동력 전체의
[05:56]
규모와 맞먹는 수준이고
[05:58]
이는 당연히 다른 이들이
[06:01]
그가 그런 통제력을 갖는 것을 원치 않는
[06:03]
아니면 그들 스스로 그 통제권을 원할 수도 있죠
[06:06]
여러분도 들으셨겠지만, 일론 머스크가
[06:08]
OpenAI에 거의 1000억 달러를 제안했습니다
[06:11]
정확히는 OpenAI를 통제하고 있는
[06:14]
비영리 조직에 대한 제안이었죠
[06:17]
여러 보고서를 읽지 않으셔도 되도록
[06:19]
요약하자면, 샘 알트만과
[06:21]
OpenAI는 이 비영리 지분을
[06:24]
약 400억 달러로 평가했습니다
[06:27]
이는 마이크로소프트와
[06:29]
OpenAI 직원들을 포함한
[06:32]
지분이 충분히 남아있다는 의미입니다
[06:35]
하지만 머스크와 다른 이들이 이 지분을 1000억 달러로 평가한다면
[06:39]
법정에서 알트만과 그의 팀이
[06:41]
400억 달러라고 주장하기 어려울 수 있습니다
[06:44]
그래서 그들이 머스크의 제안을 거절했다 하더라도
[06:47]
이는 그들로 하여금
[06:50]
마이크로소프트와 직원들이 보유한
[06:52]
지분을 희석시켜야 할
[06:54]
가능성을 만들었습니다
[06:57]
알트만은 OpenAI 직원들에게 이것이
[07:00]
우리가 큰 진전을 이루고 있기 때문에
[07:01]
우리를 약화시키려는 조세 전략일 뿐이라고 말했습니다
[07:04]
OpenAI 뒤의 비영리 조직이
[07:07]
머스크의 손에 AGI가 안전하지 않을 것이라고
[07:09]
판단해 제안을 거절할 수도 있습니다
[07:11]
이 시점에서 제가 어제
[07:13]
패트리온에 공개한
[07:15]
미니 다큐멘터리를 잠깐 소개하고 싶네요
[07:18]
실제로 DeepMind의 시작 이야기를 다루고 있고
[07:20]
OpenAI, 머스크와의 갈등
[07:23]
Anthropic, 그리고 각 AGI 연구소들의
[07:25]
창립 비전이 어떻게 달라졌는지를 다룹니다
[07:28]
이번에는
[07:30]
전문 영상 편집자를 고용했고
[07:31]
초기 리뷰들이 좋은 것 같네요
[07:34]
OpenAI의 비영리 조직에서
[07:35]
벌어지고 있는 모든 난장판은
[07:38]
별도의 영상으로 다룰 만한 가치가 있어 보입니다
[07:41]
그래서 지금은 다음 주제로 넘어가겠습니다
[07:43]
샘 알트만은 AGI의 도래와 함께
[07:46]
대부분의 상품 가격이
[07:48]
결국 크게 하락할 것이라고 예측했습니다
[07:51]
일자리를 잃거나 임금이 하락하는 사람들을
[07:53]
달래는 한 방법이 될 수 있겠죠
[07:56]
'최소한 TV는 더 저렴해질 테니까요'
[07:58]
하지만 그는
[08:00]
명품과 부동산 가격은 오히려 더 크게 오를 수 있다고 했습니다
[08:04]
여러분은 어떻게 생각하시는지 모르겠지만
[08:06]
제가 사는 런던은 이미 부동산 가격이
[08:09]
엄청나게 비싼데
[08:12]
AGI 이후에는 어떻게 될지 모르겠네요
[08:14]
명품에 대해 말하자면
[08:17]
알트만이 특정 명품을
[08:19]
염두에 두고 있는 것 같습니다. 어제 런던에서
[08:23]
애플 출신의 조니 아이브가 참여한
[08:25]
하드웨어 디바이스에 대해 질문을 받았는데
[08:29]
'정말 믿을 수 없을 정도로 대단하다
[08:31]
자부심을 느끼며, 출시까지
[08:34]
1년밖에 남지 않았다'고 했죠
[08:36]
참고로 저도 그 행사에 지원했지만
[08:38]
특정 조직 ID가 필요했는데 저는 없었습니다
[08:40]
명품이 아닐 수 있는 것 중 하나는 작은 규모의
[08:44]
언어 모델인데요, 같은 행사의 유출된 오디오에서
[08:46]
그가 말하길 '한 가지 아이디어는
[08:49]
GPT-3를 출시하고 나서
[08:51]
GPT-3 Mini를 오픈소스로 공개하고, GPT-4도 마찬가지로
[08:54]
GPT-4 Mini를 공개하는 것'이라고 했습니다
[08:57]
아직 확정된 것은 아니지만
[09:00]
방향성으로 이런 것을 생각해볼 수 있다고
[09:02]
말했습니다. 다음 논점은
[09:04]
실제로 이 에세이의
[09:07]
첫 문장에서 나오는데
[09:09]
OpenAI의 미션은 확실히 하는 것입니다
[09:12]
AGI가 전 인류에게 혜택을 주도록 하는 것이
[09:15]
AGI를 만드는 것이 아니라, AGI를 만들어서
[09:18]
전 인류에게 혜택이 되도록 하는 것입니다.
[09:20]
제가 다큐멘터리에서 다뤘듯이
[09:21]
초기 설립 당시 헌장에는
[09:23]
재정적 수익에 구애받지 않고
[09:26]
전 인류에게 혜택이 되는 AGI를
[09:28]
만들겠다고 했지만, 그 마지막 부분은
[09:30]
사라졌습니다. 하지만 여전히 전 인류에게
[09:32]
혜택이 된다는 부분은 남아있죠. 대다수가 아닌
[09:35]
전 인류에게 혜택이 되어야 한다는 것입니다.
[09:37]
하지만 그들 스스로도 인정하듯이
[09:40]
이것을 어떻게 달성할 수 있을지
[09:43]
의문입니다. 대부분의 인간 노동이
[09:45]
곧 불필요해질 수 있다고 할 때,
[09:47]
미국에서 모든 사람을 돌보는
[09:50]
자비로운 정책을 시행한다 해도
[09:52]
다른 국가들에 대해서는
[09:54]
어떻게 보장할 수 있을까요?
[09:56]
AI의 대가 중 한 명인
[09:58]
요슈아 벤지오의 영상을 보고
[10:00]
이런 생각이 들었습니다.
[10:02]
만약 어떤 국가가 다른 국가보다
[10:05]
1개월, 3개월, 6개월 먼저
[10:08]
AGI나 초지능을 개발한다면
[10:10]
그들이 그 우위를 이용해
[10:12]
다른 국가들을 직접적으로 제거하진 않을 것 같습니다.
[10:15]
오히려 다른 국가들의 경제를
[10:18]
무력화시킬 가능성이 높죠. 미국이
[10:20]
중국의 경제를 자동화하거나,
[10:23]
또는 중국이 미국의 경제를 장악하여
[10:26]
그 부를 자국민들에게
[10:27]
분배할 수 있습니다. 벤지오는 이것이
[10:30]
기업 수준에서도
[10:31]
적용될 수 있다고 봅니다.
[10:33]
여러 선언문들을 보면
[10:36]
논리적으로 이해가 되는데
[10:37]
OpenAI와 같은 시스템을 통제하는
[10:40]
사람들이 단순히 AI 접근권을
[10:43]
판매하는 것에 그치지 않고
[10:45]
낮은 수준의 AI만 공개하고
[10:48]
정말 강력한 AI는
[10:51]
자신들만 보유한 채
[10:54]
가장 강력한 AI는 독점하고
[10:55]
이를 이용해
[10:57]
기존 시스템들과 경쟁할 기업들을
[11:00]
설립할 것입니다. 결과적으로
[11:02]
이런 시스템을 가지지 못한
[11:04]
다른 모든 국가들의 경제를
[11:07]
무력화시킬 것입니다.
[11:08]
이것은 초지능 시스템을
[11:11]
개발하지 못하는 국가들에게는
[11:14]
실존적 위협이 될 것이고
[11:16]
이런 수준의 AI를 개발하지 못하는
[11:19]
국가들에게는 실존적 위협이 됩니다.
[11:22]
이는 긴급한 문제입니다. 왜냐하면
[11:25]
이를 따라잡으려면
[11:27]
의지있는 국가들의 연합으로도
[11:30]
최소 수년이 걸릴 것이기 때문입니다.
[11:32]
그리고 잠깐 언급하자면
[11:34]
경쟁사 이야기가 나와서
[11:36]
구글의 새로운 모델인 Gemini 2 Pro와
[11:39]
Flash를 말씀드리고 싶습니다.
[11:42]
물론 Gemini
[11:44]
Thinking도 있는데, 이는
[11:45]
Claude-3-mini나 DeepSeek R1의
[11:48]
추론 과정을 복제합니다.
[11:50]
이 모델들의 벤치마크 결과는
[11:53]
괜찮지만 특별히 뛰어나진 않습니다.
[11:55]
Claude-3나 DeepSeek R1 수준은
[11:57]
아니며, Simple Bench에서는
[11:59]
제한적인 수준을 보여줍니다.
[12:02]
Thinking 모드와 Gemini 2 Pro의 점수는
[12:04]
비슷한 수준에 머물 것으로 보입니다.
[12:07]
저는 Gemini 실험 버전 126에 대해
[12:10]
이렇게 말씀드리고 싶습니다. 약간 틈새 시장이긴 하지만
[12:12]
Gemini는 PDF와 다른 파일들을 빠르게 읽는 데 놀라울 정도로 뛰어납니다.
[12:15]
하지만 오디오 전사(Transcription) 정확도는
[12:18]
제가 테스트해본 결과
[12:21]
Assembly AI 수준에는 미치지 못하고
[12:22]
코딩 능력도 Claude 3 수준이 아니며
[12:24]
'심층 연구' 기능도 실제 심층 연구와는 거리가 있습니다.
[12:27]
하지만 Gemini 시리즈는
[12:30]
파일에서 텍스트를 추출하는 데 탁월하고
[12:32]
매우 저렴한 가격이 장점이라
[12:35]
상당히 인상적입니다.
[12:37]
최근 ChatGPT가 트위터를 제치고
[12:40]
6번째로 방문이 많은 사이트가 되었고
[12:41]
점차 구글을 따라잡고 있는 상황에서
[12:44]
구글이 Gemini 3를
[12:46]
최첨단 기술로 만들기 위해
[12:49]
계속해서 투자를 늘릴 것으로 예상됩니다.
[12:52]
다음으로, 한 사람이 언급한
[12:54]
AI가 권위주의 정부에 의해
[12:57]
대중 감시와 자율성 상실을 통해
[12:58]
국민을 통제하는 데 사용될 것이라는
[13:00]
가능성에 대한 경로를 설명했는데
[13:03]
이는 제가 전체를 읽은 랜드 연구소의 보고서와 연결됩니다.
[13:05]
그들은 권위주의 독재 정권의
[13:07]
대규모 감시뿐만 아니라
[13:10]
다른 '국가 안보' 위협도
[13:12]
우려하고 있습니다. 특히 '원더 웨폰'과 권력 구조의 체계적 변화,
[13:14]
앞서 언급했던 것처럼
[13:17]
중국이 미국 경제를 자동화하는 것과
[13:19]
비전문가들이 대량살상무기를
[13:21]
개발할 수 있게 되는 것,
[13:23]
인공지능 에이전트의 자율성
[13:25]
(Claude 6처럼 스스로 깨어나는 것) 등이 포함됩니다.
[13:28]
이는 75년 이상의 역사를 가진
[13:31]
랜드 연구소의 의견인데,
[13:33]
과장된 발언을 하지 않는 것으로 알려진 기관입니다.
[13:35]
하지만 제가 묻고 싶은 것은
[13:37]
만약 미국이 '대규모 국가적 노력'을 통해
[13:40]
중국보다 3개월 또는 6개월 먼저
[13:42]
AI 기반 원더 웨폰을 확보한다면
[13:45]
그것을 실제로
[13:47]
중국의 기술 산업을 무력화하는 데
[13:49]
사용할 것인가 하는 점입니다.
[13:52]
제가 보기에 진짜 중요한 인정은
[13:54]
이 보고서 말미에 나옵니다.
[13:56]
미국이 광범위한 실업과
[13:59]
그에 따른 사회 불안 없이는
[14:02]
AGI의 야심찬 경제적 이익을
[14:04]
실현하기 어려운 위치에 있다는 것입니다.
[14:07]
저는 아직도 기억합니다.
[14:09]
약 2년 전 알트만이
[14:11]
인터뷰에서 했던 말을
[14:13]
그는 'AGI가 예상대로 불평등을 초래한다면
[14:16]
사람들이 더 이상 참지 않을 것'이라고 했습니다.
[14:18]
이제 AGI가
[14:20]
국가나 기업의 통제를 벗어날 수 있다는
[14:23]
몇 가지 징후를 살펴보겠습니다.
[14:26]
연구 시간을 제외하고 50달러 미만의 컴퓨팅 비용,
[14:29]
실제로는 약 20달러로
[14:31]
여러분 모두가 감당할 수 있는 비용으로
[14:33]
스탠포드가 S1을 개발했습니다.
[14:36]
물론 그들은 Qwen 2.5 320억 파라미터의
[14:39]
오픈웨이트 기반 모델을 활용했지만
[14:41]
주목할 점은 단 1000개의 문제 데이터로
[14:44]
이 작은 모델을
[14:46]
Claude 1과 경쟁할 수 있는 수준으로 끌어올렸다는 것입니다.
[14:49]
이는 과학 GPT와 수학 분야의
[14:52]
경쟁 수준에서의 이야기입니다.
[14:55]
핵심 방법론은 모델이 멈추려고 할 때마다
[14:58]
문자 그대로 'wait'라는 토큰을 추가해
[15:01]
계속 진행하도록 강제한 것이었습니다.
[15:04]
모델의 생성 결과에 'wait' 토큰을
[15:07]
반복적으로 추가했습니다.
[15:09]
모델이 생성을 여러 번 반복할 때
[15:11]
끝내려고 할 때마다, 마치 시험을 보는 것처럼
[15:13]
답을 찾았다고 생각하고
[15:15]
답을 적으려 할 때마다
[15:17]
머릿속의 목소리가 '잠깐만' 하는 것과 같죠
[15:19]
이런 식으로 진행되었고
[15:22]
학생이나 여러분이 문제에 대해
[15:25]
정해진 시간을 할애할 때까지 계속됩니다
[15:26]
이를 테스트 시간 스케일링이라고 하는데
[15:29]
각 질문에 사용되는 토큰 수를
[15:31]
확장하는 것을 의미합니다
[15:34]
제가 Math 500 벤치마크의 문제들을
[15:35]
검토해봤는데 정말 어려운 문제들입니다
[15:38]
95% 이상을 받기는 쉽지 않죠
[15:40]
특히 레벨 5 문제들은
[15:42]
정말 인상적인 성과입니다
[15:45]
마찬가지로 GPQA Diamond에서
[15:48]
60% 이상을 받는다는 것은
[15:50]
해당 분야의 PhD 수준과 맞먹습니다
[15:53]
요약하자면, 이것은 오픈 웨이트 모델로
[15:55]
단 천 개의 문제와
[15:58]
추론 트레이스로만 훈련되었습니다
[16:00]
스탠포드 팀에는 유명한 교수들이 있었고
[16:02]
그들의 목표는
[16:03]
오른쪽의 차트를 재현하는 것이었습니다
[16:06]
이 차트는 OpenAI가 9월에 발표한 것인데
[16:09]
우리는 이미 알고 있죠
[16:10]
사전 학습과 강화학습을
[16:12]
더 많이 할수록
[16:15]
성능이 향상된다는 것을
[16:16]
하지만 실제 문제 해결 시간은
[16:18]
어떨까요? 테스트 시간 연산이
[16:21]
바로 그들이 재현하고자 한
[16:23]
차트입니다
[16:24]
S1 논문으로 돌아가보면
[16:26]
수많은 0-1 복제 시도에도 불구하고
[16:29]
명확한 테스트 시간 스케일링 동작을
[16:31]
재현한 사례가 없었다고 합니다
[16:33]
그들의 접근 방식을 단순화해서 설명하면
[16:35]
제가 더 관심 있는 발견에 초점을 맞춰
[16:37]
설명하자면
[16:38]
그들은 59,000개의 어려운 문제를 수집했습니다
[16:42]
물리 올림피아드, 천문학 대회 수준의
[16:44]
수학과 AGI 평가 문제들이었죠
[16:47]
거의 2년 전에 이 채널에서
[16:48]
다뤘던 내용인데
[16:50]
DeepSeek R1처럼
[16:52]
사고 토큰을 출력하는 Gemini를 사용해
[16:55]
추론 과정과 답변을 생성했습니다
[16:57]
59,000개 예제 각각에 대해
[16:59]
모든 예제로 학습할 수도 있었지만
[17:01]
그것은 큰 이점을 주지 않았습니다
[17:04]
천 개만 선택하는 것과 비교해서
[17:07]
단 천 개의 예제만으로
[17:08]
해당 도메인에서 작은 모델을
[17:11]
진정한 추론가로 만들 수 있었고
[17:13]
웨이트 트릭을 사용해
[17:15]
충분히 생각하게 했습니다
[17:17]
59,000개에서 1,000개로 줄이는 방법은
[17:20]
우선 오염을 제거했습니다
[17:22]
모델을 테스트할 때 사용할
[17:23]
문제들은 제외해야 했죠
[17:25]
문제에 없는 이미지에 의존하는
[17:28]
예제들도 제거했고
[17:30]
다른 형식적인 것들도 정리했습니다
[17:32]
더 흥미로운 것은 난이도와 다양성인데
[17:35]
이런 종류의 다양성은
[17:37]
JD Vance도 지지할 만한 것이었죠
[17:39]
난이도 측면에서는 작은 모델들에게
[17:41]
문제를 풀게 했고
[17:43]
작은 모델들이 맞힌 문제는
[17:45]
너무 쉽다고 판단해 제외했습니다
[17:47]
다양성 측면에서는 가능한 많은 주제를
[17:50]
수학과 과학 분야에서 가능한 많은 주제를
[17:53]
예를 들어, 그들은 50개의 서로 다른 영역에서
[17:55]
약 20개의 질문을 선정했고
[17:58]
그 다음 기본 모델을
[18:00]
Gemini의 추론 과정이 포함된
[18:01]
천 개의 예시로 미세 조정했습니다
[18:03]
DeepSeek-R1에 대해 궁금하시다면
[18:05]
80만 개의 예시로 미세 조정을 했죠
[18:09]
오른쪽 차트에서 확인할 수 있습니다
[18:11]
단순한 미세 조정이 아니었고
[18:13]
모델이 멈추려 할 때마다
[18:15]
'잠깐'이라고 말하며
[18:18]
2번, 4번, 때로는 6번까지
[18:20]
성능을 계속 향상시켰습니다
[18:23]
기본적으로 모델이 자신의 출력을 검토하고
[18:25]
개선할 수 있는지 확인하도록 합니다
[18:27]
여기서 '잠깐'이라는 말은 중립적이에요
[18:29]
모델에게 틀렸다고 말하는 게 아니라
[18:30]
다시 한번 확인해보자는 의미입니다
[18:32]
다수결 투표나 자기 일관성을
[18:35]
확장해보려고 시도했지만
[18:37]
같은 효과를 보지는 못했습니다
[18:39]
하지만 시청자 여러분께서는
[18:41]
GPQA(Google Proof Question and Answer)에서
[18:43]
이런 점수를 얻는 것과
[18:45]
대회 수준의 수학 문제를 푸는 것이
[18:48]
얼마나 대단한 일인지 아셔야 합니다
[18:50]
물론 같은 모델을 다른 분야에
[18:52]
테스트하면 상대적으로
[18:54]
성능이 떨어질 수 있죠
[18:56]
참고로 '오픈 데이터'라고 할 때는
[18:58]
기본 모델을 미세 조정하는 데 사용된
[19:00]
천 개의 예시를 의미합니다
[19:02]
실제 기본 모델은 오픈 데이터가 아니에요
[19:04]
진정한 의미의 오픈 데이터가 아닌 게
[19:07]
기본 모델에 무엇이 들어갔는지
[19:09]
Qwen-2.5 320억 파라미터가
[19:11]
어떻게 학습됐는지 모르기 때문이죠
[19:13]
흥미로운 점은
[19:15]
더 발전시키고 싶었지만
[19:17]
언어 모델의 컨텍스트 윈도우가
[19:19]
제약이 되었다는 겁니다
[19:22]
카파시가 이번 주 ChatGPT 영상에서
[19:24]
컨텍스트 윈도우를 적절히 확장하는 방법이
[19:27]
아직 열린 연구 과제라고 얘기했죠
[19:29]
3시간 30분짜리 영상이지만
[19:31]
제가 강력히 추천하는 영상입니다
[19:33]
카파시의 이 논문에 대한
[19:35]
반응이 재미있었는데요
[19:37]
'단계별로 생각해보자'는
[19:40]
트릭이 생각난다고 했습니다
[19:42]
모델에게 단계별로 생각하라고 해서
[19:43]
답을 주기 전에 더 많은 토큰을
[19:45]
추론에 사용하게 하는 방식이죠
[19:48]
여기서는 '잠깐'이라고 하여
[19:49]
모델이 더 오래 생각하도록 만듭니다
[19:51]
그는 언어 사전 지식을 활용해
[19:53]
생각을 이끌어낸다고 말했습니다
[19:55]
카파시의 영상을 보며 시간을 잘 쓰는 것처럼
[19:58]
GiveWell을 통해 어떤 자선단체에
[20:01]
기부할지 연구하는 것도
[20:03]
돈을 잘 쓰는 방법입니다
[20:05]
이 영상의 스폰서이기도 하지만
[20:07]
제가 13년 동안 실제로 이용해 온 곳입니다
[20:10]
매년 6만 시간 이상의 연구를 통해
[20:12]
어떤 자선단체가 가장 많은 생명을 구할 수 있는지
[20:15]
매우 엄격한 방법론으로 평가합니다
[20:18]
제가 13년 동안 계속 지원해 온 곳은
[20:20]
Against Malaria Foundation입니다
[20:22]
영국에서 시작된 것으로 알고 있는데
[20:24]
GiveWell을 한번 확인해보세요
[20:26]
링크는 설명란에 있고
[20:28]
여러분이 처음 알게 된 경로도
[20:29]
여러분이 어디서 처음 들으셨는지
[20:31]
당연히 AI Explained라고 적으실 수 있지만
[20:33]
이제 마무리를 해야 할 시간이네요.
[20:35]
사만의 에세이에서 마지막으로 짚고 싶은
[20:37]
한 가지 포인트가 있습니다.
[20:39]
그의 이전 에세이들에서는
[20:40]
노동의 가치가 제로가 되는 것에 대해 이야기했는데
[20:42]
이번에는 자본과 노동 사이의
[20:44]
권력 균형이 무너지는 것에 대해 다루고 있습니다.
[20:46]
흥미롭게도 그는 이것이 조기 개입이
[20:49]
필요할 수 있다고 덧붙였습니다. OpenAI는
[20:51]
UBI에 대한 연구를 진행했는데, 결과는 좀 복잡했죠.
[20:54]
흥미로운 점은 그가
[20:55]
보편적 기본소득을 직접적으로
[20:57]
옹호하지는 않았다는 것입니다.
[20:59]
대신 조기 개입에 대해 이야기하고
[21:00]
컴퓨팅 예산과 이상한 아이디어들에 대해
[21:03]
열린 자세를 가질 것을 언급했습니다.
[21:05]
만약 AGI가 2-5년 안에 온다면
[21:07]
'조기 개입'이라는 것은
[21:09]
지금 당장 시작되어야 할 것입니다. 솔직히
[21:11]
이 시점에서 저는
[21:13]
다가올 미래에 대한 준비가 절실히
[21:16]
필요하다고 느끼지만, 구체적으로
[21:18]
어떤 준비를 해야 할지 말하기는 어렵습니다.
[21:20]
오늘도 Anthropic의 CEO인
[21:22]
다리오 아마데가 새로운 경고를 했습니다.
[21:24]
AI가 데이터센터 안의
[21:27]
천재들의 나라가 될 것이라고 말이죠.
[21:29]
아마도 2026년이나 2027년, 늦어도
[21:33]
2030년까지는 그렇게 될 거라고 합니다.
[21:35]
그는 정부가 대형 AI 연구소들에 대해
[21:37]
충분한 책임을 묻지 않고 있으며
[21:40]
위험을 측정하지 않고 있다고 했습니다.
[21:43]
이번 주에 있었던
[21:44]
국제 정상회담에서처럼
[21:46]
이런 놓친 기회를 반복해서는 안 됩니다.
[21:48]
이런 이슈들이 최우선 순위가 되어야 하며
[21:51]
AI의 발전은 새로운 글로벌
[21:53]
도전과제를 제시하고 있습니다. 우리는 더 빠르고
[21:55]
명확하게 대응해야 합니다.
[21:58]
저와 여러분 많은 분들이 생각하시듯이
[22:00]
변화는 매우 빠르게 다가오고 있으며
[22:03]
대부분의 사람들이 생각하는 것보다
[22:05]
훨씬 더 빨리 올 것입니다.
[22:07]
제가 고민해봐야 할 질문은
[22:09]
우리가 이것에 대해 무엇을 할 수 있는가입니다.
[22:11]
여러분의 생각을 댓글로 남겨주세요.
[22:13]
끝까지 시청해주셔서
[22:15]
정말 감사합니다. 좋은 하루 보내세요.