[00:00]
또 다른 자율 자기 개선 AI 에이전트에 관한 논문이 나왔습니다.
[00:02]
이번에는 카탄의 개척자 게임을 학습하는 내용입니다.
[00:05]
정말 흥미로운 주제가 아닐 수 없죠.
[00:07]
AI 에이전트라는 용어를 모든 사람이 좋아하는 건 아니라는 걸 알고 있습니다.
[00:10]
완전히 이해할 수 있는 반응이에요.
[00:13]
아마 최고의 용어는 아닐 거예요.
[00:15]
하지만 현재로서는 더 나은 용어가 없어서
[00:17]
여기서는 그냥 이 용어를 사용하겠습니다.
[00:18]
논문에서도 이 용어를 사용하고 있어요.
[00:19]
이들은 대형 언어 모델 기반 에이전트 아키텍처입니다.
[00:22]
대형 언어 모델을 가져와서
[00:24]
그 주변에 스캐폴딩을 만들고
[00:26]
게임을 플레이하고
[00:27]
코드를 작성하고 메모를 할 수 있도록 하는
[00:29]
아키텍처를 구성하는 거죠.
[00:32]
이런 접근 방식은 매우 인기가 높습니다.
[00:34]
기본적으로 AlphaEvolve와 같은 방식이에요.
[00:36]
Google DeepMind에서 나온 큰 돌파구죠.
[00:38]
Darwin Goal 머신도 매우 유사합니다.
[00:41]
자기 개선 코딩 에이전트예요.
[00:43]
스캐폴딩을 갖춘 대형 언어 모델로
[00:45]
생각하시면 됩니다.
[00:47]
포켓몬을 플레이하는 LLM들도 마찬가지고
[00:49]
예를 들어 Minecraft Voyager AI 게임이나
[00:52]
마인크래프트를 플레이하고 실력이 향상된 GPT-4도
[00:55]
자신의 능력을 향상시키기 위해
[00:57]
스스로 코드를 작성했죠.
[00:59]
모두 같은 원리예요.
[01:01]
LM에 스캐폴딩을 더한 것인데
[01:04]
스캐폴딩은 기본적으로
[01:05]
성능을 높이기 위해 제공하는 것들입니다.
[01:08]
도구를 제공하고, 코드 작성 능력을 주고
[01:10]
문서 같은 것도 제공해서
[01:12]
무엇을 해야 하는지 알 수 있게 하는 거죠.
[01:13]
이런 것들 중 일부의 결과는
[01:15]
매우 좋았습니다.
[01:17]
여기서 우리가 살펴보는 접근 방식은
[01:18]
이런 AI 에이전트들이 카탄의 개척자 게임을
[01:21]
잘 플레이할 수 있게 만들 수 있느냐는 것입니다.
[01:23]
게임 보드는 이런 모습이에요.
[01:26]
꽤 복잡한 게임입니다.
[01:28]
약간의 전략과 수학
[01:29]
협상 등이 필요해요.
[01:31]
저는 실제로 해본 적은 없지만
[01:33]
다른 사람들이 하는 걸 봤는데
[01:35]
매우 흥미로워 보이더라고요.
[01:36]
상당한 깊이가 있는 것 같습니다.
[01:39]
이 논문의 제목은 'Agents of Change: 전략적 계획을 위한
[01:41]
자기 진화 LLM 에이전트'입니다.
[01:43]
언어 모델의 최근 발전이
[01:45]
다양한 작업에서 자율 에이전트로 사용될 수 있게 했다고
[01:48]
말하고 있습니다.
[01:49]
이는 사실입니다.
[01:51]
점점 더 많이 보고 있죠.
[01:53]
하지만 문제가 있습니다.
[01:54]
일관된 장기 전략을 수립하고 고수하는 데
[01:57]
여전히 어려움을 겪고 있다고 계속 설명합니다.
[01:59]
이런 AI 에이전트들이 처음부터
[02:02]
정말 좋은 성과를 보이는 논문들을 자주 봅니다.
[02:04]
인간 수준을 넘어서고, 인간보다 낫고
[02:06]
더 빠르지만, 충분히 긴 시간이 지나면
[02:08]
플롯을 유지하는 능력이
[02:10]
무너지기 시작합니다.
[02:12]
장기적 일관성이라는 개념이 무너지는 거죠.
[02:15]
이는 매우 흥미로운 접근 방식입니다.
[02:16]
왜냐하면 그들이 알아보려는 것은
[02:18]
이런 대형 언어 모델 에이전트들을
[02:21]
전략적 계획 능력을 명시적으로 도전하는
[02:24]
환경에 배치했을 때
[02:25]
자기 개선이 가능한지입니다.
[02:27]
즉, 장기적 일관성 측면에서
[02:29]
시간이 지날수록 나빠지는 대신
[02:32]
더 좋아지는 스캐폴딩을 만들 수 있는지
[02:35]
그리고 우리는 카탄의 개척자 게임을 플레이할 것입니다.
[02:38]
오픈 소스 카탄트론을 사용해서
[02:40]
프레임워크를 활용하는 거죠.
[02:42]
이 게임을 플레이할 수 있는
[02:45]
오픈 소스 방식이에요. 파이썬 기반의
[02:48]
오픈 소스 도구로 게임을
[02:50]
시뮬레이션하고 플레이할 수 있게 해주죠.
[02:52]
이런 모습이에요. 적어도
[02:54]
터미널에서는 말이죠.
[02:56]
이렇게 게임을 시뮬레이션할 수 있어요.
[02:58]
꽤 빠르게 실행되는 것 같네요.
[03:01]
플레이어가 4명 있고,
[03:02]
게임이 빠르게 진행됩니다.
[03:04]
봇들이 플레이할 수 있어요.
[03:06]
여기서 아이디어는
[03:08]
LM 기반 에이전트의 진화를
[03:10]
벤치마킹하는 거예요.
[03:11]
단순한 게임 플레이 에이전트에서
[03:13]
자신의 프롬프트와
[03:16]
플레이어 에이전트 코드를 자율적으로
[03:18]
다시 작성할 수 있는 시스템까지요.
[03:21]
멀티 에이전트 구조를 도입했어요.
[03:23]
분석기, 연구원, 코더,
[03:24]
그리고 플레이어가 있죠.
[03:27]
이들이 협력해서 게임플레이를 분석하고,
[03:29]
새로운 전략을 연구하며, 에이전트의 로직이나
[03:33]
프롬프트를 수정합니다. 흥미롭게도,
[03:36]
엔비디아의 마인크래프트 보이저도
[03:38]
이와 비슷했어요. 당시 GPT-4의
[03:40]
가이드를 받았죠.
[03:42]
정말 초기였는데, 상황이 어떻게
[03:45]
전개될지 명확하지 않았던 시절에
[03:47]
나온 정말 놀라운 논문 중 하나였어요.
[03:50]
엔비디아가 발표했죠.
[03:52]
AI 연구팀이요. 정말 시대를
[03:54]
앞서간 연구였어요.
[03:57]
몇 년 후인 지금, 기본적으로
[03:59]
이 프레임워크와 비슷하지만
[04:00]
더 발전된 모델로 구현된
[04:03]
많은 연구들이 나오고 있어요.
[04:05]
흥미로운 점은 이게
[04:06]
비전 모델 이전 시대였다는 거예요.
[04:08]
대형 언어 모델들이
[04:10]
텍스트 전용이었을 때죠.
[04:12]
시각적 요소가 없었어요.
[04:14]
이미지를 볼 수 없었죠.
[04:16]
그래서 전체적으로
[04:17]
매트릭스 같았어요. 매트릭스를
[04:19]
볼 수 있고, 코드를 볼 수 있는.
[04:22]
그런 식으로 작동했죠.
[04:23]
마인 플레어라는 걸로
[04:25]
작업했는데, 게임과 상호작용할 수 있는
[04:27]
작은 자바스크립트 코드를 작성할 수 있게 해줬어요.
[04:29]
플레이어가 할 수 있는
[04:32]
능력만 제공했어요.
[04:33]
갓 모드 같은 건 아니었지만,
[04:35]
뭔가를 채굴하거나 나무를 베기 위해
[04:37]
클릭하는 대신, 자바스크립트로
[04:40]
작은 스킬을 만들어서
[04:41]
대신 해주는 거였어요.
[04:43]
예를 들어, 여기는
[04:45]
좀비와 싸우는 코드였죠.
[04:48]
만약 작동한다면, 게임 세계에서
[04:49]
테스트되었어요. 작동한다면
[04:51]
스킬 라이브러리에 추가되었죠.
[04:54]
이 시스템은 정말, 정말 잘했어요.
[04:56]
훨씬 더 좋았고,
[04:57]
정체기에 빠지지 않았어요.
[04:59]
여기를 보면 계속 올라가죠.
[05:02]
계속 개선되고 있어요.
[05:03]
처음부터 매우, 매우 유망해 보여요.
[05:06]
이런 접근법이
[05:07]
효과가 있다는 걸 알고 있거든요.
[05:09]
그들은 수동으로 제작된 에이전트와
[05:11]
LLM에 의해 완전히 진화된 에이전트를 비교해서
[05:14]
이러한 시스템이 실패를 진단하고
[05:16]
게임 플레이 에이전트에게 샘플 행동을 전달하고
[05:19]
여러 반복을 통해 적응적 추론을 보여줍니다.
[05:21]
이는 다윈 골 머신과 유사했습니다.
[05:23]
인간의 혁신을 통해 만들어진
[05:25]
AI 코딩 에이전트들과 비교했죠.
[05:27]
누군가가 앉아서 계속
[05:30]
코드를 추가해서 이 시스템이
[05:32]
코딩 작업을 얼마나 잘 도울 수 있는지
[05:34]
개선하는 방식이었습니다.
[05:36]
그리고 일부 연구자들은
[05:39]
기본 AI 코딩 에이전트를 가져와서
[05:42]
이 진화적 탐색을 통해
[05:45]
스스로 개선하는 작업을
[05:46]
시도할 수 있는지 확인해봤습니다.
[05:49]
매번 수정사항을 추가할 때마다
[05:51]
코딩 벤치마크에 대해 테스트했고
[05:53]
벤치마크에서 성능이 향상되면
[05:56]
그 수정사항을
[05:58]
코드베이스에 추가했습니다.
[05:59]
즉, 스스로 개선하려고 시도하면서
[06:02]
그 코드 조각이
[06:03]
코딩 능력을 향상시키는지 테스트하고
[06:05]
향상시키면 자신의
[06:08]
코드베이스에 추가해서 스스로를 개선하는 방식이었습니다.
[06:10]
이것은 매우 유사하지만 카탄 정착민과
[06:13]
엔비디아의 보이저처럼 여러 에이전트를 사용합니다.
[06:16]
카탄 정착민은 다중 에이전트
[06:18]
전략 게임의 대표적인 예로
[06:20]
플레이어들이 자원 관리,
[06:22]
확장, 그리고 여러 턴에 걸친
[06:24]
협상을 계획해야 합니다.
[06:27]
그리고 여기서 중요한 것은
[06:28]
전통적인 게임 AI 방법들입니다.
[06:31]
LLM 기반이 아닌
[06:33]
단순한 강화학습으로 수행된 것들은
[06:35]
체스나 바둑 같은
[06:37]
완전정보 게임에서
[06:39]
초인적인 성능을 달성했습니다.
[06:41]
체스와 바둑에서는
[06:43]
볼 수 있는 모든 것을 볼 수 있습니다.
[06:45]
우연도 없고 확률도 없습니다.
[06:47]
전체 보드만 있고
[06:49]
모든 기물들이 어디에 있는지
[06:51]
관찰할 수 있습니다.
[06:53]
하지만 카탄에는 주사위가 있어서
[06:55]
확률이 있고 부분적 관찰가능성이 있습니다.
[06:57]
한 눈에 모든 데이터를 볼 수 없습니다.
[06:59]
숨겨진 것들이 있어서
[07:01]
무엇이 있는지 추측해야 합니다.
[07:03]
이것은 강화학습 접근법에
[07:05]
조금 더 어려울 수 있습니다.
[07:07]
물론 가능하지만
[07:09]
체스 같은 완전정보 게임만큼
[07:11]
쉽지는 않습니다.
[07:13]
여기서 우리는 네 가지 에이전트 아키텍처를 가지고 있습니다.
[07:15]
하나는 기본 에이전트로, 구조화되지 않은
[07:17]
게임 상태 설명을 직접
[07:19]
행동으로 매핑합니다.
[07:21]
그것이 무엇을 의미하는지는
[07:23]
잠시 후에 자세히 설명하겠습니다.
[07:25]
구조화된 에이전트는
[07:26]
게임 상태, 가능한 행동들,
[07:28]
그리고 더 나은 파싱과 가이드를 위한
[07:30]
자연어 기본 전략을 받습니다.
[07:32]
여기 프롬프트 예시가 있습니다.
[07:34]
당신은 카탄 정착민을 플레이하고 있습니다.
[07:36]
규칙과 보드 이해 가이드를 제공합니다.
[07:38]
이 게임 뒤에 있는 몇 가지 아이디어를
[07:40]
설명하고 게임 상태, 보드 상태에 대해서도
[07:43]
설명합니다. 이것이 어떻게 보이는지 살펴보죠.
[07:45]
게임 상태, 가장 긴 도로,
[07:46]
가장 큰 군대, 다양한 자원들 등입니다.
[07:49]
그런데 이것이 꽤 중요한 것 같습니다.
[07:54]
이런 논문들이 이런 것을 제공할 때
[07:57]
어떻게 하냐면
[07:59]
에이전트에게 매 프롬프트마다
[08:01]
현재 상태를 계속 상기시켜주는 거예요
[08:03]
이게 정말 정말 잘 작동하는 것 같아요
[08:06]
마인크래프트 보이저가 그렇게 했는데
[08:09]
자기가 뭘 하고 있는지 놓치지 않았어요
[08:11]
계속 상기시켜줬거든요
[08:13]
벤딩 벤치 같은 논문 있잖아요
[08:16]
자판기 사업을 운영하는 과제였는데
[08:18]
시간이 지나면서 망가졌어요
[08:20]
그런 상기시켜주는 부분이 없었거든요
[08:22]
게임 상태를 계속 알려주지 않았어요
[08:24]
매 턴마다 업데이트하지 않았고요
[08:26]
그래서 시간이 지나면서
[08:28]
대형 언어 모델들이 자주
[08:30]
맥락을 놓쳤어요
[08:32]
이게 정말 중요한 것 같아요
[08:34]
이런 걸 작동시키는 핵심이죠
[08:36]
세 번째로, 프롬프트 진화 시스템이 있어요
[08:38]
진화 에이전트와 플레이어 에이전트가
[08:40]
최대 10번 반복해서 상호작용하면서
[08:42]
카탄을 플레이할 LLM용 프롬프트를 개선하고 테스트하고 평가해요
[08:45]
그다음에 에이전트 진화 시스템이 있는데
[08:47]
진화, 분석, 연구
[08:49]
코딩, 플레이어 역할로 구성되어 있고
[08:51]
게임 간에 자율적으로
[08:53]
게임플레이 코드를 다시 작성할 수 있어요
[08:56]
이것도 마인크래프트 보이저와 매우 유사해요
[08:58]
여러 에이전트가
[09:00]
게임의 다른 부분들을 담당하죠
[09:02]
하나는 게임을 플레이하고
[09:04]
하나는 개선을 시도하고
[09:05]
다른 하나는 테스트하고
[09:07]
또 다른 하나는 설명을 작성하죠
[09:10]
이건 입증된 접근 방식이고 엄청 잘 작동할 것 같아요
[09:13]
혹시 비즈니스 목적으로
[09:15]
AI 에이전트를 구축하는 걸
[09:16]
생각해본 적 있다면
[09:19]
이런 것들이 바로
[09:22]
제대로 하는 방법의 레시피인 것 같아요
[09:23]
그리고 일부 논문들은 잘못된 방법도 보여주죠
[09:25]
지금까지는 모든 걸 제대로 하고 있는 것 같아요
[09:27]
이 모델들을 테스트하는 방법은
[09:29]
카타나트론의 가장 강력한 휴리스틱 기반 봇과
[09:31]
일대일 게임으로 비교하는 거예요
[09:35]
로직 기반 봇이 있어요
[09:37]
간단한 스크립트 봇 같은 거죠
[09:39]
여기서는 알파베타 검색 AI라고 하는데
[09:41]
대형 언어 모델을 사용하는 AI는 아니에요
[09:44]
이런 것과는 다르죠
[09:46]
더 기본적인 버전이라고 할 수 있어요
[09:48]
그리고 관련 지표들을 추적해요
[09:49]
평균 승점, 정착지와 도시 수
[09:52]
최대 군대 같은
[09:53]
다른 개발 지표들을요
[09:55]
카탄에서는 승리가
[09:57]
먼저 10점에 도달하는 플레이어에게 가고
[09:59]
정착지, 도시 등으로 점수를 얻어요
[10:01]
매 턴은 주사위 굴리기로 시작해서
[10:03]
자원을 생산하고
[10:05]
활성 플레이어가 거래하고 건설할 수 있어요
[10:07]
7이 나오면 도둑이 활성화되어
[10:09]
타일을 막고 자원을 훔쳐가요
[10:12]
으악, 자 좋아요
[10:13]
이 전체 시스템의 자기 진화 부분은
[10:16]
에이전트 진화기예요
[10:18]
빈 템플릿으로 시작해서
[10:20]
시간이 지나면서 능력을 진화시켜요
[10:23]
이게 바로 자기 개선 측면이에요
[10:26]
그래서 진화 에이전트가 있어요
[10:28]
이게 중앙 조정자예요
[10:29]
분석 보고서를 읽죠
[10:31]
그래서
[10:34]
분석기 에이전트가 플레이어의 게임플레이를 평가하고
[10:36]
약점을 파악하며
[10:38]
개선이 필요한 핵심 영역을 요약하죠.
[10:39]
진화기 에이전트가 이런 보고서들을 읽을 수 있어요.
[10:42]
이건 거의 진화기 에이전트를 위한 도구 같은 거죠.
[10:43]
맞아요. 이 에이전트가 게임을 분석해서
[10:46]
진화기에게 넘겨주면
[10:47]
진화기가 그걸 읽고
[10:48]
다음에 뭘 할지 결정하는 거죠.
[10:50]
연구 에이전트는 정말 흥미로워요.
[10:52]
카탄 규칙과 광범위한 카탄 전략에 대한
[10:55]
구체적인 질의를 처리하는데
[10:58]
로컬 파일 접근과 웹 검색을 활용합니다.
[11:00]
이건 일종의 심층 검색이고
[11:02]
다시 말하지만 심층 검색 결과를
[11:04]
진화기 에이전트에게 제공합니다.
[11:06]
정말 흥미롭네요.
[11:08]
실제 게임플레이를 분석하는 하나의 에이전트만
[11:10]
결합하는 게 아니라
[11:12]
새로운 전략을 시도하기 위해
[11:14]
심층 연구를 할 수 있는 에이전트도 있어요.
[11:17]
웹 검색을 하고 레딧에 가서
[11:19]
카탄 최고의 전략이 뭐냐고 물어보고
[11:20]
그걸 바탕으로 보고서를 작성해서
[11:22]
진화기 에이전트에게 넘겨주는 거죠.
[11:25]
이건 정말 기발하다고 해야겠어요.
[11:28]
전략가 에이전트가 있는데
[11:30]
고수준 게임플레이 전략을 제안하거나
[11:32]
과거 전략적 선택들을 비판합니다.
[11:35]
코더 에이전트는 제안된 변경사항을
[11:37]
구체적인 코드 수정으로 번역해요.
[11:39]
매번 기존 코드를 가져와서
[11:42]
변경사항을 추가하고
[11:44]
새로운 버전을 출력하는데
[11:46]
무엇을 했는지 요약도 함께 제공하고
[11:48]
플레이어 에이전트는 실제 AI 플레이어로
[11:51]
실제로 게임을 플레이하죠.
[11:53]
이게 시간이 지나면서 개선되는 부분이에요.
[11:55]
이 데이터는 MacBook Pro 2019 16GB와
[11:57]
MacBook M1 Max 2021 32GB에서 수집됐는데
[12:01]
총 60시간에 걸쳐 진행됐습니다.
[12:05]
이런 실험을 직접 돌려보고 싶다면
[12:08]
꽤 접근 가능한 수준이에요.
[12:10]
이건 정말 손에 닿지 않는 수준은 아니죠.
[12:12]
MacBook이 싸지는 않지만
[12:14]
수만 달러 하는 것도 아니고요.
[12:16]
테스트한 모델들은
[12:18]
GPT-4o, Claude 3.7, 그리고 Mistral Large예요.
[12:22]
Mistral은 오픈소스 대형 언어모델이죠.
[12:25]
이 게임이 실제로 플레이되는 걸 보고 싶어요.
[12:27]
결과가 어떨지 궁금하네요.
[12:29]
하지만 최신 o3 Pro 같은 걸 사용하면
[12:30]
당연히 실행 비용이 훨씬 비쌀 텐데
[12:32]
여러 에이전트가 있고
[12:34]
각각이 API 비용을 발생시키니까요.
[12:36]
오픈소스로 로컬에서 하지 않는 한
[12:38]
아마 그렇게 하지 않을 거예요.
[12:40]
Mistral AI API를 사용하고 있을 거고요.
[12:42]
DeepSeek R1을 사용하지 않는 이유가 궁금해요.
[12:44]
정말 저렴한데 말이죠.
[12:45]
기준 에이전트들은
[12:47]
Alpha Beta를 상대로 10게임을 합니다.
[12:51]
Alpha Beta는 이 게임을 플레이하는
[12:53]
좀 더 단순한 AI 접근법이고
[12:55]
랜덤 시드는 초기 보드 상태 생성을 위해
[12:58]
고정되어 있어서
[12:59]
실행 간 일관성을 보장합니다.
[13:01]
기본적으로 실행 간 게임의
[13:03]
변동성을 최소화하려고 하는 거죠.
[13:06]
모든 걸 가능한 한 일관되게 유지하려고요.
[13:09]
초기 보드 상태 생성에 대해서만
[13:11]
그렇게 하는 것 같아요.
[13:13]
완전히 새로운 세계를
[13:14]
매번 굴리지 않도록 하기 위해서죠.
[13:18]
매번 완전히 새로운 세계를 만들지 않도록 하는 거죠. 그렇게 되면
[13:21]
시작 위치에 따라 결과가
[13:22]
크게 달라질 수 있거든요. 그다음 프롬프트
[13:25]
진화기가 실행됩니다. 10번의 진화 과정을 거쳐
[13:28]
에이전트 진화기가 프롬프트 진화기와
[13:30]
유사하게 작동합니다. 하나는
[13:33]
프롬프트를 개선하려고 하고, 다른 하나는
[13:34]
실제 에이전트를 개선하려고 하죠. 그리고
[13:36]
마지막으로 결과입니다. 우리 LLM 에이전트가
[13:39]
얼마나 잘했을까요? 휴리스틱 기반 알파베타
[13:42]
기준선을 이길 수 있었을까요?
[13:44]
개선될 수 있었을까요?
[13:46]
처음엔 성능이 떨어졌지만
[13:49]
시간이 지나면서 더 나아졌을까요? 그게
[13:51]
핵심 질문이죠. 그리고 결과는 이렇습니다.
[13:54]
모델별 에이전트 성능을 보면
[13:56]
GPT-4o,
[13:58]
Claude, Mistral Large입니다. 모든
[14:01]
경우에서 기본 에이전트는 여기 약
[14:03]
3.6 정도죠. 이게 바로
[14:06]
진화하지 않은 개선되지 않은 에이전트입니다. 구조화된
[14:08]
에이전트는 GPT-4o에서 6%, Claude에서 11%
[14:13]
3.7. Mistral Large에서는 31% 감소했습니다.
[14:17]
왜 그런지 모르겠어요. 이게
[14:19]
가장 성능이 나쁜 것 같았습니다.
[14:20]
Mistral Claude 3.7이 가장
[14:23]
성능이 좋았습니다. Go Claude 프롬프트 진화기는
[14:26]
22% 증가, GPT-4o에서는 95% 증가,
[14:31]
Claude 3.7에서요. 이거 엄청나지 않나요?
[14:35]
그리고 에이전트 진화기는 GPT-4o에서 36% 개선,
[14:38]
Claude 3.7에서 40% 개선을 보였습니다.
[14:41]
여기서 요점은 이 시스템이
[14:44]
전략적 프롬프트를 자율적으로 반복하여
[14:46]
에이전트 성능을 성공적으로 개선했다는 것입니다.
[14:48]
성공 정도는 사용된 모델에
[14:50]
크게 의존하지만,
[14:52]
아마 지금은 더 나은
[14:54]
성능의 모델들이 있거나 더 많은 비용을 지불할 의향이 있다면
[14:56]
말이죠. Claude 3.7이
[14:58]
가장 중요한 전략적
[15:00]
발전을 보여주며 체계적으로
[15:02]
명확한 단기 및 장기 계획을 설명하는
[15:04]
상세한 전략적 프롬프트를 개발했습니다.
[15:06]
정확한 정착지 배치,
[15:08]
자원 우선순위, 개발
[15:10]
카드 사용, 그리고 상대방 행동에 대한
[15:12]
강력한 대응 전략을 포함해서 말이죠.
[15:15]
Claude 3.7이 훌륭했죠. 기본 대비 95%까지
[15:20]
개선됐습니다. GPT-4는 중간 정도였고,
[15:23]
Mistral Large가 가장 효과적이지 않았습니다.
[15:26]
가장 큰 한계는 기반이 되는
[15:29]
LLM이죠. LLM이 좋을수록
[15:31]
결과도 좋아집니다. 이게 바로
[15:34]
샘 알트만이 말했던 것과 같은 맥락인데
[15:35]
스타트업을 만든다면
[15:37]
현재 AI에 문제가 있는 것을 고치려고 하면 안 되고
[15:40]
모델이 좋아질수록
[15:42]
시스템이 있어야 한다는 거죠.
[15:44]
모델이 좋아질수록 전체
[15:47]
비즈니스 성능도 좋아지는
[15:49]
시스템 말이에요. 이런 논문들,
[15:51]
이런 시스템들도 마찬가지죠.
[15:53]
지금 이 모델들로 보고 있는
[15:55]
개선을 상상해보세요. 몇 년 후
[15:57]
차세대 모델들을 상상해보면
[15:59]
그것들을 그냥 연결하고 다른 모든 것을
[16:01]
동일하게 유지한다면, 우리가 본
[16:04]
개선들, 95% 개선을
[16:06]
기반 모델만 개선해도
[16:08]
아마 훨씬 더 나은 결과를
[16:10]
볼 수 있을 거예요.
[16:13]
기반 모델을 말이죠.
[16:14]
이게 중요한 포인트입니다. 이 모델들은
[16:18]
자기개선 능력이 더 좋아질 거예요.
[16:21]
모델들이 자기 개선을 더 잘하게 될 거예요
[16:24]
개선되고 성장하면서 말이죠
[16:25]
더 나아지면서
[16:26]
자기 개선 능력도 더 좋아질 거예요
[16:29]
또는 이런 시스템들을 자율적으로 개선하는 능력 말이죠
[16:31]
한 가지는 이들이 진화 단계를 10단계만 했다는 점입니다
[16:33]
여기서 보시면 특히 Claude 3.7 같은
[16:36]
최고 모델로는
[16:38]
계속해서 개선되고 있어요
[16:40]
어 보죠, 이건 뭐죠? 이건
[16:43]
진화 7단계네요
[16:44]
여기저기서 여전히 개선이 있어요
[16:47]
7단계 후에 평준화되긴 하지만
[16:48]
계속하면 더 나아질 수도 있어요
[16:50]
20, 30번의 진화를 예상해보면
[16:52]
보다시피 모든 개선이
[16:54]
초기에만 일어나는 건 아니에요
[16:56]
그러고 나서 아무것도 없는 게 아니라
[16:58]
진화 단계 후반부에도
[17:00]
계속해서 개선되고 있어요
[17:03]
더 많은 시간을 준다면 얼마나 잘할지 궁금해요
[17:05]
더 많은 진화 단계를 말이죠
[17:07]
7단계에서 100단계까지 그냥 평준화될지
[17:09]
아니면 계속하면
[17:12]
어느 정도 개선이 있을지
[17:14]
계속 진행하면 말이죠
[17:16]
물론 연구자들은 자금 측면에서
[17:19]
제약이 있었을 거예요
[17:21]
이게 얼마나 비용이 드는지는 모르지만
[17:23]
꽤 비쌀 수도 있어요
[17:25]
정말 놀라운 작업이에요
[17:27]
이 프로젝트가 정말 마음에 들어요
[17:30]
어디서 오픈소스로 공개되는지 궁금해요
[17:31]
플레이해보고 싶거든요
[17:34]
카타론이라고 불렸다는 걸 깜빡했는데
[17:36]
카타나트론은 오픈소스예요
[17:38]
GitHub에 있으니까 다운받아서 사용할 수 있어요
[17:40]
본인의 API나
[17:42]
대형 언어 모델을 연결할 수도 있을 거예요
[17:44]
하지만 이것도 재귀적으로 자기 개선이 가능한
[17:48]
AI 에이전트라고 부를 수 있는 또 다른 예시예요
[17:50]
이런 것들을 점점 더 많이 보게 되고 있어요
[17:52]
이런 것들을 만드는 레시피 같은 것도
[17:54]
더 많은 예시들을 보고 있어요
[17:55]
무엇이 효과적이고 무엇이 그렇지 않은지
[17:57]
이해하기 시작했어요
[17:59]
정말 흥미진진한 시대에 살고 있어요
[18:01]
게임을 사용해서
[18:03]
이런 것들을 시연한다는 점이 정말 마음에 들어요
[18:04]
이게 어디로 갈지
[18:06]
정말 기대돼요
[18:08]
시청해주셔서 정말 감사합니다