LLM이 자가 진화하는 AI 에이전트를 만들어 세틀러스 오브 카탄을 플레이하다

채널 아이콘
Wes Roth 구독자 260,000명

요약

이 영상은 최신 LLM 기반 자가 진화(self-improving) AI 에이전트 구조를 활용해 전략 보드게임 '세틀러스 오브 카탄'을 플레이하고 자체 개선 과정을 평가한 논문 'Agents of Change'를 소개한다. 분석자, 조사자, 전략가, 코더, 플레이어로 구성된 다중 에이전트 시스템을 통해 프롬프트와 에이전트 코드를 반복적으로 최적화하며 장기 전략 일관성을 확보한다. 실험 결과 Claude 3.7을 활용한 경우 초기 대비 최대 95% 성능 개선을 달성했고, 에이전트 Evolver 단계에서 추가 40% 이상의 향상을 보여 자율적 전략 개선 가능성을 입증한다. 이 연구는 AI 에이전트 설계의 ‘레시피’를 제시하며, 차세대 모델 교체만으로도 시스템 성능을 더욱 극대화할 수 있음을 강조한다.

주요 키워드

Large Language Model (LLM) 자가 진화 에이전트 프롬프트 이볼버 에이전트 이볼버 Katanatron Framework 세틀러스 오브 카탄 Claude 3.7 GPT-4 Mistral Large Alpha-beta Search

하이라이트

  • 🔑 LLM 기반 에이전트는 스캐폴딩(도구, 코드 작성 기능)을 통해 복잡한 게임 환경에도 적응하고 자체 개선이 가능하다.
  • ⚡️ 논문 'Agents of Change'는 장기 전략 일관성 문제(long-term coherence)를 해결하기 위해 자가 진화 AI 에이전트 구조를 제안한다.
  • 🚀 프롬프트 이볼버(Prompt Evolver)와 에이전트 이볼버(Agent Evolver)를 도입해 프롬프트와 에이전트 코드를 최대 10회 반복적으로 개선하며 성능을 꾸준히 향상시킨다.
  • 📌 분석자, 조사자, 전략가, 코더, 플레이어로 구성된 다중 에이전트가 협업해 게임플레이를 분석하고 새로운 전략을 연구·적용한다.
  • 🌟 전략 보드게임 '세틀러스 오브 카탄'은 부분 관측, 확률, 협상 요소를 통해 장기 전략 기획 능력을 테스트하기에 적합한 실험 환경을 제공한다.
  • 🎯 Claude 3.7 기반 에이전트는 프롬프트 이볼버 단계에서 초기 대비 95% 성능 향상을 기록하며 가장 큰 발전을 보였다.
  • 💡 에이전트 이볼버를 통해 GPT-4 기반 에이전트도 36% 이상의 추가 성능 개선을 달성해 자율적 전략 개선 가능성을 입증했다.
  • 🚀 LLM 성능 향상이 에이전트 자가 개선 역량을 직접 향상시키므로, 미래 차세대 모델 교체만으로도 시스템 성능을 더욱 극대화할 수 있다.

용어 설명

Large Language Model (LLM)

방대한 텍스트를 학습해 자연어 처리 및 생성이 가능한 대규모 언어 모델

자가 진화 에이전트(Self-improving Agent)

스스로 프롬프트와 코드를 수정하며 점진적으로 성능을 개선하는 AI 시스템

스캐폴딩(Scaffolding)

AI 에이전트에 제공하는 도구, 코드 작성 기능, 문서 등 보조 구조물

프롬프트 이볼버(Prompt Evolver)

프롬프트를 반복적으로 테스트·수정해 최적화하는 에이전트 구성 요소

에이전트 이볼버(Agent Evolver)

에이전트 코드를 자율적으로 수정하고 진화시키는 멀티 에이전트 시스템

Katanatron Framework

Python 기반 오픈소스 '세틀러스 오브 카탄' 시뮬레이션 프레임워크

Alpha-beta Search

휴리스틱 기반 탐색으로 최적 수를 선택하는 전통적 게임 AI 알고리즘

부분 관측(Partial Observability)

게임 정보가 완전하지 않아 일부 상태만 관측 가능한 특성

[00:00:00] 도입 및 LLM 기반 자율 에이전트 개요

영상 도입부에서 최신 LLM 기반 자율 AI 에이전트 구조를 간략히 소개하며 AlphaEvolve, Darwin Goal Machine 등 유사 사례를 언급한다. 스캐폴딩을 활용해 LLM이 코드 작성, 메모 작성 등 다양한 작업을 수행할 수 있음을 강조한다.

자율 자기 개선 AI 에이전트가 카탄의 개척자 게임을 학습하는 새로운 논문을 소개합니다. AI 에이전트라는 용어에 대한 한계를 인정하면서도 현재로서는 최선의 표현이라고 설명합니다.
대형 언어 모델 기반 에이전트 아키텍처의 개념을 설명합니다. 스캐폴딩을 통해 LLM이 게임 플레이, 코드 작성, 메모 등을 할 수 있게 하는 구조로, AlphaEvolve, Darwin Goal 머신, 포켓몬이나 마인크래프트를 플레이하는 AI들과 같은 원리입니다.
[00:00:38] Agents of Change 논문과 장기 전략 과제

논문 'Agents of Change'를 소개하며 LLM 에이전트가 장기 전략 일관성 부족 문제를 보인다고 지적한다. 이를 해결하기 위해 전략적 기획 능력을 명시적으로 강화한 자가 진화 에이전트를 제안한다.

스캐폴딩의 구체적인 역할을 설명합니다. 도구 제공, 코드 작성 능력, 문서 등을 통해 AI가 무엇을 해야 하는지 알 수 있게 하며, 이런 접근 방식들이 좋은 결과를 보여주고 있다고 합니다.
카탄의 개척자 게임의 복잡성을 소개합니다. 전략, 수학, 협상이 필요한 깊이 있는 게임이라고 설명하며, 논문 제목 'Agents of Change: 전략적 계획을 위한 자기 진화 LLM 에이전트'를 언급합니다.
[00:01:36] Settlers of Catan 게임 환경 및 Katanatron

부분 관측, 확률 요소, 협상 등 복잡한 전략 요소를 가진 세틀러스 오브 카탄 게임을 실험 대상으로 선정했다. 오픈소스 Python 프레임워크 Katanatron을 통해 게임을 시뮬레이션한다.

언어 모델의 발전으로 자율 에이전트 활용이 증가했지만, 일관된 장기 전략 수립과 유지에 어려움이 있다는 문제점을 제기합니다. 초기에는 뛰어난 성과를 보이지만 시간이 지나면서 장기적 일관성이 무너진다고 설명합니다.
[00:02:15] 기본(Base)·구조화(Structured) 에이전트

베이스 에이전트는 비정형 게임 상태를 액션에 직접 매핑하고, 구조화 에이전트는 상태·가능 액션·기본 전략을 명시해 이해도를 높인다. 이를 통해 초기 성능 차이를 확인한다.

연구의 핵심 질문을 제시합니다. 전략적 계획 능력을 도전하는 환경에서 대형 언어 모델 에이전트들이 시간이 지날수록 나빠지는 대신 더 좋아지는 자기 개선이 가능한지, 그리고 카탄의 개척자 게임을 통해 이를 검증하겠다고 합니다.
오픈 소스 카탄트론 프레임워크를 소개하며, 파이썬 기반으로 카탄 게임을 시뮬레이션하고 봇들이 플레이할 수 있는 환경을 구축했다고 설명합니다.
[00:03:04] Prompt Evolver 구조

Prompt Evolver는 최대 10회 반복해 프롬프트를 수정, 테스트, 평가하며 최적화한다. 에이전트와 이볼버가 상호 작용하며 전략적 플레이 가이드를 점진적으로 개선한다.

LM 기반 에이전트가 단순한 게임 플레이어에서 자신의 프롬프트와 코드를 자율적으로 수정할 수 있는 시스템으로 진화하는 과정을 벤치마킹하며, 분석기, 연구원, 코더, 플레이어로 구성된 멀티 에이전트 구조를 도입했다고 합니다.
엔비디아의 마인크래프트 보이저와의 유사점을 언급하며, 당시 GPT-4 가이드를 받았던 이 연구가 시대를 앞서간 놀라운 논문이었다고 평가합니다. 현재는 더 발전된 모델들로 비슷한 프레임워크들이 많이 나오고 있다고 설명합니다.
비전 모델 이전 시대의 텍스트 전용 언어 모델 환경을 설명하며, 마인 플레어를 통해 자바스크립트 코드로 게임과 상호작용하는 방식을 소개합니다. 좀비와 싸우는 코드 예시를 들며, 작동하는 코드는 스킬 라이브러리에 추가되었다고 설명합니다.
시스템이 매우 우수한 성능을 보였으며 정체기 없이 지속적으로 개선되었다고 강조합니다. 수동 제작 에이전트와 LLM 진화 에이전트를 비교하여 시스템의 실패 진단과 적응 능력을 평가했다고 마무리합니다.
자율 개선 AI 에이전트들이 정적 기준 모델을 능가하는 것을 보여주며, 게임 플레이에서 샘플 행동을 전달하고 여러 반복을 통해 적응적 추론을 수행한다고 설명합니다.
[00:05:18] Agent Evolver: 다중 에이전트 협업

Agent Evolver는 분석자, 조사자, 전략가, 코더, 플레이어 역할로 구성된다. 각 단계에서 게임플레이 분석, 전략 연구, 코드 수정 등을 분담해 에이전트 코드를 자율적으로 진화시킨다.

다윈 골 머신과 유사한 접근법으로, 인간이 만든 AI 코딩 에이전트들과 비교하여 진화적 탐색을 통해 스스로 개선하는 시스템을 소개합니다.
기본 AI 코딩 에이전트가 진화적 탐색을 통해 자기 개선을 시도하는 과정을 설명하며, 각 수정사항을 벤치마크에서 테스트하고 성능이 향상되면 코드베이스에 추가하는 방식을 다룹니다.
카탄 정착민 게임에서의 다중 에이전트 시스템을 설명하며, 이 게임이 자원 관리, 확장, 협상 등을 포함하는 복잡한 전략 게임임을 강조합니다.
전통적인 게임 AI 방법들이 체스나 바둑 같은 완전정보 게임에서는 초인적 성능을 달성했지만, 카탄처럼 확률과 부분적 관찰가능성이 있는 게임에서는 더 어려움을 겪는다고 설명합니다.
네 가지 에이전트 아키텍처를 소개하며, 기본 에이전트와 구조화된 에이전트의 차이점을 설명하고 카탄 게임에 대한 프롬프트 예시를 제시합니다.
논문들이 에이전트에게 매 프롬프트마다 현재 상태를 지속적으로 상기시켜주는 방식을 소개하며, 이것이 매우 효과적으로 작동한다고 설명한다.
마인크래프트 보이저는 지속적인 상기 시스템으로 성공했지만, 벤딩 벤치는 상태 업데이트 없이 시간이 지나면서 실패했다는 사례를 비교 분석한다.
프롬프트 진화 시스템과 에이전트 진화 시스템을 소개하며, 진화/분석/연구/코딩/플레이어 역할로 구성된 다중 에이전트 구조를 설명한다.
이런 다중 에이전트 접근 방식이 입증된 방법론이며, 비즈니스용 AI 에이전트 구축에 적용 가능한 레시피라고 평가한다.
모델 테스트 방법론을 설명하며, 카타나트론의 휴리스틱 기반 봇과의 일대일 비교를 통해 평균 승점, 정착지 수, 최대 군대 등의 지표를 추적한다고 설명한다.
카탄 게임의 기본 규칙을 설명하며, 10점 승리 조건, 주사위 굴리기 자원 생산, 7이 나올 때의 도둑 활성화 메커니즘을 소개한다.
에이전트 진화기가 빈 템플릿에서 시작하여 시간이 지나면서 능력을 진화시키는 자기 개선 시스템의 핵심이며, 중앙 조정자 역할을 한다고 설명한다.
분석기 에이전트가 플레이어의 게임플레이를 평가하고 약점을 파악한 뒤, 개선이 필요한 핵심 영역을 요약하여 진화기 에이전트에게 보고서를 제공합니다.
연구 에이전트는 카탄 규칙과 전략에 대한 구체적인 질의를 처리하며, 로컬 파일 접근과 웹 검색을 통해 심층 연구를 수행하여 결과를 진화기 에이전트에게 제공합니다.
이 시스템은 단순히 게임플레이를 분석하는 하나의 에이전트만 사용하는 것이 아니라, 웹 검색을 통해 새로운 전략을 발견할 수 있는 연구 에이전트도 포함하고 있어 더욱 포괄적인 접근을 취합니다.
[00:11:23] 실험 설정: 모델·하드웨어·평가지표

MacBook Pro 및 M1 Max에서 GPT-4, Claude 3.7, Mistral Large를 사용해 총 60시간 실험을 수행했다. 알파베타 휴리스틱 봇과 비교하며 승점, 정착지·도시 수, 최대 군대 지표 등으로 성능을 측정한다.

전략가 에이전트는 고수준 게임플레이 전략을 제안하고 과거 전략적 선택을 비판하며, 코더 에이전트는 이런 제안을 구체적인 코드 수정으로 번역하여 새로운 버전과 요약을 출력합니다.
플레이어 에이전트는 실제 AI 플레이어로서 게임을 플레이하며, 이 부분이 시간이 지나면서 개선되는 핵심 구성요소입니다.
실험은 MacBook Pro 2019 16GB와 MacBook M1 Max 2021 32GB에서 총 60시간에 걸쳐 수행되었으며, 이는 개인이 접근할 수 있을 정도로 현실적인 수준의 하드웨어 요구사항입니다.
[00:12:01] 실험 결과 및 시사점

Claude 3.7 기반 에이전트는 Prompt Evolver 단계에서 초기 대비 95% 성능 향상을 기록했으며, Agent Evolver를 통해 최대 40% 추가 개선을 달성했다. LLM 성능 향상이 곧 시스템 개선으로 이어져 차세대 모델 적용 시 더욱 높은 효과가 전망된다.

테스트에 사용된 모델은 GPT-4o, Claude 3.7, Mistral Large이며, 최신 o3 Pro 같은 모델을 사용할 경우 여러 에이전트로 인한 API 비용이 상당히 높아질 것으로 예상됩니다.
기준 에이전트들은 Alpha Beta라는 단순한 AI 접근법을 상대로 10게임을 플레이하며, 랜덤 시드를 고정하여 초기 보드 상태 생성의 일관성을 보장하고 실행 간 변동성을 최소화합니다.
초기 보드 상태 생성을 위한 설정에 대해 설명하며, 시작 위치가 게임 결과에 미치는 영향을 언급합니다.
프롬프트 진화기와 에이전트 진화기의 작동 방식을 설명하며, 각각이 프롬프트와 에이전트를 개선하는 역할을 담당한다고 합니다.
LLM 에이전트의 성능이 휴리스틱 기반 알파베타 기준선을 이길 수 있는지, 시간이 지나면서 개선될 수 있는지에 대한 핵심 질문을 제기합니다.
GPT-4o, Claude, Mistral Large 모델별 에이전트 성능 결과를 발표하며, 기본 에이전트의 성능이 약 3.6 정도라고 설명합니다.
구조화된 에이전트의 성능 개선 결과를 보여주며, GPT-4o 6% 증가, Claude 11% 증가, Mistral Large 31% 감소라는 결과를 제시합니다.
프롬프트 진화기의 놀라운 성과를 발표하며, GPT-4o에서 22% 증가, Claude 3.7에서 95% 증가라는 대폭적인 개선을 보여줍니다.
에이전트 진화기의 성과를 설명하며, GPT-4o에서 36%, Claude 3.7에서 40% 개선을 달성했다고 보고합니다.
시스템이 전략적 프롬프트를 자율적으로 반복하여 에이전트 성능을 성공적으로 개선했지만, 성공 정도가 사용된 모델에 크게 의존한다고 설명합니다.
Claude 3.7이 가장 중요한 전략적 발전을 보였으며, 정착지 배치, 자원 우선순위, 개발 카드 사용 등을 포함한 상세한 전략적 프롬프트를 개발했다고 설명합니다.
Claude 3.7이 95%까지 개선되어 최고 성과를 보였고, GPT-4는 중간 정도, Mistral Large가 가장 효과적이지 않았다고 평가합니다.
가장 큰 한계는 기반 LLM의 성능이며, 더 좋은 LLM일수록 더 좋은 결과를 얻는다는 핵심 통찰을 제시합니다.
샘 알트만의 조언을 인용하며, 스타트업은 현재 AI 문제를 고치려 하지 말고 모델이 발전할수록 비즈니스가 좋아지는 시스템을 구축해야 한다고 설명합니다.
현재 모델들의 개선 효과를 바탕으로 미래의 차세대 모델들이 투입될 때 95% 개선보다 훨씬 더 나은 결과를 기대할 수 있다고 전망합니다.
AI 모델들이 성장하고 개선되면서 자기 개선 능력도 함께 향상될 것이라고 설명합니다. 이들은 자율적으로 시스템을 개선하는 능력을 갖게 됩니다.
연구에서 진화 단계를 10단계만 실행했지만, Claude 3.7 같은 최고 모델의 경우 7단계 이후에도 지속적인 개선을 보여주고 있습니다.
개선이 초기에만 일어나는 것이 아니라 진화 단계 후반부에도 계속되고 있어, 더 많은 진화 단계를 허용한다면 어떤 결과가 나올지 궁금하다고 합니다.
연구자들이 자금 제약으로 인해 실험을 제한했을 가능성을 언급하며, 이런 실험이 상당한 비용이 들 수 있다고 설명합니다.
이 프로젝트에 대한 찬사를 표하며, 카타나트론이 GitHub에서 오픈소스로 공개되어 있어 개인 API나 언어 모델을 연결해 사용할 수 있다고 소개합니다.
재귀적 자기 개선 AI 에이전트의 또 다른 예시로서, 이런 시스템을 구축하는 방법론을 더 잘 이해하게 되고 있다고 합니다.
또 다른 자율 자기 개선 AI 에이전트에 관한 논문이 나왔습니다.
이번에는 카탄의 개척자 게임을 학습하는 내용입니다.
정말 흥미로운 주제가 아닐 수 없죠.
AI 에이전트라는 용어를 모든 사람이 좋아하는 건 아니라는 걸 알고 있습니다.
완전히 이해할 수 있는 반응이에요.
아마 최고의 용어는 아닐 거예요.
하지만 현재로서는 더 나은 용어가 없어서
여기서는 그냥 이 용어를 사용하겠습니다.
논문에서도 이 용어를 사용하고 있어요.
이들은 대형 언어 모델 기반 에이전트 아키텍처입니다.
대형 언어 모델을 가져와서
그 주변에 스캐폴딩을 만들고
게임을 플레이하고
코드를 작성하고 메모를 할 수 있도록 하는
아키텍처를 구성하는 거죠.
이런 접근 방식은 매우 인기가 높습니다.
기본적으로 AlphaEvolve와 같은 방식이에요.
Google DeepMind에서 나온 큰 돌파구죠.
Darwin Goal 머신도 매우 유사합니다.
자기 개선 코딩 에이전트예요.
스캐폴딩을 갖춘 대형 언어 모델로
생각하시면 됩니다.
포켓몬을 플레이하는 LLM들도 마찬가지고
예를 들어 Minecraft Voyager AI 게임이나
마인크래프트를 플레이하고 실력이 향상된 GPT-4도
자신의 능력을 향상시키기 위해
스스로 코드를 작성했죠.
모두 같은 원리예요.
LM에 스캐폴딩을 더한 것인데
스캐폴딩은 기본적으로
성능을 높이기 위해 제공하는 것들입니다.
도구를 제공하고, 코드 작성 능력을 주고
문서 같은 것도 제공해서
무엇을 해야 하는지 알 수 있게 하는 거죠.
이런 것들 중 일부의 결과는
매우 좋았습니다.
여기서 우리가 살펴보는 접근 방식은
이런 AI 에이전트들이 카탄의 개척자 게임을
잘 플레이할 수 있게 만들 수 있느냐는 것입니다.
게임 보드는 이런 모습이에요.
꽤 복잡한 게임입니다.
약간의 전략과 수학
협상 등이 필요해요.
저는 실제로 해본 적은 없지만
다른 사람들이 하는 걸 봤는데
매우 흥미로워 보이더라고요.
상당한 깊이가 있는 것 같습니다.
이 논문의 제목은 'Agents of Change: 전략적 계획을 위한
자기 진화 LLM 에이전트'입니다.
언어 모델의 최근 발전이
다양한 작업에서 자율 에이전트로 사용될 수 있게 했다고
말하고 있습니다.
이는 사실입니다.
점점 더 많이 보고 있죠.
하지만 문제가 있습니다.
일관된 장기 전략을 수립하고 고수하는 데
여전히 어려움을 겪고 있다고 계속 설명합니다.
이런 AI 에이전트들이 처음부터
정말 좋은 성과를 보이는 논문들을 자주 봅니다.
인간 수준을 넘어서고, 인간보다 낫고
더 빠르지만, 충분히 긴 시간이 지나면
플롯을 유지하는 능력이
무너지기 시작합니다.
장기적 일관성이라는 개념이 무너지는 거죠.
이는 매우 흥미로운 접근 방식입니다.
왜냐하면 그들이 알아보려는 것은
이런 대형 언어 모델 에이전트들을
전략적 계획 능력을 명시적으로 도전하는
환경에 배치했을 때
자기 개선이 가능한지입니다.
즉, 장기적 일관성 측면에서
시간이 지날수록 나빠지는 대신
더 좋아지는 스캐폴딩을 만들 수 있는지
그리고 우리는 카탄의 개척자 게임을 플레이할 것입니다.
오픈 소스 카탄트론을 사용해서
프레임워크를 활용하는 거죠.
이 게임을 플레이할 수 있는
오픈 소스 방식이에요. 파이썬 기반의
오픈 소스 도구로 게임을
시뮬레이션하고 플레이할 수 있게 해주죠.
이런 모습이에요. 적어도
터미널에서는 말이죠.
이렇게 게임을 시뮬레이션할 수 있어요.
꽤 빠르게 실행되는 것 같네요.
플레이어가 4명 있고,
게임이 빠르게 진행됩니다.
봇들이 플레이할 수 있어요.
여기서 아이디어는
LM 기반 에이전트의 진화를
벤치마킹하는 거예요.
단순한 게임 플레이 에이전트에서
자신의 프롬프트와
플레이어 에이전트 코드를 자율적으로
다시 작성할 수 있는 시스템까지요.
멀티 에이전트 구조를 도입했어요.
분석기, 연구원, 코더,
그리고 플레이어가 있죠.
이들이 협력해서 게임플레이를 분석하고,
새로운 전략을 연구하며, 에이전트의 로직이나
프롬프트를 수정합니다. 흥미롭게도,
엔비디아의 마인크래프트 보이저도
이와 비슷했어요. 당시 GPT-4의
가이드를 받았죠.
정말 초기였는데, 상황이 어떻게
전개될지 명확하지 않았던 시절에
나온 정말 놀라운 논문 중 하나였어요.
엔비디아가 발표했죠.
AI 연구팀이요. 정말 시대를
앞서간 연구였어요.
몇 년 후인 지금, 기본적으로
이 프레임워크와 비슷하지만
더 발전된 모델로 구현된
많은 연구들이 나오고 있어요.
흥미로운 점은 이게
비전 모델 이전 시대였다는 거예요.
대형 언어 모델들이
텍스트 전용이었을 때죠.
시각적 요소가 없었어요.
이미지를 볼 수 없었죠.
그래서 전체적으로
매트릭스 같았어요. 매트릭스를
볼 수 있고, 코드를 볼 수 있는.
그런 식으로 작동했죠.
마인 플레어라는 걸로
작업했는데, 게임과 상호작용할 수 있는
작은 자바스크립트 코드를 작성할 수 있게 해줬어요.
플레이어가 할 수 있는
능력만 제공했어요.
갓 모드 같은 건 아니었지만,
뭔가를 채굴하거나 나무를 베기 위해
클릭하는 대신, 자바스크립트로
작은 스킬을 만들어서
대신 해주는 거였어요.
예를 들어, 여기는
좀비와 싸우는 코드였죠.
만약 작동한다면, 게임 세계에서
테스트되었어요. 작동한다면
스킬 라이브러리에 추가되었죠.
이 시스템은 정말, 정말 잘했어요.
훨씬 더 좋았고,
정체기에 빠지지 않았어요.
여기를 보면 계속 올라가죠.
계속 개선되고 있어요.
처음부터 매우, 매우 유망해 보여요.
이런 접근법이
효과가 있다는 걸 알고 있거든요.
그들은 수동으로 제작된 에이전트와
LLM에 의해 완전히 진화된 에이전트를 비교해서
이러한 시스템이 실패를 진단하고
게임 플레이 에이전트에게 샘플 행동을 전달하고
여러 반복을 통해 적응적 추론을 보여줍니다.
이는 다윈 골 머신과 유사했습니다.
인간의 혁신을 통해 만들어진
AI 코딩 에이전트들과 비교했죠.
누군가가 앉아서 계속
코드를 추가해서 이 시스템이
코딩 작업을 얼마나 잘 도울 수 있는지
개선하는 방식이었습니다.
그리고 일부 연구자들은
기본 AI 코딩 에이전트를 가져와서
이 진화적 탐색을 통해
스스로 개선하는 작업을
시도할 수 있는지 확인해봤습니다.
매번 수정사항을 추가할 때마다
코딩 벤치마크에 대해 테스트했고
벤치마크에서 성능이 향상되면
그 수정사항을
코드베이스에 추가했습니다.
즉, 스스로 개선하려고 시도하면서
그 코드 조각이
코딩 능력을 향상시키는지 테스트하고
향상시키면 자신의
코드베이스에 추가해서 스스로를 개선하는 방식이었습니다.
이것은 매우 유사하지만 카탄 정착민과
엔비디아의 보이저처럼 여러 에이전트를 사용합니다.
카탄 정착민은 다중 에이전트
전략 게임의 대표적인 예로
플레이어들이 자원 관리,
확장, 그리고 여러 턴에 걸친
협상을 계획해야 합니다.
그리고 여기서 중요한 것은
전통적인 게임 AI 방법들입니다.
LLM 기반이 아닌
단순한 강화학습으로 수행된 것들은
체스나 바둑 같은
완전정보 게임에서
초인적인 성능을 달성했습니다.
체스와 바둑에서는
볼 수 있는 모든 것을 볼 수 있습니다.
우연도 없고 확률도 없습니다.
전체 보드만 있고
모든 기물들이 어디에 있는지
관찰할 수 있습니다.
하지만 카탄에는 주사위가 있어서
확률이 있고 부분적 관찰가능성이 있습니다.
한 눈에 모든 데이터를 볼 수 없습니다.
숨겨진 것들이 있어서
무엇이 있는지 추측해야 합니다.
이것은 강화학습 접근법에
조금 더 어려울 수 있습니다.
물론 가능하지만
체스 같은 완전정보 게임만큼
쉽지는 않습니다.
여기서 우리는 네 가지 에이전트 아키텍처를 가지고 있습니다.
하나는 기본 에이전트로, 구조화되지 않은
게임 상태 설명을 직접
행동으로 매핑합니다.
그것이 무엇을 의미하는지는
잠시 후에 자세히 설명하겠습니다.
구조화된 에이전트는
게임 상태, 가능한 행동들,
그리고 더 나은 파싱과 가이드를 위한
자연어 기본 전략을 받습니다.
여기 프롬프트 예시가 있습니다.
당신은 카탄 정착민을 플레이하고 있습니다.
규칙과 보드 이해 가이드를 제공합니다.
이 게임 뒤에 있는 몇 가지 아이디어를
설명하고 게임 상태, 보드 상태에 대해서도
설명합니다. 이것이 어떻게 보이는지 살펴보죠.
게임 상태, 가장 긴 도로,
가장 큰 군대, 다양한 자원들 등입니다.
그런데 이것이 꽤 중요한 것 같습니다.
이런 논문들이 이런 것을 제공할 때
어떻게 하냐면
에이전트에게 매 프롬프트마다
현재 상태를 계속 상기시켜주는 거예요
이게 정말 정말 잘 작동하는 것 같아요
마인크래프트 보이저가 그렇게 했는데
자기가 뭘 하고 있는지 놓치지 않았어요
계속 상기시켜줬거든요
벤딩 벤치 같은 논문 있잖아요
자판기 사업을 운영하는 과제였는데
시간이 지나면서 망가졌어요
그런 상기시켜주는 부분이 없었거든요
게임 상태를 계속 알려주지 않았어요
매 턴마다 업데이트하지 않았고요
그래서 시간이 지나면서
대형 언어 모델들이 자주
맥락을 놓쳤어요
이게 정말 중요한 것 같아요
이런 걸 작동시키는 핵심이죠
세 번째로, 프롬프트 진화 시스템이 있어요
진화 에이전트와 플레이어 에이전트가
최대 10번 반복해서 상호작용하면서
카탄을 플레이할 LLM용 프롬프트를 개선하고 테스트하고 평가해요
그다음에 에이전트 진화 시스템이 있는데
진화, 분석, 연구
코딩, 플레이어 역할로 구성되어 있고
게임 간에 자율적으로
게임플레이 코드를 다시 작성할 수 있어요
이것도 마인크래프트 보이저와 매우 유사해요
여러 에이전트가
게임의 다른 부분들을 담당하죠
하나는 게임을 플레이하고
하나는 개선을 시도하고
다른 하나는 테스트하고
또 다른 하나는 설명을 작성하죠
이건 입증된 접근 방식이고 엄청 잘 작동할 것 같아요
혹시 비즈니스 목적으로
AI 에이전트를 구축하는 걸
생각해본 적 있다면
이런 것들이 바로
제대로 하는 방법의 레시피인 것 같아요
그리고 일부 논문들은 잘못된 방법도 보여주죠
지금까지는 모든 걸 제대로 하고 있는 것 같아요
이 모델들을 테스트하는 방법은
카타나트론의 가장 강력한 휴리스틱 기반 봇과
일대일 게임으로 비교하는 거예요
로직 기반 봇이 있어요
간단한 스크립트 봇 같은 거죠
여기서는 알파베타 검색 AI라고 하는데
대형 언어 모델을 사용하는 AI는 아니에요
이런 것과는 다르죠
더 기본적인 버전이라고 할 수 있어요
그리고 관련 지표들을 추적해요
평균 승점, 정착지와 도시 수
최대 군대 같은
다른 개발 지표들을요
카탄에서는 승리가
먼저 10점에 도달하는 플레이어에게 가고
정착지, 도시 등으로 점수를 얻어요
매 턴은 주사위 굴리기로 시작해서
자원을 생산하고
활성 플레이어가 거래하고 건설할 수 있어요
7이 나오면 도둑이 활성화되어
타일을 막고 자원을 훔쳐가요
으악, 자 좋아요
이 전체 시스템의 자기 진화 부분은
에이전트 진화기예요
빈 템플릿으로 시작해서
시간이 지나면서 능력을 진화시켜요
이게 바로 자기 개선 측면이에요
그래서 진화 에이전트가 있어요
이게 중앙 조정자예요
분석 보고서를 읽죠
그래서
분석기 에이전트가 플레이어의 게임플레이를 평가하고
약점을 파악하며
개선이 필요한 핵심 영역을 요약하죠.
진화기 에이전트가 이런 보고서들을 읽을 수 있어요.
이건 거의 진화기 에이전트를 위한 도구 같은 거죠.
맞아요. 이 에이전트가 게임을 분석해서
진화기에게 넘겨주면
진화기가 그걸 읽고
다음에 뭘 할지 결정하는 거죠.
연구 에이전트는 정말 흥미로워요.
카탄 규칙과 광범위한 카탄 전략에 대한
구체적인 질의를 처리하는데
로컬 파일 접근과 웹 검색을 활용합니다.
이건 일종의 심층 검색이고
다시 말하지만 심층 검색 결과를
진화기 에이전트에게 제공합니다.
정말 흥미롭네요.
실제 게임플레이를 분석하는 하나의 에이전트만
결합하는 게 아니라
새로운 전략을 시도하기 위해
심층 연구를 할 수 있는 에이전트도 있어요.
웹 검색을 하고 레딧에 가서
카탄 최고의 전략이 뭐냐고 물어보고
그걸 바탕으로 보고서를 작성해서
진화기 에이전트에게 넘겨주는 거죠.
이건 정말 기발하다고 해야겠어요.
전략가 에이전트가 있는데
고수준 게임플레이 전략을 제안하거나
과거 전략적 선택들을 비판합니다.
코더 에이전트는 제안된 변경사항을
구체적인 코드 수정으로 번역해요.
매번 기존 코드를 가져와서
변경사항을 추가하고
새로운 버전을 출력하는데
무엇을 했는지 요약도 함께 제공하고
플레이어 에이전트는 실제 AI 플레이어로
실제로 게임을 플레이하죠.
이게 시간이 지나면서 개선되는 부분이에요.
이 데이터는 MacBook Pro 2019 16GB와
MacBook M1 Max 2021 32GB에서 수집됐는데
총 60시간에 걸쳐 진행됐습니다.
이런 실험을 직접 돌려보고 싶다면
꽤 접근 가능한 수준이에요.
이건 정말 손에 닿지 않는 수준은 아니죠.
MacBook이 싸지는 않지만
수만 달러 하는 것도 아니고요.
테스트한 모델들은
GPT-4o, Claude 3.7, 그리고 Mistral Large예요.
Mistral은 오픈소스 대형 언어모델이죠.
이 게임이 실제로 플레이되는 걸 보고 싶어요.
결과가 어떨지 궁금하네요.
하지만 최신 o3 Pro 같은 걸 사용하면
당연히 실행 비용이 훨씬 비쌀 텐데
여러 에이전트가 있고
각각이 API 비용을 발생시키니까요.
오픈소스로 로컬에서 하지 않는 한
아마 그렇게 하지 않을 거예요.
Mistral AI API를 사용하고 있을 거고요.
DeepSeek R1을 사용하지 않는 이유가 궁금해요.
정말 저렴한데 말이죠.
기준 에이전트들은
Alpha Beta를 상대로 10게임을 합니다.
Alpha Beta는 이 게임을 플레이하는
좀 더 단순한 AI 접근법이고
랜덤 시드는 초기 보드 상태 생성을 위해
고정되어 있어서
실행 간 일관성을 보장합니다.
기본적으로 실행 간 게임의
변동성을 최소화하려고 하는 거죠.
모든 걸 가능한 한 일관되게 유지하려고요.
초기 보드 상태 생성에 대해서만
그렇게 하는 것 같아요.
완전히 새로운 세계를
매번 굴리지 않도록 하기 위해서죠.
매번 완전히 새로운 세계를 만들지 않도록 하는 거죠. 그렇게 되면
시작 위치에 따라 결과가
크게 달라질 수 있거든요. 그다음 프롬프트
진화기가 실행됩니다. 10번의 진화 과정을 거쳐
에이전트 진화기가 프롬프트 진화기와
유사하게 작동합니다. 하나는
프롬프트를 개선하려고 하고, 다른 하나는
실제 에이전트를 개선하려고 하죠. 그리고
마지막으로 결과입니다. 우리 LLM 에이전트가
얼마나 잘했을까요? 휴리스틱 기반 알파베타
기준선을 이길 수 있었을까요?
개선될 수 있었을까요?
처음엔 성능이 떨어졌지만
시간이 지나면서 더 나아졌을까요? 그게
핵심 질문이죠. 그리고 결과는 이렇습니다.
모델별 에이전트 성능을 보면
GPT-4o,
Claude, Mistral Large입니다. 모든
경우에서 기본 에이전트는 여기 약
3.6 정도죠. 이게 바로
진화하지 않은 개선되지 않은 에이전트입니다. 구조화된
에이전트는 GPT-4o에서 6%, Claude에서 11%
3.7. Mistral Large에서는 31% 감소했습니다.
왜 그런지 모르겠어요. 이게
가장 성능이 나쁜 것 같았습니다.
Mistral Claude 3.7이 가장
성능이 좋았습니다. Go Claude 프롬프트 진화기는
22% 증가, GPT-4o에서는 95% 증가,
Claude 3.7에서요. 이거 엄청나지 않나요?
그리고 에이전트 진화기는 GPT-4o에서 36% 개선,
Claude 3.7에서 40% 개선을 보였습니다.
여기서 요점은 이 시스템이
전략적 프롬프트를 자율적으로 반복하여
에이전트 성능을 성공적으로 개선했다는 것입니다.
성공 정도는 사용된 모델에
크게 의존하지만,
아마 지금은 더 나은
성능의 모델들이 있거나 더 많은 비용을 지불할 의향이 있다면
말이죠. Claude 3.7이
가장 중요한 전략적
발전을 보여주며 체계적으로
명확한 단기 및 장기 계획을 설명하는
상세한 전략적 프롬프트를 개발했습니다.
정확한 정착지 배치,
자원 우선순위, 개발
카드 사용, 그리고 상대방 행동에 대한
강력한 대응 전략을 포함해서 말이죠.
Claude 3.7이 훌륭했죠. 기본 대비 95%까지
개선됐습니다. GPT-4는 중간 정도였고,
Mistral Large가 가장 효과적이지 않았습니다.
가장 큰 한계는 기반이 되는
LLM이죠. LLM이 좋을수록
결과도 좋아집니다. 이게 바로
샘 알트만이 말했던 것과 같은 맥락인데
스타트업을 만든다면
현재 AI에 문제가 있는 것을 고치려고 하면 안 되고
모델이 좋아질수록
시스템이 있어야 한다는 거죠.
모델이 좋아질수록 전체
비즈니스 성능도 좋아지는
시스템 말이에요. 이런 논문들,
이런 시스템들도 마찬가지죠.
지금 이 모델들로 보고 있는
개선을 상상해보세요. 몇 년 후
차세대 모델들을 상상해보면
그것들을 그냥 연결하고 다른 모든 것을
동일하게 유지한다면, 우리가 본
개선들, 95% 개선을
기반 모델만 개선해도
아마 훨씬 더 나은 결과를
볼 수 있을 거예요.
기반 모델을 말이죠.
이게 중요한 포인트입니다. 이 모델들은
자기개선 능력이 더 좋아질 거예요.
모델들이 자기 개선을 더 잘하게 될 거예요
개선되고 성장하면서 말이죠
더 나아지면서
자기 개선 능력도 더 좋아질 거예요
또는 이런 시스템들을 자율적으로 개선하는 능력 말이죠
한 가지는 이들이 진화 단계를 10단계만 했다는 점입니다
여기서 보시면 특히 Claude 3.7 같은
최고 모델로는
계속해서 개선되고 있어요
어 보죠, 이건 뭐죠? 이건
진화 7단계네요
여기저기서 여전히 개선이 있어요
7단계 후에 평준화되긴 하지만
계속하면 더 나아질 수도 있어요
20, 30번의 진화를 예상해보면
보다시피 모든 개선이
초기에만 일어나는 건 아니에요
그러고 나서 아무것도 없는 게 아니라
진화 단계 후반부에도
계속해서 개선되고 있어요
더 많은 시간을 준다면 얼마나 잘할지 궁금해요
더 많은 진화 단계를 말이죠
7단계에서 100단계까지 그냥 평준화될지
아니면 계속하면
어느 정도 개선이 있을지
계속 진행하면 말이죠
물론 연구자들은 자금 측면에서
제약이 있었을 거예요
이게 얼마나 비용이 드는지는 모르지만
꽤 비쌀 수도 있어요
정말 놀라운 작업이에요
이 프로젝트가 정말 마음에 들어요
어디서 오픈소스로 공개되는지 궁금해요
플레이해보고 싶거든요
카타론이라고 불렸다는 걸 깜빡했는데
카타나트론은 오픈소스예요
GitHub에 있으니까 다운받아서 사용할 수 있어요
본인의 API나
대형 언어 모델을 연결할 수도 있을 거예요
하지만 이것도 재귀적으로 자기 개선이 가능한
AI 에이전트라고 부를 수 있는 또 다른 예시예요
이런 것들을 점점 더 많이 보게 되고 있어요
이런 것들을 만드는 레시피 같은 것도
더 많은 예시들을 보고 있어요
무엇이 효과적이고 무엇이 그렇지 않은지
이해하기 시작했어요
정말 흥미진진한 시대에 살고 있어요
게임을 사용해서
이런 것들을 시연한다는 점이 정말 마음에 들어요
이게 어디로 갈지
정말 기대돼요
시청해주셔서 정말 감사합니다