현재까지 나온 AI 에이전트 프레임워크 중 단연 최고 (클릭베이트 아님)

Richard Aragon 구독자 13,400명

요약

이 영상에서 발표자는 에이전틱 AI 과대광고에 회의적인 입장을 분명히 밝히고, 자신이 최초로 Gorilla LLM을 튜닝하며 다년간 직접 멀티에이전트 프레임워크를 연구해온 배경을 소개합니다. 전통적 LLM이 ‘알기(knowing)’와 ‘하기(doing)’ 과정이 수학·구조적으로 분리되어 있어 에이전틱 작업에 부적합함을 설명한 뒤, 이를 해결한 Zarya 아키텍처(이중 고속도로, Path Mech, zero resonance 및 모듈식 메모리 컨트롤 등)의 핵심 설계를 제시합니다. 마지막으로 ROCG(Recursive Object Command Game) 벤치마크에서 1M 파라미터 Zarya 모델이 100% 정확도를 기록하며 2B 파라미터 GMA 모델을 압도한 실험 결과를 공유하고, 모든 아키텍처를 MIT 라이선스 기반으로 오픈 소스 제공한다고 밝힙니다.

주요 키워드

Zarya Architecture Agentic AI Large Language Model (LLM) Transformer Tokenizer Attention Mechanism Latent Space Fractalization Recursive Object Command Game (ROCG) Zero Resonance

하이라이트

🔑 스피커는 에이전틱 AI 과대광고에 수년간 회의적이었고, 모든 상용 솔루션을 혹평해왔다.
⚡️ 최초 오픈소스 Agentic AI인 Gorilla LLM을 직접 튜닝하며 연구 방향을 잡았고, 이를 계기로 모든 후속 프로젝트를 공개하기로 결심했다.
🌟 전통적 LLM은 ‘알기’와 ‘하기’가 수학적·물리적으로 분리되어 있어 실제 행동 추론을 할 수 없다고 지적했다.
📌 Zarya 아키텍처는 ‘알기’ 전용 고속도로와 ‘하기’ 전용 고속도로를 연결해 두 과정을 자연스럽게 융합시키는 혁신적 설계를 적용했다.
🚀 Path Mech 메커니즘을 도입해 단일 토큰을 다의적 프랙탈 표현으로 분할하고, zero resonance 계층으로 불필요한 노이즈를 억제한다.
📊 ROCG 벤치마크에서 1M 파라미터 Zarya가 100% 정확도를 기록한 반면, 2B 파라미터 GMA는 전 항목에서 실패율이 높았다.
📂 모든 코드와 아키텍처는 MIT 라이선스 기반으로 오픈소스 제공될 예정이며, 자세한 노트북과 문서는 곧 공개된다.

용어 설명

Agentic AI

스스로 계획·추론·행동이 가능한 자율 에이전트 인공지능

LLM

대규모 언어 모델(Large Language Model), 텍스트 예측과 생성을 위해 학습된 딥러닝 모델

Transformer

어텐션 메커니즘을 중심으로 토큰 간 상관관계를 학습하는 기반 신경망 구조

Tokenizer

텍스트를 모델이 처리할 수 있는 토큰(단어·서브워드) 단위로 분할하는 전처리 모듈

Attention Mechanism

토큰 간 중요도(가중치)를 계산해 입력 시퀀스 전반의 문맥을 반영하는 메커니즘

Latent Space

모델이 학습한 입력 데이터의 잠재 표현 공간, 의미 구조가 수치화된 공간

Fractalization

단일 토큰을 확률적 프랙탈 특성으로 여러 의미 단위로 분해하는 방식

Recursive Object Command Game (ROCG)

사실·규칙·명령 기반의 중첩 논리 추론·메모리 테스트 벤치마크 게임

Zero Resonance

의미 있는 활성화는 증폭하고 불필요한 노이즈는 억제하는 Zarya 전용 계층

Ghost Memory Module

확률적 재구성을 허용해 인간 기억처럼 일관적이지 않은 장기·단기 기억을 모방하는 메모리 모듈

• 에이전틱 AI 과대광고에 수년간 회의적이었다는 입장 명확화 • 자신이 모든 상용 솔루션을 비판해온 경력 소개 • 이 영상에서 다룰 주제(모델·벤치마크·Zarya 아키텍처) 예고

[00:01] 발표자가 에이전틱 AI에 대한 자신의 명확한 입장을 밝히고, 이 분야에 대한 자격과 배경을 설명하겠다고 소개합니다.

[00:22] 에이전틱 AI 과대광고에 지친 사람들과 같은 편임을 강조하며, 모든 에이전틱 AI 회사들을 비판해왔다고 밝힙니다.

[00:59] 2022년 11월 ChatGPT 출시 당시부터 에이전틱 AI가 꿈이었으며, 2023년 초 첫 번째 에이전틱 AI 시스템인 Gorilla LLM이 등장했다고 설명합니다.

• ChatGPT 출시에 영감 받아 2022년 말 에이전틱 AI 연구 시작 • 2023년 초 공개된 Gorilla LLM을 직접 튜닝·실험 • 최초 오픈소스 에이전틱 프로젝트로서 개발 철학 확립

[01:27] Gorilla LLM 개발자들을 알고 있으며, 그들의 오픈소스 정신에 감명받아 자신도 모든 프로젝트를 오픈소스로 공개한다고 밝힙니다.

[02:08] Gorilla LLM 출시 당일부터 실험해왔으며, 그 이후 자신만의 멀티-에이전트 LLM 프레임워크를 구축했다고 설명합니다.

[02:46] 초기 시도가 실패한 이유는 모델에게 너무 많은 것을 주었기 때문이며, 이를 개별 구성 요소로 분해하는 프레임워크가 필요했다고 분석합니다.

• 플래너, 콜러, 요약기로 역할 분할하는 3분할 프레임워크 설계 • 모델별 개별 파인튜닝과 전역(progressive) 파인튜닝 전략 적용 • 스웜 알고리즘과 결합한 멀티플렉스 프레임워크 실험

[03:04] 화자가 2년 전에 만든 AI 프레임워크를 소개하며, 각 작업을 플래너, 콜러, 요약기로 나누고 3개의 독립적인 LM 모델을 사용하는 구조를 설명합니다.

[03:17] 각 작업마다 개별 파인 튜닝을 수행한 후 전역 파인 튜닝을 추가로 진행하는 점진적 파인 튜닝 전략에 대해 상세히 설명합니다.

[03:33] 화자가 스웜 알고리즘과 LM 모델을 결합한 연구의 최초 개척자임을 강조하며, 현재 상황에서 추천할 만한 두 가지 에이전트 프레임워크가 있다고 언급합니다.

• 트랜스포머 수학 구조상 지식(latent space)·실행(logic)을 분리 • 토크나이저·피드포워드·그래디언트 메커니즘의 근본적 제약 • 보상 구조가 ‘알기’에만 최적화되어 에이전틱 행동 불가능

[04:01] 화자가 자신의 채널에서 에이전트 관련 동영상을 많이 만들지 않으며, 만들 때마다 비판적인 입장을 취하는 이유를 설명하기 시작합니다.

[04:18] LM 모델이 에이전트 작업에 적합하지 않다는 핵심 주장을 제시하며, 이것이 수학적이고 물리적인 한계에서 비롯된다고 설명합니다.

[04:40] 모델의 잠재 공간 구축 방식과 에이전트 액션이 수학적으로 양립할 수 없다는 기술적 근거를 제시하며, 이에 대한 광범위한 연구를 수행했다고 밝힙니다.

[05:06] 문제에 대한 해결책으로 Zarya 아키텍처를 제안하며, 트랜스포머 아키텍처의 주요 문제점들을 피드포워드 메커니즘, 토크나이저 프로세스, 경사 하강법으로 분류하여 설명합니다.

• 두 개의 고속도로(‘알기’·‘하기’)를 연결해 병렬 유기적 처리 • Path Mech을 통한 프랙탈화 토큰 표현으로 의미 다양성 확보 • zero resonance 계층으로 노이즈 억제 및 의미 활성화 강화

[05:46] 화자는 어텐션 메커니즘의 계산 비용 문제를 포함해 트랜스포머 모델의 3.5개 치명적 약점을 언급하며, 3년간 수조 달러가 투입되었음에도 단 하나의 LLM도 에이전트 작업에서 만족할만한 성과를 보이지 못했다고 비판합니다.

[06:34] GPT-5가 처음으로 임계점을 넘을 가능성이 있지만 여전히 많은 결함이 지적되고 있으며, 인간과 달리 LLM은 '아는 것'과 '실행하는 것' 사이에 근본적인 단절이 존재한다고 설명합니다.

[07:21] LLM은 모든 농구 데이터를 가져도 농구를 잘 하지 못하는 것처럼, 아키텍처 자체에서 지식과 실행 사이의 고속도로가 분리되어 있고, 수학적 수준에서 '아는 것'에만 보상하고 '하는 것'에는 보상하지 않는 구조적 문제가 있다고 진단합니다.

[08:20] 아키텍처와 싸우기보다는 연결된 두 개의 고속도로를 가진 새로운 아키텍처를 구축하는 것이 해결책이며, 추가로 두 번째 주요 문제점이 있다고 언급하며 설명을 이어갑니다.

[08:37] 토크나이저의 한계점과 Zarya 아키텍처의 차별점을 설명합니다. 기존 LLM은 정보를 토큰화하여 잠재 공간의 단일 공간으로 변환하지만, Zarya는 패스 메크 메커니즘을 통해 확률적 프랙탈 특성을 활용합니다.

[09:02] 'fire'라는 단어를 예시로 들어 의미의 다양성을 설명합니다. 하나의 단어가 '해고', '열정', '불', '배짱' 등 여러 의미를 가지지만, LLM에서는 하나로 표현되는 반면 Zarya 모델에서는 실제 의미 수만큼 표현됩니다.

[09:30] Zarya 모델의 보상 체계가 다름을 설명합니다. 다음 토큰 예측이 아닌 데이터로부터의 편차를 기반으로 보상받으며, 공명 함수처럼 구축된 재귀 함수로 작동합니다.

[09:50] 이런 아키텍처 설계를 바탕으로 Zarya 모델을 구축하고 훈련하며 벤치마킹하고 있다고 소개합니다. 현재 Zarya 대 Gamma 비교 테스트를 진행 중입니다.

• 사실(facts)–규칙(rules)–행동(actions) 구조로 에이전틱 추론 테스트 • 중첩 조건, 모순, 방해 요소, 메모리 요구 시나리오 포함 • 모델이 규칙 기반 절차적 실행을 진짜로 이해하는가 평가

[10:05] '재귀 객체 명령 게임'이라는 새로운 테스트 방법을 발명했다고 소개합니다. 이 게임은 모델이 기호적 지식을 절차적 실행과 연결하는 능력을 평가합니다.

[10:17] 게임의 구체적인 구조를 설명합니다. 사실(객체 A는 빨간색)과 규칙(객체 A가 빨간색이면 객체 B를 왼쪽으로 이동)이 주어지고, 모델은 올바른 행동을 결정해야 합니다.

[10:41] 이 게임이 중첩 논리, 모순, 메모리 등 복잡한 시나리오를 통해 AI의 추론 능력에 도전한다고 설명합니다.

[10:49] 모델의 추론 한계를 지적합니다. 모델들은 정보를 암기하지 않는 한 이런 테스트에 실패하며, '객체 A는 빨간색'을 '객체 A는 파란색'으로 단순 변경해도 실패하는 것이 모델이 진정한 추론을 하지 못한다는 증거라고 설명합니다.

[11:24] AI 모델의 추론 능력과 아키텍처 한계에 대한 관점을 제시하며, 모델들이 확률적 방식으로 격차를 메우는 방법을 찾았다고 설명합니다.

[11:57] 100만 매개변수 자리야 모델과 20억 매개변수 GMA 모델을 비교한 벤치마크 테스트를 다윗과 골리앗에 비유하며, 큰 모델이 작은 모델을 압도하지 못하는 현상을 설명합니다.

[12:28] 골리앗이 아무리 커도 물매 사용법을 배우지 못한다는 비유를 통해, 휴대폰에 들어갈 수 있을 정도로 작은 모델이 모든 에이전트 작업에서 큰 모델을 이길 수 있다고 주장합니다.

[12:57] 새로운 아키텍처의 핵심을 설명합니다. 모델의 뇌를 노(No) 반구와 두(Do) 반구로 나누어 두 개의 다른 잠재 공간으로 처리하되, 인간의 뇌처럼 어텐션 메커니즘이 양쪽에 동시에 작동한다고 소개합니다.

[13:55] 자신의 시스템이 현재 시장의 모든 에이전트 프레임워크를 압도한다고 주장하며, 만약 유명한 AI 리더였다면 이 성과가 대대적으로 보도되었을 것이라고 언급합니다. 자리야 아키텍처를 100% 오픈소스로 공개했다고 밝힙니다.

[14:23] 기존 AI에 대한 과대광고와는 달리, 이번에는 진짜로 현재 존재하는 모든 것을 뛰어넘는 획기적인 기술이라고 강조하며 Zarya에 대한 심화 설명을 제공함

[14:54] ROCG(재귀적 객체 명령 게임) 벤치마크는 상징적 지식을 절차적 행동으로 변환하는 실제 세계의 에이전트 추론을 시뮬레이션하는 복합적 테스트임

[15:33] ROCG는 모델이 상징적 사실 해석, 조건부 규칙 적용, 중첩 조건과 모순 규칙 등의 논리적 복잡성을 처리하는 능력을 평가하며, 현재 모든 LM 아키텍처가 이 부분에서 실패함

[16:15] 이러한 테스트는 자율 내비게이션, 로봇 조작, 적응형 워크플로우 계획 등 실제 AI 에이전트 설계 작업을 밀접하게 모방함

• 1M 파라미터 Zarya 모델이 ROCG에서 100% 정확도 달성 • 2B 파라미터 GMA 모델은 전반적으로 높은 실패율 기록 • Zarya는 크기가 아닌 구조 설계로 에이전틱 추론을 최적화하며, 모든 코드를 MIT 라이선스로 오픈소스 제공 예정

[16:24] Zarya는 PAF와 함께 '알기'와 '행하기' 사이의 격차를 메우도록 설계되어, 상징적 지식을 프랙탈 상태 변환과 동적 게이팅을 통해 실행 가능한 루틴에 직접 연결함

[16:56] 기존 LMS는 사실과 행동을 정적 토큰 확률로만 표현하여 상관관계를 인과관계와 혼동하는 반면, Zarya는 모델에게 두 개의 반구를 제공하여 토큰을 분리할 수 있는 방법을 제시함

[17:11] Zarya 모델의 토큰화 시스템에 대해 설명하며, 토큰이 프랙탈화되어 여러 의미를 동시에 가질 수 있다고 소개합니다.

[17:30] 제로 공명 레이어가 의미 있는 활성화를 증폭하고 노이즈를 억제하여 방해 요소를 처리하는 방식을 설명합니다.

[17:52] 기존 LLM의 어텐션 메커니즘을 재구성하여 프랙탈 기반의 어텐션 메커니즘으로 개선한 과정을 설명합니다.

[18:12] Zarya의 재귀 실행 모델이 규칙을 실행 가능한 논리 트리로 처리하여 행동을 연결하고 모순을 해결하는 방식을 소개합니다.

[18:36] 모듈식 메모리 제어 시스템과 고스트 메모리 모듈의 개념을 설명하며, 확률적 메모리의 생물학적 장점을 강조합니다.

[19:48] Zarya가 벤치마크 테스트에서 100%와 60%의 높은 성능을 보인 반면 GPT-4는 실패한 결과를 보여주며, 이것이 단순한 토이 벤치마크가 아님을 강조합니다.

[20:20] Zarya가 크기가 아닌 에이전트적 사고 방식으로 설계되어 추론에 최적화된 점과 AI 에이전트의 미래 방향성을 제시합니다.

[00:01] 안녕하세요 여러분. 먼저 이 영상을

[00:02] 시작하면서 이 주제에 대한 제 입장을

[00:05] 명확히 하고 싶습니다. 그 다음에 제

[00:07] 배경을 설명드릴게요. 그래야 제가 왜

[00:09] 이런 주제에 대해 이야기할 자격이

[00:12] 있는지, 그리고 우리가 무엇을

[00:14] 논의하고 있는지 정확히 이해하실 수

[00:16] 있을 거예요. 그 다음에는 모델과

[00:18] 벤치마크를 보여드리고, 제가 왜

[00:22] 흥미로워하는지 설명하겠습니다. 만약

[00:25] 여러분이 에이전틱 AI에 대한 과대광고에

[00:28] 지쳤다면, 에이전틱 AI라는 말만 들어도

[00:31] 신경이 거슬린다면, 저는 천만 퍼센트

[00:35] 그런 편에 속합니다. 몇 년 동안

[00:37] 그래왔어요. 이게 제 솔직한 입장이고,

[00:40] 더 간단하게 말할 수는 없을 것 같네요.

[00:42] 지구상에 등장한 모든 에이전틱 AI

[00:44] 회사들을 저는 다 비판해왔습니다.

[00:48] 정말 말 그대로요. 이름을 대라고 하면

[00:50] 다 말할 수 있어요. 이름을 굳이 거론하고

[00:52] 싶지는 않지만, 다 쓰레기라고

[00:54] 생각합니다. 그럼 이 분야에서의 제

[00:56] 배경을 말씀드리죠. 제 배경은

[00:59] 이렇습니다. ChatGPT가 처음

[01:01] 출시되었을 때부터, 2022년 11월로

[01:03] 돌아가보면, 제 꿈은 에이전틱 AI였고

[01:06] 지금도 그렇습니다. 왜냐하면 그 방향이

[01:09] 올바르다는 걸 봤거든요. 그리고

[01:12] 모든 사람들도 그걸 봤죠. 그 후

[01:14] 처음으로 나온 에이전틱 AI 시스템이

[01:17] 약 5개월 후에 나왔습니다.

[01:20] 2023년 2월이나 3월 정도였죠.

[01:23] 바로 Gorilla LLM이었습니다.

[01:25] 이 친구들을 저는 알고 있었는데,

[01:27] 제가 만든 모든 에이전틱 프로젝트를

[01:31] 오픈소스로 공개하는 이유가 바로

[01:34] 이 사람들 때문입니다. 정말이에요.

[01:37] 지금은 마이크로소프트에 흡수되었고,

[01:39] 각자 자신들의 일을 하고 있어요.

[01:42] 어떤 이들은 자신들만의 일을 하고

[01:44] 있죠. 다들 잘 자리를 잡았어요.

[01:46] 하지만 그들이 당시에 이걸 발명했을

[01:48] 때는 문제를 해결했다고 생각되었습니다.

[01:49] 그들이 최초로 해낸 것이었죠.

[01:52] Gorilla LLM을 출시했을 때, 저는

[01:54] 출시 당일부터 그걸 가지고 놀면서

[01:56] 튜닝하고 실험해왔습니다.

[01:59] 그리고 그 당시에는 그들이 이 문제를

[02:01] 해결했다고 생각되었고, 그들이

[02:03] 오픈소스로 공개한 것은 제가 본 것 중

[02:06] 가장 놀라운 일이었습니다.

[02:08] 그 날부터 저는 이 분야에서 하는

[02:11] 모든 연구를 그들의 선례를 따라

[02:13] 오픈소스로 공개하겠다고 약속했습니다.

[02:17] 정말 대단한 일이었거든요.

[02:19] 그래서 그 이후로 계속 그렇게

[02:22] 해왔습니다. 그럼 이 분야에서의

[02:24] 제 전체적인 경험은 무엇일까요?

[02:26] 그 당시에 있었고 첫 번째 에이전틱

[02:29] LLM 프레임워크가 나오는 걸 봤다는

[02:31] 건 좋지만, 그 이후엔 어떻게 되었을까요?

[02:34] 저는 제 자신만의 프레임워크를

[02:38] 구축했습니다. 멀티-에이전트 LLM이라는

[02:40] 큰 프로젝트였는데, 이건 Gorilla가

[02:41] 나온 후 실패했을 때 만들어진

[02:44] 거예요. 그 첫 번째 시도는

[02:46] 모델에게 너무 많은 걸 주고 있다는

[02:48] 깨달음에서 시작되었습니다. 우리는

[02:51] 본질적으로 그것들을 이 프레임워크로

[02:53] 분해해야 했고, 이것이 바로 여러분이

[02:55] 오늘날에도 볼 수 있는 그 프레임워크

[02:57] 입니다. 그리고 제가 만든 것이

[02:59] 바로 이것인데, 본질적으로 각

[03:01] 개별적인 것들을 분해하는

[03:02] 프레임워크입니다.

[03:04] 오늘날에도 볼 수 있는 프레임워크죠. 그래서 이건 2년 전의 저입니다.

[03:06] 기본적으로 각각의 개별 작업을

[03:08] 플래너, 콜러, 그리고 요약기로 나누고

[03:11] 각각 이런 개별 작업들로

[03:12] 분할된 3개의 독립적인 LM 모델을 갖게 됩니다.

[03:14] 모델을 두 번의 파인 튜닝으로 처리하는데,

[03:17] 각 작업마다 하나씩입니다. 그래서

[03:18] 플래너는 개별적인 파인 튜닝을,

[03:20] 콜러와 요약기도 마찬가지고요. 그리고

[03:22] 그 위에 전역 파인 튜닝 같은

[03:23] 2차 파인 튜닝을 수행합니다, 맞죠?

[03:25] 전역에서 점진적

[03:26] 파인 튜닝 전략이 매우

[03:28] 구체적으로 여기 제시되어 있습니다.

[03:29] 이건 2년 전의 제가 만든 것입니다.

[03:31] 그리고 만약 여러분이

[03:33] 스웜 알고리즘 같은 스웜 에이전트를

[03:36] LM 모델과 결합해서 실험해본 적이 있다면,

[03:39] 저는 말 그대로 이런 것들을

[03:41] 처음으로 가지고 놀았던 최초의 사람입니다.

[03:42] 이것은 명백하게 말할 수 있어요.

[03:43] 맞죠? 그리고 저는 LM 모델과

[03:45] 스웜 알고리즘을 결합하는 것에 관해

[03:48] 여러 개의 프레임워크를 가지고 있습니다.

[03:51] 만약 제가 현재 상황에서

[03:54] 어떤 에이전트 프레임워크든 추천한다면,

[03:56] 이 두 가지일 것입니다.

[03:59] 하지만 제 채널의 많은 동영상을 보시면,

[04:01] 저는 에이전트에 관한 동영상을

[04:02] 많이 만들지 않습니다. 제가 에이전트에 관한

[04:05] 동영상을 만들 때마다

[04:08] 볼 수 있듯이 저는 그것을 비판하죠, 맞죠?

[04:10] 왜냐하면 저는 이 의견을

[04:13] 개발하고 강화해왔기 때문입니다.

[04:15] 점점 더 전반적으로 말이죠. 매우

[04:18] 간단하게 말하면 LM 모델은

[04:20] 이 일에 적합하지 않습니다. 그들은

[04:22] 이 작업에 적합한 도구가 아니며

[04:24] 앞으로도 그럴 일은 없을 것입니다. 그게

[04:27] 바로 핵심입니다. 그것은

[04:29] 수학적으로 귀결됩니다.

[04:31] 모델이 어떻게

[04:33] 잠재 공간을 구축하는지를 정확히 이해하면,

[04:35] 에이전트 액션 내에서 모델이 무엇을

[04:38] 해주길 원하는지와 그것이

[04:40] 잠재 공간과 어떻게 결합되는지를 알면,

[04:42] 수학적으로나 물리적으로 작동하지 않습니다.

[04:45] 그것이 핵심입니다, 맞죠? 그래서

[04:47] 그 안에서 저는 항상 말과 행동을

[04:49] 일치시키길 좋아합니다. 그래서

[04:52] 그것이 제 가설이고 많은 사람들의

[04:55] 가설이기도 하죠, 맞죠? 저는 이것을

[04:58] 이 특별한 주제에 대해

[04:59] 엄청난 연구를 한 것에 기반하고 있습니다.

[05:02] 그런데 그렇다면

[05:04] 해결책은 무엇일까요, 아인슈타인?

[05:06] 좋아요, 그게 문제라면

[05:08] 해결책은 무엇일까요? 제

[05:10] 해결책은 매우 간단합니다.

[05:12] 저는 이 Zarya 아키텍처에 대해

[05:14] 몇 개의 동영상을 이미 만들었습니다.

[05:16] 매우 구체적으로 몇 가지

[05:18] 요소들과 전반적인 몇 가지 문제들이

[05:21] 있는데 Zarya가 이 안에서 해결하는 것이죠.

[05:23] 저는 트랜스포머 아키텍처의 문제들을

[05:26] 매우 간단하게 분석하여

[05:28] 피드포워드

[05:29] 메커니즘, 토크나이저 프로세스 자체,

[05:32] 그리고 경사 하강법으로 나눕니다. 이 세 가지

[05:35] 문제들이 있고, 그리고 만약

[05:37] 3.5번째를 추가한다면 어텐션

[05:40] 메커니즘이겠지만 그것은

[05:42] 목록에서 훨씬 낮은 순위에 있을 것입니다.

[05:43] 맞죠? 그리고

[05:46] 어텐션 메커니즘에 대한 제가 갖고 있는 문제점은

[05:47] 단순히 너무나도

[05:48] 계산 비용이 많이 든다는 것입니다. 그래서 음

[05:51] 제 목록에서 3.5개 항목이

[05:54] 전체적으로 트랜스포머 모델들에게는

[05:57] 치명적인 약점이라고 생각합니다. 그리고 이것을

[06:00] 제거하고 앞으로 가져온다면

[06:02] 이러한 에이전트 작업들과

[06:04] 우리가 여기서 보고 있는 것들에 대해서는, 저는

[06:06] 3년 동안 우리가 LLM 모델을 가지고 있었지만

[06:08] 단 하나도 어떤 수준에서든 에이전트 작업에 좋지 않았습니다.

[06:11] 우리는 모든 것을 시도해봤고

[06:14] 수조 달러를 투입했습니다. 음 그리고

[06:17] 현재 시점에서 단 하나도 좋지 않습니다

[06:20] 맞습니다, 합격점에 도달하지 못했어요. GPT-5는 음

[06:23] 이 영상을 만드는 시점에서는 아마도

[06:26] 가장 음 아마도 가장

[06:28] 진보적인 발전으로

[06:30] 그런 면에서 보이는 것이고

[06:32] 그것이 아마도

[06:34] 사람들이 말하는

[06:35] 전체적으로 좋다는 임계점을 넘을 수 있는 첫 번째 모델일 수도 있지만

[06:39] 여전히 저는, 저는 이미 본 바로는

[06:41] 많은 사람들이 이미

[06:42] 그 안의 결함들을 지적하고 있습니다. 그래서

[06:46] 그 안에서의 핵심은

[06:48] 왜 정확히 그런 일이 발생하는지에 대한

[06:51] 단순한 설명으로는, 음 가장

[06:54] 함축적인 설명을 드리자면

[06:56] 인간에게는 아는 것과

[06:58] 실행하는 것이 동일한

[07:01] 과정입니다. 맞죠, 만약 당신이 무언가를 안다면

[07:02] 그것을 실행할 수 있습니다. 음 만약

[07:05] 무언가를 모른다면 실제로

[07:06] 실행할 수 없고 그것이 바로

[07:08] 존재하는 상관관계입니다. 맞죠, 만약 제가

[07:10] 당신에게 농구를 하라고 하는데 농구하는 방법을 모른다면

[07:13] 실행하지 못할 것입니다.

[07:14] 농구하는 방법을 안다면

[07:16] 잘 실행할 것입니다.

[07:18] 맞죠 음 그리고 우리는 LLM 모델들과는

[07:21] 명확하게 그 구분을 그을 수 있습니다.

[07:23] 같지 않습니다. 그들은 존재하는 모든

[07:26] 농구 선수들의 전체 저장소와

[07:28] 모든 데이터를 가지고 있어도

[07:30] 농구를 잘 하지 못할 것입니다. 음

[07:33] 아키텍처 자체의 고속도로에서

[07:35] 아는 것과 하는 것 사이에

[07:38] 단절이 있습니다. 매우 단순하게 말해서,

[07:40] 맞죠? 음 그리고 왜 정확히 그 단절이 존재하는가? 그것은

[07:43] 존재합니다. 왜냐하면 제가 방금

[07:44] 설명한 그 메커니즘들 때문입니다. 그리고 그것은

[07:46] 그 메커니즘들 안에서

[07:48] 수학적 수준에서 존재합니다. 매우 단순하게,

[07:49] 수학적 수준이 모델에 두 개의 다른

[07:52] 고속도로를 만들고 그다음 그것은

[07:54] 모델에게 매우 구체적으로

[07:56] 아는 것에 대해서만 보상하고 하는 것에 대해서는 보상하지 않습니다.

[07:58] 그것을 하는 것에 대한 보상

[08:01] 메커니즘이 모델 안에 없습니다.

[08:03] 그것을 하도록 자신을 훈련시키지 않습니다. 맞죠?

[08:06] 그것은 음 창발적 과정입니다. 만약

[08:09] 그것이 실제로 그 분류 내에서

[08:12] 음 어떤 종류의 능력을 가질 수 있다면

[08:15] 음 그리고 그것이 그 아키텍처에도 불구하고

[08:18] 발생한다면 기적입니다. 맞죠? 그리고 그래서 음

[08:20] 아키텍처와 싸우기보다는, 단순히

[08:23] 연결된 두 개의 고속도로가 있는 아키텍처를

[08:25] 구축하세요. 매우 간단합니다, 맞죠?

[08:26] 그리고 그 안에서 매우 직관적입니다.

[08:28] 그리고 더 구체적으로

[08:30] 제가 이 안에서 보는 두 번째 문제는

[08:34] 이 두 번째 큰 문제는

[08:36] 바로

[08:37] 토크나이저 자체, 즉

[08:39] 정보를 받아서 토큰화하는 과정을

[08:42] 본질적으로 잠재 공간의 하나의 단일 공간으로

[08:44] 변환하는 것이죠. 이에 대해 영상을 만들었는데

[08:46] Zarya의 아키텍처가

[08:48] 구체적으로 이 문제를 해결하고 우회합니다.

[08:51] 토큰화 대신에

[08:53] 패스 메크 메커니즘을 사용하는데, 이는

[08:55] 본질적으로 확률적 프랙탈 특성을

[08:59] 변환에 통합합니다.

[09:00] 본질적으로

[09:02] 단어를 변환하는 것이죠. 가장 간단하게

[09:03] 설명하자면

[09:05] 'fire'라는 단어를 예로 들면, 'fire'는

[09:06] 실제로 여러 의미를 가질 수 있습니다.

[09:08] '해고당했다', '열정적이다', 음

[09:11] '불이 났다', '배에 열정이 있다'.

[09:13] 여기서만 세 가지 의미가 있죠.

[09:15] 그리고 'fire'가

[09:16] 실제로 7~8개의 의미를 가진다고 하면

[09:18] LLM 모델에서는

[09:20] 하나로 표현되지만, 제 모델에서는

[09:22] 7개든 6개든 실제

[09:24] 의미 수만큼 표현됩니다. 그리고

[09:27] 또 다른 차이점은 제 모델은

[09:30] 다음 토큰 예측에 대해 보상받지 않습니다.

[09:33] 제 모델은 매우 구체적으로

[09:35] 본질적으로

[09:37] 데이터로부터의 편차를 기반으로

[09:40] 보상받습니다. 공명 함수처럼 구축되었지만

[09:41] 그것이 작동하는 방식이죠.

[09:43] 전체 모델 내에서

[09:44] 재귀 함수처럼 말입니다. 그래서

[09:47] 매우 구체적으로

[09:50] 이런 아키텍처 설계를

[09:52] 염두에 두고, 저는 지금

[09:55] Zarya 모델을 구축하고 훈련하고 벤치마킹하고 있습니다.

[09:58] 그리고 현재

[10:00] 벤치마크 테스트를 위해 Zarya 대 Gamma를 비교하고 있습니다.

[10:03] 그리고 저는

[10:05] 본질적으로 이 게임을 발명했는데, 우리는 이것을

[10:07] 재귀 객체 명령

[10:09] 게임이라고 부릅니다.

[10:11] 이 게임은 모델이 기호적 지식을

[10:13] 절차적 실행과 연결하는 능력을 테스트합니다.

[10:15] 각 테스트 케이스에서

[10:17] 모델에게 하나의 사실, 즉 세상의 상태를

[10:20] 정의하는 간단한 명제가 주어집니다.

[10:22] 예를 들어, 객체 A는 빨간색입니다.

[10:24] 둘, 규칙, 조건부 지시사항이

[10:27] 사실을 기반으로 행동을 지시합니다.

[10:29] 예를 들어, 객체 A가

[10:31] 빨간색이면 객체 B를 왼쪽으로 이동하라는 것입니다.

[10:35] 모델의 목표는 사실과 규칙을 읽고

[10:37] 올바른 행동을 결정하는 것입니다.

[10:39] 이 게임은 구체적으로

[10:41] 여러 복잡한 시나리오를 도입하여 AI의 추론 능력에 도전합니다.

[10:44] 중첩 논리, 모순, 그리고 메모리입니다.

[10:46] 전반적으로 사람들이

[10:49] 모델의 추론에 대해 의문을 제기할 때

[10:51] 바로 이것 때문이고

[10:53] 이런 특정한 형식들 때문입니다.

[10:55] 모델들은 정보를 암기하지 않는 한

[10:59] 이런 테스트에 실패합니다.

[11:01] 즉, 만약 그들이

[11:02] 이 테스트를 암기했다면 통과할 것입니다. 만약

[11:05] 모른다면, 예를 들어 간단한 것을 바꾸면

[11:07] 그들이

[11:09] 객체 A는 빨간색이라고 암기했는데 이것을

[11:11] 객체 A는 파란색으로 바꾸면 테스트에 실패할 것이고

[11:14] 그것은 간단한 예시이지만

[11:17] 모델들이 그렇고

[11:19] 많은 사람들이 그래서

[11:20] 모델이 추론하지 않는다고 말할 때

[11:23] 그것이 그들이 말하는 단절입니다

[11:24] 제가 말하고 싶은 점은, 모델들이 실제로는

[11:28] 추론 능력을 가지고 있다고 생각한다는 거예요.

[11:30] 그들은 가능성과

[11:32] 확률적 방식으로

[11:35] 그 격차를 메우는 방법을 알아냈어요. 하지만

[11:38] 그들의 아키텍처에도 불구하고

[11:41] 그걸 해낼 수 있다면

[11:43] 그렇죠. 그런 게 사실인지 아닌지 논쟁하기보다는

[11:46] 여러분이 스스로 판단하시면 될 것 같아요.

[11:48] 저는 모델에게

[11:50] 그걸 할 수 있는 아키텍처를 제공할 거예요.

[11:52] 바로 그게 이 시스템의 핵심이죠.

[11:54] 그리고 우리의 간단한 벤치마크 테스트는

[11:57] 이거예요. 100만 개 매개변수를 가진

[11:59] 자리야 모델 대

[12:01] 20억 개 매개변수를 가진 GMA 모델이에요.

[12:04] 완전히 다윗과 골리앗 같은 상황이죠.

[12:08] 골리앗이 다윗을 압도해야 하는데

[12:10] 벤치마크는 거짓말을 하지 않아요.

[12:12] 골리앗은 그렇지 못하고 있죠.

[12:14] 골리앗은 전혀 그렇지 못해요.

[12:16] 골리앗은 물매 사용법을 모르거든요.

[12:20] 골리앗은 물매 사용법을

[12:23] 절대 배우지 못할 거예요.

[12:26] 그게 바로 이 시스템의 문제점이죠.

[12:28] 골리앗이 아무리 커도

[12:30] 골리앗은 절대

[12:33] 물매 사용법을 배우지 못할 거예요.

[12:36] 그래서 저는 여러분 휴대폰에

[12:38] 들어갈 수 있는 모델을 가져다가

[12:42] 플로피디스크 몇 장에도 들어갈 정도로

[12:45] 작은 모델로

[12:48] 모든 에이전트 작업에서 골리앗을 이길 수 있어요.

[12:52] 이 아키텍처가 어떻게 다른지

[12:55] 가장 간단하게 설명하면

[12:57] 모델의 뇌를 두 개의

[13:00] 다른 반구로 나누는 거예요.

[13:01] 기본적으로 모델의 뇌를

[13:04] 두 개의 다른 반구로 처리하는 거죠.

[13:07] 노(No) 반구와

[13:09] 두(Do) 반구가 있고

[13:10] 이를 두 개의 다른 잠재 공간으로

[13:13] 각각 개별적으로 처리한 다음

[13:15] 이를 인식하고 하이웨이

[13:17] 아키텍처를 구축해요.

[13:19] 각각 개별적으로요.

[13:20] 하지만 이 모델이 거치는 모든

[13:23] 단일 훈련 시퀀스에서

[13:24] 두 반구 모두 동시에 훈련돼요.

[13:26] 어텐션 메커니즘은

[13:28] 양쪽에 동시에 주의를 기울여요.

[13:30] 두 개의 분리된 반구지만

[13:33] 인간의 뇌처럼

[13:35] 어텐션이 통과하죠.

[13:37] 정확히 인간의 뇌가

[13:38] 작동하는 방식이에요.

[13:40] 인간의 뇌는 하나의 단단한

[13:42] 객체가 아니에요. 두 개의 분리된 반구죠.

[13:44] 그런 이유가 있는 거죠.

[13:46] 분명히 좋은 이유가 있을 거예요.

[13:48] 그래서 이걸

[13:50] 이 시스템에 통합한 거고, 여기 결과가 있어요.

[13:55] 저는 현재 시장에 존재하는 모든

[13:58] 에이전트 프레임워크를

[13:59] 완전히 압도하고 있어요. 만약 이게

[14:02] 보도자료라면, 제가 일리야 같은 사람이라면

[14:05] 이건 뉴스에 도배될 거예요.

[14:07] 제가 샘 알트먼이라면

[14:09] 이건 온통 뉴스에 나올 거예요.

[14:10] 저는 완전히 압살하고 있어요. 여기 있잖아요.

[14:13] 그리고 이 모든 아키텍처를

[14:16] 오픈소스로 공개했어요.

[14:17] 자리야 아키텍처는 100% 오픈소스예요.

[14:20] 그래서 저도 뭘 더 해야 할지 모르겠어요.

[14:23] 다른 설명이나 더 간단하게 설명할 방법을 모르겠어요.

[14:26] 사람들이 이런 것들에 대해서

[14:27] 아마 지쳐있을 거라는 걸 이해해요.

[14:30] 너무 많은 과대광고가 있으니까요.

[14:32] 저는 수년간 이에 대해 얘기해왔어요.

[14:33] 이런 과대광고가 싫어요.

[14:35] 이것은 말 그대로 처음으로

[14:37] 제가 나와서 이렇게 말하는 거예요.

[14:39] 이것은 현재 존재하는 모든 것을

[14:41] 압도적으로 뛰어넘는다고 말이에요.

[14:45] 그리고 여러분을 위해 이것도 만들었어요.

[14:48] 이게 더 심화된

[14:49] 설명이라고 생각해요.

[14:52] 그럼 왜 정확히

[14:54] Zarya가 에이전트 추론에 뛰어나고

[14:57] LLM들은 벤치마크 관점에서 실패하는지

[14:59] 이런 벤치마크들을

[15:01] 보고 평가해보죠.

[15:03] 재귀적 객체 명령 게임 또는 ROCG는

[15:06] 단순한 추상적 퍼즐이 아니라

[15:09] 실제 세계의 에이전트 추론의 축소판입니다.

[15:11] 상징적 지식을

[15:12] 절차적 행동으로 변환함으로써요.

[15:15] 이 벤치마크는 동적 환경에서

[15:17] 작동하는 AI 에이전트에

[15:19] 가해지는 요구사항을 시뮬레이션합니다.

[15:21] 이 문서에서 우리는 왜 Zarya 제로

[15:23] 공명 지능 아키텍처가

[15:25] 이 작업에 뛰어난지 보여줍니다.

[15:27] 전통적인 대형 언어 모델이나

[15:30] 감마 2B 같은 LMS가 실패하는 동안 말이에요.

[15:33] ROCG 벤치마크는

[15:36] 모델의 능력을 평가합니다.

[15:38] 첫째, 객체가 빨간색인지 같은

[15:40] 상징적 사실을 해석하는 것.

[15:43] 둘째, 그 사실들에 조건부 규칙을 적용하는 것.

[15:45] 객체 A가 빨간색이면 객체 B를 왼쪽으로 이동시키는 것처럼요.

[15:48] 그리고 셋째, 중첩 조건,

[15:50] 모순되는 규칙, 방해 요소와 노이즈,

[15:52] 재귀적 도입과 같은

[15:54] 논리적 복잡성을 처리하는 것입니다.

[15:56] 바로 여기서 현재 모든 LM 모델

[15:58] 아키텍처가 실패합니다.

[16:00] 그냥 무너져버려요. 이것을 해결하려는

[16:02] 사람들은 모델을

[16:04] 방해 요소와 노이즈에 매우 특별히 훈련시켜서

[16:06] 재귀적 명령을 처리하고

[16:07] 모순되는 규칙이 없도록

[16:09] 확실히 하려고 해요.

[16:10] 그런데도 여전히 엄청난

[16:13] 실패율을 보이고 있어요.

[16:15] 이것은 자율 내비게이션,

[16:17] 로봇 조작, 적응형 워크플로우

[16:19] 계획, 그리고 일반적인

[16:20] AI 에이전트 설계의 작업을 밀접하게 모방합니다.

[16:24] Zarya의 아키텍처 우위.

[16:26] PAF를 가진 Zarya는 처음부터

[16:28] 알기와 행하기 사이의 격차를

[16:30] 메우도록 설계되었습니다.

[16:33] 트랜스포머 기반 LMS가 어려워하는 격차를요.

[16:35] 이유는 다음과 같습니다. 첫째, 상징적

[16:38] 행동 결합. Zarya는 프랙탈 상태

[16:40] 변환과 동적 게이팅을 통해

[16:42] 상징적 지식을 실행 가능한

[16:44] 루틴에 본질적으로 연결합니다.

[16:46] 이를 통해 Zarya는 지속적인

[16:49] 상징적 표현을 유지하고

[16:51] 또한 그것들을 직접적으로 개별 행동으로

[16:54] 변환할 수 있습니다.

[16:56] 반면 LMS는 사실과 행동을 모두

[16:58] 정적 토큰 확률로 표현하며

[17:00] 종종 상관관계를 인과관계와

[17:02] 혼동합니다. 이것이 핵심입니다.

[17:04] 모델들은 토큰들을 분리할

[17:07] 방법이 없어요. 토큰은 토큰일 뿐이죠.

[17:09] 이 안에서 저는 본질적으로 모델에게 다시 두 개의 반구를 주고 있어요. no

[17:11] 반구와 실행 반구로 나누고

[17:13] 그 안에서 토큰은 토큰이고

[17:16] 토큰은 프랙탈화되어 있으며

[17:17] 토큰은 5가지, 7가지,

[17:19] 8가지 등 다양한 의미를 가질 수 있습니다.

[17:21] 그리고 그 토큰화

[17:23] 프랙탈화는 논의하고 있는

[17:25] 특정 단어에 따라

[17:27] 조정될 수 있습니다.

[17:30] 그리고 제로 공명 역학 -

[17:32] 제로 공명 레이어는

[17:33] 의미 있는 활성화를 분리하고

[17:35] 증폭시키는 동시에 관련 없는

[17:37] 공명 노이즈를 억제합니다.

[17:39] 이는 방해 요소 처리,

[17:42] 의미적 표류 방지 및

[17:44] 메모리 집약적 작업에 중요합니다.

[17:46] 다음 토큰 예측을 최대화하도록

[17:48] 훈련된 LLM은 관련 정보가

[17:51] 도입될 때 종종 실패합니다.

[17:52] 이는 본질적으로 모델 내의

[17:53] 어텐션 메커니즘으로 들어가서

[17:55] 재구성하고 재구성해야 했습니다.

[17:57] 토큰화와 토큰에

[18:00] 활용하고 집중하지 않기 때문입니다.

[18:02] 그래서 프랙탈화된

[18:03] 어텐션 메커니즘이자

[18:05] 프랙탈 기반의 것으로, 전체적으로

[18:07] 수학적으로 더 우수하고

[18:09] 기본적으로 이 모델에 더 적합합니다.

[18:12] 재귀 실행 모델 - Zarya는

[18:14] 설계상 재귀적입니다.

[18:15] 규칙을 수동적 설명이 아닌

[18:17] 실행 가능한 논리 트리로 취급합니다.

[18:20] 단계별로 실행 상태를 유지하여

[18:23] 행동을 연결하고

[18:25] 계층에 의한 모순을 해결하며

[18:28] 내부 상태 머신을 시뮬레이션합니다.

[18:30] LLM은 구문 패턴을 넘어서는

[18:33] 재귀 개념이 없습니다.

[18:36] 네 번째, 모듈식 메모리 제어.

[18:38] Zarya는 명시적 모듈식

[18:41] 메모리 메커니즘을 사용하여

[18:44] 단기 스크래치 패드를

[18:45] 장기 단순 저장소와 분리하고

[18:48] 시간적으로 분산된

[18:49] 정보에 대해 회상하고 행동합니다.

[18:51] 트랜스포머 어텐션 헤드는

[18:53] 여기서 연산량을 기하급수적으로

[18:55] 늘리지 않고는 이를 안정적으로

[18:57] 모방하는 데 어려움을 겪습니다.

[18:58] 제가 만든 몇 가지 비디오가

[19:01] 고스트 메모리에 대한 것들이 있습니다.

[19:04] 고스트 메모리 모듈은

[19:06] 제가 Zarya의 메모리 모듈

[19:09] 제어에 통합한 것입니다.

[19:12] 고스트 메모리 모듈의

[19:13] 기본 논리와 구성 프레임워크는

[19:16] 인간의 기억이 100%

[19:17] 결정론적이지 않다는 것입니다.

[19:19] 제가 아는 바로는

[19:21] 100% 결정론적인

[19:23] 기억은 없습니다.

[19:25] 그래서 생물학적 기억에 있어

[19:27] 기억에 확률적 측면을

[19:29] 가지는 실제 장점이 있다고 봅니다.

[19:33] 100% 재구성으로 기억하지 않는 것

[19:35] 그래서 이를 전체적으로

[19:38] 모델 내에 통합했습니다.

[19:40] 기억이 프랙탈화되어 있어

[19:43] 100% 결정론적 재구성이

[19:45] 결코 이루어지지 않습니다.

[19:48] 여기 경험적 증거가 그 자체로

[19:51] 말해줍니다. 벤치마크입니다.

[19:54] 매우 좋네요. Zarya는

[19:57] 이 중 두 개에서 100%,

[19:59] 다른 하나에서 60%를 기록했고

[20:01] GPT-4는 전면적으로 실패했습니다.

[20:03] 이것은 토이 벤치마크가 아닙니다.

[20:05] 재귀 객체 명령 게임은

[20:07] 에이전트 행동의 핵심을

[20:10] 시뮬레이션합니다 - 사실 해석,

[20:12] 논리 적용, 충돌 해결,

[20:14] 그리고 계획 실행입니다.

[20:16] Zarya가 승리하는 이유는

[20:18] 크기 때문이 아닙니다. 그렇지 않습니다.

[20:20] 에이전트처럼 사고하도록

[20:23] 설계되었기 때문입니다.

[20:26] 트랜스포머 기반 LLM은

[20:28] 유창함에 최적화되어 있습니다.

[20:31] Zarya는 추론에 최적화되어 있습니다.

[20:33] AI 에이전트가 말만 하는 것이 아니라

[20:36] 행동해야 하는 세상에서

[20:38] Zarya는 앞으로 나아갈 길을

[20:40] 제시합니다.

[20:42] 더 명확하게 말씀드릴 수

[20:44] 없을 것 같습니다.

[20:46] 에이전트 프레임워크 테스트를

[20:48] 찾고 있으시다면, 여기 있습니다.

[20:51] 모든 것이 오픈 소스이고

[20:53] MIT 라이선스입니다.

[20:55] 다른 것들과 비교해서

[20:57] 찾기 어려울 것입니다.

[20:59] 아직 이것만을 위한

[21:00] 전체 GitHub 레포지토리를

[21:02] 설정하지 않았습니다.

[21:04] 며칠만 기다려 주세요.

[21:06] 하지만 제가 보여드린

[21:07] 이 노트북들이 있고, 이전 비디오들에서 이 벤치마크와 노트북에 대한 링크를 남겨두겠습니다. 이 비디오에서 이 문서에 대한 링크도 남겨두겠고, 전체 모델 등을 원한다면 이에 대한 다른 이전 비디오들을 확인해 보세요. 이런 다른 콘텐츠가 마음에 드시면 좋아요와 구독을 눌러주세요. 정말 감사합니다.