[00:00]
드디어 실용적인 AI 에이전트가 등장했습니다.
[00:03]
OpenAI의 심층 연구 플랫폼부터
[00:06]
XAI와 DeepSeek의 유사 도구까지
[00:09]
경쟁이 치열한 가운데
[00:11]
세상을 놀라게 한 새로운 에이전트 AI 플랫폼
[00:14]
마니스(Manis)가 등장했고
[00:16]
오늘 우리는
[00:17]
최초의 범용 AI 에이전트 마니스의 얼리 프리뷰를 시작합니다.
[00:21]
마니스가 공식 출시되자마자
[00:23]
중국의 한 스타트업이 선보인
[00:25]
이 새로운 AI 에이전트는
[00:27]
중국의 차세대 딥시크 순간이라 불리며
[00:29]
많은 사람들이 지금까지 본
[00:31]
가장 인상적인 AI 도구라고 평가했습니다.
[00:33]
또한 가장 정교한
[00:35]
컴퓨터 사용 AI라고 불립니다.
[00:39]
기존의 AI와는 달리
[00:41]
마니스는 단순한 특화 챗봇이 아닌
[00:44]
진정한 범용 AI 에이전트를 표방했습니다.
[00:47]
제한된 접근성과 희소한 초대로 인해
[00:50]
의문이 남습니다. 과연 마니스가
[00:53]
AI 에이전트 시장에 혁명을 일으켰을까요?
[01:01]
마니스를 둘러싼 모든 열광 뒤에는
[01:03]
진정 혁신적인 무언가가 있습니다.
[01:06]
멀티 에이전트 AI 시스템으로
[01:09]
다양한 작업을 수행할 수 있습니다.
[01:12]
여행 계획부터 재무 분석,
[01:14]
수십 개의 파일 검색,
[01:16]
산업 연구까지 가능합니다.
[01:20]
작동 방식을 보면, 하나의
[01:22]
거대 신경망에 의존하는 대신
[01:25]
마니스는 하위 에이전트 팀을
[01:28]
감독하는 관리자처럼 작동하며
[01:30]
공유 작업 공간에서 모든 움직임을 조율합니다.
[01:33]
프롬프트를 입력받으면
[01:35]
필요한 작업을 파악하고
[01:38]
한 번에 모든 것을 처리하는 대신
[01:40]
계획 담당 에이전트가 먼저
[01:44]
전체 계획을 수립하고
[01:47]
관리 가능한 하위 작업으로 분할합니다.
[01:50]
이런 방식으로 마니스는
[01:53]
실행 전에 정확히 무엇을 해야 할지 알고
[01:56]
이러한 작업들을 다른 하위 에이전트에게
[01:59]
배분합니다. 이들은 마치 마니스의
[02:02]
내부 전문가와 같아서, 같은 맥락을 공유하면서도
[02:05]
각자 고유한 영역을 가지고 있습니다.
[02:08]
지식, 메모리, 실행 등
[02:12]
마니스는 29개의 다양한
[02:15]
통합 도구를 활용할 수 있습니다.
[02:17]
웹 탐색 자동화부터
[02:20]
안전한 코드 실행,
[02:22]
파일에서 중요한 정보를
[02:24]
추출하는 것까지, 마니스의 하위 에이전트들이
[02:28]
적절한 도구를 선택합니다.
[02:31]
마지막으로 각 하위 작업이 완료되면
[02:34]
실행 에이전트가 모든 출력을
[02:36]
최종 결과물로 종합하여 사용자에게 전달합니다.
[02:40]
마니스의 내부를 살펴보면
[02:43]
매우 정교한
[02:45]
동적 작업 분해 알고리즘이 탑재되어 있습니다.
[02:49]
이를 통해 복잡한 지시사항을
[02:51]
명확한 실행 경로로
[02:54]
자율적으로 분해할 수 있습니다.
[02:57]
수십 번의 추론과 도구 사용 후에도
[03:00]
안정성을 보장하기 위해 마니스 팀은
[03:02]
'사고 흐름 주입'이라는
[03:05]
독창적인 기술을 개발했습니다.
[03:08]
이를 통해 에이전트들이 능동적으로 계획을
[03:11]
검토하고 업데이트할 수 있습니다.
[03:14]
마니스의 핵심에는 Anthropic의 Claude 3.7 sonnet이 있으며
[03:18]
또한 강력한 크로스 플랫폼 실행
[03:20]
기능을 제공합니다.
[03:21]
이는 오픈소스 도구들과의
[03:24]
원활한 통합 덕분입니다. YC 기업의 브라우저는
[03:27]
고급 웹사이트 상호작용을 위해 사용되며, 스타트업 E2B의
[03:31]
그럼 매니스가 실제로 어떤 일을 할 수 있을까요?
[03:34]
매니스의 실제 능력을 살펴보면,
[03:36]
매우 인상적이게도 다양한 실제 업무를 처리할 수 있습니다.
[03:38]
특히 뛰어난 성과를 보이는 분야는
[03:41]
여행 일정 계획 수립,
[03:43]
상세한 재무 분석, 교육 콘텐츠 제작이며,
[03:46]
또한 다음과 같은 가치 있는 작업도 수행할 수 있습니다:
[03:49]
구조화된 데이터베이스 구축,
[03:52]
보험 상품 비교 분석,
[03:54]
공급업체 소싱,
[03:56]
고품질 프레젠테이션 지원까지 가능합니다.
[03:59]
매니스의 실제 성능을 측정하기 위해
[04:01]
가이아(Gaia) 벤치마크를 살펴보겠습니다.
[04:03]
이는 AI 에이전트의 추론 능력,
[04:06]
멀티모달 처리, 웹 브라우징,
[04:08]
도구 활용 능력을 평가하는 벤치마크입니다.
[04:11]
일반적으로 인간은 92% 정도의 점수를 받으며,
[04:14]
OpenAI의 딥 리서치는 최고 성능으로
[04:18]
74% 정도의 점수를 기록했습니다.
[04:21]
매니스는 최신 기술 수준을 뛰어넘어
[04:25]
가이아에서
[04:27]
86.5%를 기록했는데, 이는 평균적인 인간의 성능에
[04:30]
불과 몇 점 차이밖에 나지 않습니다. 하지만
[04:33]
이러한 인상적인 벤치마크 성능에도 불구하고,
[04:35]
매니스는 AI 스타트업의 본질에 대한
[04:37]
더 넓은 논의를 불러일으켰습니다.
[04:39]
애플리케이션 레이어 래퍼에 대해
[04:42]
일부는 매니스를 단순한 래퍼라고 평가절하합니다.
[04:45]
기존의 기초 모델들과
[04:47]
다양한 도구들을 조합한다는 이유에서죠.
[04:49]
하지만 이런 평가절하는
[04:52]
중요한 현실을 간과하고 있습니다. 현재 성공적인
[04:55]
AI 제품 대부분이 이런 논리로는
[04:57]
래퍼로 분류될 수 있습니다.
[05:00]
예를 들어, Cursor와 Warp는
[05:02]
기존 LLM과 외부 API를 통합하고
[05:06]
개발자 중심 도구인
[05:08]
실시간 코드 분석과 디버깅 유틸리티를 제공합니다.
[05:10]
Harvey와 같은 도메인 특화 에이전트는
[05:13]
기초 모델과 법률 특화 도구를 결합하여
[05:16]
판례법 검색, 규정 준수 확인,
[05:19]
문서 분석 등을 제공합니다.
[05:22]
분명히 많은 유용한 애플리케이션이
[05:25]
래퍼 모델에 해당하며,
[05:27]
많은 개발자들에게 이 방식이 합리적입니다.
[05:30]
매니스의 공동 창업자 이초우 페이지가
[05:33]
직접 말했듯이, 그들은 처음부터
[05:36]
모델 개발과는 다른 방향으로 나아가기로 했고,
[05:39]
새로운 모델 출시에 위협받기보다는 흥미를 느끼고 싶었다고 합니다.
[05:42]
성공적인 래퍼와 그렇지 않은 것을
[05:47]
구분 짓는 것은
[05:48]
주로 다음과 같은 요소들입니다:
[05:50]
직관적인 UI, 독자적인 평가 시스템,
[05:54]
더욱 세심한 기초 모델의
[05:56]
파인튜닝, 그리고 신중하게
[05:58]
설계된 멀티 에이전트 아키텍처입니다.
[06:01]
매니스는 이러한 특성을
[06:03]
잘 보여주는 좋은 사례입니다.
[06:05]
긍정적인 면에서 보면,
[06:07]
멀티 에이전트 오케스트레이션을 통해
[06:10]
작업당 비용을 크게 절감할 수 있어
[06:13]
OpenAI의 Deep Research와 같은 통합 경쟁사와 비교해
[06:16]
작업당 약 2달러 정도로 낮출 수 있습니다.
[06:18]
또한 매니스는 더 나은 투명성과
[06:20]
사용자 제어를 제공하여, 사용자가 직접
[06:22]
개별 하위 에이전트와 도구 통합을
[06:25]
검사, 커스터마이즈, 교체할 수 있습니다.
[06:28]
이는 중앙화된 플랫폼에서는
[06:30]
찾아보기 힘든 유연성입니다.
[06:32]
매니스가 발견한 가장 흥미로운 점 중 하나는
[06:34]
파일 시스템을 노출시켜
[06:36]
에이전트들의 작업 과정을
[06:39]
정확히 볼 수 있다는 것입니다. ChatGPT는 재프롬프트가 필요하고
[06:42]
생각하는 과정이 불투명한 반면,
[06:44]
매니스는 ChatGPT의 미래를 보여주는
[06:47]
데스크톱 운영 체제의 모습을 보여줍니다.
[06:50]
컴퓨터에서 직접 실행되면
[06:52]
브라우저에서보다 더 많은 제어가
[06:54]
가능해질 것이며, 이는 매우 흥미로운
[06:57]
발전이 될 것입니다. 하지만 몇 가지
[07:00]
명확한 한계도 있습니다. 전문화된 에이전트 간의
[07:02]
협업은 작업이 확장되거나
[07:05]
복잡성이 증가할수록 더욱 어려워집니다.
[07:08]
더 중요한 것은, 현재의 장점인
[07:11]
UX 개선, 타겟 파인튜닝, 신중한 통합이
[07:14]
경쟁사들도 쉽게 따라할 수 있는
[07:16]
취약점이 될 수 있다는 점입니다.
[07:18]
이러한 장단점은
[07:21]
일반적으로 래퍼들이 공유하는 특성입니다.
[07:23]
래퍼는 빠른 배포, 반복,
[07:25]
특화된 UX를 낮은 초기 비용으로 제공하지만,
[07:28]
API 가격 변동이나
[07:32]
제공업체 정책 변경과 같은
[07:34]
외부 요인에 취약하며, 이는 비용 이점을
[07:37]
빠르게 상쇄시킬 수 있습니다.
[07:39]
결국 중요한 과제는 래퍼의 실행 가능성이 아니라
[07:42]
제품의 진정한
[07:44]
지속 가능한 차별화를
[07:46]
찾아내는 것입니다.
[07:48]
창업자들에게 이는 초기부터
[07:51]
비용이 많이 들거나 시간이 오래 걸리는
[07:53]
독자적인 평가 시스템에 투자하거나,
[07:55]
특정 사용자 루틴에 워크플로우를 깊이 통합하여
[07:58]
전환 비용을 높이거나,
[08:00]
경쟁사가 쉽게 접근할 수 없는 플랫폼이나
[08:04]
데이터셋과의 통합을
[08:06]
찾아내는 것을 의미할 수 있습니다.
[08:08]
결국 AI 분야에서의 성공은
[08:11]
새로운 것을 발명하는 것이 아니라
[08:13]
기존 모델들을 사용자들이
[08:16]
진정으로 사랑하는 제품으로 만드는 능력에 달려있습니다.
[08:20]