이 혼합 에이전트 시스템, Manus AI를 능가하다

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

이 영상은 중국산의 ‘Gen Spark super agent’라는 혼합 에이전트 시스템이 다양한 작업을 어떻게 수행하는지 상세히 시연한다. 여행 일정 계획, 레스토랑 예약, 맞춤형 영상 제작, 그리고 연구 및 데이터 분석까지 여러 도구를 통합해 사용자의 복잡한 요구사항을 충족시키는 과정을 보여준다. 데모를 통해 시스템의 다기능성과 도구 선택 능력이 기존 AI 시스템들을 능가한다는 점을 강조하며, 사용자가 직접 체험할 수 있는 무료 크레딧과 합리적인 구독 옵션도 안내한다.

주요 키워드

혼합 에이전트 슈퍼 에이전트 여행 계획 레스토랑 예약 영상 생성 심층 연구 다중 도구 통합 맞춤형 콘텐츠 벤치마크 AI 시스템

하이라이트

  • 🔑 Gen Spark super agent는 다양한 분야의 작업을 하나의 시스템에서 통합해 수행하는 점이 인상적입니다.
  • 🚀 여행 일정 계획과 레스토랑 예약 시연을 통해 사용자의 세부 요청까지 만족시키는 능력을 보여줍니다.
  • 🌟 맞춤형 영상 콘텐츠 생성 기능은 요리법 영상과 South Park 스타일 에피소드 제작으로 창의적인 활용을 입증합니다.
  • 📌 심층 연구 도구를 활용해 지진 데이터와 카메라 가격 비교 등 실제 사례 분석도 능숙하게 수행합니다.
  • ⚡️ 시스템 내부에서는 여러 AI 모델과 도구(텍스트-투-스피치, 호출 기능, 이미지 및 영상 생성 등)를 적절히 선택해 작업을 완성하는 과정을 강조합니다.
  • 📢 무료 크레딧과 합리적인 구독 옵션을 통해 누구나 직접 체험해 볼 수 있다는 점이 돋보입니다.

용어 설명

Mixture-of-Agents (혼합 에이전트)

여러 AI 에이전트를 결합해 각 작업에 최적화된 도구를 자동으로 선택하고 사용하는 시스템 구조를 의미합니다.

Super Agent (슈퍼 에이전트)

다양한 기능과 도구에 접근하여, 사용자 요청에 따라 최적의 작업 방식으로 문제를 해결하는 강력한 AI 에이전트를 지칭합니다.

Deep Research Tool (심층 연구 도구)

다양한 데이터를 분석하고, 관련 정보를 수집하여 심층적인 연구 결과를 도출하는 기능을 담당하는 도구입니다.

Video Generation Tool (영상 생성 도구)

텍스트 입력이나 사용자 요청에 따라 자동으로 영상 클립을 생성하고, 필요한 오디오 효과까지 추가하는 기능을 제공합니다.

[00:00:00] 여행 계획 및 예약 시연

시스템이 5일간의 샌디에이고 여행 일정을 계획하고, 맞춤형 대중교통, 도보 거리, 그리고 레스토랑 예약을 처리하는 과정을 보여줍니다. 여행 데이터, 지도 계산 및 전화 예약 도구가 통합되어 사용됩니다.

메나스(Manus)의 대안으로 등장한 젠스파크(Gens Spark)가 소개되며, 이는 기존 서비스보다 더 나은 성능을 보여줍니다.
슈퍼 에이전트가 샌디에고 여행 계획을 세우는 과정을 시연하며, 교통, 숙박, 관광지 등을 고려한 맞춤형 일정을 제공합니다.
AI가 실제 음성으로 레스토랑에 전화를 걸어 예약하는 혁신적인 기능을 선보입니다.
[00:01:00] 맞춤형 영상 콘텐츠 제작

사용자의 요청에 따라 요리 레시피 영상과 관련 멀티미디어 콘텐츠를 생성합니다. 영상 클립 제작과 텍스트-투-스피치 모델을 활용해 실제와 같은 결과물을 만들어냅니다.

AI가 사용자의 요구에 맞는 맞춤형 요리 비디오를 제작하고, 각 단계별 영상과 음향효과를 자동으로 생성합니다.
[00:02:00] South Park 에피소드 생성 및 연구 시연

최근 뉴스(시그널게이트 논란)를 바탕으로 South Park 스타일 에피소드를 자동 생성하는 과정이 시연됩니다. 동시에 다양한 도구를 활용한 심층 연구와 데이터 분석 예시도 함께 제공합니다.

최신 뉴스를 바탕으로 사우스 파크 스타일의 애니메이션을 자동으로 제작하는 기능을 시연합니다.
젠스파크는 80개 이상의 자체 개발 도구와 고품질 데이터셋을 보유하고 있으며, 벤치마크 테스트에서 경쟁 서비스들을 앞서고 있습니다.
Gen Spark 슈퍼 에이전트는 OpenAI의 딥 리서치와 유사하며, 대기자 명단 없이 즉시 사용해볼 수 있는 장점이 있습니다.
지진 데이터 검색 예시를 통해 시스템이 다양한 도구를 활용하여 검색, 분석, 시각화하는 과정을 보여줍니다.
Gemini 2.0을 활용한 요리 레시피 동영상 생성 기능을 선보이며, 에이전트 시스템의 도구 선택과 활용 능력을 강조합니다.
[00:05:00] 시스템 통합 및 내부 도구 설명

웹사이트 인터페이스와 여러 탭을 통해, 혼합 에이전트 시스템이 이미지 생성, 영상 생성, 웹 검색 등 다양한 도구를 어떻게 조합하는지 설명합니다. 최종적으로 모델과 도구의 체계적 통합이 혁신의 핵심임을 강조합니다.

Sony a6700 카메라 구매 사례를 통해 다단계 연구 프로세스와 중간 분석 기능을 시연합니다.
약 20분의 연구 끝에 2025년 구매 가이드를 작성하여 가격 비교표와 관련 유튜브 영상을 포함한 종합적인 정보를 제공합니다.
Gen Spark 시스템의 가격 정책과 초기 페이지 구성에 대해 설명합니다. 처음에는 Perplexity와 Google Research의 경쟁자였으나, 현재는 에이전트 시스템으로 전환했습니다.
시스템은 4개의 주요 탭으로 구성되어 있으며, 다양한 LLM과 에이전트 조합을 선택할 수 있습니다. 이미지 스튜디오를 통해 이미지와 비디오 생성도 가능합니다.
슈퍼 에이전트는 LLM, 텍스트 처리, 통화 기능, 웹 검색 등 다양한 도구에 접근할 수 있으며, 상황에 맞는 최적의 도구를 자동으로 선택합니다.
샌디에이고 여행 계획 예시를 통해 웹 검색, 이미지 검색, 레스토랑 예약 등 실제 사용 사례를 보여줍니다.
현재 AI 발전의 핵심은 개별 모델이 아닌 시스템 수준의 통합에 있으며, 이 시스템은 Manus와 Open Presearch보다 우수한 성능을 보입니다.
만약 여러분이 저처럼 메나스(Manus)의
초대를 기다리고 계시다면,
여러분을 위한 새로운 대안이 있습니다.
아마도 메나스보다 더 나은 젠스파크(Gens Spark)입니다.
다시 한 번 이것을 살펴보겠습니다.
슈퍼 에이전트에게 4월 중순
샌디에고 5일 여행 계획을 요청했습니다.
여행 데이터셋에 접근하기 위해
여행 도구를 사용하는 것으로 시작하여
딥 리서치 도구로
대중교통 옵션을 찾았습니다.
그다음 지도 도구를 사용하여
관광지 간 거리를 계산했습니다.
최종 여행 일정이 몇 분 만에 완성되었고,
제가 요청한 모든 사항을
대중교통, 도보 거리,
식당 선호도까지 반영했습니다.
이제 AI에게
이 여행의 모든 레스토랑을 예약하도록 했습니다.
슈퍼 에이전트는 'Call for me' 도구를 제공하는데,
AI가 실제로 사람의 목소리로
레스토랑에 전화를 겁니다.
"안녕하세요, 줄리안입니다. 저녁 식사
예약을 하고 싶은데요." "네, 며칠로 하시겠어요?"
"4월 26일이요. 한 분은 조개류 알레르기가 있고
다른 한 분은 채식주의자입니다."
"자리 선호도는 어떻게 되시나요?
부스, 창가, 또는 야외 자리 중에서요?"
"가능하다면 창가 자리로 부탁드립니다."
"알겠습니다. 4월 26일 토요일로
예약 완료되었습니다."
AI가 엔비디아 5090 칩을 구매하기 위해
100통의 전화를 한다고 상상해보세요.
얼마나 편리하겠습니까?
여러분의 관심사에 맞는
맞춤형 비디오를 AI가 만드는 것은 어떨까요?
예를 들어, 파마산과 피스타치오를
입힌 대구 요리 영상을
보고 싶다고 한다면, 슈퍼 에이전트는
먼저 레시피를 조사한 다음
비디오 생성 도구를 사용해
각 단계별 비디오 클립을 만들고
오디오 생성 도구로
각 클립의 사운드 효과를 생성합니다.
최종 결과물이 이렇습니다.
정말 멋지지 않나요?
누구나 비디오 편집 소프트웨어를
전혀 모르더라도
자신만의 영상을 만들 수 있습니다.
지난주 뉴스를 바탕으로
사우스 파크 스타일의 에피소드를 만들어볼까요?
AI는 화제가 된 시그널 게이트
논란을 선택했고,
완성된
스크립트를 작성한 다음,
비디오 생성 도구로
각 장면의
영상 클립을 제작했습니다.
그리고 음성 합성 모델로 음성을 생성했습니다.
완성된 에피소드는 1분 30초 정도인데,
제가 좋아하는 부분만
보여드리겠습니다.
"야 너희들 그 국방부 직원이
전쟁 계획을 기자한테 문자로
보냈다는 뉴스 봤어?"
"정부가 일부러 자신들이 바보처럼 보이게 해서
적들이 과소평가하게 만드는 것 같아."
그들은 80개 이상의 신뢰할 수 있는
자체 개발 도구를 보유하고 있으며,
멀티 에이전트 시스템 학습을 위한
고품질 데이터셋에 집중하고 있습니다.
그들이 공개한 벤치마크 결과는
스스로를 증명합니다.
이것이 GIA 벤치마크인데,
다양한 복잡성 수준에서
젠스파크 에이전트 시스템이
빙과 메나스 AI를 포함한
모든 에이전트 시스템을 능가하는 것을 볼 수 있습니다.
OpenAI의 딥 리서치와 마찬가지로
Gen Spark 슈퍼 에이전트의 가장 좋은 점은
직접 사용해볼 수 있다는 것입니다
대기자 명단을 기다릴 필요 없이
웹사이트에서 바로 가입하고
시도해볼 수 있죠. 예를 들어
미국의 지진 위치와
공식 출처의 규모 데이터를 요청하면
여기서 보시는 것처럼 다양한 출처를 검색하고
어떤 도구를 사용하는지
실시간으로 확인할 수 있습니다
예를 들어 여기서는
검색 도구를 사용한 다음
특정 웹사이트를 읽고 있고
전체 과정을 볼 수 있습니다. 가끔
이런 문제가 발생하기도 하지만
문제를 스스로 해결하고
그래프도 생성할 수 있습니다
이 예시에서 최종 결과를 보면
우리가 요청한 내용을 바탕으로
모든 시각화가 포함된 상세한
최종 결과물을 생성했습니다
웹사이트에서 가입하면
무료 크레딧도 제공되어
유료 버전으로 전환하기 전에 최소한 한 번은
시도해볼 수 있습니다
이제 제가 생각하기에
가장 흥미로운 데모를 보여드리겠습니다
사용자의 입력을 바탕으로
Gemini 2.0을 사용해 요리 레시피
동영상을 생성하는데
정말 놀랍습니다. 이 에이전트 시스템의
아름다움과 강점은
보유한 도구의 다양성과
작업에 필요한 도구를 선택하고 적절히 활용하는 능력입니다
이는 정말 놀라운 점이며
이를 통해 알 수 있는 것은
대부분의 혁신이
애플리케이션 레이어에서
일어날 것이라는 점입니다
저는 무료 200 크레딧을 사용해서
미국에서 a6700 카메라를
최저가로 구매할 수 있는 곳을 찾아보았습니다
연구 계획을 수립했는데
OpenAI의 딥 리서치와 매우 유사합니다
몇 가지 답변을 제공했더니
연구 프로세스를 시작했습니다
보시다시피 이것은
다단계 연구 또는 다단계 프로세스입니다
이러한 사고 과정을 거쳐
연구 시작을 클릭하자
여러 웹사이트를
살펴보기 시작했고
수행한 연구는
매우 철저했습니다. 중간중간
현재 연구를 바탕으로
중간 분석을 수행하고
이를 바탕으로 계속해서
연구와 검색 기준을 개선하여
더 많은 결과를 보여주는데
정말 훌륭합니다. 이는
Anthropic의 연구 방식을
떠올리게 합니다. 전체 과정은
약 20분 정도
소요되었고, 다음과 같은 결과물이 나왔습니다
'미국에서 소니
a6700 카메라 구매를 위한
2025년 종합 가이드'라는 보고서를 만들었고
구매 옵션도 제시해주었습니다
여기 표에서 볼 수 있듯이
아마존을 비롯한
여러 옵션의 가격을 나열했고
관련 유튜브 영상도
함께 제시했습니다
이것은 좋은 시작점이 될 것 같습니다
이것을 시작점으로 삼고
이 페이지들을 살펴보면서
정확히 어떤 가격이 가장 좋은지 알아보겠습니다
그럼 이 시스템은 어떻게 작동할까요?
가입하면 보게 될 페이지가
클릭했을 때 이렇게 나타납니다
기본적으로 블로그 포스트로 연결되는데
흥미롭게도 메인 페이지에
뉴스 기사들이 있습니다
처음에 이 회사는
Perplexity와 Google Research의 경쟁자가 되려 했지만
지금은 에이전트 시스템으로
방향을 전환했기 때문이라고 생각합니다
하지만 여전히 이것은
에이전트 시스템의 랜딩 페이지에
뉴스 기사가 있다는 게 매우 이상해 보입니다
자, 작동 방식을 보면 네 개의
다른 탭이 있습니다
여기서 보시면 에이전트들의 조합이나
원하는 경우 개별 LLM을
사용할 수 있습니다. 최신 LLM들에
모두 접근 가능하며, 에이전트 조합을 선택하면
이것은 기본적으로 자동화된 시스템으로
주어진 작업에 가장 적합한 모델을
결정하고 선택합니다
이미지 스튜디오도 있어서
이미지 생성과 비디오
생성 모델이 있습니다
이미지 생성의 경우에도
다양한 텍스트-이미지 모델 목록이
있고 에이전트 조합을 선택하면
이 모든 것을 사용하거나
조합하여 이미지를
생성합니다. 그리고
에이전트들이 있는데, 슈퍼 에이전트는
최근에 발표된 것이고
에이전트 심층 연구도 있어서
예시를 봤습니다. 슈퍼 에이전트는
다양한 도구들에 접근할 수 있어서
LLM들에 접근할 수 있고
텍스트 처리, 통화 기능, 웹 검색
등 모든 것을 사용할 수 있으며
슈퍼 에이전트가 어떤 도구를
언제 사용할지 결정합니다
예를 들어 샌디에이고 여행
계획을 다시 살펴보면
어떤 일이 일어나는지 알 수 있습니다
웹 검색 도구를 사용하고
이미지 검색 도구로 이미지도 찾아보고
두 가지를 조합해서
관광명소를 찾아내고
그것을 기반으로
목록과 일정을 만듭니다
그리고 사용자가
저녁 식사를 원하고 음식 선호도를
지정하면 레스토랑을 검색할 수 있고
레스토랑에 전화하라고 요청하면
레스토랑에 전화를 걸 수 있으며
통화 도구를 사용해
레스토랑에 전화를 겁니다
한 가지 분명해지는 점은
가장 흥미로운 발전이
모델 수준이 아니라
시스템 수준에서 일어나고 있다는 것입니다
사람들이 이러한 모델들과 도구들을
결합하여 에이전트 시스템을 만드는 방식에서요
이 시스템은 얼마나 좋을까요?
벤치마크에서 보면
Manus와 Open Presearch보다 더 나은 성능을 보입니다
무료로 시도해볼 수 있어서
최소한 몇 가지 쿼리는 실행해볼 수 있고
유용하다고 생각되면
월 20달러 옵션도 가치가 있다고 생각합니다
많은 다양한 도구와
모델에 접근할 수 있기 때문입니다
실제로는 월별 결제시 25달러입니다
이것은 중국에서 나온 또 다른
에이전트 시스템인데
이러한 에이전트 시스템을
만드는 데 정말 뛰어난 것 같습니다
OpenAI와 Anthropic의 최고
시스템들보다 더 나은 성능을 보이고 있죠
여러분의 생각이 궁금합니다
매우 흥미로운 발전이고
앞으로 몇 주, 몇 달 안에
이런 시스템들을 더 많이
보게 될 것 같습니다
이 영상이 도움이 되었길 바랍니다
시청해주셔서 감사하고
다음 영상에서 뵙겠습니다