MCP AI 에이전트 설정을 위한 4가지 도전 과제 – 모두 해결할 수 있을까?

채널 아이콘
All About AI 구독자 189,000명

요약

이 영상에서는 화자가 자신이 구축한 MCP AI 에이전트 시스템으로 네 가지 실험적인 과제를 수행합니다. HTML 채팅 웹사이트 생성부터 MP3 파일의 원곡 및 리믹스 식별, 스튜디오 지브리 스타일 이미지 생성, 그리고 10초 뮤직비디오 제작까지 다양한 API와 도구를 통합해 자동화 과정을 시연합니다. 각 단계에서 발생하는 오류를 코드 에이전트가 스스로 수정하며, 시스템 확장성과 유연성을 검증합니다. 또한 Brilliant.org 스폰서 소개를 통해 문제 해결 능력 향상의 중요성을 강조합니다.

주요 키워드

MCP AI AI 에이전트 OpenAI API 음악 식별 지브리 이미지 뮤직비디오 Replicate API FFmpeg 코드 실행 Brilliant.org

하이라이트

  • 🔑 첫 번째 과제: MCP 에이전트가 OpenAI API 키를 활용해 AI 채팅 기능을 갖춘 HTML 웹사이트를 자동으로 생성했습니다.
  • ⚡️ MP3 파일 식별: Shazam API와 코드 스니펫으로 Madonna 리믹스 곡 제목을 정확히 찾아내는 데 성공했습니다.
  • 🌟 이미지 생성 도전: GPT Image-1과 DALL·E3 모델을 시도했지만, 최신 이미지 모델 적용에서 Base64 추출 오류로 일부 어려움을 겪었습니다.
  • 🚀 뮤직비디오 제작: Replicate API와 FFmpeg를 결합해 10초짜리 뮤직비디오를 생성하고, 단계별 문서 제공으로 문제를 해결했습니다.
  • 📌 MCP 에이전트 아키텍처: 검색, 이메일, 파일 시스템, 코드 실행 등 39개의 도구를 유연하게 연결해 복합 작업을 자동화했습니다.
  • 🎯 Iteration 과정: 실행 중 발생한 오류를 에이전트가 자체 문맥으로 파악해 재시도하며 시스템 견고성을 높였습니다.

용어 설명

MCP 서버

다양한 AI 에이전트를 호스팅하는 멀티컴퓨트 플랫폼 서버

AI 에이전트

특정 도구와 API를 사용해 작업을 자동화하는 지능형 자동화 프로그램

API 키

외부 서비스(OpenAI, Replicate 등)에 접근 권한을 부여하는 인증 토큰

GPT-3.5 Turbo

OpenAI의 대화형 언어 모델로, 채팅 및 텍스트 생성에 사용됨

Replicate API

머신러닝 모델 실행·호스팅을 위한 외부 API 서비스

FFmpeg

멀티미디어 파일 처리와 변환을 위한 오픈소스 커맨드라인 도구

[00:00:00] 도전 과제 4가지 소개

MCP AI 에이전트로 풀어볼 네 가지 과제를 설명합니다. 간단 HTML 웹사이트부터 뮤직비디오 제작까지 목록을 제시합니다.

MCP AI 에이전트로 테스트할 네 가지 과제를 소개합니다. AI 기능이 있는 HTML 웹사이트 제작, MP3 노래 ID 찾기, 지브리 스타일 이미지 생성, 10초 뮤직비디오 제작이 포함됩니다.
[00:01:13] MCP AI 시스템 구성

검색, 코드 실행, 파일 시스템 등의 에이전트 아키텍처를 보여줍니다. 각 도구와 서버 역할을 간략히 설명합니다.

에이전트 시스템의 구성을 설명합니다. 검색, 통신, 파일 시스템, 코드 실행 등 다양한 MCP 서버들이 각각의 에이전트에 할당되어 있습니다.
[00:02:08] MP3 재생 기능 테스트

Python 코드 에이전트를 활용해 MP3 파일 재생을 시도합니다. 오류를 수정하며 Pygame 설치 과정을 거칩니다.

실제 테스트로 song2.mp3 파일 재생을 시도합니다. 첫 시도에서는 Pygame 모듈이 없어 실패했지만, 설치 후 성공적으로 재생됩니다.
Pygame을 사용해 MP3 파일을 재생했는데, 실행 방식이 매번 달랐습니다. 때로는 직접 재생되고, 때로는 외부 플레이어가 실행되었습니다.
[00:03:45] Brilliant.org 스폰서 소개

Brilliant의 문제 해결 중심 수업 방식을 소개합니다. Python 코딩 과정을 통해 실용적 사고를 기를 수 있다고 강조합니다.

오늘의 스폰서 Brilliant.org를 소개합니다. 단순 암기가 아닌 실제 문제 해결 능력을 키우는 독특한 학습 방식을 제공합니다.
파이썬 프로그래밍 과정에서는 첫날부터 실제 코딩과 디버깅을 경험하며, 논리적이고 창의적인 문제 해결 능력을 기를 수 있습니다.
첫 200명 가입자에게 프리미엄 연간 구독 20% 할인과 30일 무료 체험 혜택을 제공합니다.
AI 채팅 기능이 있는 HTML 웹사이트 프로젝트를 시작하며, API 키가 포함된 작업 환경을 설정했습니다.
[00:05:02] AI 채팅 웹사이트 구축

에이전트에 간단한 프롬프트를 제공해 OpenAI 채팅 기능이 포함된 HTML 웹사이트를 생성합니다. Express 서버 설정까지 자동화합니다.

OpenAI 채팅 웹사이트를 만들기 위해 새로운 디렉토리를 생성하고 인덱스, 스타일, 스크립트 파일을 만듭니다.
에러가 발생해도 맥락을 이해하고 다시 시도하는 기능이 있으며, 정적 파일을 제공하기 위한 server.js를 생성합니다.
서버가 3000번 포트에서 실행되고, 텍스트 박스를 통한 기본적인 채팅 기능이 GPT 3.5 Turbo 모델로 구현됩니다.
[00:07:32] 음악 파일 식별 도전

Shazam API 키 없이도 에이전트가 코드 스니펫으로 MP3 원곡과 리믹스 버전을 찾아냅니다. 결과에 화자가 놀라워합니다.

다음 과제로 song2.mp3 파일의 원곡을 찾아내는 작업을 시작합니다. 이는 마돈나의 La Isla Bonita의 리믹스 버전입니다.
Shazam API를 사용하여 성공적으로 노래를 식별했으며, 'La Bonita Extended Mix'라는 2024년 댄스 리믹스 버전임을 확인했습니다.
[00:08:51] 지브리 스타일 이미지 생성

스튜디오 지브리풍 소녀 이미지를 GPT Image-1과 DALL·E3로 시도합니다. Base64 처리 문제로 최신 모델 적용에 한계를 겪습니다.

OpenAI를 통한 가사 식별 테스트 결과가 예상과 달라 충격적이었지만 좋은 결과를 얻었습니다.
스튜디오 지브리 스타일의 소녀 이미지를 최신 OpenAI 이미지 모델로 생성하는 시도를 시작했습니다.
GPT 이미지 1 모델 사용 시도 중 이미지 추출과 저장에 어려움을 겪었습니다.
결국 DALL-E 3 모델로 전환하여 이미지 생성에는 성공했지만, 최신 모델 사용 목표는 달성하지 못했습니다.
다음 과제로 replicate API를 사용한 10초짜리 뮤직비디오 생성 시도를 준비했습니다.
[00:12:15] 10초 뮤직비디오 제작

Replicate API와 FFmpeg 명령어를 결합해 10초짜리 뮤직비디오를 생성합니다. 문서화된 단계별 지침으로 문제를 해결합니다.

초기 시도가 실패한 후, docs.md 파일을 만들어 cling 비디오 모델에 대한 정보를 제공하기로 결정했습니다.
비디오 생성에 성공하고 ffmpeg를 사용하여 영상과 음성을 병합하는 과정을 진행했습니다.
단계별 지침과 문서 접근 권한 제공으로 프로젝트를 성공적으로 완료했으며, 검색 기능 개선의 필요성을 확인했습니다.
[00:14:32] 도구 현황 및 마무리

현재 연결된 39개 도구를 최종 확인합니다. 시스템 확장성에 만족하며 향후 업데이트 계획을 공유합니다.

타임라인 정보가 없습니다.

자, 오늘 MCP AI 에이전트로 테스트할
네 가지 과제가 여기 있습니다.
코드 작업을 좀 해놨는데요,
이제 시스템이 이런 작업들을
실제로 수행할 수 있는지
테스트해보고 싶습니다. 첫 번째는
AI 기능이 있는 간단한
HTML 웹사이트를 만드는 것입니다.
에이전트에게 OpenAI와 다른
API 키들에 대한 접근 권한을
제공할 예정입니다. 두 번째로는
MP3 노래가 하나 있는데, 이 곡의
ID를 찾아보려고 합니다. 에이전트가
MP3 파일을 분석해서 어떻게든
곡의 ID를 찾아낼 수 있는지
확인해보려고 합니다. 세 번째로는
스튜디오 지브리 스타일의
소녀 이미지를 생성해보려고 합니다.
이건 꽤 자유롭게 진행할 건데,
에이전트가 스스로 방법을
찾아내야 할 것입니다. 마지막은
정말 어려운 과제인데요,
디렉토리에 있는 MP3 노래로 10초짜리
뮤직비디오를 만들어보려고 합니다.
말씀드렸듯이 모델에게 API 키
접근 권한을 줄 건데요,
이 키들은 영상 촬영 후에 폐기될 겁니다.
그래서 이것과 관련해서
키가 있는 파일을 지정해서
맥락을 제공할 겁니다. 자,
시작해보겠습니다만, 먼저
이 에이전트 시스템을 어떻게 구성했고
어떻게 작동하는지 보여드리겠습니다.
이전 영상에서 이 시스템을
어떻게 만들었고 여러 다른
MCP 서버들에 어떻게 접근하는지 다뤘습니다.
이 에이전트는 각각 다른 MCP 서버들이
할당되어 있습니다. 검색 에이전트는
fetch 도구와 brave 검색 도구를
가지고 있고, 통신 에이전트는 이메일
메모리 등을 가지고 있죠.
파일 시스템 에이전트는 우리의
파일들과 전용 디렉토리, GitHub에 접근할 수 있고
새로 추가한 것은 코드 에이전트입니다.
이것은 MCP 코드 실행기라고 불리는
MCP 서버를 사용하고 있습니다.
코드를 실행하는 환경을 구동하고 있는데
이게 매우 유용하고 모든 코드는
우리 디렉토리에 저장되어서
확인할 수 있습니다.
작동 방식을 보여드리겠습니다.
python main.py를 정리하면
이제 우리는 접근 가능한
도구가 30개 정도
있을 것 같네요. 간단한 작업을
해보겠습니다. song2.mp3를 재생해보죠.
이제 디렉토리를 확인해보면
접근 가능한 것을 볼 수 있고
어떻게 할지 찾아보겠습니다.
가장 쉬운 방법은 물론 코드를 작성해서
노래를 찾아 재생하는 것입니다만,
다른 방법들도 있죠.
터미널로 갈 수도 있습니다.
매번 같은 방식으로 하진 않는데,
이 노래를 어떻게
재생할 수 있는지 한번 보겠습니다.
San Pedro가 재생되네요.
잘 작동했네요. 보시다시피
첫 시도에서는 코드를 작성했지만
Pygame이 설치되지 않아서
작동하지 않았습니다. 에러 메시지를
받았고, 이제 모듈을
설치했습니다. 두 번째 코드에서는
네, Pygame을 설치했죠?
pip로 Pygame을 설치하고
다시 Pygame을 사용했고,
이 MP3 파일을 재생했죠. 완벽했어요.
GP 명령어를 사용해서
파일 시스템에서 실행했고
멈출 때까지 재생했죠.
완벽했지만, 항상 그렇지는 않아요.
가끔은 플레이어가 열리면서
여기서 재생되기도 했거든요.
매번 다르게 작동했어요.
꽤 흥미로웠죠.
이제 도전 과제들을 살펴볼 건데,
먼저 오늘의 스폰서,
brilliant.org를 소개해드리겠습니다.
Brilliant의 특별한 점은
그들의 독특한 접근 방식입니다.
단순히 코드를 암기하는 게 아니라,
복잡한 문제를 작은 코드 조각으로
나누어 실제 문제 해결 능력을
키울 수 있게 해줍니다.
프로그래머처럼 생각하는 법을 배워
디버깅, 설계,
실제 프로그램 작업을 더 쉽게 이해할 수 있죠.
제가 특히 좋아하는 것은
파이썬 프로그래밍 과정입니다.
첫날부터 이론만 배우는 게 아니라
직접 프로그램을 만들고 퍼즐을 풀면서
실제 코드의 디버깅을 배웁니다.
가장 좋은 점은
문제 해결 능력을
영구적으로 키울 수 있다는 거죠.
Brilliant을 통해
단순히 코딩을 배우는 게 아니라
논리적이고 창의적이며
효율적으로 문제를 해결하는 법을 배웁니다.
이는 발전하는 기술 세계에서
특히 AI 코딩 도구와 협업할 때
꼭 필요한 기술입니다.
프로그래밍을 시작하거나
실력을 향상시키고 싶다면,
brilliant.org/allaboutai를
방문하거나
설명란의 링크를 클릭하세요.
가입하시는 첫 200명에게
프리미엄 연간 구독 20% 할인과
30일 무료 체험을 제공합니다.
이 영상의 스폰서 Brilliant에
감사드립니다.
이제 프로젝트로 돌아가겠습니다.
AI 기능이 있는 HTML 웹사이트부터
시작해보겠습니다.
채팅 텍스트 박스 정도가 될 것 같네요.
cursor로 돌아가보면,
에이전트가 접근할 수 있는 폴더가 있습니다.
여기 우리가 만든 노래가 있고,
OpenAI API 키와
replicate API 키가 있는
API key.txt 파일이 있습니다.
이 영상 후에 키는 폐기할 거라
크게 문제되진 않습니다.
이게 저장소는 아니고,
에이전트가 접근 가능한 디렉토리입니다.
이제 HTML 웹사이트를 만들어보려고 하는데,
프롬프트를 작성해서
에이전트가 해결할 수 있는지 보겠습니다.
'OpenAI 채팅 기능이 있는
HTML 웹사이트를 만들어주세요.
API key.txt에 있는
OpenAI API 키에 접근할 수 있습니다. 행운을 빕니다.'
이게 전부예요.
실행 단계가 시작되는데,
먼저 리서치를 합니다.
검색 에이전트를 사용하죠.
항상 이렇게 시작하는데,
좋은 시작점이라는 걸 알았거든요.
그리고 이제 OpenAI 채팅 웹사이트라는
새로운 디렉토리를 만들어서 세 개의
파일을 생성합니다. 인덱스, 스타일, 그리고 script.js입니다.
보시다시피 채팅 웹사이트를 만들었고
인덱스와 스타일을 만들었는데, 아마도
자바스크립트 파일을 작성해야 할 것 같네요.
한 가지 더 주목할 점은 계속 진행된다는 건데,
에러가 발생하면 그것을
맥락에 맞게 이해하고 다시 시도합니다.
클라우드 코드와 비슷하지만
훨씬 저렴하죠. 자, 이제
정적 파일을 제공하기 위한 간단한 server.js를
만들기로 했네요.
미션 완료라고 하니 테스트해볼까요?
익스프레스를 설치해야 했는데,
이제 npm start를 실행할 수 있을 것 같네요.
네, 서버가 3000번 포트에서 실행되고 있습니다.
완벽하네요. 이제 텍스트 박스가 있는데
보기 좋지는 않지만 한번 시도해보죠.
'안녕하세요'라고 보내볼게요.
좋네요, 작동하는 것 같습니다.
계속 진행해보죠.
네, 잘 작동하네요. 어떤 모델을
사용하고 있는지 확인해볼까요?
들어가서 아마도 서버 쪽
스크립트를 확인해보면
GPT 3.5 Turbo를 사용하고 있네요.
오래된 모델이긴 하지만
인정해야 할 것 같네요.
첫 번째 과제는 통과한 것 같습니다.
익스프레스를 설치하는 것 외에는
모든 게 잘 작동했으니까요.
그래요, 꽤 잘 됐습니다.
이제 다음 단계로 넘어가보죠.
song2.mp3 파일을 기억하시나요?
어떤 노래인지 알아내보려고 합니다.
이건 리믹스 버전인데, 원곡은
마돈나의 노래입니다.
La Isla Bonita라는 곡이었던 것 같은데
에이전트가 이 노래의
원곡을 찾아낼 수 있는 방법을
찾을 수 있는지 보겠습니다.
다시 한번, 이제
'song2.mp3 파일에서 원곡을
찾아내는 것이 당신의 과제입니다.
API 키가 있는 파일에 접근할 수 있고
API 키는 API key.txt에 있습니다. 행운을 빕니다.'
첫 단계로
리서치를 좀 해보겠습니다.
여기 코드를 작성했네요.
네 가지 다른 코드 스니펫을
작성한 것을 볼 수 있습니다.
이제 Shazam이라는 것을 시도해보려고 하는데
API 키가 있나요?
와, 찾았네요! 정말 대단합니다.
실제로 리믹스 버전도 찾았어요.
원곡은 아니지만 놀랍네요. 어떻게
했는지 살펴봐야겠어요.
여기 확대해서 보시면
노래가 'La Bonita Extended Mix'로 확인됐고
Mark의 리믹스네요.
2024 댄스 버전이에요. 와.
그러니까 Shazam
API를 사용했네요. 흥미롭네요.
마돈나의 'La Isla Bonita'의 리믹스 버전이에요.
와, 정말 인상적이네요.
이 리믹스 버전을 찾을 줄은
몰랐어요. 유튜브에서 우연히
발견한 것이었거든요.
매우 간단했어요. 그냥 메인에서
MP3 파일을 가리키고
노래를 인식하라고만 했는데
이런 결과를 얻었네요.
와, 정말 예상치 못했어요.
테스트할 때는 항상 OpenAI를 사용해서
가사를 식별했던 것과는 매우 충격적이었죠.
원래 이런 걸 찾지 못했거든요.
그래서 놀랐지만 매우 좋았어요.
이건 정말 인상적이었습니다.
자, 다음으로 넘어가볼까요.
이제 스튜디오 지브리 스타일의
소녀 이미지를 생성해볼 건데요,
최신 OpenAI 이미지 모델을
사용하도록 해보겠습니다.
한번 시도해보죠.
커서로 돌아가서,
Python main.py를 실행하고 MCP 도구를 로드합니다.
프롬프트를 입력하겠습니다. '스튜디오 지브리 스타일의
소녀 이미지를 생성하되,
2025년 최신 OpenAI 이미지 모델을 사용해주세요.'
모델명은 GPT 이미지 1로 하겠습니다.
이 모델은 작동시키기가 어려운데,
이미지를 가져오는 게 쉽지 않거든요.
이걸 한번 시도해보고 싶었어요.
매우 어려운 작업이라
저도 좀 애를 먹었거든요.
코드를 열어보겠습니다.
DALL-E를 사용하나 했는데,
GPT 이미지 1을 사용하네요.
좋습니다.
꽤 괜찮네요.
DALL-E인줄 알았는데, GPT 이미지 1이네요.
하지만 문제는 모델에서
이미지를 추출해서 시스템에 저장하는 건데,
Base64 형식이라 좀 까다롭습니다.
해결하기가 쉽지 않죠.
결국 작동하지 않았네요.
몇 번 시도했지만 실패했습니다.
문제는 문서를
제대로 찾아보지 않은 것 같아요.
문서를 찾지 못했고,
실제로 이를 위한
코드를 작성해야 했거든요.
입력 텍스트를 빠르게 수정해보고
해결책을 찾으면 다시 보여드리겠습니다.
이 모델에 대한
문서를 찾아보고 싶어요.
지시를 해보겠습니다.
보니까 포기하고
DALL-E 3 모델을 사용하네요.
이제 아마 작동할 거예요.
GPT1은 포기했지만,
결국 이미지는 얻었네요.
최신 모델은 아니지만
이미지는 얻었습니다. GPT1은 포기했고,
하지만 결과물은 나왔네요.
C 정도 줄 것 같습니다. 이미지는 얻었지만
최신 모델은 사용하지 못했거든요.
재미있게 지켜봤습니다.
고군분투하는 모습이 흥미로웠어요.
이미지 추출을 못했는데,
GPT 이미지 1에서는
URL을 받지 못하기 때문이죠.
매우 흥미로웠습니다. 이제
해결하기 어려울 것 같은 걸 시도해볼까요?
10초짜리 뮤직비디오를
replicate API와 음악을 사용해서 만들어보는 겁니다.
가능할지 한번 보죠.
이건 아직 테스트도 안 해봤어요.
저도 어떻게 될지 모르겠네요.
한번 놀라운 결과를 기대해보죠.
10초짜리 뮤직비디오를
song.mp3로 생성해보겠습니다.
replicate 라이브러리로요. API 키는 여기 있고,
la.mp4로 저장하겠습니다.
어떻게 될지 궁금하네요.
실제로 사용하고 있는데,
문서를 어디서 찾았는지
모르겠네요.
네, 정말 놀랍네요. 그냥
실행시켜 보도록 하겠습니다.
실패했네요. 작동하지 않았어요.
더 이상 시간이 없지만,
영상을 위해 한 번 더
시도해보겠습니다. 제가
cling 비디오 모델에 대한 모든 정보가 담긴
docs.md 파일을 만들어보겠습니다.
정보를 추가해서
이것이 가능한지 확인해보겠습니다.
방금 단계별
실행 방법에 대한 지침을
제공했습니다. 이것도 작동하지 않으면
너무 어려운 것 같네요. 만약
replicate MCP 서버가 있었다면
매우 쉽게 할 수 있었을 것 같아요.
좋아요, 실제로 영상을
생성했네요. 한번 볼까요?
여기 실제로 영상이 있네요.
꽤 멋지죠? 이제 볼까요?
이제 이것을 병합하기만 하면 됩니다.
과연 될까요? 지금
노래를 찾고 있네요. 잘
됐어요. 이제 ffmpeg 코드를 작성해야 합니다.
설치되어 있을까요? 네,
설치되어 있다고 하네요. 출력
파일이 있다고 합니다. 자, 소리를
켜보겠습니다.
좋았죠? 마지막에
성공했어요. 우리가 한 것은
단계별 지침을 제공하고
문서에 접근 권한을 주었더니
실행할 수 있었습니다. 하지만
이 간단한 프롬프트로는 올바른
문서를 찾지 못했어요. 아마
Brave 검색 방법과
fetch 사용법을 더 개선하고
이 문서를 찾았다면,
단계별 지침 없이도
할 수 있었을 것 같아요.
하지만 Replicate를 사용해서
간단한 뮤직비디오를
만들었다는 것에 꽤 만족합니다.
그래서 네, 아시다시피
저는 정말 신이 났어요.
새로운 설정으로
이 새로운 MCP 서버들과
놀면서요. 말씀드렸듯이,
빠르게 세어보겠습니다. Python main을
실행하면, 두 개의 서버가 있고
서버들이...
13개, 총 39개의 다른 도구들이
연결되어 있네요. 그래도
잘 작동하고 있어요.
대부분이 GitHub에 있지만,
39개의 도구는 꽤 많죠?
네, 즐겁게 보셨길 바랍니다.
멤버이신 분들은
커뮤니티 GitHub에서
이 레포를 계속 업데이트하겠습니다.
새 버전을 업로드할 수도 있어요.
이전 버전보다 더 반복적인
버전이라 다른 GitHub에 올릴 수도 있겠네요.
시청해주셔서 감사하고
곧 다시 만나뵙겠습니다.
brilliant.org를 확인해보세요.