AI 에이전트 구축 가이드

채널 아이콘
Tina Huang 구독자 835,000명

요약

이 영상에서는 화자가 수백 시간의 AI 에이전트 구축 경험을 바탕으로 모델, 도구, 지식·메모리, 오디오·음성, 가드레일, 오케스트레이션 등 6가지 주요 구성 요소를 소개합니다. 이어서 프롬프트 체이닝, 라우팅, 병렬화 등 6가지 에이전틱 워크플로우 패턴과 6요소 프롬프트 엔지니어링 기법을 실무 예시와 함께 설명합니다. 노코드(N8N)·코드(OpenAI Agents SDK) 기반 실제 구현 사례를 통해 고객지원, 뉴스 집계, 지출 추적부터 금융 리서치 에이전트까지 구축 과정을 시연합니다. 마지막으로 업무 자동화 출발점에서 AI 에이전트 아이디어를 발굴하고 SaaS 시장 대응 전략을 제시하며, 최신 음성·이미지·비디오 에이전트 혁신에도 주의를 환기합니다.

주요 키워드

AI 에이전트 멀티 에이전트 오케스트레이션 프롬프트 엔지니어링 라우팅 병렬화 가드레일 도구 모델 메모리

하이라이트

  • 🔑 AI 에이전트는 환경을 인식하고 목표 달성을 위해 자율적으로 행동하는 시스템이며, 인간의 역할을 대체하거나 보조하는 방식으로 설계됩니다.
  • ⚡️ 멀티 에이전트 시스템은 역할이 다른 서브 에이전트를 조합해 더 전문적이고 효율적인 작업 수행을 가능하게 합니다.
  • 📌 AI 에이전트 구축의 6대 구성 요소는 모델, 도구, 지식·메모리, 오디오·음성, 가드레일, 오케스트레이션으로 프레임워크화할 수 있습니다.
  • 🚀 대표적인 에이전틱 워크플로우 6가지로 프롬프트 체이닝, 라우팅, 병렬화, 오케스트레이터-워커, 평가-최적화, 완전 자율 패턴을 제시합니다.
  • 🌟 N8N 같은 노코드 툴로 이메일 고객지원, 뉴스 병렬 요약, 일일 지출 추적 등 다양한 AI 에이전트를 손쉽게 구현할 수 있습니다.
  • 💡 에이전트 프롬프트 엔지니어링 6요소(역할·과업·입력·출력·제약·도구·리마인더)를 따라야 에이전트가 기대한 대로 동작합니다.
  • 🔧 OpenAI Agents SDK(Python)로 플래너·서치·분석·작성·검증·음성 서브 에이전트를 연결해 금융 리서치 에이전트를 완성하는 코딩 예시를 선보입니다.
  • 🎯 AI 에이전트 아이디어는 자신의 일상 업무나 SaaS 시장의 유니콘 대응 관점에서 출발해 발굴하는 것이 가장 효과적입니다.
  • ⚖️ 새로운 모델이나 도구가 등장해도 근본 구성 요소 프레임워크 안에서 분류·적용하면 혼란 없이 통합할 수 있습니다.
  • 📈 음성·이미지·비디오 분야 혁신(11Labs, Whisper, Gemini Flash, Sora 등)을 활용하면 더욱 풍부한 에이전트를 개발할 수 있습니다.

용어 설명

AI 에이전트

환경을 인식(perceive)하고 정보 처리 후 목표 달성을 위해 자율적으로 행동하는 시스템.

멀티 에이전트 시스템

특정 역할을 수행하는 여러 서브 에이전트를 결합해 전문성과 효율성을 높이는 구조.

프롬프트 체이닝

작업을 여러 단계의 서브 에이전트가 순차적으로 처리하도록 분해한 에이전틱 워크플로우.

라우팅

입력된 요청을 분류한 뒤 해당 전문 서브 에이전트로 전달해 처리하는 워크플로우 패턴.

병렬화

여러 서브 에이전트가 동시에 섹션별로 처리하거나 결과를 투표·집계해 최종 출력으로 합치는 방식.

가드레일

비관련·유해 행위를 차단하고 에이전트가 의도된 목적에 충실하게 동작하도록 제약하는 안전장치.

오케스트레이션

서브 에이전트 간 상호작용, 배포, 모니터링, 개선 등 전체 워크플로우를 관리하는 프로세스.

RAG (검색 강화 생성)

정적 지식베이스나 벡터 스토어에서 정보를 불러와 생성 모델에 보강하는 기법.

MCP (Model Context Protocol)

Anthropic이 제안한 도구 제공 표준화 프로토콜로, LLM에 외부 도구를 일관되게 연결 가능하게 함.

벡터 스토어

임베딩된 문서·데이터를 효율적으로 검색하기 위해 최적화된 데이터베이스(예: Pinecone, Weaviate).

[00:00:00] 소개 및 영상 구조

화자가 AI 에이전트를 구축한 경험과 이번 영상의 전체 구조를 안내합니다. 노코드 도구부터 코드 기반 사례까지 단계별 프레임워크를 다룰 예정입니다.

AI 에이전트 구축에 수백 시간을 투자한 경험을 바탕으로, Lonely Octopus 프로그램을 통해 AI 기술 교육과 기업용 에이전트 개발 기회를 제공하고 있습니다.
이 영상에서는 노코드 도구부터 전문적인 개발 도구까지, 다양한 프레임워크와 실제 사례를 통해 포괄적인 AI 에이전트 구축 가이드를 제공합니다.
영상의 구성으로는 AI 에이전트의 핵심 요소, 워크플로우, 프롬프트 엔지니어링, 실제 구현 사례, 그리고 비즈니스 적용 방안을 다룰 예정입니다.
[00:01:36] AI 에이전트 정의와 다중 에이전트 시스템

AI 에이전트가 환경을 인식하고 목표를 달성하는 방식을 설명합니다. 여러 서브 에이전트를 조합해 라우팅하는 예시를 통해 멀티 에이전트 개념을 소개합니다.

AI 에이전트는 환경을 인식하고 정보를 처리하여 자율적으로 목표를 달성하는 시스템으로, 인간의 역할을 대체하는 AI 버전으로 이해할 수 있습니다.
대표적인 AI 에이전트 활용 사례로는 Cursor나 WindSurf 같은 코딩 에이전트와 고객 서비스 챗봇이 있습니다.
AI 에이전트 구현에는 다양한 방식이 있으며, 이는 여러 하위 에이전트들이 협력하는 시스템으로 구성됩니다.
고객 서비스 에이전트의 예시: 첫 단계에서 고객 문의를 처리하고 분류하는 하위 에이전트가 있고, 이후 전문 영역별로 특화된 하위 에이전트들이 처리합니다.
이러한 워크플로우를 '라우팅'이라고 하며, 이는 매우 효과적인 문제 해결 방식으로 입증되었습니다.
멀티 에이전트 시스템이 필요한 이유는 기업 조직과 유사하게, 각각의 전문성을 가진 에이전트들이 협력할 때 더 효과적인 결과를 얻을 수 있기 때문입니다.
[00:04:24] AI 에이전트 구성 요소 프레임워크

버거 비유를 통해 AI 에이전트의 6가지 필수 구성 요소(모델, 도구, 지식·메모리, 오디오·스피치, 가드레일, 오케스트레이션)를 개괄합니다.

AI 에이전트의 구성 요소는 햄버거의 구성 요소처럼 각각 필수적이며, 상황에 따라 다양한 변형이 가능합니다.
AI 에이전트는 햄버거처럼 필수적인 구성 요소들이 필요하며, 이러한 구성 요소들은 상황에 따라 교체 가능하지만 기본 구조는 유지되어야 합니다.
OpenAI는 AI 에이전트 구축에 필요한 가장 포괄적이고 잘 정의된 프레임워크를 제시하며, 이는 모델, 도구, 지식, 메모리, 오디오, 음성, 가드레일, 오케스트레이션 등 다양한 구성 요소를 포함합니다.
새로운 AI 도구와 기술이 계속 등장하더라도 당황하지 말아야 합니다. 이는 기존 프레임워크에 새로운 옵션이 추가되는 것에 불과하기 때문입니다.
[00:06:07] 구성 요소: 모델

AI 에이전트의 핵심 지능인 대규모 언어 모델(LLM)을 설명합니다. GPT-4, GPT-3.5, Claude, Gemini 등의 특징과 용도별 선택 기준을 다룹니다.

AI 에이전트의 핵심 구성 요소인 모델에는 GPT-4, GPT-3.5, GPT-3 등이 있으며, 각각의 모델은 특정 작업에 최적화되어 있습니다.
OpenAI 외에도 Claude 3.7 Sonnet과 Gemini 2.5 Pro 같은 다른 모델들이 특히 코딩과 STEM 분야에서 강점을 보이고 있습니다.
AI 모델 선택 시 고려사항에 대해 설명합니다. 비용을 중시한다면 오픈소스 모델을, 속도를 중시한다면 작은 모델을, 긴 컨텍스트가 필요하다면 구글 모델을 추천합니다.
AI 도구의 중요성과 다양한 활용 방안에 대해 설명합니다. 기본 모델에 도구를 추가함으로써 웹 검색, 이메일, 캘린더 등 실제 세계와 상호작용할 수 있는 기능을 확장할 수 있습니다.
[00:07:44] 구성 요소: 도구

웹검색, 이메일, 파일 접근 등 외부 기능을 AI 에이전트에 연결하는 도구의 중요성을 강조합니다. OpenAI SDK, MCP, 노코드·로코드 툴 활용법을 소개합니다.

OpenAI의 에이전트 SDK와 Anthropic의 MCP(Model Context Protocol)에 대해 소개합니다. MCP는 AI 모델에 도구를 제공하는 방식을 표준화하여 개발자들의 작업을 단순화했습니다.
[00:08:50] 구성 요소: 지식과 메모리

정적 지식베이스(문서·정책)와 영구 메모리(대화 이력)를 구분해 설명합니다. RAG 기법과 벡터 DB 솔루션 예시를 함께 다룹니다.

비개발자를 위한 노코드/로우코드 도구들을 소개합니다. N8N과 같은 도구를 통해 드래그 앤 드롭으로 쉽게 AI 모델과 다양한 도구를 연결할 수 있습니다.
AI 에이전트가 효과적으로 작동하기 위해서는 인터넷 검색, 데이터 분석, 이메일 접근과 같은 다양한 도구들이 필요합니다.
AI 시스템의 메모리는 정적 메모리(지식 베이스)와 영구 메모리로 구분됩니다. 정적 메모리는 변하지 않는 사실, 정책, 문서 등을 저장합니다.
영구 메모리는 대화 기록과 사용자 상호작용을 세션을 넘어 지속적으로 추적하고 기억할 수 있게 해주는 중요한 기능입니다.
OpenAI는 벡터 저장소, 파일 검색, 임베딩 등의 호스팅 서비스를 제공하며, Pine Cone과 Weaviate 같은 외부 솔루션도 활용 가능합니다.
OpenAI는 오디오와 음성을 별도 카테고리로 분류하며, 11 Labs의 음성 복제/생성 기술과 Whisper의 음성-텍스트 변환 기술이 널리 사용됩니다.
[00:10:53] 구성 요소: 오디오·음성

음성 인식·합성 기능을 통해 자연어 대화 경험을 제공합니다. OpenAI, 11Labs, Whisper 등 음성·자연어 상호작용 도구를 소개합니다.

AI 에이전트를 이해할 때는 특정 도구보다 일반적인 카테고리와 구성 요소를 이해하는 것이 중요합니다.
가드레일은 AI 에이전트가 의도한 대로 작동하고 부적절한 동작을 방지하는 중요한 구성 요소입니다.
[00:11:46] 구성 요소: 안전장치(가드레일)

유해·비관련 응답을 차단하고 목적에 맞는 동작을 보장하는 가드레일을 설명합니다. Guardrails AI, LangChain Guardrails 등 사례를 다룹니다.

OpenAI 생태계 외에도 Guardrails AI, LangChain 등 다양한 가드레일 도구들이 있으며, 많은 노코드 플랫폼에는 이미 내장되어 있습니다.
오케스트레이션은 에이전트의 배포, 모니터링, 개선을 포함하는 중요한 요소로, 지속적인 관리가 필요합니다.
[00:12:24] 구성 요소: 오케스트레이션

멀티 에이전트 워크플로우 정의, 배포, 모니터링, 개선 과정을 종합 관리합니다. OpenAI Framework, Crew AI, LangChain, LlamaIndex 등의 도구를 설명합니다.

다양한 프레임워크(OpenAI, Crew AI, LangChain, Llama Index)들이 오케스트레이션 기능을 제공하며, 각각의 특화된 용도가 있습니다.
HubSpot은 비즈니스 관점에서 AI 에이전트 구축에 대한 실용적인 무료 가이드를 제공합니다.
AI 에이전트를 활용한 비즈니스 성과 최대화를 위한 플레이북에 대해 설명합니다. 실제 사례, 일반적인 함정, 미래 업무 환경에 대한 논의를 포함합니다.
AI 에이전트 구현을 위한 체크리스트를 소개하며, 투자 수익 기회 발굴부터 성공 지표 정의, 통합 및 확장까지 다룹니다.
AI 에이전트의 구성 요소에 대한 설명을 마치고, 구현 방법으로 전환합니다. AI 에이전트가 단일 개체가 아닌 상호작용하는 하위 에이전트들로 구성됨을 설명합니다.
[00:14:26] 에이전틱 워크플로우 개요

프롬프트 체이닝, 라우팅, 병렬화, 오케스트레이터–워커, 평가–최적화, 완전 자율 에이전트 등 주요 워크플로우 패턴을 개괄합니다.

Anthropic의 '효과적인 에이전트 구축' 가이드를 소개하며, 강화된 LLM의 기본 구성 요소와 OpenAI 구성 요소와의 차이점을 설명합니다.
에이전트 워크플로우의 가장 기본적인 형태인 '프롬프트 체이닝'을 소개하고, 이것이 어떻게 작업을 순차적으로 처리하는지 설명합니다.
프롬프트 체이닝의 구현 방식과 보고서 생성 예시에 대해 설명합니다. 작업을 하위 작업으로 나누어 순차적으로 처리하며, 각 하위 에이전트가 특정 역할을 수행합니다.
라우팅 워크플로우에 대해 설명합니다. 입력을 받아 적절한 하위 에이전트에게 전달하여 처리하는 방식으로, 특히 복잡하고 구분된 카테고리가 있는 작업에 효과적입니다.
고객 서비스 봇을 예시로 들어 라우팅의 실제 적용 사례를 설명합니다. 문의 유형에 따라 전문화된 하위 에이전트에게 작업을 배분하는 방식을 소개합니다.
다양한 AI 모델을 활용한 라우팅 전략을 설명합니다. 질문의 난이도와 특성에 따라 Claude나 Gemini 등 적합한 모델로 라우팅하는 방식을 소개합니다.
병렬화 워크플로우의 두 가지 주요 방식인 섹셔닝과 투표에 대해 설명합니다. 여러 하위 에이전트가 동시에 작업을 수행하고 결과를 취합하는 방식을 다룹니다.
모델 성능 평가에서 서브 에이전트들은 속도, 정확도 등 각기 다른 측면을 평가합니다. 코드 취약점 검토에서는 여러 에이전트가 평가 후 투표로 최종 결정을 내립니다.
오케스트레이터 워커 워크플로우는 미리 정해지지 않은 하위 작업들을 동적으로 처리할 수 있어, 복잡한 코딩이나 검색 작업에 특히 유용합니다.
평가자-최적화자 워크플로우는 더 자율적인 시스템으로, 서브 에이전트가 해결책을 생성하고 평가자가 검토하여 승인하거나 개선을 요구하는 순환적 과정을 거칩니다.
이 워크플로우는 문학 번역이나 복잡한 검색 작업처럼 반복적인 개선이 필요한 작업에서 특히 효과적입니다. 모든 뉘앑스를 완벽하게 반영할 때까지 계속해서 개선됩니다.
에이전트는 충분한 연구와 정보 수집이 이루어질 때까지 지속적으로 작업을 수행하며, 이는 복잡한 보고서를 완벽하게 작성할 수 있을 때까지 계속됩니다.
자율 에이전트 구현은 가장 단순한 방식이지만, 매우 다양하고 복잡한 해결책을 도출할 수 있습니다. 에이전트는 사람과의 초기 상호작용 후 완전히 독립적으로 작동합니다.
에이전트는 환경으로부터 피드백을 받아 자신의 행동이 목표 달성에 도움이 되는지 스스로 판단하고 조정합니다.
이러한 자율적 에이전트 구현은 단계나 경로를 예측하기 어려운 열린 문제 해결에 주로 사용됩니다.
Anthropic의 예시로는 코딩 에이전트의 소프트웨어 엔지니어링 작업과 Claude의 컴퓨터 시스템 활용 사례가 있으며, 이는 복잡한 상호작용 과정을 포함합니다.
AI 에이전트 구현시 단순한 방식을 선택해야 더 예측 가능하고 비용 효율적인 결과를 얻을 수 있다는 점이 강조됩니다.
과도한 엔지니어링을 피하고, AI 에이전트에서 프롬프트 엔지니어링의 중요성이 설명됩니다. 좋은 프롬프트 없이는 다양한 도구와 기능을 효과적으로 활용할 수 없습니다.
[00:23:15] AI 에이전트 프롬프트 엔지니어링

역할·과업·입력·출력·제약·도구·리마인더 6요소를 기반으로 에이전트 프롬프트 작성법을 실용 예시와 함께 설명합니다.

AI 에이전트 프롬프트의 첫 두 구성 요소인 '역할'과 '작업'에 대해 설명합니다. 역할은 에이전트의 정체성과 스타일을, 작업은 수행해야 할 구체적인 임무를 정의합니다.
프롬프트의 '입력'과 '출력' 구성 요소에 대해 설명합니다. 입력은 에이전트가 받을 데이터를, 출력은 최종 결과물의 형태와 요구사항을 상세히 정의합니다.
프롬프트의 다섯 번째 중요한 구성 요소인 '제약 조건'이 소개됩니다.
프롬프트 작성시 해야 할 일과 하지 말아야 할 일을 명확히 구분하여 포함해야 하며, 핵심 포인트만 간단히 전달하고 불필요한 정보는 제외해야 합니다.
AI 에이전트에게 사용 가능한 도구와 기능을 명확히 알려주고, 중요한 제약사항이나 가이드라인을 상기시켜주어야 합니다.
AI의 시간 인식 한계를 고려하여 현재 날짜와 검색 기간을 명확히 지정해야 하며, 중요한 지시사항은 프롬프트 후반부에 배치하는 것이 효과적입니다.
기초 학습의 중요성을 강조하며, 실제 구현에 있어 기본기가 탄탄해야 좋은 결과물을 만들 수 있다는 점을 설명합니다.
다음 섹션에서는 노코드, 로우코드, 완전 코딩 등 다양한 수준의 AI 에이전트 구현 예제를 소개할 예정입니다.
[00:27:21] 노코드 예시: 고객지원 에이전트

N8N 플로우로 이메일 분류·응답·인간 에스컬레이션을 자동화한 고객지원 AI 에이전트를 소개합니다.

로우 코드 플랫폼을 사용하여 다양한 AI 에이전트를 쉽게 만들 수 있는 시스템을 소개합니다.
고객이 이메일을 보내면 OpenAI 모델 기반의 텍스트 분류기가 기술 지원, 결제, 일반 문의로 분류하여 각각의 워크플로우로 처리합니다.
실제 테스트를 위해 환불 요청 이메일을 보내고, 시스템이 이를 결제 관련 문의로 분류하여 자동 응답하는 과정을 시연합니다.
기술 지원 문의의 경우, 시스템이 직접 해결할 수 없는 상황에서는 디스코드를 통해 실제 상담원에게 에스컬레이션되는 과정을 설명합니다.
AI 뉴스 취합 에이전트를 소개하며, 매일 아침 7시에 뉴스레터와 레딧에서 정보를 수집하고 요약하여 WhatsApp으로 전달하는 병렬화 워크플로우 패턴을 설명합니다.
[00:29:41] 노코드 예시: 뉴스 병렬화 에이전트

N8N 병렬화 패턴으로 다양한 뉴스 소스를 동시에 검색·요약해 WhatsApp으로 전송하는 AI 뉴스 애그리게이터를 설명합니다.

NATO의 기술적 한계점에 대해 설명하며, OpenAI의 에이전트 SDK를 사용하면 병렬 실행이 가능하지만 현재 플랫폼 제약으로 인해 순차적으로 실행된다는 점을 설명합니다.
WhatsApp을 통해 다양한 뉴스 소스의 정보를 종합하여 받을 수 있으며, OpenAI GPT-5 알파, 구글 AI 윤리 등 다양한 AI 관련 뉴스를 소스와 함께 확인할 수 있습니다.
다중 입력 일일 지출 추적 AI 에이전트를 소개하며, WhatsApp을 통해 영수증 사진이나 텍스트로 지출을 기록하고, 구글 시트에 저장하며 매일 밤 지출 요약을 받을 수 있는 기능을 설명합니다.
[00:31:08] 노코드 예시: 지출 추적 에이전트

WhatsApp으로 영수증 이미지·텍스트를 전송하면 구글 시트에 저장하고 일일 지출 리포트를 생성하는 AI 에이전트를 소개합니다.

실제 사용 예시로 10달러 감자 구매를 보여주며, 일일 지출 요약 리포트가 생활비 중심의 소비 패턴을 분석하여 제공하는 방식을 설명합니다.
2025년 4월 7일 지출 분석에서 스테이크와 초콜릿 등 4,000달러의 대규모 식비 지출이 발견되었고, 땅콩 구매 등 소소한 생활비도 기록되었습니다.
일일 지출 추적 AI 에이전트의 구현 방식에 대해 논의하며, 유전적 워크플로우 디자인 패턴에 대한 의견을 요청했습니다.
[00:32:54] 코드 예시: 금융 리서치 에이전트

OpenAI Agents SDK(Python)로 플래너·서치·분석·작성·검증·음성 인터랙션 서브 에이전트를 연결한 금융 리서치 에이전트를 구현하는 구조를 설명합니다.

OpenAI의 에이전트 SDK를 활용한 파이썬 기반 금융 리서치 어시스턴트를 소개하며, 이는 검색, 음성, 번역 기능을 포함하고 있습니다.
금융 리서치 에이전트는 계획, 검색, 보고서 작성, 검증의 단계로 구성되며, 플래너 에이전트가 사용자 질의를 검색어로 분해합니다.
분석 단계에서는 금융 에이전트와 리스크 에이전트가 각각 재무 지표 분석과 위험 신호 식별을 수행하고, 최종적으로 모든 정보를 종합하여 보고서를 작성합니다.
AI 에이전트는 마크다운 형식으로 구조화된 보고서를 생성하며, 요약본과 후속 질문을 포함합니다. 검증 에이전트가 보고서의 정확성과 완성도를 검토합니다.
음성 상호작용 기능이 추가되어 사용자가 생성된 보고서에 대해 음성으로 질문하고 소통할 수 있습니다.
시스템은 프롬프트 체이닝 에이전트 워크플로우를 기반으로 구현되었으며, 메인 오케스트레이터가 여러 전문 에이전트들과 협력하여 최종 보고서를 생성합니다.
AI 코딩 에이전트와 에디터의 실제 사용 경험을 공유하며, 이러한 도구들이 코딩 방식에 혁신적인 변화를 가져왔음을 설명합니다.
의존성 패키지 설치와 서버 구동 과정을 거쳐 테슬라의 재무 지표 분석을 위한 금융 리서치 에이전트를 실행합니다.
음성 기능을 활용하여 테슬라의 재무 보고서 내용을 확인하기 시작하며, 249억 3천만 달러의 매출 실적을 보고합니다.
Tesla의 Model 3와 Y 차량의 성공적인 판매와 베를린, 텍사스 공장의 전략적 확장에 대해 설명하고, 음성 소통 기능과 스페인어 번역 기능을 소개합니다.
MCP를 활용한 스페인어 번역 도구의 실제 구현 예시를 보여주고, 코드 확인 방법을 안내합니다.
AI 에이전트 구현 방법의 다양성을 설명하고, 개발자의 기술 수준과 목적에 맞는 방법을 선택할 것을 권장합니다.
4주간의 AI 에이전트 부트캠프 프로그램을 소개하며, 기본부터 고급 커스텀 에이전트 개발까지 다루는 실용적인 교육 내용을 설명합니다.
[00:38:16] AI 에이전트 비즈니스 아이디어 발굴

자신의 일상 업무나 SaaS 시장 관점을 출발점으로 AI 에이전트 아이디어를 발굴하는 방법을 안내합니다. 언더커버 인터뷰, 대응 전략과 시장 기회를 제시합니다.

AI 에이전트 개발의 실질적인 목적과 비즈니스적 가치에 대해 설명하고, Y Combinator의 학습 자료를 추천합니다.
유용한 AI 에이전트 개발을 위해 자신의 업무에서 시작하여 자동화가 필요한 부분을 찾는 것이 중요함을 강조합니다.
한 팀원이 이메일을 자동으로 스크리닝하고 좋은 리드에만 응답하는 AI 에이전트를 만들고 싶다는 제안을 했고, 이는 노코드로도 구현 가능한 좋은 아이디어였습니다.
실무 경험이 없는 사람들을 위해, 실제 업무 현장에 들어가 문제점을 관찰하고 AI 자동화 기회를 발견하는 것이 좋은 접근 방법입니다.
업무에 매몰된 실무자들은 AI로 개선할 수 있는 기회를 놓치기 쉽지만, 새로운 시각으로 보면 자동화할 수 있는 기회를 발견할 수 있습니다.
YC의 핵심 통찰: 모든 SaaS 기업에 대응하는 AI 에이전트 버전의 유니콘 기업이 등장할 것이라는 전망을 제시합니다.
현재 가능한 기술 혁신에 대한 소개와 AI 산업의 빠른 발전 속도를 설명합니다.
2025년 현재 음성과 오디오 생성 기술의 놀라운 발전과 Sesame의 예시를 소개합니다.
이미지 모델(Rev Gemini Flash, GPT-4)과 비디오 모델(Sora)의 혁신적인 발전을 설명합니다.
AI 산업의 빠른 변화 속에서 기본 프레임워크와 기술에 집중하는 것의 중요성을 강조합니다.
여러분을 위해 AI 에이전트 구축 방법을 연구했습니다
수백 시간을 AI 에이전트 개발에 투자했고
Lonely Octopus라는 프로그램을 운영하고 있는데
이곳에서 사람들에게 AI 기술을 가르치고
기업을 위한 AI 에이전트를
개발할 기회를 제공합니다
이 영상에서는 제가 배운 모든 것을
정리하여 전달하고자 합니다
프레임워크와 다양한 도구들을 포함한
포괄적인 가이드를 제공할 예정입니다
코딩을 모르는 분들을 위한
노코드 도구부터 시작해서
다음 AI 스타트업을 준비하는
숙련된 소프트웨어 엔지니어를 위한
도구까지 모두 다룰 예정입니다
또한 다양한 도구를 사용하여 만든
실제 AI 에이전트 예시도
함께 살펴볼 것입니다
항상 그렇듯이 이 영상에는
작은 평가들이 포함되어 있어서
내용을 더 잘 이해하고 기억하는 데
도움이 될 것입니다
이제 시작하겠습니다. 이 영상의 일부는
HubSpot의 후원을 받았습니다
영상의 구성은 다음과 같습니다
먼저 AI 에이전트를 구성하는
핵심 요소들을 소개하고
각 카테고리별 도구들과
도구 선택 방법을 설명하겠습니다
다음으로 세부사항으로 들어가서
현재 사용되고 있는
일반적인 에이전트 워크플로우에 대해
이야기하겠습니다
또한 에이전트를 위한
프롬프트 엔지니어링 속성 강좌도
포함될 예정입니다. 프롬프트는
에이전트의 성패를 좌우하는
핵심 요소이기 때문입니다
그 다음 노코드 도구와
코드 기반 도구를 모두 사용한
AI 에이전트의 전체 예시를 보여드리겠습니다
하지만 목적 없는 AI 에이전트를
만드는 것이 무슨 의미가 있을까요?
그래서 어떤 종류의 AI 에이전트와
AI 스타트업 또는 비즈니스를
구축해야 하는지도 다룰 예정입니다
기술 기반의 구체적인 제안과 함께
무엇을 만들어야 할지 설명하겠습니다
음성, 비디오, 이미지 에이전트 분야의
발전으로 정말 멋진 활용 사례들이
가능해졌습니다. 에이전트의 시대가 오고 있습니다
여러분, 안녕하세요
먼저 AI 에이전트가 무엇인지 정의해보겠습니다
AI 에이전트는 환경을 인식하고
정보를 처리하며
특정 목표를 달성하기 위해
자율적으로 행동하는 시스템입니다
더 인간적인 관점에서 보면
우리는 보통 AI 에이전트를
인간의 역할이나 작업을 대체하는
AI 버전으로 생각합니다
그래서 자주 듣게 되는 것이
Cursor나 WindSurf같은 코딩 AI 에이전트입니다
이들은 AI 기반 코드 에디터로
에이전트 모드를 통해 코딩 작업을
자동으로 수행할 수 있으며
Claude Sonnet 3.7이나 Gemini 2.5 Pro를 사용합니다
또 다른 일반적인 AI 에이전트 사용 사례는
고객 서비스 챗봇입니다
많은 기업들이 현재
고객 서비스 에이전트를 실험하고 있는데
이들은 문의 처리
고객과의 소통, 불만 접수
또는 특정 문제 해결과 같은
작업을 수행할 수 있습니다
이것이 AI 에이전트의 정의이자 경험입니다
하지만 AI 에이전트를 구현할 때
실제로는 다양한 방식으로
구현할 수 있으며
많은 세부적인 차이가 있습니다. 제가
이것에 대해 간단히 미리 설명해
드리겠습니다. 나중에 더 자세히
다양한 에이전트의 정확한
구현 방법에 대해 다룰 예정이지만
지금은 한 가지만 알아두셨으면 합니다
AI 에이전트라고 할 때, 단순히
혼자서 AI 에이전트 일을
하는 것만을 의미하는 게 아닙니다
대개는 특정 작업을 수행하는
여러 하위 에이전트들이 있고
이들이 멀티 에이전트 시스템으로
통합되어 우리가 인식하는
완전한 에이전트를 형성합니다. 예를 들어
전형적인 고객 서비스 에이전트는
보통 먼저 고객 문의를 처리하는
하위 에이전트로 나뉘는데, 이는
고객과 상호작용하면서 문제가
무엇인지 파악하고 이를 태그로 분류해
더 전문적인 하위 에이전트에게 전달합니다
예를 들어 최근 제 휴대폰 요금 결제
문제는 '청구 및 결제' 문제로
태그가 지정되어
청구와 결제를 전문적으로
처리하는 다른 하위 에이전트에게
전달됩니다
또한 IT나 영업, 그리고
통신사 고객 서비스의 다른 업무를 전문으로 하는
하위 에이전트들도 있습니다
참고로 이런 에이전트 워크플로우를
라우팅이라고 하는데
이러한 유형의 문제 해결에
매우 효과적인 것으로 입증되었습니다
나중에 라우팅과 다른 유형의
에이전트 워크플로우에 대해
더 자세히 설명하겠지만, 지금까지의 설명이
에이전트가 실제로 어떻게 작동하는지
이해하는 데 도움이 되었길 바랍니다
이는 에이전트를 구축할 때 매우 중요합니다
또한 여러분이 가질 수 있는
이런 의문에 답해드리고 싶습니다
왜 이런 멀티 에이전트 시스템과
다양한 구현 방식이 필요할까요?
그 이유는 에이전트를
기업의 인력과 비교하면
매우 직관적으로 이해할 수 있습니다
기업에서도 사람들은 각자 다른 역할을 맡습니다
한 사람이 모든 일을
동시에 처리하려고 하면
매우 혼란스러워지고
우선순위를 정하기 어려워지며
어떤 특정 업무도
제대로 수행하지 못하게 됩니다
에이전트도 마찬가지입니다
각각 다른 분야를 전문으로 하는
여러 에이전트들이 있을 때
모두가 협력하여 나오는 결과는
단일 AI 에이전트가 모든 것을
처리하려고 할 때보다
훨씬 더 좋은 성과를 낼 수 있습니다
자, 이제 한 걸음 물러서서
AI 에이전트의 구성 요소를 이해하기 위한
프레임워크를 설명해드리겠습니다
마치 햄버거를 만드는 것처럼
햄버거는 여러 구성 요소로 이루어져 있죠
빵, 패티, 채소, 소스가 있습니다
빵의 종류, 채소의 종류,
패티의 종류, 소스의 종류를
바꿀 수는 있지만
햄버거가 제대로 기능하기 위해서는
이 모든 구성 요소가 필요합니다
이상한 샌드위치나 핫도그가 아닌 진정한 햄버거처럼
에이전트도 마찬가지입니다. 여러 가지
다양한 구성 요소들이 있고 이들을
서로 바꿔가며 사용할 수 있지만
결국에는 에이전트가 되기 위해서는
이러한 필수 구성 요소들이 모두 필요합니다
하지만 오랫동안 정립되어 온 햄버거의
구성 요소들과는 달리
AI 에이전트를 구성하는 요소들은
아직 비교적 새로운 개념이라 사람들마다
서로 다른 정의를
사용하고 있습니다. 하지만 가장 포괄적이고
잘 정의된 것은 OpenAI에서 나온 것입니다
OpenAI는 에이전트 구축에 대해 설명하면서
모델, 도구, 지식과 메모리,
오디오와 음성, 가드레일,
오케스트레이션과 같은 여러 영역의
구성 요소들을 조합해야 한다고 하며, OpenAI는
각 영역에 대한 기본 요소들을 제공합니다
물론 OpenAI가 자사의 제품을
우선적으로 나열했지만
각각의 구성 요소들에 대해
실제로 다른 많은 도구들이
사용 가능합니다. 여러분이 만들고자 하는
에이전트의 유형에 따라
어떤 것이 더 나은지 달라지며, 이에 대해
각 구성 요소들을 더 자세히
설명하겠습니다. 하지만 먼저
매일같이 새로운 도구와
기술이 나오는 상황에서
압도감을 느끼실 수 있는데
당황하지 마시고 침착하세요
걱정하실 필요 없습니다. 왜냐하면
이러한 새로운 혁신이나
AI 에이전트를 혁신한다는 도구들도
결국에는 이 프레임워크의
한 부분이 될 뿐이기 때문입니다
마치 햄버거 소스 카테고리에
새로운 종류의 소스가 추가되는 것처럼
조금 더 매운맛이 추가되는 것과 같습니다
이해가 되셨길 바랍니다
이제 실제로 이러한
각각의 구성 요소들에 대해 알아보겠습니다
OpenAI는 이를 잘 정리한 표를 제공하는데
먼저 모델 구성 요소를 보면
AI 모델, 즉 대규모 언어 모델이 있습니다
이것이 핵심 지능으로서
추론하고 결정을 내리며
다양한 형태의 데이터를
처리할 수 있는 능력을 가지고 있죠
OpenAI가 제시하는 예시로는
GPT-3, GPT-3.5, GPT-4 등이 있습니다
여러분이 만들고자 하는
특정 유형의 에이전트에 따라
OpenAI 생태계 내에서 다른 모델을
선택할 수 있습니다. GPT-4는
대표 모델로서 사고하는 모델이며
추론과 다단계 문제 해결
복잡한 의사결정에 탁월하고
대부분의 질문에 잘 대답합니다
더 집중적인 작업이 필요한 경우
속도가 느리고 비용이 더
많이 든다는 단점이 있지만
GPT-4.5가 있는데, 이는 글쓰기와
새로운 아이디어 탐구에 적합합니다. 또한
GPT-3는 고급 추론 기능을 가지고 있으면서도
더 빠르며, GPT-3 Mini High는
특히 코딩과 논리에 강점이 있습니다. OpenAI
생태계 외에도 Claude 3.7 Sonnet은 보통
코딩과 추론, STEM 관련 작업을
많이 하는 사람들이 주로 선택하는
모델입니다. 현재는 Gemini 2.5 Pro가
이에 도전하고 있는 상황이지만
솔직히 말씀드리면
한 달 뒤나 이 영상을 보실 때쯤이면
아마도 순위가 모두
바뀌어 있을 겁니다만,
전반적으로 비용이 가장 중요하다면
오픈소스 모델을 선택하고
직접 호스팅하는 것이 좋습니다.
그리고 속도를 중시한다면
작은 규모의 모델을 선택하는 것이 좋고
현재 기준으로 대부분의 구글 모델들은
더 긴 컨텍스트 윈도우를 제공합니다.
만약 긴 컨텍스트 윈도우 유지가
중요하다면 이 점을 고려하세요.
참고로 다양한 웹사이트에서
이러한 모델들의 성능을 순위로 매기고 있습니다.
예를 들어 Vem(빔)이라는 사이트가 있는데
정확한 발음은 잘 모르겠네요.
여러분의 사용 목적에 따라
이러한 순위를 확인하고
필요에 가장 적합한 모델을
선택하실 수 있습니다.
다음은 도구 카테고리입니다.
도구의 중요성을 절대 과소평가하지 마세요.
여러분의 모델은 단순한 기본 모델일 뿐이며,
진정한 모델의 힘은
도구 사용 능력과 같은 다양한 기능을
추가할 때 발휘됩니다.
도구는 AI 에이전트가 웹 검색과 같은
실제 세계와 상호작용할 수 있게 해주죠.
여러분이 보는 모든 애플리케이션들은
잠재적으로 AI의 도구가 될 수 있습니다.
예를 들어 구글 제품들에 대한
접근 권한을 부여할 수 있죠.
Gmail이나 캘린더 같은 것들,
하드 드라이브에 있는 파일들,
화면에서 일어나는 일들,
그리고 Slack이나 Discord,
YouTube, Salesforce와 같은
여러분이 즐겨 사용하는 앱들에 대한 접근 권한도
제공할 수 있습니다. Zapier 등도 포함되죠.
또한 AI 에이전트에게 제공할
자체 커스텀 도구를 만들 수도 있습니다.
OpenAI의 에이전트 SDK를 사용한다면,
코딩 능력이 필요합니다.
이를 통해 자체 도구를 정의하고
웹 검색, 파일 검색,
컴퓨터 사용과 같은 내장 도구들도 사용할 수 있죠.
최근 주목받고 있는 MCP에 대해
들어보셨을 수도 있는데,
이는 Anthropic이 개발한 것으로
Model Context Protocol의 약자입니다.
이는 대규모 언어 모델에
도구를 제공하는 방식을
표준화하는 프로토콜입니다.
이는 큰 진전인데, 이전에는 개발자들이
에이전트에 다양한 도구를 제공하는 것이
매우 어려웠기 때문입니다.
각각의 소프트웨어가 서비스를
다르게 구성했기 때문에
개발자들은 이를 일일이 파악하고
조합해야 했습니다.
하지만 MCP는 이 과정을
훨씬 쉽게 만들어 주었죠.
코딩을 모르시더라도 걱정하지 마세요.
노코드나 로우코드 도구들도 많이 있어서
모델에 도구를 제공하는 기능이
내장되어 있습니다.
나중에 보여드릴 N8N같은 예시들은
드래그 앤 드롭으로 쉽게
다양한 도구를 연결할 수 있고
대규모 언어 모델과 쉽게 연동됩니다.
예를 들어, 시장 조사 에이전트를
만들려고 한다면
인터넷을 검색할 수 있는 도구가 필요하고
수집한 데이터를 분석할 수 있는 도구와
이메일 보고서를 보내고 싶다면
이메일에 접근할 수 있는
도구도 필요할 것입니다
이제 지식과 메모리로 넘어가보겠습니다
두 가지 유형이 있는데
첫 번째는
지식 베이스 또는 정적 메모리라고 합니다
이를 통해 AI 모델에 정적인 사실, 정책, 문서
즉, 참조하고 접근할 수 있는
정보를 제공할 수 있습니다
이는 시간이 지나도 비교적
변하지 않는 정보입니다
예를 들어 법률 업무를 처리하는
AI 에이전트를 만든다면
특정 사례나 회사에 대한
구체적인 법률 문서와
해당 회사와 관련된
특정 정책들이
필요할 것입니다. 다른 유형의 메모리는
영구 메모리입니다. 이는 AI 에이전트가
단일 세션을 넘어서
대화 기록이나 사용자 상호작용을
추적할 수 있게 해주는 메모리입니다
이는 많은 챗봇 사용 사례에서
매우 중요합니다. 예를 들어
AI 개인 비서가 있다면
그 개인 비서가
어제 일어난 일을
기억하게 하고 싶을 것입니다. OpenAI는
벡터 저장소, 파일 검색, 임베딩과 같은
자체 호스팅 서비스를 제공하며
오픈소스 버전도 있어서
자체 데이터베이스를 호스팅하고
RAG(검색 증강 생성)를
다양한 방식으로 수행할 수 있습니다
너무 자세한 내용은 다루지 않겠지만
사람들이 많이 사용하는
솔루션으로는 Pine Cone이 있는데
클라우드 네이티브이며 벡터 검색에
최적화되어 있고, 오픈소스인
Weaviate도 있습니다
노코드 솔루션을 선호한다면
이런 것들을 걱정할 필요가 없는데
보통 해당 솔루션에서 이미 처리되어 있기 때문입니다
예를 들어 N의 경우
복잡한 코딩 없이도
이러한 기능들을
사용할 수 있습니다. 다음은 오디오와
음성인데, 흥미로운 점은
OpenAI가 이것을 별도의 카테고리로
분류했다는 것입니다. 다른 프레임워크들은
이를 특별히 구분하지 않는데
제가 생각하기에 이렇게 구분한 이유는
최근 오디오 포맷에서
혁신적인 발전이 있었기 때문입니다
기본적으로 에이전트에 오디오와
음성 기능을 추가하면
자연어로 상호작용할 수 있게 됩니다
이는 챗봇 AI 에이전트에서
매우 중요한데, 자연어를 통한
직접적인 의사소통이
더 나은 사용자 경험을 제공할 수 있기 때문입니다
OpenAI 생태계 내에서는
자체적인 구현 방식이 있고
생태계 외부에서는
현재 사람들이 많이 사용하는 것이
11 Labs인데, 이는
음성 복제와 생성에
사용됩니다. 그리고 오디오
텍스트 변환의 경우에는
OpenAI의 Whisper 모델을
많이 사용합니다. 앞서 말씀드렸듯이
이러한 것들은 빠르게 변화하고 있어서
여러분이 이해해야 할 중요한 것은
특정 도구보다는 일반적인 카테고리와
구성 요소에 대한 이해입니다
다음 구성 요소는 가드레일입니다
가드레일은 매우 중요한데
부적절하거나 해로운, 또는
원하지 않는 동작을 방지하기 위해서죠
에이전트를 만들고 나면
실제로 의도한 대로
작동하는지, 다른 일을
하고 있지는 않은지 확인해야 합니다
고객 서비스 에이전트가 있다면
실제로 고객 서비스 관련
내용을 다루고 있는지 확인하고
갑자기 하이쿠를 읊지 않도록 해야 합니다
OpenAI 생태계 외에도
현재 Guardrails AI와 LangChain
가드레일이 인기가 있습니다
사실 이 카테고리에는 많은 옵션이 있는데
노코드 도구를 사용하시는 분들은
이 카테고리를 이해하는 것이
중요하지만, 대부분의 노코드 도구들은
이미 플랫폼 내에
솔루션이 내장되어 있습니다
마지막으로 오케스트레이션이 있는데
이것은 많이 간과되는 부분입니다
앞서 이야기했던 것처럼
서브 에이전트들을 어떻게
연결하여 최종 결과를
도출하는지에 대한 것입니다
여기에는 배포도 포함되는데
프로덕션 환경에서 작동하고
모니터링하며 에이전트를
개선하는 것을 포함합니다
에이전트를 배포하고 나서
그냥 방치해서는 안 됩니다
시간이 지나면서 모델도 계속 변하고
많은 기술과 사고방식이 변화하며
데이터도 계속 변화하기 때문에
지속적으로 모니터링하고
에이전트가 의도한 대로
작동하는지 확인해야 합니다
이 카테고리에도 많은
도구들이 있는데, 대부분
프레임워크가 있고
오케스트레이션 부분이
프레임워크에 내장되어 있습니다
OpenAI는 자체 시스템이 있고
Crew AI는 또 다른
멀티 에이전트 시스템 프레임워크로
자체적인 시스템을
오케스트레이션하고 배포합니다
LangChain도 매우 인기가 있는데
다양한 에이전트 상호작용을 관리하고
배포하는데 사용되며, Llama Index는
특히 문서와 관련된
AI 에이전트를 만들 때
정적 메모리와 지식 베이스가
많이 필요한 경우에 유용합니다
여기 AI 에이전트를 구성하는
다양한 구성 요소들을 기억하기 쉽게
도와줄 니모닉이 있는데
이것은 바로 지금부터 할
첫 번째 평가에 유용할 것입니다
화면에 몇 가지 질문을
보여드릴 텐데, 답변을 댓글로 달아서
지금까지 배운 내용을
잘 이해했는지 확인해보세요
이것이 AI 에이전트를 구축하는
매우 실용적인 가이드입니다. HubSpot은
비즈니스 관점에서 AI 에이전트 구축에 대한
매우 실용적인 무료 가이드를 제공하는데
이 무료 리소스는 오늘 우리가
다룬 모든 내용을 보완하는
아주 좋은 자료입니다
이제 이러한 AI 에이전트를 활용하여
최대의 비즈니스 성과를 창출하는 방법에 대해
플레이북에서 설명합니다
AI 에이전트가 현재 비즈니스에서
실제 사례와 함께 어떻게 활용되고 있는지
일반적인 함정들과
미래의 업무 환경에 대해 논의합니다
조직이 AI 에이전트를 구현하는 각 단계를
검토할 수 있는 체크리스트를 포함하고 있으며
최고의 투자 수익 기회 발굴부터
성공 지표 정의,
통합 및 확장에 이르기까지
자세히 다룹니다. 저는 이 자료를
이 링크에서 확인해보시기를
강력히 추천드립니다. 설명란에도
링크가 있습니다. HubSpot에
이런 실용적인 무료 자료를
만들어주시고 이 영상의 일부를
후원해주셔서 감사합니다. 이제 다시
영상으로 돌아가겠습니다. 자, 이제 AI 에이전트를
구성하는 요소들을 알았으니
구현 방법으로 넘어가보겠습니다
앞서 말씀드렸듯이
AI 에이전트는 대부분 단일 개체가 아니라
실제로는 서로 상호작용하는
여러 하위 에이전트로 나뉩니다
이러한 일반적인 에이전트 워크플로우와
에이전트 시스템을 다루는 제가 가장 좋아하는 자료는
Anthropic의 '효과적인 에이전트 구축'
가이드입니다. 함께 살펴보겠습니다
먼저 에이전트 시스템의 기본
구성 요소를 보겠습니다. 이것이
Anthropic이 말하는 강화된
LLM입니다. 이 이미지를 보면 입력,
LLM, 그리고 출력이 있음을 알 수 있습니다
LLM은 자체적으로 검색 쿼리를 생성하고
적절한 도구를 선택하며
메모리를 통해 어떤 정보를
유지할 필요가 있는지 결정할 수 있습니다
앞서 주의 깊게 보셨다면
이 강화된 LLM의 구성 요소와
OpenAI의 구성 요소 사이에
겹치는 부분이 있다는 것을 보셨을 겁니다
이 버전은 조금 더 기본적입니다
가드레일이나 오케스트레이션 같은 것들은
다루지 않지만
분명히 겹치는 부분이 있습니다
테스트와 배포에 관해서는
괜찮습니다. 이러한 특정 사항에 대해서는
OpenAI 구성 요소를 기억하시면 됩니다
참고로 이러한 강화된 LLM 구성 요소들은
하위 에이전트라고도 불립니다
이제 이러한 구성 요소들, 즉 하위
에이전트들이 어떻게 서로 맞물려
더 큰 AI 에이전트를 형성하기 위해
함께 작동하는지 살펴보겠습니다
가장 단순한 에이전트 워크플로우부터
시작해서
더 복잡하고 진정으로
자율적인 것들까지 살펴볼 것입니다
가장 단순한 일반적인 에이전트 워크플로우는
프롬프트 체이닝이라고 합니다
프롬프트 체이닝은 작업을 여러 단계로 분해하여
각 하위 에이전트가 이전 에이전트의
출력을 처리하는 방식입니다
가장 단순한 형태에서는
일종의 조립 라인과 같지만
다른 작업으로 분기할 수 있는
게이트를 추가할 수도 있습니다
하지만 기본 로직은 동일합니다. 입력이 있고
하위 에이전트가 그 입력을 처리한 다음
다른 하위 에이전트에게 전달하고
그 에이전트가 다른 작업을 수행하며
최종 출력을 얻을 때까지 이 과정이 계속됩니다
최종 출력을 얻을 때까지 이런 식의 구현이
가장 이상적인 상황은
작업을 쉽게 하위 작업으로 나눌 수 있고
분해할 수 있을 때입니다. 예를 들어
프롬프트 체이닝이 유용한 경우는
AI 에이전트가
보고서를 생성해야 할 때입니다. 입력은
사용자가 원하는 내용에 대한 설명이 될 수 있고
그러면 하위 에이전트가 그것을 받아
개요를 생성하고 이를 전달하여
다른 하위 에이전트가 특정 기준에 맞게
개요를 검토한 다음
작성자 하위 에이전트에게 전달하여
실제로 보고서를 작성하고
편집자 하위 에이전트가
보고서를 편집하면
최종 출력은 지정된 기준을
충족하는 보고서가 됩니다
라우팅은 또 다른 유형의 워크플로우로
입력이 들어오면
하위 에이전트가
특정 입력을 특정 후속 작업으로
지시하는 역할을 담당하고
각 작업은 해당 작업에 특화된
하위 에이전트가 관리합니다
처리가 끝나면 최종 출력을 얻게 됩니다
라우팅은 복잡한 작업에서 잘 작동하는데
특히 별도로 처리하는 것이
더 나은 distinct한 카테고리가 있을 때
유용합니다. 고전적인 예로
라우팅이 유용한 경우는
고객 서비스 봇이 있을 때입니다
고객 서비스 봇은
다양한 종류의 문의를 받게 되는데
일반적인 질문, 환불 요청
기술 지원 등 고객 서비스에
문의하는 모든 종류의 질문들이 있습니다
문의의 성격에 따라 첫 번째 하위 에이전트는
가장 관련성 높은 작업을
해당 작업에 특화된 하위 에이전트에게
전달할 수 있어야 합니다. 예를 들어
환불 요청이라면
환불 전문 하위 에이전트에게 전달되고
기술 지원 문의라면
기술 지원 처리를 전문으로 하는
AI 하위 에이전트에게 전달됩니다
또 다른 일반적인 사용 사례는
서로 다른 유형의 질문을
다른 모델에 라우팅하는 것입니다
일부 모델은 특정 작업에서
다른 모델보다 더 뛰어납니다. 예를 들어
어려운 STEM 관련 질문이라면
Claude Sonnet 3.7로 라우팅할 수 있고
쉬운 질문이고
속도가 중요하다면 Gemini Flash로
라우팅할 수 있습니다. 다음 워크플로우는
병렬화입니다. 병렬...아
이 특정 에이전트 워크플로우는
주로 두 가지 주요 변형이 있습니다
하위 에이전트들이
동시에 작업을 수행하고
모든 출력을 취합하는 방식입니다
첫 번째는 섹셔닝으로
작업을 독립적인 하위 작업으로 나누어
병렬로 실행하는 것이고
또는 투표 방식으로, 서로 다른
하위 에이전트들을 사용하여 동일한 작업을
여러 번 실행하여 다양한 출력을
취합하는 방식입니다. 섹셔닝의
예시로는 새로운 모델의
성능이 얼마나 좋은지
주어진 프롬프트에 대해 평가할 때
각 하위 에이전트가
모델 성능의 각기 다른 측면을
평가할 수 있습니다. 예를 들어
하나는 속도를 평가하고
다른 하나는 정확도를 평가하는 식입니다.
투표의 예시로는 코드의
취약점을 검토하는 것이 있는데,
여러 서브 에이전트들이
코드를 평가한 후
투표를 통해 실제 취약점인지
최종 결정을 내립니다.
다음으로 더욱 복잡한
오케스트레이터 워커 워크플로우입니다.
이는 병렬화와 비슷해 보이지만
중요한 차이점이 있습니다.
바로 수행할 하위 작업들이
미리 정해져 있지 않다는 점입니다.
이는 특히 정확히 어떤
하위 작업이 필요한지 예측할 수 없는
더 복잡한 문제에
매우 유용합니다.
예를 들어 코딩 에이전트를
만들 때
정확히 몇 개의 파일을
수정해야 하는지, 어떤 방식으로
변경해야 하는지 미리
알 수 없기 때문에
여러 파일을 동적으로
수정해야 합니다. 다른 예로
검색 작업이 있는데,
리서치 어시스턴트 에이전트는
다양한 출처에서 많은
다른 종류의 정보를 수집하고
분석해야 하므로 미리 정할 수 없습니다.
더욱 복잡한 것은
평가자-최적화자 워크플로우입니다.
이는 더욱 자율적인 상황에
가까워지는 것으로,
서브 에이전트에게 더 많은
자율성과 자유를 주어
무엇을 해야 할지 결정하게 합니다.
입력이 주어지면 첫 번째
서브 에이전트가 해결책을 생성하고
이를 평가자 서브 에이전트에게
전달합니다. 평가자 서브 에이전트는
이를 평가하여 승인하면
출력으로 내보내고,
충분히 좋지 않다고 판단하면
첫 번째 서브 에이전트에게
거절 의견과 함께
개선 피드백을 보냅니다.
이는 평가자 서브 에이전트가
해결책이 충분히 좋다고 판단할 때까지
계속되는 순환 루프입니다.
이 워크플로우는 특히
명확한 평가 기준이 있고
반복적인 개선이 가능할 때
유용합니다.
이 워크플로우의 좋은 예시는
문학 작품을 번역할 때입니다.
번역가 서브 에이전트가
처음에는 모든 뉘앑스를
잡아내지 못할 수 있으므로,
평가자 서브 에이전트가 피드백을 주고
첫 번째 에이전트는 이를 반영해
계속해서 개선합니다.
언어의 모든 뉘앑스를
잘 살릴 때까지 이 과정이 계속됩니다.
다른 예시로는
최종 보고서로 통합해야 하는
복잡한 검색 작업이 있습니다.
연구를 진행하면서 평가자 에이전트가
계속 검토하며
충분하지 않다고 판단하면
충분히 깊이 있는 연구가 아니라고 판단되면
계속 연구를 진행하고, 또 진행하면서
필요한 모든 정보를 수집할 수 있을 때까지
진행합니다. 이는 복잡한
보고서를 완벽하게 작성할 수 있을 때까지
계속되어야 합니다. 마지막으로
진정한 자율 에이전트 구현에 대해 살펴보겠습니다.
이것은 까다로운 부분인데, 구현 방식은
가장 단순하지만
매우 다양하고 잠재적으로
복잡한 해결책을 도출할 수 있기 때문입니다.
에이전트는 먼저 사람과 상호작용하여
작업을 시작하고, 일단 작업이
명확해지면 에이전트는 완전히 독립적으로
작동하게 됩니다. 에이전트는
어떤 형태의 행동을 수행하며
이는 환경에 영향을 미치게 됩니다.
에이전트는 환경으로부터
스스로 판단하여
자신의 행동 결과가 어떤 의미를 갖는지
파악해야 합니다. 예를 들어
도구를 사용하기로 결정하거나
코드를 실행하기로 결정했다면
스스로 판단하여 최종 목표를
향해 진전을 이루고 있는지
확인해야 합니다. 그리고
계속해서 환경으로부터 피드백을 받고
진행 상황을 판단하면서
최종적으로 자신에게 주어진
작업이 완료되었다고 느낄 때까지
계속합니다. 이러한 구현 방식,
즉 매우 자율적이고 자유로운 형태의
에이전트 구현은 주로
매우 열린 문제에 사용됩니다. 이는
필요한 단계의 수나
최종 결과에 도달하기 위한 정확한 경로를
예측하기 매우 어려운 경우입니다.
기본적으로 에이전트에게
'이것을 해결하라'고 지시하면
에이전트가 스스로 방법을 찾아내야 합니다.
어떤 작업이 필요한지,
목표를 향해 진전이 있는지,
그리고 언제 작업이
완료되었는지를 판단해야 합니다.
이런 방식으로 정말 놀라운
결과를 얻을 수 있지만
때로는, 아니 자주
매우 예측할 수 없는 결과가
나올 수 있습니다. Anthropic 문서의
예시를 보면 코딩 에이전트가
다양한 소프트웨어 엔지니어링
벤치마크 작업을 해결할 수 있는데
여기에는 여러 파일을
편집하는 작업이 포함됩니다. 또한
컴퓨터 사용 구현에서는 Claude가
컴퓨터를 사용하여
복잡한 컴퓨터 시스템의
모든 기능에 접근하여
특정 작업을 수행했습니다.
여기 코딩 AI 에이전트가
작업을 완료하기 위해 거친
경로를 보여주는 다이어그램이 있습니다.
많은 상호작용과
환경과의 피드백, 개선 과정을
거치면서 최종적으로
사람에게 결과를 보고하는 것을 볼 수 있습니다.
문서에서 제안하듯이
이런 완전 자율 구현은
일반적으로 권장되지 않습니다.
대부분의 경우
미리 정해진 에이전트 워크플로우를 사용하면
더 예측 가능한 결과를 얻을 수 있고
예측 가능한 결과를 얻을 수 있고 비용도 훨씬 저렴합니다.
이 글에서 계속 강조하는 것은
항상 가능한 한 가장 단순한 구현 방식을
선택해야 한다는 것입니다.
만약 AI 에이전트의 목표를
프롬프트 체이닝이나 라우팅으로 달성할 수 있다면
더 복잡한 방법을 사용하지 마세요.
이것은 AI 에이전트를 만들 때의
기본적인 원칙이며
실제로 엔지니어링이나
개발 전반에 해당됩니다.
과도한 엔지니어링은 피하세요.
자, 이제 다양한 워크플로우를 살펴봤으니
AI 에이전트를 위한 프롬프트 엔지니어링에 대해
실용적인 관점에서 빠르게 알아보겠습니다.
이러한 AI 에이전트에서
프롬프트 엔지니어링과 프롬프트는
매우 중요합니다. 모든 것을 연결하는
핵심이기 때문입니다. 에이전트가 있고
여러 도구들이 있으며
멋진 기능들에 접근할 수 있더라도
좋은 프롬프트가 없다면
이 모든 것을 하나로 묶을 수 없습니다.
그래서 이 부분을
강조하려고 합니다.
AI 에이전트를 위한 프롬프트를 작성할 때는
전체 프롬프트가 한번에 모두 필요합니다.
과정 중에 대화식으로
수정하거나 정보를 추가할 수 없기 때문입니다.
AI 에이전트 프롬프트에는
여섯 가지 구성 요소를
고려해야 합니다.
첫 번째는 역할 지정입니다.
여기서는 AI 연구 보조원이라고 알려주지만
어조와 행동 방식도
포함해야 합니다.
예를 들어, '당신은
AI 연구 보조원이며 최신 인공지능 뉴스를
요약하는 것이 임무입니다.
인공지능 관련
당신의 스타일은 간결하고
직접적이며 핵심 정보에
집중합니다'라고 쓸 수 있습니다.
다음은 작업입니다. 'AI 뉴스와 관련된
검색어가 주어지면 핵심 포인트를 간단히 요약하세요'
라고 쓸 수 있습니다. 그 다음은 입력입니다.
여기서는 AI 연구 보조원이
받게 될 것을
명시합니다. 이 경우에는
사용자가 제공하는 AI 관련 검색어가
입력이 된다고 쓸 수 있습니다.
하지만 다른 입력도
있을 수 있죠. AI 연구 보조원이
받을 수 있는
그래프나 다른 문서들처럼요.
AI 보조원이
정확히 무엇을 받게 될지
명시해야 합니다. 네 번째는 출력입니다.
여기서는 AI 연구 보조원이
무엇을 만들어내야 하는지
자세히 설명해야 합니다.
최종 결과물이 어떤 모습이어야 하는지
최종 산출물은 무엇인지,
이 경우에는 '오직 간결하고
정보가 풍부한 요약만 제공하되
검색어와 관련된 최신 AI 뉴스의
핵심을 담아내야 합니다'라고 쓸 수 있습니다.
요약은 간결해야 하며
2-3개의 짧은 단락으로
총 300단어를 넘지 않아야 합니다.'
이렇게 하면 정확히
무엇을 출력해야 하는지 알 수 있습니다.
프레임워크의 다섯 번째 단계는 제약 조건입니다.
이것은 정말 정말 중요한 부분입니다.
프롬프트에 포함해야 할 중요한 사항은
해야 할 일뿐만 아니라
하지 말아야 할 일도 포함해야 합니다
예를 들어 '핵심 포인트를 간단히 포착하되
완벽한 문장과 문법은 필요하지 않습니다.
불필요한 배경 정보와 설명은 무시하고
개인적인 분석이나 의견은 포함하지 마세요.
AI 에이전트에 대해서는 신경 쓰지 말고
사실에만 집중하세요'라고 작성할 수 있습니다
마지막으로 기능과 리마인더가 있는데
이는 AI가 사용할 수 있는 도구와
특정 기능들을 알려주는 부분입니다
예를 들어 웹 검색과 같은 도구나
AI가 반드시 기억해야 할
중요한 사항들을 상기시켜주는
정말 중요한 내용들을
계속 상기시켜주는 것이 필요합니다
이 예시에서는 AI 에이전트에
웹 검색 기능을 부여했으므로
'웹 검색 도구에 접근할 수 있으며
검색어와 관련된 최신 뉴스 기사를
찾아서 가져올 수 있습니다'라고 알려줍니다
또한 현재 날짜를 잘 인식하도록
상기시켜주어야 합니다
많은 LLM이 가지고 있는 일반적인 문제는
현재 날짜나 시간을
정확히 인식하지 못한다는 것입니다
현재 관련된 정보만 검색하려면
시간을 정확히 인식하고
검색 기간을 설정해야 하므로
이렇게 작성할 수 있습니다:
'현재 날짜를 정확히 인식하여
뉴스의 관련성을 확인하고
최근 7일 이내에 발행된 정보만
요약해야 합니다' 일반적인 팁으로
중요한 내용일수록
프롬프트의 아래쪽에
배치하는 것이 좋습니다
이는 AI가 정보를 처리하는 방식과
관련이 있는데
가장 최근의 정보를 우선 처리하는
편향성이 있기 때문입니다. 이것으로 AI 에이전트
프롬프트 엔지니어링 속성 강좌를 마칩니다
여러분이 기초부터 배우게 한 것에 대해
화내지 않으셨으면 좋겠습니다
요즘 많은 사람들이
바이브 코딩을 하면서
기초를 모르는 채로 진행하다가
결국 여러분이 만든 것이
그다지 좋지 않은
결과물이 되거나
약간의 수정이 필요할 때
기초가 부족해서
실수를 많이 하게 됩니다
이제 여러분은 기초 지식을 갖추었으니
실제로 무언가를 만들 수 있는
지식과 자신감을 가지고
최선의 구현방법으로
진행할 수 있게 되었습니다
이제 화면에 퀴즈를 보여드리겠습니다
댓글 섹션에 답변을 남겨주세요
제가 설명한 내용을
잘 이해하고 있는지
확인하기 위해서입니다
다음 섹션에서는
AI 에이전트의 실제 구현을 보여드리겠습니다
노코드와 로우코드 예제들과
완전한 코딩 예제도 포함되어 있어서
모든 수준의 사람들이
참고할 수 있을 것입니다
여기 고객 지원 AI 에이전트가 있는데
이것은 N8N을 사용해서 구현했습니다
N8N은 노코드 플랫폼입니다
코드나 로우 코드 플랫폼으로
매우 사용하기 쉽고
다양한 AI 에이전트를 만들 수 있습니다.
이번에는 AI 에이전트를
멀티 에이전트 시스템으로 구현했는데
앞서 설명한 라우팅 에이전트 패턴을 따릅니다.
작동 방식을 보면, 고객이
이메일 문의를 보내면
텍스트 분류기가 있어서
OpenAI 모델을 기반으로
문의 내용을 분류합니다.
기술 지원, 결제, 일반 문의로
구분하고 각각의 카테고리마다
특별한 워크플로우가 있습니다. 직접 보여드리죠.
실제로 어떻게 작동하는지 제
이메일로 가보겠습니다. 고객 지원팀에
이메일을 작성해볼 건데
보낼 주소는
[email protected]입니다.
화가 난 상태로 환불을 요청해보겠습니다. '안녕하세요, 환불 원합니다.'
보내기를 누르면, 보시다시피
이메일이 도착했고 결제 관련 사항으로 분류되었습니다.
AI 에이전트가 작동하기 시작하고
AI 에이전트는 이메일을 분석해서
문의에 대한 답변을 보내주는데
이메일을 다시 확인해보면
에이전트가 답장을 보냈네요. '안녕하세요,
환불 요청과 관련하여 연락주셔서 감사합니다.
효과적인 도움을 드리기 위해
블라블라' 이런 식으로
정보를 제공하고
에이전트에게 그 정보를 보내서
환불 처리를 진행할 수 있습니다.
기술 지원으로 분류된 경우에도
워크플로우가 있어서, 만약
문서를 통해 기술 지원 질문에
직접 답변할 수 있다고 판단되면
바로 이메일로 답변을 보내줍니다.
하지만 여기에는 또 다른 옵션이 있는데
만약 기술 지원 관점에서
어떻게 도와줘야 할지 모르겠다면
실제로 에스컬레이션이 발생하여
디스코드로 이렇게 전달됩니다.
'팀원 여러분, 고객이 도움이 필요합니다.
자세한 조사가 필요합니다. 이메일 ID는
이 ID입니다.' 이렇게 해서 실제 상담원이
개입하여 고객 지원을 시작할 수 있습니다.
이 부분이 정말 중요한데
왜냐하면 AI 에이전트에는
항상 실제 사람에게
에스컬레이션할 수 있는
방법이 있어야 하기 때문입니다.
물론 일반 문의인 경우에는
이쪽 분기로 라우팅되어
추가 정보를 요청하는 일반적인 이메일을 보냅니다.
이것은 또 다른 AI 에이전트인데,
AI 뉴스 취합 에이전트입니다. 작동 방식은
매일 아침 7시에 스케줄이 실행되어
뉴스레터와 레딧에서
정보와 뉴스를 수집하고
다양한 뉴스레터와 레딧으로부터
모든 정보를 취합한 다음
최종적으로 요약본을 만들어
WhatsApp으로 보내줍니다.
이것은 병렬화 워크플로우
패턴의 예시입니다.
지금은 아침 7시가 아니지만,
워크플로우를 직접 실행해서
작동하는 것을 보여드리겠습니다.
지금 모든 것이
실행되고 있는데,
한 가지 주목할 점은
병렬화 워크플로우임에도
NATO의 한계점은 실제로
순차적으로 실행된다는 것입니다. 만약
OpenAI의 에이전트 SDK와 같은 코딩 도구로 구현한다면
곧 예시를 보여드리겠지만
병렬로 실행될 수 있습니다.
하지만 실제로는
알려드리고 싶은 점은, 기술적으로는
병렬화가 가능하지만
플랫폼의 한계로 인해
그렇게 할 수 없다는 것입니다.
실행 후에는 WhatsApp으로
모든 뉴스 소스에서 수집된
종합 정보를 알림으로 받게 됩니다.
예를 들어 OpenAI의 GPT-5 알파 출시,
구글의 AI 윤리, 규제 발전 등
이런 다양한 소식들이
모두 포함되어 있죠.
프롬프트에서 소스를
인용하도록 지정했기 때문에
각각의 뉴스에 대해
더 자세히 알고 싶다면
클릭해서
원본 소스를 직접 확인할 수 있습니다.
이것은 정말 유용한 AI 에이전트인데
이 프롬프트에서 보시다시피
제가 관심 있는 분야를 정확히 지정할 수 있습니다.
예를 들어, 뉴스레터에서 제공하는
AI 관련 검색어처럼
원하는 내용과
요약 방식, 정보 취합 방식을
모두 원하는 대로 설정할 수 있어요.
모든 것을 원하는 방식으로
종합할 수 있어서
정말 편리한 도구입니다.
여러분에게도 유용할 것 같은데
특히 매일 많은 정보를
처리해야 하는 분들에게 좋을 것 같네요.
마지막 NATO 예제는 다중 입력 일일 지출 추적
AI 에이전트입니다. 이름이 좀 길죠.
작동 방식을 설명하자면,
WhatsApp으로 상호작용하며
영수증 사진을 보낼 수도 있고
지출한 내역을
텍스트로도 보낼 수 있습니다.
예를 들어 10달러를 썼다면
그냥 10달러 썼다고 메시지를 보내면 되고
이 모든 정보를 취합해서
최종적으로 모든 내용을 종합하여
매일 지출 추적 보고서를 만들어 줍니다.
또한 구글 시트에 모든 내용을 저장하고
보고서를 만들어
WhatsApp으로도 보내줍니다.
그리고 매일 밤 9시에
WhatsApp으로
하루 동안 얼마나 지출했는지
요약해서 보내줍니다. 예를 들어
제가 감자에 10달러를 썼다고 했는데
왜 감자에 10달러나 썼는지 모르겠네요.
감자 10달러는 정말 비싸죠.
이게 지출 추적기에 기록되어서
감자 구매가 여기 표시됩니다.
감자 10달러, 그리고
제가 구매한 다른 물건들도 모두 있네요.
요즘 제가 많이 구매했더군요.
그리고 밤에는 제 소비가
생활비에 집중되어 있다고 알려주는데,
특히 감자 구매에 10달러를 썼다고 하네요.
이는 단순하고 필수적인 지출 패턴을 보여주며
그날은 다른 지출이
기록되지 않았다고 합니다.
이전 며칠 동안은
감자 하나보다 더 많이 구매했을 때는
이렇게 나와 있네요.
2025년 4월 7일의 지출 내역을 보면
식비가 상당히 큰 비중을 차지했는데
스테이크와 초콜릿 같은 대규모 구매로
총 4,000달러가 소비되어 식비가 가장 큰 카테고리였고
생활비 항목에서는 소소한 지출이
있었는데 땅콩 구매가
기록되어 있네요. 이건 정확하지 않은데
보시다시피 프롬프트를
좀 더 수정해야 할 것 같습니다
음... 하지만 이건
제가 설명한 방식을 기반으로
지출을 추적하는 방법의 예시입니다
이 일일 지출 추적 AI 에이전트가
어떤 유전적 워크플로우
디자인 패턴으로 구현되었을지
댓글로 달아주세요
이제 코드로 구현된 예시를 보여드리겠습니다
특히 이것은
OpenAI의 에이전트 SDK를 사용해서
파이썬으로 구현되었고
금융 리서치 어시스턴트로
질문을 받아서 인터넷을 검색하고
정보를 수집하여 종합할 수 있으며
음성 기능과
언어 및 번역 기능도
포함되어 있습니다
이는 라우팅 에이전트
디자인 워크플로우 패턴을 따르는데
메인 매니저가 있고, 사실 제가
코드를 보여주면서 설명하는 대신
커서를 사용해서
AI 에이전트가 어떻게
작동하는지 보여드리고 실행도 해보겠습니다
이건 제 바이브 코딩 영상의
미리보기인데, 약 2주 후에
공개될 예정이니 기대해 주세요
자, 이제 금융 리서치
어시스턴트 에이전트가 어떻게
작동하는지 설명해 보겠습니다
메인 오케스트레이터로 금융 리서치 매니저가 있고
핵심 워크플로우 단계는
계획, 검색 수행, 보고서 작성
보고서 검증으로 이루어집니다
매니저가 프로그램을 시작하면
플래너 에이전트에게 전달되는데
플래너 에이전트는
사용자의 질의를
특정 검색어로 분해합니다
각 검색어에는 질의와
검색 이유가 포함되어 있고
여러 검색 항목이 포함된
금융 검색 계획을 반환합니다
그런 다음 검색어를
검색 에이전트에 전달하여
각각의 검색을 수행하고
모든 검색 결과를
수집하고 종합합니다
그 다음 분석 단계로 넘어가는데
여러 전문 에이전트들이 각각의
역할을 수행합니다
여기서는 두 개의 에이전트가 있는데
먼저 금융 에이전트가
주요 재무 지표를 분석하고
리스크 에이전트는
잠재적 위험 신호를 식별합니다
두 에이전트 모두 분석 요약을 제공하고
이 분석 요약들은
보고서 작성 단계로 전달되어
작성 에이전트가
모든 정보를 종합하여
검색어와 금융 및 리스크 분석을
하나로 통합합니다
그리고 마크다운을 사용하여 구조화된 보고서를 생성합니다
요약본과 후속 질문도 포함되어 있죠
그 다음에는 검증 에이전트가 있어서
보고서의 정확성과 완성도를
검토합니다. 우리는 또한
음성 상호작용 기능도
포함시켰는데, 이를 통해
생성된 보고서를 바탕으로
음성으로 질문하고 소통할 수 있습니다
마지막으로 금융 보고서에 대한
결과물을 얻게 됩니다
보시다시피 이것은 프롬프트 체이닝 에이전트
워크플로우를 기반으로 구현되었는데
메인 오케스트레이터 매니저가
쿼리를 시작하고 이를
플래너 에이전트와 검색 에이전트,
그리고 다른 여러 에이전트들에게 전달하여
최종적으로 금융 보고서를
텍스트 파일로 받게 됩니다
모든 결과가 금융 보고서 텍스트 파일에
포함되어 있습니다. 이제 실제로 실행해 보겠습니다
금융 리서치 에이전트를 실행해 보죠
철자가 틀려도 괜찮아요
참고로 AI 코딩 에이전트 코딩 에디터를
처음 보시는 분들을 위해 말씀드리면
실제로 이런 식으로 작동합니다
제가 Cursor나 Windsurfer를 사용하기 시작한 이후
그리고 AI 코딩 에이전트들을
전반적으로 사용하면서 정말 혁신적인 변화를 경험했습니다
사람들이 코드를 작성하고 실행하는 방식에 있어서요
좋습니다. 이제 작동하도록 두겠습니다
먼저 금융 리서치 에이전트 실행을 도와준다고 하네요
필요한 모든 것이 있는지
작업 공간을 먼저 확인하고
필요한 것들을 체크한다고 합니다
자, 그렇게 하도록 두죠
몇 가지 설치가 필요하다고 하니
설치를 진행하겠습니다
의존성 패키지들을 설치하는 중에 오류가 발생했네요
추가 작업을 더 실행해보죠
5분 후... 모든 의존성 패키지를
실행한 후에 서버가
실행 중이라고 하네요. 이제
금융 리서치 에이전트를 실행해보겠습니다
테슬라의 주요 재무 지표가 무엇인지
입력해보겠습니다
실행해볼게요... 아, 작동하지 않네요
사실 대부분의 라이브 코딩은
실행하고 설치하고
문제를 스스로 해결하도록 두는 과정입니다
그래서 우리는 잠시
기다려보겠습니다
좋아요, 금융 리서치 쿼리를 입력하라고 하네요
아, OpenAI 키가 없는 것 같네요
제가 키를 입력하겠습니다
테슬라의 주요 지표에 대해 입력했고
금융 리서치를 시작하고 있습니다
7개의 검색을 수행할 예정이고
검색, 계획, 보고서 구조화를 진행 중입니다
자, 이제 보고서가 나왔네요
좋습니다. 금융 에이전트가
포괄적인 보고서를 성공적으로
생성했고, 여기서
보고서를 확인할 수 있습니다
모든 내용을 직접 읽는 대신
구현된 음성 기능을
사용해보도록 하겠습니다
음성 기능을 실행하고
보고서의 주요 지표에 대해 설명해달라고 해보죠
네, 보고서에서 언급된 주요 재무 지표는 다음과 같습니다
첫째, 수익입니다. 테슬라는
249억 3천만 달러의 매출을 기록했습니다
이 상당한 매출 수치는 주로
성공적인 판매 실적에
기인했는데요
Model 3와 Model Y 차량의 판매 성과와
베를린과 텍사스 공장의 전략적 확장으로 인한 것입니다.
따라서 음성으로 직접 소통할 수 있으며,
마지막으로 여러분께 보여드리고 싶은 것은
보고서를 스페인어로 번역하는 방법입니다.
이것은 MCP를 사용하는데, 이를 통해
보고서를 스페인어로 번역할 수 있는
도구에 접근할 수 있게 됩니다.
여기 보시는 것처럼 번역이 완료되었습니다.
이것이 코드 구현의 예시이며,
코드를 확인하고 싶으시다면
설명란에 링크를 달아두었으니
직접 확인하고 실험해보실 수 있습니다.
기억하셔야 할 점은
AI 에이전트를 구현하는 방법이
매우 다양하다는 것입니다.
여러분이 만들고자 하는 AI 에이전트와
본인의 기술 수준에 맞는
방법을 선택하시면 됩니다.
그리고 AI 에이전트와
그 개발 방법에 대해
더 자세히 알고 싶으시다면,
앞으로 몇 주 안에
AI 에이전트 부트캠프를 시작할 예정입니다.
4주 과정으로 진행되며,
매우 실용적인 프로그램입니다.
이 영상에서 보신 것과 같은
AI 에이전트를 직접 만들어보고,
더 나아가 더 고급스럽고
특정 사용 사례에 맞춘
커스텀 에이전트도 만들어볼 수 있습니다.
관심 있으시다면 여기 링크를
확인해주세요. 설명란에도 있습니다.
영상을 그냥 여기서 끝내고
"자 이제 가서 AI 에이전트를 만드세요"라고
하는 대신, 마지막 섹션에서
여러분과 공유하고 싶은 것이 있습니다.
바로 어떤 종류의 AI 에이전트를
만들어야 할지에 대해
어떻게 생각해야 하는지입니다.
왜냐하면 결국 우리는
단순히 재미로 AI 에이전트를
만드는 것이 아니기 때문입니다.
물론 그럴 수도 있겠죠.
그것도 좋습니다만, 대부분의 경우
우리는 AI 에이전트를 만들어서
우리에게, 비즈니스에, 기업에
도움이 되게 하려고 하죠.
어쩌면 여러분 중에는
AI 에이전트 비즈니스나
스타트업을 시작하고 싶은 분도 계실 텐데,
아직 보지 않으셨다면
Y Combinator YouTube 채널을 꼭 확인해보세요.
저는 거기서 정말 많이 배웠습니다.
어떤 AI 에이전트를 만들어야 하는지,
어떤 스타트업을 해야 하는지,
AI 분야에서 주의해야 할 점들에 대해
그들의 영상은 정말 가치가 있습니다.
지금부터 제가 그 영상에서 얻은
주요 인사이트를 공유하겠습니다.
바로 AI 스타트업 아이디어를
찾는 방법입니다.
유용한 AI 에이전트를 만드는
가장 쉬운 방법은 자신으로부터 시작하는 것입니다.
현재 여러분이 하고 있는 일 중에서
AI 에이전트에게 맡길 수 있다면
삶이 훨씬 더 편해질 만한 것이 무엇일까요?
지금 당장은 어떤 도구나
프레임워크, 기술 스택을
사용할지 걱정하지 마세요.
그저 생각해보세요.
무엇을 자동화하면 삶이
훨씬 더 편해질 수 있을지를요.
예를 들어, 저는 훌륭한 팀 및 에이전시와 일하고 있는데
우리 팀이 제 스폰서십을 관리해주고 있는데
팀원 중 한 명이
슬랙으로 메시지를 보내왔어요.
AI 에이전트를 만들어서
이메일에 접근하여
좋은 리드와 나쁜 리드를 구분하고
좋은 리드로 판단되는 이메일에만
응답하고 싶다고 했죠.
저는 이게 정말 좋은 아이디어라고 생각했고
"정말 좋은 생각이에요.
꼭 해보세요"라고 했죠. 게다가
노코드로도 충분히 만들 수 있어요.
제가 앞서 공유한 프롬프트를 사용해서
이 상황에 가장 적합한
에이전트 워크플로우를 파악하고
노코드 도구로 구현할 수 있죠.
하지만 만약 여러분이
현재 일을 하면서 매일 문제를 해결하는
입장이 아니라면 어떨까요?
예를 들어 막 졸업했거나
아직 학생인 경우처럼 말이에요.
걱정하지 마세요. YC에서도 이런 경우에 대한
좋은 조언이 있어요.
이런 경우에는
잠입(?) 전략을 사용하세요. 본인이 직접
자동화할 수 있는 것이 무엇인지 경험이 없다면
그냥 머리로 생각하는 대신
최선의 방법은
실제로 일을 하고 있는 사람을 만나보는 거예요.
자신의 사업을 하고 있거나
직장인이거나
그런 사람들을 만나서
그들의 일을 관찰하면서
어떤 문제가 있는지 파악하세요.
재미있는 점은 그들 스스로도
자신들의 문제를 모를 수 있다는 거예요.
매일 반복되는 업무에 너무 깊이 빠져있어서
일상적으로 하는 일들을
AI를 활용하면
훨씬 더 쉽고 효율적으로
할 수 있다는 것을 인식하지 못하는 거죠.
하지만 여러분은 새로운 시각으로 볼 수 있어요.
그들의 업무를 관찰하면서
AI 에이전트를 어디에 적용할 수 있을지
파악하고, 어떤 작업을
자동화할 수 있을지 찾아보세요.
그들의 업무를 자동화하여
목표를 더 잘 달성할 수 있도록
도와줄 방법을 찾는 거죠.
이렇게 시작하다 보면
개발을 하면서 종종
여러분이나 다른 사람이 겪었던
문제가 사실은
많은 사람들이 공통적으로 겪는
문제라는 걸 알게 될 거예요. 바로 이렇게
비즈니스나 스타트업으로
발전할 수 있는 아이디어를
발견하게 되는 거죠. 마지막으로
전반적인 방향성에 대해 말씀드리면
YC 영상에서 얻은 핵심적인 통찰은
현존하는 모든 SaaS 기업들,
즉, 서비스형 소프트웨어 기업들에 대해
그에 상응하는
AI 에이전트 버전이 나올 것이라는 거예요.
말 그대로 모든 SaaS 유니콘 기업에 대해
수직적 AI 유니콘 기업이
등장할 것이라는 예측이에요.
자, 이것이 바로
아주 명확한 전체적인 방향성이죠.
현재 있는 모든 SaaS 기업들을 보고
각각에 대응되는 AI 에이전트 버전이
무엇일지 고민해보고 만들어보세요.
이것이 핵심입니다.
마지막으로 지금 바로 시작할 수 있는
특정 기술 기반의 혁신들에 대해
이야기해보고 싶습니다.
AI 산업은 항상 너무나 빠르게 움직이고 있고
매일같이 수많은 새로운
기술들이 개발되고 있습니다.
하지만 현재 우리가 볼 수 있는
주요 근본적인 발전은
2025년 현재 음성과 오디오 분야에서
엄청난 도약이 이루어지고 있다는 것입니다.
오디오 생성 기술은 정말 믿을 수 없을 정도입니다.
지금 제가 보여드릴 것은
Sesame의 한 예시인데,
친구가 보여줬을 때
정말 깜짝 놀랐습니다.
'취미로 사람들을 만나는 방법은
클럽이나 온라인 커뮤니티에 가입하면
특히 게임이나 공예에 관심이 있다면
정말 재미있을 거예요. 봉사활동도
같은 관심사를 가진 멋진
사람들과 연결될 수 있는
좋은 방법이에요. 그리고 이 영상을 보고 계신다면
더 많은 멋진 팁을 위해
티나의 채널을 구독해주세요'
이것이 바로 OpenAI와 그들의 SDK가
음성 에이전트 전용 카테고리를 가지고 있는 이유입니다.
이를 통해 가능한 활용 사례가
너무나 많기 때문이죠. 또한
이미지 모델에서도 큰 발전이 있었습니다.
Rev Gemini Flash 이미지 생성이나
GPT-4의 이미지 생성 기능,
그리고 Sora와 같은 비디오 모델도 있죠.
이미지와 비디오 관련된 모든 것들이
현재 혁신을 앞두고 있는
분야입니다.
이 영상을 마무리하며 마지막 조언을 드리자면,
이 산업에는 항상 너무나 많은 일들이 일어나고 있어서
가끔 압도될 수 있습니다.
그럴 때는
진정하고 차분히
오늘 제가 설명한 이러한 프레임워크와
구성요소들을 다시 생각해보세요.
제가 단순히 튜토리얼이나
새로운 것들에 대해서만
보여주는 것이 아니라
사람들이 만들고 있는
새로운 것들과
에이전트들에 대해
이야기하는 이유는
이 모든 일이 일어나는 와중에
기본적인 구성 요소들과
기본적인 프레임워크,
기본 기술들을 이해하는 데만 집중하면
그 위에 올라오는 모든 것들을
여러분의 마음속에서
배워야 할 것과 아닌 것으로
분류할 수 있기 때문입니다.
이 분야의 실제 큰 혁신들,
실제 모델 혁신과 같은 것들을
계속 주시하세요. 최근에 나온 Gemini 2.5 Pro나
더 나은 도구 사용을 가능하게 하는 MCP 같은 것들이요.
다른 많은 것들에는
그렇게 많은 관심을
기울일 필요가 없습니다. 계속 배우고
자신만의 프로젝트를 진행하며
AI 에이전트를 만들어보세요.
그리고 때가 되면, 기회가 왔을 때
여러분의 기술과 관심사가
세상의 수요와 일치하게 될 것이고
그때 여러분은
성공적인 AI 에이전트 비즈니스나
스타트업, 혹은 사이드 프로젝트나
재미있는 프로젝트를 만들 수 있을 겁니다.
인내심을 가지세요. 자, 약속드린 대로
마지막 평가가 있습니다.
댓글로 여러분의 답변을 적어주세요.
긴 시간 집중해서 시청해주셔서
정말 감사드립니다.
이 영상이 도움이 되었기를
진심으로 바랍니다. 다음 영상이나
라이브 스트림에서 만나요.