[00:00]
자, 개발자들을 위한 정말 흥미로운 소식이
[00:02]
OpenAI 플랫폼 위에서 개발하시는 분들을 위해
[00:04]
OpenAI가 에이전트 구축을 위한 새로운 도구들을 출시했습니다
[00:07]
여기에는 새로운 브라우징 기능이 포함되어 있는데
[00:09]
API 뒤에서 작동하는 브라우징 기능이 있습니다
[00:11]
실시간 정보를 찾고 계신다면 매우 유용할 것 같네요
[00:13]
또한 새로운 응답 API가 있어서
[00:16]
API 뒤에서 도구들과 상호작용할 수 있고
[00:18]
가장 중요한 것은 새로운 에이전트 SDK입니다
[00:21]
이것이 바로 OpenAI가 제시하는 에이전트 구축 방식입니다
[00:24]
우리가 오랫동안 기다려온 것이죠
[00:26]
오픈소스 스웜(swarm) 프로젝트 위에 구축되었으며
[00:28]
가장 좋은 점은 이 SDK가
[00:30]
다른 제공업체들과도 호환된다는 것입니다
[00:34]
OpenAI의 채팅 완성 API 스타일을
[00:36]
따르는 한 다른 제공업체와도 작동합니다
[00:40]
또한 새로운 추적 도구가 있어서
[00:42]
SDK 내부를 살펴볼 수 있고
[00:45]
이 모든 새로운 기능에 대한
[00:47]
가격 정보도 있습니다
[00:52]
이 모든 새로운 기능들의 가격 정보도 있습니다
[00:54]
이 영상에서는
[00:57]
블로그 포스트를 살펴보고
[00:58]
이러한 새로운A도구들을 실험해볼 예정입니다
[01:00]
에이전트 SDK에 대해 더 자세한 영상을
[01:03]
추후에 만들 예정입니다
[01:07]
이제 OpenAI는 단순한 기초 모델 회사가 아닌
[01:10]
제품 중심 회사로 발전하고 있습니다
[01:13]
이는 개발자들에게
[01:15]
아주 좋은 소식이죠
[01:17]
오늘 발표된 세 가지 중
[01:19]
첫 번째는
[01:20]
응답 API로, 채팅 완성 기능과
[01:23]
도구 사용 기능을 결합했습니다
[01:26]
이를 통해 자체 에이전트를 구축하거나
[01:28]
또는
[01:30]
RAG 애플리케이션에 사용할 수 있습니다
[01:33]
이 새로운 API는 몇 가지 기본 도구에
[01:36]
접근할 수 있는데, 그 중 하나가 웹 검색입니다
[01:39]
이는 ChatGPT에서 사용할 수 있는
[01:41]
동일한 웹 검색 기능입니다
[01:43]
OpenAI가 이 검색 기능을
[01:46]
개발자들에게 공개하는 것은 정말 좋은 소식이죠
[01:50]
이런 검색 기능을 제공하는 곳은
[01:52]
구글이 자사의 구글 검색
[01:55]
그라운딩
[01:57]
API로 제공하는 것 말고는 없었습니다
[02:00]
이 새로운 검색 기능이
[02:02]
구글 검색과 비교해서 얼마나 좋은지
[02:04]
영상으로 만들어보고 싶은데
[02:07]
관심 있으시다면 알려주세요
[02:09]
두 번째 도구는 파일 검색입니다
[02:12]
이것은 RAG, 즉 검색 증강 생성이나
[02:14]
문서 채팅을 가능하게 합니다
[02:17]
어시스턴트 API와 비슷하지만
[02:20]
훨씬 더 개선되었습니다
[02:22]
세 번째는 컴퓨터 사용 기능입니다
[02:26]
이는 기본적으로 컴퓨터를 사용하는
[02:28]
에이전트가 API로 노출된 것입니다
[02:32]
이를 통해
[02:33]
혁신적인 제품들을 만들 수 있을 것입니다
[02:36]
작동 방식은 다음과 같습니다. GPT-4를 사용하며
[02:38]
멀티모달이라 실제로
[02:40]
컴퓨터 화면을 모니터링할 수 있습니다
[02:43]
컴퓨터 사용 에이전트가 도구를 호출하고
[02:46]
수행할 작업을 결정한 다음
[02:48]
작업을 실행하고
[02:50]
스크린샷을 생성하여 모델에 다시 전송하며
[02:52]
이 루프는 필요한 만큼 또는
[02:55]
사용자가 원하는 작업이
[02:57]
완료될 때까지 계속됩니다
[03:00]
이제 API를 통해
[03:02]
이 모든 것을 할 수 있게 되었고
[03:04]
이는 정말 멋진 일이며
[03:07]
개발자들이 많은 멋진
[03:09]
애플리케이션을 만들 수 있게 될 것입니다
[03:12]
마지막으로 소개할 것은
[03:14]
제가 개인적으로 매우 관심 있는
[03:17]
새로운 에이전트 SDK입니다. 이를 통해
[03:20]
단일 에이전트나
[03:22]
다중 에이전트 워크플로우를 구성할 수 있습니다.
[03:25]
이는 실험적이고 교육용이었던 Swarm을 기반으로 했는데
[03:28]
PAG를 통해 에이전트 구축 방법을 보여주었던
[03:31]
그것을 이제 오픈소스
[03:34]
에이전트 SDK로 공개했습니다.
[03:37]
이것은 경량화되었지만
[03:39]
강력한 프레임워크로
[03:41]
다중 에이전트 프레임워크를 구축할 수 있으며
[03:44]
자체 추적 도구도 함께 제공됩니다.
[03:47]
이는 매우 유용한데, 에이전트가
[03:50]
제대로 관찰 가능해야
[03:52]
작업을 완료하기 위해 필요한 단계를
[03:54]
제대로 수행하고 있는지 확인하고
[03:57]
실패 원인도 파악할 수 있기 때문입니다.
[03:59]
이제 이러한 기능들을
[04:01]
자세히 살펴보고
[04:03]
데모도 보여드리겠습니다.
[04:05]
첫 번째는 새로운 responses API입니다.
[04:09]
이는 채팅 완성의 단순함과
[04:11]
어시스턴트 API의 도구 사용 기능을
[04:15]
결합했습니다. 여전히 채팅
[04:17]
완성 API를 사용할 수 있으며, 어시스턴트 API는
[04:21]
2026년 중반에 종료될 예정이지만
[04:25]
이 새로운 responses API를 통해 도구
[04:28]
사용이 가능합니다. OpenAI에서 만든 기본
[04:32]
도구들을 사용할 수 있고
[04:35]
자체 도구도 포함할 수 있는데
[04:37]
이를 위해 에이전트 SDK를 사용할 수 있습니다.
[04:40]
이는 더욱 강력한데, 특히
[04:43]
다른 모델 제공자들과 통합하거나
[04:46]
함께 작동할 수 있는 기능이 있어서
[04:49]
OpenAI에만 국한되지 않고
[04:52]
에이전트 SDK나 프레임워크를 사용하여
[04:55]
Gemini나 Claude와 같은 다른 모델을 사용해
[04:57]
멀티 에이전트 워크플로우를 구축할 수 있습니다.
[05:02]
기존 API는 어떻게 되나요?
[05:04]
채팅 완성 API는 계속 개발될 것이고
[05:06]
없어지지 않을 것입니다.
[05:08]
왜냐하면 이는 정말 좋은
[05:11]
완성 작업용이기 때문입니다.
[05:13]
도구를 사용하지 않는다면 계속
[05:16]
사용하는 것을 추천합니다. 반면에
[05:19]
어시스턴트 API는 2026년 중반에
[05:22]
종료될 예정이므로, 이제
[05:25]
새로운 API로의 전환을
[05:28]
고려해야 할 시점이라고 생각합니다.
[05:31]
기본 도구는 어떨까요?
[05:33]
첫 번째는 웹 검색인데
[05:35]
사용하기가 매우 간단합니다.
[05:39]
responses API에서는
[05:41]
모델 이름만 제공하면 되는데
[05:44]
현재는 GPT-4와 GPT-4 Turbo를 지원하며
[05:47]
웹 검색을 위해 특별히
[05:49]
파인튜닝된 모델 버전이 있습니다.
[05:52]
도구 목록에 도구 이름만
[05:55]
제공하면 되고
[05:57]
사용자 질문을 입력하면 됩니다.
[05:59]
웹 검색 도구를
[06:02]
실제로 살펴보겠습니다. 이것이 플레이그라운드입니다.
[06:05]
모델을 선택할 수 있는데
[06:07]
저는
[06:08]
GPT-4를 유지하고
[06:11]
도구 목록을 추가할 수 있습니다. 기본적으로
[06:13]
세 가지 도구가 있는데, 하나는 함수,
[06:16]
파일 검색, 그리고 웹입니다.
[06:19]
설정을 구성하려면
[06:21]
선택적 구성이 필요한데
[06:24]
현재 위치를 제공했고, 흥미롭게도
[06:27]
검색 컨텍스트 크기에
[06:29]
대해
[06:30]
세 가지 옵션이 있습니다.
[06:32]
중간을 선택하고 도구를 추가한 다음
[06:34]
오늘 AI 세계에서는 어떤 일이 일어나고 있는지
[06:36]
한번 살펴보도록 하겠습니다.
[06:39]
먼저 웹 검색을 실행해보니
[06:42]
오늘이 3월 25일이라는 것을 정확히 인식했네요.
[06:45]
스페인에서 AI 콘텐츠 라벨링에 대한
[06:47]
규제가 진행되고 있고,
[06:51]
AI 칩 시장에서 경쟁에 관한 뉴스도 있습니다.
[06:54]
Cerebras, Groq 그리고
[06:57]
구글과 아마존 같은 기술 기업들에 대해 이야기하고 있네요.
[06:59]
실제로 사용하는 소스들이
[07:02]
꽤 좋아 보입니다.
[07:06]
OpenAI의 새로운 API 발표에 대해서는
[07:09]
아직 내용이 보이지 않네요.
[07:11]
아마도 아직 인덱싱이 되지 않은 것 같습니다.
[07:15]
모든 인용된 출처들을
[07:17]
확인할 수 있고
[07:20]
응답에 대한 사용자 피드백도
[07:22]
좋고 나쁨을 제공할 수 있습니다.
[07:24]
입력된 토큰 수와
[07:26]
반환된 토큰 수도 보여줍니다.
[07:28]
이러한 웹 검색 기능을
[07:30]
API 뒤에 숨겨두고 호출할 수 있다는 것이
[07:33]
정말 멋진 점입니다. 이제 외부 서비스가
[07:37]
필요 없게 되었죠.
[07:39]
보고된 벤치마크에 따르면
[07:42]
다른 모델들과 비교했을 때
[07:44]
성능이 훨씬 뛰어납니다.
[07:46]
특히 Simple QA 데이터셋에서
[07:48]
훈련된 다른 모델들과 비교했을 때 말이죠.
[07:50]
이는 정보 검색 데이터셋으로
[07:53]
주어진 컨텍스트에서 정보를 검색하는
[07:56]
모델의 능력을 측정합니다.
[07:58]
추론 모델들보다도
[08:00]
더 뛰어난 성능을 보여주는데,
[08:03]
이는 웹 검색에 특화된 모델이기 때문입니다.
[08:06]
두 번째 도구는 파일 검색입니다.
[08:09]
이것은 RAG(검색 증강 생성)
[08:11]
파이프라인의 커스텀 구현입니다.
[08:13]
여기서는 문서 리스트를 제공하면
[08:16]
청킹을 수행하고 임베딩을 계산해서
[08:18]
벡터 저장소에 넣고
[08:20]
반환된 청크들 위에
[08:23]
커스텀 랭커도 있습니다.
[08:26]
내장된 쿼리 최적화와 재순위화 기능으로
[08:29]
그들의 고객이 추가적인 튜닝이나
[08:32]
설정 없이도
[08:34]
강력한 RAG 파이프라인을 구축할 수 있다고 합니다.
[08:36]
만약 커스텀 구현이 필요 없는
[08:39]
간단한 RAG 파이프라인을 작업하고 있다면
[08:42]
이것이 하나의 옵션이 될 수 있습니다.
[08:43]
물론 가격을 고려해야 하는데,
[08:45]
이는 나중에 살펴보도록 하겠습니다.
[08:47]
비디오 후반부에서
[08:50]
댓글 섹션에 알려주세요.
[08:52]
새로운 파일 검색 기능에 대한
[08:54]
전용 비디오를 만들어주길 원하시는지
[08:57]
벡터 저장소와 직접
[09:00]
상호작용할 수 있게 해주기 때문에
[09:02]
꽤나 강력하다고 생각합니다.
[09:04]
특히 이 벡터 저장소 위에
[09:06]
무언가를 구축하고 있다면 말이죠.
[09:09]
세 번째 도구는 컴퓨터 사용 기능입니다.
[09:12]
이것도 응답 API를 통해
[09:14]
직접 사용할 수 있습니다.
[09:17]
내장된 컴퓨터 사용 도구는
[09:19]
모델이 생성한 마우스와 키보드 동작을 캡처하고
[09:22]
개발자들이
[09:24]
컴퓨터 사용 작업을 자동화할 수 있게 해줍니다.
[09:26]
이러한 동작들을
[09:28]
실행 가능한 명령어로 변환함으로써 말이죠.
[09:30]
이 새로운 컴퓨터 사용 에이전트의 성능은
[09:33]
일부 벤치마크에서 최고 수준을 보여줍니다.
[09:35]
하지만 OS World 벤치마크에서는
[09:38]
실제 작업 성능을 측정하기 위해 설계된
[09:42]
벤치마크에서는
[09:44]
AI 에이전트의 실제 작업 수행 성능을
[09:46]
측정한 결과 성능이 단지
[09:48]
38%에 불과했는데, 이는
[09:52]
운영체제에서 자동화된 작업에
[09:54]
아직 신뢰성이 높지 않다는 것을 보여줍니다.
[09:56]
따라서 컴퓨터 사용 에이전트를 다룰 때는
[09:59]
매우 주의해야 합니다. 물론
[10:02]
이것이 미래의 가능성을
[10:04]
보여준다고 생각하지만, 현재
[10:07]
시점에서는 아직
[10:10]
실용화 단계가 아니라고 봅니다.
[10:12]
마지막으로 에이전트 SDK에 대해 말씀드리겠습니다.
[10:16]
앞서 말씀드렸듯이,
[10:18]
제가 특히 기대하는 부분인데요,
[10:22]
이는 에이전트 프레임워크의
[10:24]
최소한의 구현을 보여주기 때문입니다.
[10:27]
불필요한 요소들로 부풀려진 버전이 아니라
[10:30]
정말 핵심적인
[10:31]
요소만을 담고 있습니다.
[10:34]
에이전트의 핵심 로직을 구현하고
[10:36]
도구에 대한 접근을 제공하여
[10:39]
실용성을 높였죠. 또 다른
[10:41]
제가 좋아하는 에이전트 프레임워크는
[10:43]
추상화를 줄인 Hugging Face의
[10:46]
Small Agents입니다.
[10:48]
이전에 Small Agents에 대한
[10:50]
많은 콘텐츠를 만들었는데,
[10:52]
관련 영상 링크를
[10:54]
영상 설명란에 넣어두었으니
[10:56]
외부 API에 의존하지 않고 로컬 모델로
[10:59]
에이전트를 구축하고 싶으신 분들은
[11:02]
참고해 주시기 바랍니다.
[11:05]
이 에이전트 프레임워크는 오픈소스 SDK이며
[11:08]
작년에 출시된 SWARM 프레임워크를 기반으로
[11:11]
제작되었지만, 많은
[11:13]
개선이 이루어졌습니다.
[11:16]
간단히 말해서, 에이전트는 특정 지침이 주어지고
[11:20]
내장된 도구에 접근할 수 있는
[11:23]
LLM입니다. 저는 개인적으로
[11:25]
OpenAI가 사용하는 이 정의를
[11:28]
좋아하는데, Anthropic도 매우 비슷한
[11:30]
정의를 사용하고 있습니다.
[11:35]
이 SDK는 핸드오프를 지원하여
[11:38]
여러 에이전트 간의
[11:40]
제어 전환을 지능적으로 수행합니다.
[11:43]
보통 분류 에이전트나
[11:45]
마스터 에이전트가
[11:48]
오케스트레이션을 수행하고
[11:50]
더 작은 서브 에이전트들이
[11:52]
특정 작업을 수행하게 되는데,
[11:55]
그들이 구현한 것 중 하나가
[11:57]
서로 다른 에이전트 간의
[11:59]
작업 단계에 따른
[12:02]
컨텍스트 전환입니다.
[12:04]
이에 대한 더 많은 콘텐츠를
[12:06]
만들 예정이니
[12:08]
관심 있으신 분들은
[12:10]
채널 구독을 해주시기 바랍니다.
[12:13]
또한 가드레일도 구현했는데,
[12:15]
입출력 유효성 검사를 위한
[12:18]
안전 검사 기능입니다.
[12:21]
프롬프트 주입이나 원치 않는
[12:24]
효과를 방지하기 위해
[12:26]
입력과 출력 모두에 가드레일이
[12:28]
필요한데, 에이전트가 생성하는
[12:31]
결과물에 이 기능이 포함되어 있습니다.
[12:33]
또한 추적과 관찰 가능성도 포함되어 있는데,
[12:36]
이는 종종 간과되지만
[12:38]
사실 프레임워크의
[12:40]
가장 중요한 구성 요소 중 하나입니다.
[12:44]
명확한 관찰 가능성을 통해
[12:46]
내부에서 무슨 일이 일어나는지,
[12:49]
사고 과정은 어떠한지,
[12:51]
에이전트가 어떤 행동을 하고
[12:53]
왜 하는지 파악할 수 있으며,
[12:55]
실행 추적을 시각화하여 디버깅하고
[12:58]
성능을 최적화할 수 있으며, 말씀드린 대로
[13:00]
구현이 매우 단순하고 정말 마음에 듭니다.
[13:02]
작동 방식을 간단한 예시로 설명해드리겠습니다.
[13:05]
먼저 agents Runner를 임포트하게 되는데,
[13:08]
이것이 우리가 실행할 주요 실행기입니다.
[13:10]
그 다음 여러 도구들을 임포트합니다.
[13:12]
이 예시에서는 세 가지 다른 에이전트가 있습니다.
[13:15]
첫 번째는 지원과 반환을 담당하는 에이전트이고,
[13:18]
두 번째는 쇼핑 어시스턴트,
[13:21]
그리고 분류 에이전트가 있습니다.
[13:23]
분류 에이전트는 기본적으로
[13:26]
다른 에이전트에게 제어권을 언제 넘길지
[13:29]
그리고 어떤 에이전트를 선택할지 결정합니다.
[13:31]
이 핸드오프 에이전트는
[13:34]
쇼핑과 지원 에이전트 모두에 접근할 수 있으며
[13:36]
각 에이전트는 서로 다른 도구 세트를 가지고 있습니다.
[13:40]
보시다시피 이것은 단일 구현이 아니라
[13:42]
실제로 각 에이전트가 전문화되어 있고
[13:46]
매우 특정한 도구들에만 접근할 수 있어서
[13:49]
에이전트의 유형과
[13:52]
수행할 수 있는 작업 유형을
[13:54]
선택하는 것이 매우 간단합니다.
[13:56]
그리고 분류 에이전트는
[13:58]
사용자 입력을 보고
[14:00]
그 입력을 기반으로
[14:03]
에이전트 중 하나를 선택하여
[14:06]
제어권을 이전합니다.
[14:08]
또한 오픈소스 커뮤니티의 작업을
[14:12]
직접적으로 인정하는 것을
[14:13]
보게 되어 좋습니다.
[14:16]
이것이 오늘 발표된 모든 내용입니다.
[14:19]
이제 이 새로운 도구들의
[14:21]
가격 책정이 어떻게 되는지 살펴보겠습니다.
[14:23]
각 도구별 가격을 빠르게 설명드리겠습니다.
[14:26]
responses API의 경우,
[14:30]
API 엔드포인트와 일반 채팅을 할 때는
[14:33]
표준 토큰 요금이 적용됩니다.
[14:37]
하지만 웹 검색을 사용하고 싶다면
[14:40]
GPT-4나 미니의 웹 검색은 쿼리 1,000건당 30달러입니다.
[14:43]
이는 쿼리 1,000건당 25달러인데,
[14:47]
상대적으로 비싸다고 볼 수 있지만
[14:51]
API 뒤에 정말 좋은
[14:52]
검색 엔진이 있다는 점을 고려해야 합니다.
[14:55]
또한 비교해보면, 구글은 현재
[14:58]
구글 검색 기반 그라운딩을
[15:01]
적어도 지금은 무료로 제공하고 있어서
[15:03]
이것도 하나의 대안이 될 수 있습니다.
[15:06]
파일 검색 API의 경우
[15:08]
쿼리 1,000건당 2.5달러이며
[15:12]
저장소 비용도 지불해야 합니다.
[15:15]
이는 GB당 하루 10센트이고, 첫 1GB는 무료입니다.
[15:18]
다른 벡터 스토어 솔루션들과 비교하면
[15:21]
상대적으로 비싸지만
[15:23]
이 경우에는 사용자 지정 래크 파이프라인에
[15:26]
신경 쓸 필요가 없습니다.
[15:28]
OpenAI가 그 부분을
[15:29]
관리해주기 때문입니다.
[15:32]
컴퓨터 사용의 경우
[15:34]
입력 토큰 100만 개당 3달러이며
[15:37]
멀티모달 토큰은
[15:39]
텍스트 토큰과 다르게 계산되므로
[15:41]
이 점을 반드시
[15:43]
고려해야 합니다.
[15:45]
출력 토큰은 100만 개당 12달러입니다.
[15:48]
한편 출력 가격은
[15:51]
출력 토큰 100만 개당 12달러로
[15:54]
이는 확실히 상대적으로 비싸지만
[15:57]
현재로서는 이러한 기능을 제공하는
[16:00]
다른 솔루션이 없습니다.
[16:01]
이것이 오늘 발표된 모든 내용입니다.
[16:04]
저는 특히 개발자들이 사용할 수 있는
[16:06]
이 모든 새로운 혁신과 도구들에 대해
[16:08]
정말 기대가 됩니다.
[16:10]
여러분의 생각이나
[16:12]
이 새로운 도구들로 무엇을
[16:14]
만들 계획인지 알려주세요.
[16:16]
이 영상이 도움이 되었기를 바랍니다.
[16:19]
시청해주셔서 감사합니다.
[16:21]
다음 영상에서 만나뵙겠습니다.