심층 연구 소개

채널 아이콘
OpenAI 구독자 1,760,000명

요약

이번 발표는 OpenAI 팀이 선보이는 ‘심층 연구’ 기능에 대해 자세히 설명합니다. 심층 연구는 에이전트가 인터넷 상에서 다단계로 정보를 검색, 종합, 분석하여 전문가 수준의 분석 보고서를 생성하는 도구입니다. 발표에서는 다양한 사용 사례와 데모를 통해 심층 연구의 실제 적용 가능성과 내부 기술적 세부사항을 소개합니다. 또한, 이를 통한 AGI 로드맵 상의 미래 발전 방향과 제품 출시 계획을 공유합니다.

주요 키워드

심층 연구 에이전트 다단계 연구 인터넷 브라우징 강화학습 추론 모델 AGI 벤치마크 시장 분석

하이라이트

  • 🔑 Mark와 팀은 도쿄에서 특별 이벤트를 진행하며 심층 연구 기능을 소개합니다.
  • ⚡️ 심층 연구는 에이전트가 인터넷을 다단계로 탐색해 정보를 수집하고, 종합하여 분석하는 기능을 갖추고 있습니다.
  • 🌟 데모에서는 시장 분석, 제품 비교, 개인적 구매 결정 등 다양한 실제 사례를 통해 심층 연구의 유용성을 시연합니다.
  • 🚀 내부 평가 및 벤치마크 결과를 통해 모델의 성능과 효율성이 강조되었으며, 향후 AGI 개발로의 발전 가능성을 제시합니다.
  • 📌 최종 보고서 형태로 정리된 결과물은 사용자에게 명확한 데이터와 권고사항을 제공하여 업무 효율을 크게 향상시킬 것으로 기대됩니다.

용어 설명

에이전트

자동화된 작업을 수행하며, 인간과 유사하게 복잡한 문제를 해결하는 AI 시스템을 의미함.

심층 연구

인터넷 상의 데이터를 다단계로 검색, 종합, 분석하여 전문가 수준의 보고서를 생성하는 기능.

강화학습

모델이 보상 기반 학습을 통해 스스로 최적의 전략을 학습하는 알고리즘 기법.

추론 모델

질문에 대해 맥락을 고려하여 체계적이고 논리적으로 사고하는 인공지능 모델.

AGI

인간과 유사한 전반적 지능을 목표로 하는 인공지능 기술로, 다방면의 지식과 문제 해결 능력을 보유함.

[00:00:07] 소개 및 상황 설정

Mark가 팀을 소개하며 도쿄에서 발표를 시작합니다. 특별 이벤트와 제품에 대한 예고가 이루어집니다.

Mark가 OpenAI의 리서치 팀을 이끌고 있으며, 연구팀의 Issa, Josh와 제품팀의 Neil이 함께 도쿄에서 스트림을 진행합니다.
향후 파트너사와의 특별 이벤트 예정을 언급하며, 새로운 에이전트 서비스에 대해 소개하려 합니다.
[00:00:29] 심층 연구 개념과 기능

에이전트와 전통적 모델과의 차이를 중심으로 심층 연구의 개념과 다단계 정보 탐색 방법을 설명합니다. 인터넷 브라우징과 정보 종합 과정을 강조합니다.

OpenAI가 에이전트에 주목하는 이유는 지식 노동의 혁신과 기업의 프로세스 개선, 직원 생산성 향상에 기여할 것으로 보기 때문입니다.
O1 모델은 O 시리즈의 첫 번째 추론 모델로, 오래 생각할수록 더 나은 답변을 제공하지만 도구 사용의 제한이 있었습니다.
새로운 '딥 리서치' 기능은 인터넷에서 다단계 연구를 수행하며, 콘텐츠를 발견하고 종합하는 모델입니다.
딥 리서치는 지연 시간 제약을 제거하여 5-30분까지 소요될 수 있으며, 이는 AGI 로드맵의 중요한 부분입니다.
딥 리서치는 전문가 수준의 포괄적이고 완전한 인용이 포함된 연구 보고서를 제공하며, 다양한 용도로 활용될 수 있습니다.
딥 리서치는 개인 맞춤형 쇼핑과 콘텐츠 제작에 매우 효과적인 도구로, 사용자의 특정 요구사항과 제약조건을 고려하여 정확한 결과를 제공합니다.
딥 리서치가 Pro 버전으로 출시되며, 이후 Plus, Team, 교육용, 기업용 버전으로 순차적으로 확장될 예정입니다.
[00:03:17] 사용 사례 및 데모

시장 분석, 프레젠테이션 자료 제작, 개인적 구매 결정 등 실제 적용 사례를 통해 심층 연구의 활용성을 시연합니다. 구체적인 질의응답 형식으로 기능을 소개합니다.

ChatGPT에 통합된 딥 리서치는 간단한 버튼 클릭으로 접근 가능하며, 즉각적인 질의응답이 가능합니다.
OpenAI PM으로서 새로운 언어 번역 앱 개발을 위한 시장 조사 사례를 통해 딥 리서치의 실제 활용 방법을 시연합니다.
iOS/Android 채택률, 언어 학습 수요, 모바일 보급률 등 복잡한 시장 조사 요청을 단일 쿼리로 처리할 수 있습니다.
딥 리서치는 PM처럼 명확한 요구사항 파악을 위해 사전 질문을 하며, 이는 정확한 결과 도출을 위해 중요한 과정입니다.
딥 리서치 모델은 명확한 정보와 개방적인 정보를 모두 처리하여 필요한 정보를 종합적으로 수집하는 능력이 뛰어납니다.
딥 리서치는 시장 조사, 학술 연구, 물리학, 컴퓨터 과학, 생물학 등 다양한 분야에서 활용되고 있으며, PM 업무에도 적용 가능합니다.
사이드바를 통해 추론 과정을 보여주며, 검색한 정보를 분석하고 다음 단계를 결정하는 과정을 실시간으로 확인할 수 있습니다.
딥 리서치는 업무용뿐만 아니라 개인적인 용도로도 활용 가능하며, 특히 제품 구매 결정시 상세한 리서치에 유용합니다.
일본에서 스키 구매를 위한 리서치를 시작하려는 상황이 소개됩니다.
일본에서 스키를 타기 위한 장비 구매에 대해 논의하며, 딥 리서치를 활용한 출력 포맷팅 방법을 설명하기 시작했습니다.
고급 올마운틴 스키 장비를 찾고 있으며, 파우더용으로도 사용 가능하고 키가 큰 사용자에게 적합한 긴 스키를 원한다고 설명했습니다.
[00:09:00] 기술적 세부사항 및 성능 평가

모델이 강화학습을 통해 다단계로 정보를 검색하고 분석하는 내부 메커니즘이 설명됩니다. 다양한 벤치마크와 평가 지표를 통해 성능을 검증하는 과정을 보여줍니다.

ISO에게 딥 리서치의 작동 방식 설명을 요청했습니다.
딥 리서치가 O3 추론 모델을 기반으로 하며, 종단간 강화학습을 통해 훈련되었다고 설명합니다.
모델의 주요 기능으로 파일 탐색, 파이썬 도구 활용, 이미지 생성 및 웹사이트 이미지 포함 기능을 설명합니다.
Humanity's Last Exam 벤치마크에서 26.6%의 정확도로 새로운 기록을 달성했음을 강조합니다.
모델의 문제 해결 방식이 인간의 접근 방식과 매우 유사하며, 특히 물리학 문제 해결 시 논문 참조 등의 예시를 들어 설명합니다.
모델이 시의 특수한 운율을 파악하기 위해 기존 시들을 참고하여 추론하는 과정을 설명합니다.
GUIA 벤치마크에서 웹 브라우징, 멀티모달, 코드 실행, 파일 처리 등 다양한 능력에서 최고 성능을 달성했습니다.
전문가 수준의 내부 평가를 통해 모델이 전문가들이 수 시간 걸릴 작업을 효율적으로 수행함을 확인했습니다.
경제적 가치와 작업 완료 시간에 따른 통과율을 분석한 결과, 모델의 성능은 작업 시간보다 경제적 가치와 더 높은 상관관계를 보였습니다.
모델에게 더 많은 생각과 검색 시간을 제공할수록 성능이 향상되며, 이는 미래의 AI 에이전트 발전 방향과 일치합니다.
환각 현상 평가에서 최고 성능을 보였으나, 여전히 출처 확인이 필요함을 강조합니다.
투자 분석가가 민간 초음속 항공 여행 시장을 분석하고 상세한 투자 보고서를 준비하는 과정에서 AI 모델이 5분 동안 12개의 다양한 출처를 활용하여 포괄적인 보고서를 작성했습니다.
생물학 분야의 논문 검색 사례를 소개하며, OpenAI의 전문가와 협력하여 특정 주제에 관한 관련 논문들을 성공적으로 찾아낸 경험을 공유했습니다.
오래된 기억을 찾는 예시로, TV 프로그램의 에피소드 내용만을 가지고 AI 모델이 온라인 검색을 통해 정확한 프로그램을 찾아내는 능력을 시연했습니다.
딥 리서치가 29개의 다른 출처를 분석하고 많은 정보를 수집한 결과를 확인했습니다.
딥 리서치가 11분 만에 29개 사이트를 심도있게 분석하여 완벽하게 포맷된 보고서를 생성했습니다.
보고서는 모바일 시장 분석, 언어 학습 채택 현황, 트렌드 등을 포함하며 이해하기 쉬운 표와 데이터 형식으로 제공됩니다.
모든 출처를 확인할 수 있고, 최종 결과에 포함되지 않은 참고 자료도 확인 가능합니다.
이 시스템은 수작업으로 오후 내내 걸릴 작업을 효율적으로 처리하여 정보를 통합하고 분석합니다.
딥 리서치는 구체적인 요구사항과 원하는 결과 형식이 명확할 때 가장 효과적으로 작동합니다.
[00:19:14] 마무리 및 향후 전망

제품 출시 계획과 Pro, 기업, 교육 분야 등 향후 확장 전략에 대해 논의합니다. AGI 로드맵의 일환으로 심층 연구의 역할과 미래 발전 방향을 제시합니다.

딥 리서치는 Pro 버전으로 출시되며, 데스크톱과 모바일 버전이 곧 출시될 예정입니다.
안녕하세요, 저는 Mark입니다. OpenAI의
리서치를 이끌고 있습니다. 오늘은 저희 연구팀의
Issa와 Josh, 그리고 제품팀의
Neil이 함께 하고 있습니다. 여러분,
뭔가 달라 보이시나요? 네,
좀 다르죠. 그것은
우리가 지금 도쿄에 있기 때문입니다. 안녕하세요
도쿄에서 인사드립니다.
저희가 여기 있는 이유는 나중에
주요 파트너사와 특별 이벤트를
진행할 예정이기 때문입니다. 하지만 이 스트림은
저희의 다음 에이전트 서비스에 관한 것입니다.
먼저 OpenAI와 관련된
에이전트에 대해 이야기하고 싶습니다. OpenAI가
에이전트에 관심을 갖는 이유는
이것이 지식 노동을
혁신할 것이라 믿기 때문입니다. 이를 통해
기업들이 프로세스를 간소화하고
직원들의 생산성을 높일 수 있을 뿐만 아니라
소비자들에게도 매우
중요할 것입니다.
작년에 저희는 O1을 출시했습니다.
이는 O 시리즈의 첫 번째 모델로
추론 모델입니다. 이 모델들은
기존 모델들과 다르게
답을 도출하기 전에 오랫동안 생각하며
대체로 더 오래 생각할수록
더 좋은 답변을 제공합니다.
하지만
이러한 모델들의 한계점 중 하나는
도구를 사용할 수 없다는 것이고
가장 핵심적으로 부족한 도구 중 하나가
인터넷 검색 기능입니다.
이는 우리가 일상생활에서 사용하는
많은 것들을
모델이 접근할 수 없다는 것을 의미합니다.
그래서 저희는 다음 큰 발걸음을 발표하고자 합니다.
저희는 딥 리서치라고 불리는
새로운 기능을 소개합니다. 딥 리서치가
무엇일까요? 딥 리서치는
인터넷에서 다단계 연구를 수행하는 모델로
콘텐츠를 발견하고
종합하며 추론합니다.
이 콘텐츠들에 대해 분석하면서
더 많은 정보를 발견할 때마다
계획을 조정합니다. 딥 리서치의
중요한 특징 중 하나이자
단순 리서치가 아닌 딥 리서치라고 부르는 이유는
모델의 지연 시간 제약을 제거했다는 점입니다.
일반적으로 모델들은 빠르게 응답하지만
딥 리서치 모델들은 5분에서 30분까지도
걸릴 수 있습니다. 답변을 받기까지
시간이 걸리지만 이것은 나쁜 것이 아니라
좋은 것이라고 생각합니다. 우리의 모델이
더 오랜 시간 동안 자율적으로
감독 없이 작업을 수행하는 것이 중요하다고 보며
이는 우리의 AGI 로드맵의
핵심이기도 합니다.
우리의 궁극적인 목표는
스스로 새로운 지식을 발견하고 찾아낼 수 있는
모델을 만드는 것이며, 첫 단계는
웹에서 정보를 찾아
종합하고 이해할 수 있는 모델입니다.
죄송합니다, 웹상의 정보를 말이죠.
딥 리서치를 통해 여러분은
포괄적이고 완전한 인용이 포함된 연구 보고서를 받게 됩니다.
본질적으로 분석가나
해당 분야 전문가가 만들어낼 수 있는 수준의
결과물입니다. 지금까지 지식 노동에 대한
활용 사례를 이야기했지만
광범위한 웹 검색이 필요한 다른 용도도 많이 있습니다.
예를 들어, 때로는
매우 구체적인 것을
찾고 계실 수 있죠.
이는 인터넷에서 많은 수작업이 필요한데
아시다시피 여러분이 원하는 것이
당신의 쇼핑에 필요한 특정 아이템을
개인 용도에 맞춘
모든 제약 조건들을 고려해서 찾을 수 있어요.
저는 개인적으로 딥 리서치를
프레젠테이션용 슬라이드 내용을
만드는 데 사용해봤는데
정말 다양한 분야에서
전반적으로 아주 우수한 성능을
보여주었습니다. 마지막으로 기쁜 소식을 알려드리면
딥 리서치가 오늘 Pro 버전으로 출시됩니다.
곧 Plus와 Team 버전으로도 출시할 예정이고
그 후에 교육용과 기업용 버전도 출시할 예정입니다.
딥 리서치의 작동 방식을 보여드리기 위해
닐을 모셨습니다.
감사합니다, 마크.
딥 리서치는 오늘부터 ChatGPT에서 사용 가능합니다.
여러분께 사용법을 보여드릴 수 있어 매우 기쁩니다.
딥 리서치는 ChatGPT의
시작 부분에 있는 버튼을 통해
접근할 수 있으며, 여기서
즉시 원하는 질문을 입력하면
딥 리서치로 전송됩니다.
저는 OpenAI의 PM인데,
우리가 자주 고민하는 것 중 하나는
어떤 새로운 기능과 제품을
만들어야 할지입니다. 최근에
우리가 검토하고 있는 것 중 하나가
새로운 언어 번역 앱을 만드는 것인데
이것이 바로 딥 리서치에
조사를 요청할 수 있는 주제입니다.
실제로 이 쿼리를 입력해보겠습니다.
제가 타겟팅할 수 있는
여러 시장에 대해
자세히 알아보고 싶어서
딥 리서치에 iOS와 Android 채택률,
새로운 언어를 배우고 싶어하는
사람들의 비율,
그리고 최근 몇 년간의
모바일 보급률 변화를 조사해달라고 요청했고,
선진국과 개발도상국 간의
차이도 알아보고 싶습니다.
또한 이 정보를
표가 포함된 형식을 갖춘 보고서로
정리하고,
ChatGPT에 가장 적합한
새로운 기회에 대한 명확한 추천도 포함시켜 달라고 했습니다.
이런 조사는 보통 몇 시간이 걸리는데,
딥 리서치를 사용하면
즉시 시작할 수 있습니다.
이게 OpenAI에서 하시는 실제 사이드 프로젝트인가요?
네, 딥 리서치 작업 외에
제가 하는 사이드 프로젝트입니다.
먼저 보시면 딥 리서치가
명확한 질문들을 제시합니다.
마치 PM처럼 말이죠.
이는 매우 중요한데, 그 이유는
딥 리서치가 5-30분 정도 작업할 때
정확한 요구사항을
파악하는 것이 중요하기 때문입니다.
지금 몇 가지 질문을
하고 있는데요,
모바일 보급률을 어떻게 설정할지,
전체적인 채택률을 볼지,
특정 카테고리별로 볼지,
일반적인 관심도나 적극적인
관심도를 볼지 등입니다.
이는 분석가가 복잡한 요청을
받았을 때 물어볼 법한
아주 좋은 질문들입니다.
이런 것들을 미리
파악하는 것이 매우 중요하죠.
그래서 제가 이렇게 답변할 수 있습니다.
사용자 비율로
보급률을 보고 싶다고 말이죠.
전반적인 사용량을 살펴보고
최선의 판단을 해주세요.
남은 부분은 최선의 가정을 해야 하는데요.
이 모델은 때로는 명확하게 지정된 정보를
처리하는 데 매우 뛰어나고,
좀 더 개방적인 정보도
활용해서 임무를 수행하고
필요한 모든 정보를 얻을 수 있죠.
지금 보시다시피 딥 리서치는
이 모든 것을 종합하여
자체적인 리서치를 시작했습니다.
딥 리서치는 다양한 분야의
지식 작업에서
뛰어난 성능을 보여주고 있어서
시장 조사나
학술적인 영역에서도 활용되고 있습니다.
물리학, 컴퓨터 과학,
생물학 등 다양한 분야에서요. 저도
PM 업무에 활용해보고 있는데
여러분의 업무에도
도움이 되길 바랍니다.
여기 보시면 딥 리서치가
작은 사이드바를 열어서
모든 추론 과정을 보여주고 있죠.
지금 보시는 것처럼
주요 국가들을 파악하고
정보를 수집하면서
다양한 정보를 검색하는
과정을 시작하고 있습니다.
자세히 보시면 딥 리서치가
정보를 검색하고 페이지를 열어보며
발견한 내용을 분석하고 있습니다.
내부적으로는
모델이 실제로 검색을 수행하고
말 그대로 페이지를 열어
브라우징하면서 모든 요소를
살펴보고 있습니다.
이미지, 표, PDF 등을 포함해서요.
이 정보들을 활용해
다음 단계를 결정하죠.
정말 흥미로운 점은
하나의 검색에서 얻은 정보를
다음 검색에 활용한다는 거예요.
네, 정말 멋지죠. 가끔은 그저 지켜보는 것만으로도 재미있어요.
좋습니다. 이 작업이 진행되는 동안
Josh에게 마이크를 넘겨서
딥 리서치의 다른 활용 방법을
보여드리도록 하겠습니다. 감사합니다.
네, 지금까지 우리는 딥 리서치의
지식 작업에 대해 많이 이야기했고
이는 우리가 정말 기대하는
활용 사례 중 하나입니다. 하지만
직장에서의 활용뿐만 아니라
재미있거나 집에서 할 수 있는
일들에도 유용합니다.
제가 딥 리서치를 자주 활용하는
방법 중 하나는 구매하고 싶은
제품을 조사하는 것입니다.
특히 큰 구매의 경우
저는 비싼 물건을 살 때
인터넷의 모든 관련 페이지를
읽어보는 편인데요.
어딘가에 리뷰가 있다면
인터넷상의
그 리뷰를 모두 고려한 후에
구매를 결정하고 싶거든요.
지금 우리는 일본에 있는데
이 시기에 스키를 타기
좋다고 들었습니다.
이번 여행을 급하게 계획해서
스키를 가져오지 못했는데
여기서 스키를 구입해서
이번 여행 마지막에
스키 휴가를 즐길 수 있을까 해서요.
스키를 구입하고 싶습니다.
음...
일본에서 스키를 타기 위해서인데,
제가 하고 싶은 것은
딥 리서치가 어떻게 출력을
보고서 형식으로 포맷팅하는지와
마지막에 멋진 표로
정리하는 것입니다. 닐의 예시처럼
이것도 몇 가지
질문들이 나올 텐데 선택적으로
답변할 수 있죠. 저는 고급
장비를 원하고
올마운틴용인데 가끔 파우더를 탈 거예요.
여기 파우더가 좋다고 들었는데
이번 주에 운이 좋았으면 좋겠네요.
음... 제가
키가 크니까 긴 스키가 필요하고
긴 스키... 그리고 뭔가
더 재미있는 걸 해볼까요?
멋진 색상 구성이 있으면 좋겠어요.
색상 조합이 예쁜 걸로 하고 싶은데
멋진 색상으로
구성된 것으로 해보죠. 이제 시작해볼게요.
닐의 예시처럼 딥
리서치가 인터넷의
여러 웹사이트에서 검색을
수행하고 좋은
추천을 해줄 거예요. 이제
ISO에게 넘겨서
이것이 어떻게 작동하는지 설명해달라고 하죠.
딥 리서치는 곧 출시될
O3 추론 모델의 파인튜닝 버전으로
구동되며, 어려운 브라우징과
다른 추론 작업에 대해 종단간
강화학습을 통해 훈련되었습니다.
이 훈련을 통해 모델은
다단계 경로를 계획하고 실행하는 법을 배웠고
실시간 정보에 반응하고
필요할 때 되돌아가면서
작업을 수행합니다. 최종 모델은
사용자가 업로드한 파일을 탐색하고
파이썬 도구를 사용하여
계산과 이미지 생성,
플롯 작성이 가능하며
이러한 플롯을 최종
응답에 포함할 수 있습니다. 또한
웹사이트의 이미지도
응답에 포함할 수 있으며
출처를 인용할 때는 구체적인 문장과
구절을
인용합니다. 결과적으로 이 모델은
인간이 여러 시간 걸릴
복잡한 작업들을 수행할 수 있으며
또한 다수의 공개 및
비공개 평가에서 새로운 기록을 달성했습니다.
Humanity's Last Exam이라는
AI 안전 센터와 Scale AI에서
최근 발표한 벤치마크에서
모델의 전문 분야별
능력을 테스트한 결과
딥 리서치 모델은 새로운 최고 기록인
26.6%의
정확도를 달성했습니다.
정말 인상적인 마지막 시험 결과인데요.
이 과제는 약 3,000개의 주관식과
객관식 문제로 구성되어 있고
약 100개의 서로 다른
과목을 다루고 있습니다. 실제로
모델의 사고 과정과 진행 경로를 보면
정말 흥미로운데요.
인간의 문제 해결 방식과
매우 유사합니다. 제가 만약
어려운 문제를 받았다면
온라인 검색을 통해
답을 찾으려 할 텐데요.
예를 들어 물리학 문제에서
모델이 어려운 계산을 해야 할 때
기존 논문에서 방정식을 찾아
그것을 활용해서 문제를
문제나 시를 예로 들면
모델이 매우 특수한
새로운 시를 위한 운율을 파악해야 했고
다른 기존 시들의 예시를 찾아보면서
그것을 활용하여
추론 과정을 도왔습니다.
답을 찾아가는 과정에서
또 다른 벤치마크인 GUIA는
모델의 에이전트 능력을 측정하고
웹 브라우징, 멀티모달 기능,
코드 실행, 추론 능력이 필요합니다.
파일 처리에서도 모델은
모든 세 가지 난이도 수준에서
새로운 최고 기록을 달성했습니다.
우리는 또한 광범위한
내부 벤치마크도 만들었는데요.
네, 말씀드리자면
전문가 수준의 내부 평가를 구성했고
전문가들이 실제 업무에서
수행하는 다양한 작업들이 있습니다.
Deep Research 모델로 이를 테스트했고
전문가들이 응답을 평가했죠.
모델은 전문가들이 말하길
수 시간이 걸렸을 작업을
많은 수동 조사가 필요했을 작업을 완료했습니다.
이를 설명하는 두 개의 그래프가 있는데요
왼쪽은 예상 경제적 가치
범위별 통과율이고
다른 경제적 가치
범위에 따른 것이며, 오른쪽은
작업 완료 시간대별
통과율을 보여줍니다.
여기서 통과율이란
전문가가 평가한 전문가 수준 작업에서
모델이 만족스러운 답변을 제공한 비율입니다.
이 그래프들에서 흥미로운 점은
통과율이 예상 시간보다
예상 경제적 가치와 더 상관관계가 높다는 것입니다.
이는 모델이 어려워하는 것이
꼭 인간이 시간이 많이 걸리는 것과
같지 않다는 것을 보여줍니다.
모델이 어렵게 느끼는 것이
반드시 인간이 시간이 많이 소요되는 것과 일치하지는 않네요.
이 그래프는 전문가 수준 작업에서
최대 도구 호출 횟수에 따른
통과율을 보여줍니다.
모델이 더 많은 시간을 들여
생각하고 검색할수록
성능이 향상되는 것을 보여줍니다.
이는 매우 중요한데
Mark가 설명했듯이
우리는 에이전트가
점점 더 오랜 시간 동안
더 어려운 작업을 수행할 수 있는
세상으로 나아가고 있으므로
더 많은 생각할 시간과
도구를 사용할 시간을 주면
더 어려운 작업을 해결할 수 있을 것입니다.
마지막 내부 평가는
환각 현상 평가인데, 이 모델이
우리가 출시한 어떤 모델보다 가장 좋은 성능을 보였습니다.
하지만 여전히 환각이 발생할 수 있어서
보고서를 작성할 때는
반드시 직접 출처를 확인해야 합니다.
앞서 언급했듯이 Deep Research 모델은
응답하는 데 꽤 오랜 시간이 걸릴 수 있어서
오늘 아침에 몇 가지 예시를
생성했습니다.
다양한 기능들을 보여드리기 위해
이제 몇 가지를 살펴보겠습니다.
매우 긴 내용들이 있는데요
스크롤을 내려서 보면
자, 이것은 금융 분야 예시입니다.
실리콘밸리 벤처캐피털 회사의
투자 분석가로서 저는 분석하고 싶은데
민간 초음속 항공 여행 시장을
분석하고 상세한 투자
보고서와 기타 여러
세부사항을 준비하고자 합니다. 모델이
명확히 하고 우리가 몇 가지
추가적인 보고서 요구사항을 제공했더니
모델이 작업을 시작했고
보시다시피 연구를 진행하여
5분 동안 12개의 다른 출처를 활용했으며
그리고 우리에게 매우
포괄적인 분야 보고서를 제공했습니다
여러분이 실제 업무에서
이것을 사용한다고 생각해보면
초기 조사 과정에서
연구를 시작하는데 매우 도움이 될 것입니다
네, 잘 작동하길 바라며
다음에 일본에 올 때는
시차로 인한 피로가 좀 덜하길 바랍니다
초음속 비행기로 말이죠
자, 여기 또 다른 예시가 있습니다. 생물학 예시인데요
우리가 논문을 업로드했고
같은 주제의 다른 논문들을 찾고 싶었습니다
이것은 실제로 OpenAI의
한 친구로부터 받은 과제였는데
생물학에 매우 능통한 사람이었죠
정확히 무슨 내용인지 이해한다고 하진 못하지만
우리가 보여주고 싶었던 것은
생물학 수업에 집중하지 않았던 것을
알 수 있었죠. 우리는 이 모델이 할 수 있는
다양한 작업을 보여주고 싶었습니다
모델이 몇 가지 명확한 설명을 요청했고
이 작업에서 모델은 꽤 오랜 시간이
걸렸지만 결국
같은 주제의 여러 다른
논문들을 찾을 수 있었고
우리 친구에게 보여줬을 때
꽤 좋은 응답이라고 했습니다
모델에 대한
좋은 신뢰도를 보여준 거죠
자, 모두가 이런 경험이
있으실 텐데요, 10년 전 도쿄에서
갔던 식당 이름이나
찾고 있는 TV 프로그램 이름이
기억나지 않는 순간이 있죠. 이 예시가
약간 인위적으로 보일 수 있지만
우리는 모델이 얼마나 잘
건초더미에서 바늘을 찾듯
정보를 찾아내는지 보여주고 싶었습니다
프롬프트는 이렇습니다:
'예전에 본 TV 프로그램인데 이름을 잊었어요
하지만 에피소드 내용은
기억나는데 제목을 찾아주실 수 있나요?'
제가 기억하는 내용은 이렇습니다:
한 에피소드에서 두 남자가 포커를 치는데
한 사람이 다른 사람에게 베팅하라고 한 후 폴드하고
그리고 스토리에 대한 더 자세한 내용과
우리가 제공할 수 있었던 유일한
추가 정보는
'5-10년 전 것 같은데 확실하진 않아요'
였고, 모델은 온라인 검색을 통해
여러 사이트를 읽고
내용을 분석하여
다양한 사이트의 내용을 추론하고
우리가 생각했던 실제 TV 프로그램
에피소드를 찾아낼 수 있었죠
꽤 멋진데요
그게 정답이었나요? 그 TV 프로그램이
맞았나요?
자, 이제 Neil과 Josh에게 다시 넘겨서
여러분이 처음에 시작한
작업을 확인해보겠습니다
네, 감사합니다. 원래 작업을
살펴보겠습니다. 지금 보니
작업이 아직 진행 중인 것 같은데
그동안
이미 시작된 작업이
29개의 다른 출처를 살펴보고
많은 다양한 정보를 분석했습니다
와우, 완벽한 타이밍이네요
정말 놀라운 타이밍입니다. 딥 리서치가
방금 전체 분석을 완료했는데
11분이 걸렸고 그 과정에서
29개의 다른 사이트를 정말
심도 있게 분석했습니다. 실시간으로 보시다시피
완벽하게 포맷된
보고서를 제공했습니다. 여기서 보시면
모바일 시장 분석과
언어 학습에 대한 모바일 채택 현황,
좋은 소개와 다양한 채택
트렌드가 모두 정리되어
훌륭한 보고서 형식으로 되어있고
시간에 따른 모바일 보급률과
수많은 데이터가 있으며
아래로 내려가면 정보뿐만 아니라
다양한 표 형식과 데이터를
표현하는 여러 가지 방식이
있어서 데이터를
매우
이해하기 쉽게 되어있습니다. 또 다른
정말 멋진 점은
클릭해서 모든
다양한 출처를 볼 수 있다는 것입니다
여기서 모델이 접한 모든
인용문을 볼 수 있고
또한 발견했지만
최종 출력에는
필수적으로 포함되지 않은
사이트들도 알려주어
발견한 내용을
모두 확인할 수 있죠
자, 스키 정보를 확인해볼까요
좋습니다
위로 스크롤해보면, 제가 좋아하는 점은
와우, 정말 많은 연구를 했네요
이런 종류의 조사는 제가 직접 하려면
아마도 오후 내내 걸렸을 겁니다
제 마음의 평화를 위해서라도
좋은 구매를 하기 위해
모든 것을 읽어봐야 했을 텐데
이 시스템은 실제로
제가 방문했을 모든 사이트를
훌륭하게 분석하고
모든 정보를 훨씬 더 소화하기 쉬운
형식으로 통합했습니다
직접 검색하는 것보다 훨씬 낫고
또한 하단에 표를 제공하여
제가 언급한 특정 사항들에 대한
전반적인 비교를
보여줍니다 구매를 위해
제가 원했던 것들을요
딥 리서치는
매우 구체적으로 원하는 것을 지정할 때
특히 어떤 종류의 답변을
찾고 싶은지, 어떤 정보와
비교를 원하는지
그리고 어떤 형식으로 결과를
받고 싶은지 명확할 때
정말 잘 작동합니다. 모델이
이 모든 요소를 고려하여
검색하고 생각하면서
최종 보고서를 만들기 때문이죠
그래서 이 결과는 신뢰할 만한데
이유는 여기서 최고 추천 제품이
실제로 제가 집에서 사용하는
스키와 같기 때문입니다
꽤 흥미롭네요. 이걸
자세히 살펴보고
아마도 스키 여행을
계획해볼까 합니다
이번 주말에 가죠. 네, 아시다시피
이 기술로 할 수 있는 것이
훨씬 더 많습니다. 이제
마크에게 넘겨서
앞으로의 계획을 설명하도록 하겠습니다
네, 정리하자면 딥 리서치는
오늘부터 Pro 버전에서 사용 가능하며
곧 데스크톱과 모바일로도
출시될 예정입니다만, 오늘 출시하는 것은
딥 리서치의 가능성 중
극히 일부에 불과합니다
오늘은 웹을 검색하는
딥 리서치 에이전트가 있지만
앞으로는 같은 딥 리서치
에이전트가 맞춤형 컨텍스트나
기업의
데이터 저장소에 연결될 수 있습니다
딥 리서치는 우리의 AGI 로드맵에서 중요하며
우리는 에이전트가 더 오랫동안
자율적으로 생각하여
어려운 작업을 해결할 것이라 믿습니다
그리고 30분 동안
작업할 수 있는 이 능력이
더 많은 컴퓨팅 투자를 촉진한다고 생각합니다
여러분들이 어떻게 활용할지 기대되고
경험을 공유해 주시기 바랍니다. 감사합니다