OpenAI의 Deep Research - 장단점: DeepSeek R1 검색 vs Gemini Deep Research

AI Explained 구독자 323,000명

요약

이 영상은 OpenAI가 최근 출시한 Deep Research 시스템에 대한 종합 테스트와 벤치마크 분석을 다룹니다. 리뷰어는 Deep Research가 GPT-03 기반의 최신 모델로 다양한 사용 사례에서 혁신적인 성능을 보이지만, 반복적인 명확화 질문과 몇몇 정보의 hallucination 문제 등 한계점도 지적합니다. 또한 DeepSeek R1과 Gemini Deep Research와의 비교를 통해 각 시스템의 강점과 약점을 상세하게 분석하며, AI 발전의 속도와 인간과의 성능 격차에 대해 고찰합니다.

주요 키워드

Deep Research DeepSeek R1 Gemini Deep Research GPT-03 벤치마크 Humanity's Last Exam hallucination 명확화 질문 코드 ELO

하이라이트

🔑 OpenAI의 Deep Research는 GPT-03 기반의 최신 AI 연구 시스템으로, 다양한 활용 사례에서 혁신적인 성능을 보여줍니다.
⚡️ ‘Humanity's Last Exam’ 같은 벤치마크 테스트에서 Deep Research는 모호한 지식 검색 능력에서 인상적인 성과를 기록합니다.
🌟 시스템이 자주 반복적으로 명확화 질문을 던져 직접적인 답변을 어렵게 하는 점은 사용상 불편함을 초래합니다.
📌 DeepSeek R1과의 비교에서 Deep Research는 정보 분석 및 검색 면에서 우수하지만, 실시간 데이터 확인에서는 오류가 발생하기도 합니다.
🚀 쇼핑 조언과 뉴스레터 검색 등 실제 사례 테스트에서, 일부 가격 정보나 배터리 수명 등 구체적 데이터에 있어 hallucination 현상이 관찰됩니다.
🔍 리뷰어는 AI가 점점 전문 작업 영역에 진출함에 따라 인간과 AI 간의 성능 격차와 그 영향력에 대해 심도 있게 논의합니다.
📚 최종적으로 Deep Research의 방대한 계산 능력과 분석력은 전문적인 리서치 작업에 유용하나, 개선해야 할 부분도 분명하다고 평가합니다.

용어 설명

Deep Research

OpenAI가 출시한 최신 연구 도구로, GPT-03 기반의 모델을 활용하여 심층 정보 검색 및 분석을 수행하는 시스템입니다.

DeepSeek R1

경쟁 제품 중 하나로, 검색 기능에 중점을 두어 Deep Research와 비교 평가의 기준으로 사용됩니다.

Gemini Deep Research

Google 관련 경쟁 연구 도구로, Deep Research와 함께 성능 비교 대상 중 하나입니다.

Humanity's Last Exam

AI의 모호한 지식과 정보 조각들을 종합하여 문제 해결 능력을 평가하는 벤치마크 테스트입니다.

Clarifying questions (명확화 질문)

AI가 사용자의 의도를 정확히 파악하기 위해 추가 질문을 던지는 현상으로, 때로는 사용 경험에 영향을 미칩니다.

Hallucination

AI가 실제 근거 없는 정보를 만들어내는 현상으로, 테스트 중 잘못된 데이터 제공 문제로 나타납니다.

영상 초반부에서 OpenAI의 새로운 Deep Research 시스템을 소개하며, 경쟁 제품인 DeepSeek R1과 Gemini Deep Research와의 명칭 및 기능상의 유사성을 언급합니다. 또한 사용 조건 및 구독 비용에 대해서도 설명합니다.

[00:00] OpenAI가 O3 기반의 Deep Research 시스템을 출시했으며, 이는 그들의 가장 강력한 언어 모델입니다.

[00:16] 이름의 유사성 때문에 DeepSeek R1과 Google의 Deep Research와 비교 테스트를 진행했습니다. OpenAI가 경쟁사와 동일한 제품명을 사용한 것이 특징적입니다.

[00:44] 서비스 이용을 위해서는 월 200달러 비용과 유럽에서는 VPN이 필요합니다. 전반적으로 인상적이지만 중요한 주의사항이 있습니다.

[01:05] O3 모델은 OpenAI의 최신 최강 모델로, O3 Mini나 O1 Pro와는 다른 모델입니다.

[01:30] '인류의 마지막 시험' 벤치마크는 심오하고 난해한 지식을 테스트하며, Deep Research는 이러한 영역에서 뛰어난 성능을 보여줍니다.

‘Humanity's Last Exam’ 등 벤치마크를 통해 Deep Research의 모호한 지식 검색 및 정보 분석 성과를 평가합니다. 테스트 결과, 모델의 성능이 크게 향상되었으나, 여전히 인간의 기준에는 미치지 못하는 부분이 있음이 드러납니다.

[02:13] GAIA 벤치마크는 AI의 실제 활용성을 테스트하며, 현실적인 과제와 전문가의 참여로 더욱 의미있는 평가를 제공합니다.

[03:01] GPT-4와 검색 기능의 성능 비교에서 인간은 92%, GPT-4는 15%의 성능을 보였으며, 이는 최근 AI가 전문적 작업에서 인간을 능가하는 추세와 대조적

[03:21] OpenAI의 딥 리서치 에이전트는 벤치마크에서 67-73%의 성능을 보여주며, 9개월 만에 15%에서 큰 향상을 이루었지만 여전히 인간의 92% 성능에는 미치지 못함

[03:55] O3를 활용한 Simple Bench 테스트에서 모델은 끊임없이 질문을 하며, 실제 공간 추론과 상식적인 문제 해결에서 기대에 미치지 못하는 성능을 보임

직접 제작한 Simple Bench 테스트에서 Deep Research가 질문에 답변하기보다 반복해서 명확화 질문을 던지는 모습을 보입니다. 이 과정에서 모델이 실제 상황을 완전히 이해하지 못하는 문제점이 드러납니다.

[05:20] 모델이 질문에 답변을 거부하면 작동을 멈추는 현상이 발생하며, 이를 해결하기 위해서는 새로고침 후 다른 모델을 선택하는 것이 효과적

[05:46] 딥 리서치의 인터페이스와 사용법을 설명하며, 왼쪽 상단이 아닌 하단에서 선택하는 방식을 소개합니다.

[05:58] 'Signal to Noise'라는 작은 뉴스레터를 대상으로 DeepSeek R1과 구글의 딥 리서치를 비교 테스트한 경험을 공유합니다.

뉴스레터 검색, 쇼핑 조언 등 실제 사례를 바탕으로 Deep Research와 DeepSeek R1, 그리고 Gemini Deep Research의 성능을 비교합니다. 각 시스템의 장단점과 오류 사례가 구체적으로 분석됩니다.

[06:30] AI는 주사위 평가 5점 이상인 게시물을 성공적으로 찾아내고 분석했으며, 이는 수동 검색보다 효율적이었습니다.

[07:10] Perplexity와 R1은 훌륭한 무료 도구지만, 복잡한 검색에는 유료임에도 딥 리서치가 더 적합하다고 평가합니다.

[07:27] 딥 리서치의 요금제별 월간 쿼리 제한을 설명하고, Gemini의 딥 리서치 성능이 상대적으로 저조했음을 지적합니다.

[08:09] 최종적으로 딥 리서치가 DeepSeek R1보다 전반적으로 우수했으나, 환각 현상이 자주 발생하는 단점이 있었음을 설명합니다.

[08:37] LLM과 인간 성능 간의 큰 격차를 보이는 벤치마크를 찾고자 했습니다. GAIA 벤치마크는 더 이상 그런 격차를 보이지 않는다는 것을 확인했습니다.

[08:55] AI에게 LLM에 초점을 맞춘 벤치마크만을 찾아달라고 요청했으며, 널리 인정받지 않은 벤치마크도 포함하도록 했습니다.

[09:19] AI는 Simple Bench라는 생소한 벤치마크를 찾아냈으나, 제 개인 정보에 대해서는 잘못된 정보를 제시했습니다.

[09:34] Code ELO 벤치마크에 대해 AI가 제시한 정보, 특히 인간과 AI 성능 차이에 대한 주장이 사실과 다르다는 것을 발견했습니다.

[10:21] Deep Research는 정보 검색에는 효과적이지만, 정확성 검증이 필요하다는 한계가 있음을 지적했습니다.

[10:41] DeepSeek R1 검색 테스트 결과, Halo Bench에 대한 답변의 신뢰성 문제가 발견되었으며, GPT-4 Turbo의 성능 주장에 대한 검증이 필요한 상황입니다.

코드 관련 벤치마크 및 심층 분석 테스트를 통해 Deep Research의 한계와 개선 가능성을 논의합니다. 리뷰어는 AI 발전 속도 및 미래의 인간 역할 대체 가능성에 대해 고찰하며 마무리합니다.

[11:23] GPT-4 Turbo의 성능에 대한 오해를 지적하며, 실제로는 Links 모델이 최고 성능을 보인다는 점을 설명합니다.

[11:47] 미샨 크레올 언어에 대한 50개 질문 테스트에서 Deep Research가 88%의 정확도를 보였고, 이는 원본 사전을 제공받은 GPT-4의 82%보다 높은 성능이었습니다.

[12:46] 발표자가 개발한 프로토타입 시스템에 대해 설명하며, O1과 Sonar Pro를 활용한 연구 방향 제시 및 웹 검색 기능을 소개합니다.

[13:32] 프로토타입이 Deep Research의 등장으로 대체되었으며, OpenAI의 프레젠테이션에서 다루지 않은 세부 기능들에 대해 언급합니다.

[14:12] AI가 유튜브를 직접 탐색할 수는 없지만, 다른 출처를 통해 유튜브 콘텐츠에 대한 정보를 찾아낼 수 있었습니다.

[14:40] 전동칫솔 구매 조언을 요청했을 때, AI는 상세한 요구사항에 맞는 제품을 찾아냈지만, 가격 히스토리 확인은 실패했습니다.

[15:26] AI가 Camel Camel Camel 사이트를 사용했다고 주장했으나, 실제로는 해당 사이트의 데이터를 확인하지 않았고 잘못된 가격 정보를 제공했습니다.

[16:02] DeepSeek R1도 배터리 수명에 대해 완전히 잘못된 정보를 제공하고, 가상의 가격 데이터를 사실처럼 제시하는 문제를 보였습니다.

[16:40] AI 기술이 빠르게 발전하고 있지만, 이러한 작은 환각들이 화이트칼라 직종의 마지막 방어선으로 남아있습니다.

[17:03] DeepSeek R1 논문의 39개 참조를 분석한 결과, 약간의 환각이 있었지만 분석의 깊이는 매우 인상적이었습니다.

[17:20] 이런 AI 모델들이 환각을 보이지 않는다면, 이는 수천만 명의 화이트칼라 직종 종사자들에게 실직 통지나 다름없을 것입니다.

[17:27] 최근 AI로 생성된 유튜브 채널을 발견했는데, AI 음성임에도 콘텐츠 품질이 매우 우수했고 시청자들도 이를 인식하지 못했습니다.

[17:50] 가까운 미래에는 AI가 실시간으로 뉴스를 분석하고 심층적인 콘텐츠를 제작할 것이며, 이는 인간 분석가보다 더 빠를 것입니다.

[00:00] 오픈AI가 불과 12시간 전에

[00:03] O3 기반의 Deep Research 시스템을 출시했습니다

[00:07] 그들의 가장 강력한 언어 모델을

[00:09] 에이전트라고 부르는데

[00:11] 아침 내내 그들이 공개한 모든 문서와 벤치마크를 읽고

[00:13] 직접 테스트도 해봤습니다

[00:16] 이름이 뭔가 비슷한 것이 생각나서

[00:18] 제가 얻은 결과를

[00:21] DeepSeek R1의 검색 기능과

[00:24] 구글의 Deep Research와 비교해봤습니다

[00:27] 그런데 재미있는 건, OpenAI가

[00:30] 구글과 정확히 같은 제품명을 사용했다는 겁니다

[00:32] 들리는 바로는

[00:34] O3 Pro AR Mini라는 이름을 고려했다가

[00:37] 대신 경쟁사의

[00:38] 제품명을 선택했다고 합니다

[00:40] 물론 이건 초기 테스트 결과이고

[00:43] 이 서비스를 이용하려면

[00:44] 월 200달러를 지불하고 유럽에서는 VPN을

[00:48] 사용해야 한다는 점을 참고하세요

[00:50] 전반적으로 인상적이었지만

[00:53] 큰 주의사항이 있습니다

[00:56] 이것이 전 세계의

[00:58] 경제적 가치가 있는 작업의

[01:00] 한 자릿수 퍼센트라도 처리할 수 있는지는

[01:02] 여러분의 판단에 맡기겠습니다

[01:05] 간단히 말하자면, 새로운 O3 모델을 사용하는데

[01:07] 혹시 이름들이 헷갈리실 수 있는데

[01:09] 이건 그들의 가장 강력한 모델이고, 며칠 전에 발표된

[01:12] O3 Mini와는 다릅니다

[01:14] 제가 그것에 대한 영상도 만들었고

[01:16] O1 Pro 모드와도 다른데, 그것도 영상으로 다뤘습니다

[01:19] 그리고 참고로 이 둘은

[01:21] GPT-4-0이나 GPT-4와도 다릅니다

[01:24] 기본적으로 이건 그들의 최고 모델이고

[01:27] 이걸 사용해서 딥 리서치를

[01:28] 수행하는 거죠, 그게 중요한 점입니다

[01:30] 테스트 결과 전에 잠깐

[01:32] '인류의 마지막 시험'이라는

[01:34] 벤치마크에 대해 들어보셨을 텐데

[01:37] 이름이 좀 부적절하다고 생각합니다

[01:38] 이건 기본적으로 매우 심오하고

[01:41] 난해한 지식을 테스트하고

[01:43] 모델이 그러한

[01:44] 지식들을 연결해서 정답을 찾을 수 있는지를 보는 겁니다

[01:46] 그래서 사실 그렇게 놀랍지는 않았습니다

[01:49] 이 '인류의 마지막 시험'에서

[01:51] 웹 접근권한이 주어졌을 때

[01:53] 딥 리서치 에이전트의 성능이 급상승했다는 게

[01:57] 이 벤치마크 결과에서 제가 얻은

[01:59] 주요 시사점은 만약 여러분이

[02:01] 난해한 지식을 찾고 싶다면 OpenAI의

[02:04] 딥 리서치 에이전트가 적합하다는 겁니다

[02:06] 그리고 참고로 그 시험의 주저자는

[02:08] 2025년의 최적화 압박을 견디지

[02:11] 못할 것이라고 예상했습니다

[02:13] 제게 더 흥미로웠던 것은

[02:15] AI가 진정으로 유용한 보조자가 될 수 있는지를 테스트하는

[02:17] GAIA 벤치마크였습니다

[02:20] 왜 더 흥미로웠을까요? 세 가지 이유가 있습니다

[02:22] 첫째, 과제들이 더 현실적입니다

[02:25] 특정 컨퍼런스를 조사하고

[02:28] 구체적인 세부 질문에 답하는 것이

[02:30] 이건 레벨 1에 불과하고

[02:32] 레벨 3 질문들은

[02:34] 이런 겁니다: 매우 전문적인

[02:37] 표준 세트를 조사해서

[02:39] 그 표준들 중 몇 퍼센트가

[02:41] 2023년까지 대체되었는지 찾는 것입니다

[02:45] 두 번째 이유는 이 벤치마크가

[02:47] LLM 회의론자로 알려진 얀 룬이 공동 저술했다는 점입니다

[02:51] 2024년 4월 기준 최신 기술 수준은 다음과 같습니다:

[02:54] 인간 응답자들은 92%를 얻은 반면

[02:58] GPT-4는 15%밖에 얻지 못했습니다

[03:01] 참고로 제가 플러그인들을 확인해봤는데

[03:03] 그 플러그인 중 하나가 검색 기능이 있는 GPT-4였어요

[03:06] 그들은 이런 주목할 만한 성능 차이에 대해 언급했는데

[03:08] 인간은 92%인 반면, 검색 기능이 있는 GPT-4는 15%를 기록했죠

[03:11] 이는 최근 전문적인 기술이 필요한 작업에서

[03:14] 언어 모델이 인간의 성능을 뛰어넘는 추세와는

[03:16] 대조적인 결과를 보여줍니다

[03:18] 이제 세 번째 이유를 살펴보면

[03:21] OpenAI의 딥 리서치 에이전트는

[03:22] 이 벤치마크에서 72-73% 정도의 성능을 보였습니다

[03:26] 이는 64번의 시도 중 가장 많이 나온 답변을 기준으로 한 것이고

[03:28] 첫 번째 답변만을 고려하더라도

[03:31] 여전히 67%의 성능을 보여줍니다

[03:33] 따라서 두 가지 사실이 동시에 성립하는데

[03:36] 첫째, 지난 9개월 동안의

[03:38] 성능 향상이 정말 놀라웠습니다

[03:40] 15%에서 67% 또는 72%까지 올랐거든요

[03:43] 하지만 여전히 노력을 기울인 인간의 성능이

[03:48] 92%로 훨씬 더 높다는 사실은

[03:50] 변함없는 사실입니다

[03:52] 자, DeepSeek R1과의 비교와

[03:55] Gemini의 딥 리서치를 보기 전에

[03:58] 솔직히 말씀드리면, O3를 처음 접했을 때

[04:00] 제가 가장 먼저 하고 싶었던 것은

[04:02] 딥 리서치에 숨겨진 O3를

[04:05] 제가 만든 벤치마크로 테스트해보는 것이었죠

[04:07] Simple Bench라는 공간 추론이나

[04:09] 상식, 기본적인 추론을 테스트하는

[04:11] 벤치마크였습니다

[04:13] 안타깝게도 테스트는 잘 진행되지 않았는데

[04:15] 모델이 질문에 답하는 대신

[04:17] 끊임없이 저에게 질문을 던졌기 때문입니다

[04:20] 물론 이것이 오히려 훌륭한 점이라고 할 수도 있죠

[04:21] AGI는 명확한 질문을 해야 하니까요

[04:23] 하지만 평균적으로 한 가지 질문만 하는 게 아니라

[04:25] 사실 제가 말씀드리고 싶은 건

[04:27] 그냥 답변해달라고 간곡히 부탁해도

[04:29] 보통 4-5개의 질문을 연달아 한다는 거예요

[04:31] 정말 짜증나는 일이죠

[04:33] 아니면 이게 AGI의 신호일 수도 있고요

[04:36] 판단은 여러분께 맡기겠습니다

[04:38] 하지만 실제 상식이나

[04:40] 공간 추론에서는 좀 실망스러웠어요

[04:41] 물론 이게 너무 가혹한 평가일 수도 있죠

[04:44] 8개 정도의 질문만 테스트했으니까요

[04:46] 하지만 실질적인 개선의 징후는 보이지 않았습니다

[04:48] 이런 종류의 질문에 대해

[04:49] 이 영상에서 더 이상 시간을 할애하지는 않겠지만

[04:51] 기본적으로 실제 세계를

[04:52] 완전히 이해하지 못하는 것 같아요

[04:54] 이 경우에 캐산드라가

[04:56] 여전히 쉽게 움직일 수 있다는 점을 이해하지 못했죠

[04:57] 다른 질문에서는 뭔가 이상한 점을 직감했지만

[05:01] 각각의 포인트에 대해

[05:03] 합리적인 가정을 적용해보라고 했을 때도

[05:05] 여전히 실패했습니다

[05:07] 꽤 흥미로웠던 건

[05:10] 온갖 생소한 웹사이트를 인용하면서

[05:11] 한 여성이 허벅지에 손을 얹은 채

[05:14] 앞뒤로 움직일 수 있는지

[05:16] 알아보려 했다는 거예요

[05:18] 결국 Simple Bench 질문을 포기할 수밖에 없었는데

[05:20] 계속해서 질문을 하다가

[05:22] 결국 제가 퍼즐을 여러 번

[05:24] 직접 풀어주게 되더라고요

[05:26] 그리고 참고로 제가 모델의 질문에

[05:29] 답변하기를 거부했을 때는

[05:31] 그냥 조용히 멈춰버렸어요

[05:33] 참고로 프로팁을 하나 드리자면

[05:35] 이런 교착 상태를 벗어나고 싶다면

[05:37] 새로고침 버튼을 누르고

[05:39] 다른 모델을 선택하면 작동합니다

[05:42] 물론 여전히 O3를 사용하고 있겠죠

[05:44] 아마도 그들이 사용하는 유일한 모델일 테니까요

[05:46] 딥 리서치는 이렇게 생겼는데요

[05:48] 하단에서 딥 리서치를 선택하면 됩니다

[05:50] 좌측 상단에서 모델을 선택하는 것이 아닙니다

[05:52] 저는 이 페이지에 계속 머물러 있을 건데요

[05:54] 이게 정말 잘 작동한 훌륭한

[05:56] 예시였기 때문입니다

[05:58] 제가 운영하는 'Signal to Noise'라는

[06:01] 구독자 만 명도 안 되는

[06:03] 작은 뉴스레터가 있는데

[06:06] DeepSeek R1과 구글의 딥 리서치를 테스트해봤습니다

[06:09] 둘 다 동일한 질문을 했죠

[06:12] Signal to Noise 뉴스레터의

[06:14] Beehive 게시물을 모두 읽고

[06:16] AI explained가 작성한 글 중에서

[06:18] 주사위 평가가 5점 이상인

[06:20] 모든 게시물을 찾아서

[06:22] 해당 게시물의 'so what' 섹션을 출력하라고 했죠

[06:25] 예를 들어, 제 최신 글이 여기 있는데

[06:26] 아래로 스크롤하면

[06:28] 주사위 평가가 3점인 것을 볼 수 있습니다

[06:30] AI는 먼저 몇 가지 명확한 질문을 했고

[06:32] 그 후에 작업을 시작해서

[06:34] 주사위 평가가 5점 이상인

[06:37] 두 개의 게시물을 찾아냈습니다

[06:39] 또한 주사위 평가의 의미를 정확히 파악하고

[06:42] 'so what' 섹션을 출력했죠

[06:45] 저는 '그래, 이거 정말 시간을 절약해주겠는데'

[06:48] 라고 생각했습니다

[06:49] 제가 직접 검색했다면 꽤 시간이 걸렸을 테니까요

[06:52] DeepSeek의 웹 버전은

[06:54] 제가 테스트하는 몇 시간 내내 사용 중이었지만

[06:57] 그래도 R1은 테스트했습니다

[06:59] 어떻게 했냐고요? Perplexity Pro에서

[07:02] R1을 사용해 동일한 질문을 했는데

[07:04] 결과를 보니 주사위 평가가

[07:07] 5점 이상인 항목이 전혀 없다고 나왔습니다

[07:10] 물론 Perplexity는 놀랍고

[07:12] 검색 기능이 있는 R1도 굉장히 훌륭하며

[07:15] 둘 다 일정 수준까지는 무료지만

[07:17] 정말 어려운 검색이 필요하다면

[07:19] 딥 리서치를 사용할 것 같네요

[07:21] 구독 비용이 꽤 들긴 하지만

[07:23] 사용할 가치가 있다고 봅니다

[07:25] 사용량 얘기가 나왔으니 말씀드리면

[07:27] Pro 티어는 월 100회 쿼리가 가능하고

[07:29] Plus 티어는 월 10회입니다

[07:32] 무료 티어는 곧

[07:35] 매우 적은 횟수로 제한될 예정이라고 하네요

[07:38] 네, 그는 Plus 티어라고 썼지만 무료 티어를 의미했죠

[07:41] Gemini Advance와 그들이 말하는

[07:43] 딥 리서치는 어떨까요?

[07:45] OpenAI가 자신들의 이름을

[07:48] 이렇게 사용한 것에 대해

[07:49] 화가 났을 것 같은데요

[07:51] 아무튼, 제 경험상 Gemini는

[07:54] 가장 좋지 않은 옵션 중 하나였습니다

[07:56] Signal to Noise 뉴스레터에서

[07:59] 주사위 평가를 전혀 찾지 못했다고 하더군요

[08:02] 그 이후로는 Gemini의 딥 리서치 테스트를

[08:05] 중단하고

[08:07] 딥 리서치와 DeepSeek의 비교에만

[08:09] 집중했습니다. 요약하자면 딥 리서치가

[08:13] DeepSeek R1보다 거의 항상 더 나았지만

[08:15] 환각 현상이 자주 발생했습니다

[08:18] 또한 DeepSeek은

[08:20] 계속해서 질문을 하면서 귀찮게 하지 않았는데

[08:22] 이게 좋은지 나쁜지는

[08:23] 여러분의 판단에 맡기겠습니다

[08:25] 여러분을 위해 모델이

[08:27] 명확한 질문을 하지 않도록 강제할 수 있는지

[08:29] 확인해봤는데 보시다시피

[08:32] 이 특정 쿼리에서는

[08:34] 작동하지 않았습니다

[08:35] 저는 벤치마크가 얼마나 있는지 확인하고 싶었는데

[08:37] 인간 기준치가 여전히 최고의 현재 LLM보다 두 배나 높은

[08:39] 벤치마크들이 있는지, 그리고 그것들이 최신인지

[08:42] O3 mini도 테스트되어야 하는데

[08:44] 제가 만든 벤치마크가 공식적으로 인정받지는 않았지만

[08:46] 다른 텍스트 기반 벤치마크 중에서도

[08:47] 인간과 AI 성능 간에 그런 큰 차이를 보이는

[08:49] 벤치마크가 있는지 확인하고 싶었습니다

[08:51] 방금 봤듯이 GAIA 벤치마크는

[08:53] 더 이상 그런 차이를 보이지 않습니다

[08:55] AI가 명확한 질문을 했을 때, 저는 LLM에만 집중하라고 했고

[08:57] 그 기준을 충족하는 모든 벤치마크를

[08:59] 찾아달라고 했습니다. 다른 기준은 없이

[09:01] 오직 그 조건만 만족하는 벤치마크를 찾아달라고 했죠

[09:03] 널리 인정받는 벤치마크가 아니어도 된다고 했습니다

[09:06] 더 이상의 질문은 하지 말라고 했더니

[09:08] AI는 이 조건에 맞는 벤치마크를

[09:10] 찾는 대로 알려주겠다고 했습니다

[09:12] 하지만 그 후에 멈춰버렸죠

[09:13] 이런 일이 가끔 있어서

[09:15] 계속하라고 독려했더니

[09:18] 작업을 진행했습니다

[09:19] Simple Bench라는 꽤 생소한 벤치마크를

[09:21] 찾아낸 것이 인상적이었습니다

[09:24] 하지만 제 이름을 Philip Wang이라고 했는데

[09:26] 그건 잘못됐네요. 제 어머니가 놀라실 일이죠

[09:28] 그리고 Code ELO가 또 다른

[09:30] 그런 벤치마크의 예시라고 했습니다

[09:34] 와, 또 다른 예시가 있다니 좋았죠

[09:37] 인간 프로그래머들이 현재 모델들보다

[09:38] 훨씬 뛰어난 성능을 보인다고 했고

[09:40] 최고의 모델조차 Codeforces 참가자 중

[09:42] 하위 20% 정도의 성능을 보인다고 했습니다

[09:44] 흥미로웠죠

[09:46] 뉴스레터 결과를 포함한

[09:48] 모든 출력 결과에 대해

[09:50] 실제로 답변이 사실인지

[09:52] 확인하고 싶었습니다

[09:54] 그런데 Code ELO의 경우 사실이 아니었죠

[09:57] 보시다시피 O3 mini는 아직 벤치마크되지 않았지만

[10:00] O1 mini조차도 90번째 백분위에 도달했습니다

[10:02] 이는 곧 최고의 모델이

[10:05] 하위 20%의 성능을 보인다는 게

[10:07] 사실이 아니라는 뜻입니다

[10:09] 일부는 Code ELO가 Codeforces를 기반으로 하며

[10:11] O3 mini가 Codeforces에서

[10:13] 테스트되었다고 지적할 수 있지만

[10:15] 그래도 이 진술은

[10:17] 여전히 사실이 아닙니다

[10:20] 이것이 제가 보는 Deep Research의

[10:21] 본질적인 문제점입니다

[10:24] 건초더미에서 바늘을 찾는 데는 훌륭하지만

[10:27] 바늘과 나사를 구분할 수 있어야 합니다

[10:29] 두 가지 모두를 제시할 테니까요

[10:31] 하지만 기억하세요, 많은 경우

[10:34] 건초더미를 직접 뒤적이며 찾아다닐 필요는 없게 해줬죠

[10:36] 그런 장점은 있습니다

[10:39] 같은 벤치마크 질문을

[10:41] 이번에는 공식 DeepSeek R1 검색에

[10:43] 물어봤습니다

[10:45] 서버가 잠시 작동해서

[10:48] 답변을 받았지만 문제는

[10:50] 답변이 꽤 형편없었다는 거죠

[10:52] 무료이고, 대부분 오픈소스이며

[10:54] 서구의 거대 기업들을 겸손하게 만들었다는 것은 알지만

[10:56] 그렇다고 DeepSeek One이 완벽하다는 건 아닙니다

[10:58] Halo Bench는 실제 벤치마크이고 찾아보니

[11:02] 찾기는 어려웠지만 확인했습니다

[11:04] 첫 번째 문제는 30분 동안 찾아봐도

[11:06] 인간 평가자들이 85%의 정확도를 보였다는

[11:11] 출처를 찾을 수 없었다는 겁니다

[11:13] 참고로 이 벤치마크는

[11:15] 환각 현상을 탐지하는 것에 관한 것인데

[11:17] GPT-4 Turbo가 최고 성능을 보이며

[11:20] 40%의 정확도를 보인다고 하는데, 만약 사실이라면

[11:23] 이는 실제로 제가 제시한 기준,

[11:25] 즉, 인간의 기준치가 최고 성능 LLM의

[11:27] 두 배 이상이어야 한다는 기준을 충족시킬 것 같았습니다.

[11:29] 하지만 이 열을 보시면 알 수 있듯이

[11:31] GPT-4 Turbo는 40%를 얻지도 못했고

[11:33] 최고 성능 모델도 아닙니다.

[11:35] 실제로 이 논문의 전체 초점은

[11:37] 이 Links 모델에 맞춰져 있는데,

[11:39] 이것이 실제 최고 성능을 보이는 모델입니다.

[11:41] 자, 이제 Deep Research로 돌아가서,

[11:43] 제가 흥미로운 결과를 얻었는데,

[11:46] 다른 분들도 자신의 분야에서

[11:47] 재현할 수 있을지 궁금합니다. 저는 모델에게

[11:50] 비교적 잘 알려지지 않은 크레올 언어인

[11:53] 미샨 크레올에 대해 50개의 질문을 했습니다.

[11:55] 어떤 파일도 제공하지 않고 Deep Research만 클릭한 뒤

[11:58] 기다렸더니, 모델이 몇 가지

[12:00] 명확한 질문을 했습니다. 그렇죠,

[12:01] 여러분이 생각하시는 것처럼

[12:03] '이게 좀 뜬금없네, 필리.

[12:05] 왜 이런 얘기를 하는 거지?' 라고 생각하실텐데,

[12:07] 모델이 약 88%의 정확도를 보였습니다.

[12:10] '음, 좀 특이하긴 한데

[12:12] 괜찮네'라고 생각하실 텐데,

[12:13] 흥미로운 점은 제가 GPT-4를 테스트했는데,

[12:16] 이는 ChatGPT 무료 버전에서

[12:18] 가장 일반적으로 사용되는 모델입니다. 심지어

[12:20] 이 질문들의 출처인

[12:22] 사전도 함께 제공했습니다. 약 100페이지지만,

[12:24] 원본 자료에 직접 접근할 수 있는 모델이

[12:27] 더 높은 점수를 받을 것 같았죠.

[12:29] 하지만 놀랍게도 82%밖에 얻지 못했습니다.

[12:32] 물론 작은 모델들은 처리해야 할

[12:34] 컨텍스트의 양에 압도될 수 있고,

[12:36] Deep Research는 각 질문에 대해

[12:38] 엄청난 양의 연산을 수행할 수 있어서

[12:40] 이 경우에는 더 높은 점수를

[12:42] 얻을 수 있었습니다. 이게 완전히

[12:44] 뜬금없다는 걸 알지만, 저는 이런 일이

[12:46] 일어날 것이라고 확신했기에

[12:49] 몇 주 전에 프로토타입을 만들었습니다.

[12:51] 작동 방식은 이렇습니다. 예를 들어

[12:54] 기사나 텍스트, 또는 트윗을 제출하면

[12:56] O1이 기사에 맥락과 뉘앙스를 추가할

[12:59] 연구 방향을 제시합니다.

[13:01] 기자나 학생에게 도움이 되죠.

[13:03] 그러면 각각의 방향이

[13:05] Sonar Pro로 전송됩니다. 이는

[13:07] Perplexity의 최신 API로,

[13:09] 웹 검색이 가능합니다. 만약 흥미로운

[13:11] 결과가 반환되면 2011이 이를

[13:14] 통합하고, 그렇지 않으면 제외합니다.

[13:16] 그리고 Sonar Pro로부터

[13:18] 다섯 개의 결과를 모두 검토한 후

[13:21] O1이 가장 흥미롭고 중요한 내용들을

[13:24] 종합하여 가장 핵심적인 뉘앑스를 포착하고

[13:27] 인용이 포함된

[13:29] 에세이 형태로 작성합니다.

[13:32] 네, 이게 제 작업 흐름에 도움이 됐죠.

[13:35] 딱 일주일 동안이었습니다. 그리고 나서는

[13:38] 이 Deep Research에 의해 완전히 대체되었죠.

[13:42] 자, 이제는 완전히 쓸모없어진

[13:45] 제 프로토타입을 한번 보여드리죠.

[13:48] 여기 모델이 생성한 보고서가 있고

[13:49] 아래에 인용문들이 있습니다.

[13:52] 아래로 내려보면, 이건 정말

[13:54] 재미있었고 자랑스러운 작품이었죠.

[13:56] OpenAI의 세련된 프레젠테이션에는

[13:58] 채팅 기록에서 'DeepSeeker가 좋은 이름인가?'와 같은

[14:01] 숨겨진 보석들이 포함되어 있었지만,

[14:04] 릴리스 노트 이상으로

[14:05] 자세한 내용은 다루지 않았습니다.

[14:08] 예를 들어, Deep Research가

[14:10] 어떤 사이트를 검색할 수 있고 없는지 등에 대해서는

[14:12] 제가 테스트해본 바로는 유튜브를 탐색할 수 없었습니다

[14:14] 하지만 이상하게도 이 질문에 대해서는

[14:16] 유튜브를 인용한 다른 출처들을 통해

[14:18] 정답을 맞출 수 있었습니다

[14:21] 채널 구독자들은 아시겠지만, 지난 영상에서

[14:23] 제가 OpenAI의 기업 가치가 올해

[14:25] 두 배가 될 것이라고 예측했던

[14:27] 영상을 찾아달라고 부탁드렸었는데

[14:30] AI가 맞는 영상을 찾았지만

[14:32] 유튜브 검색을 통해서가 아니었죠

[14:34] 타임스탬프를 요청했을 때는

[14:36] 유튜브를 직접 볼 수 없기 때문에

[14:38] 정확한 답을 줄 수 없었습니다

[14:40] 쇼핑 조언은 어떨까요?

[14:42] 이번에는 매우 구체적으로 지정했습니다

[14:44] 영국에서 구매 가능한 높은 평점의 전동칫솔로

[14:46] 배터리 수명이 2달 이상인 제품이어야 하고

[14:49] 가격 히스토리를 확인할 사이트도 지정해줬죠

[14:52] 본질적으로 제가 최근 구매한 제품이

[14:54] 좋은 구매였는지 알고 싶었습니다

[14:56] 사실 이미 직접 리서치는 했지만

[14:58] AI가 동일한 결과를 도출할 수 있는지

[15:00] 확인하고 싶었던 거죠

[15:02] 여느 때처럼 모델이 끊임없이

[15:04] 질문을 쏟아내며 세부사항을 확인했고

[15:06] 이미 제가 알려준 내용도 다시 물어보더군요

[15:09] 그래도 결국에는

[15:10] 리서치를 완료했고

[15:12] 실제로 제가 구매한 전동칫솔을

[15:14] 찾아냈다는 점은 좋았습니다

[15:17] 하지만 안타깝게도

[15:19] 가격 히스토리 확인을 위해

[15:22] 특정 웹사이트를 지정해줬음에도

[15:24] 실제로는 확인하지 않았습니다

[15:26] 제시된 링크 중 어느 것도

[15:28] Camel Camel Camel 사이트와 연관이 없었고

[15:31] 심지어 이 사이트를 사용했다고 주장했음에도 불구하고

[15:34] 'Camel Camel Camel을 사용했다'고 말했지만

[15:37] 실제로는 그 사이트의

[15:39] 링크가 전혀 없었습니다

[15:41] 혹시 웹사이트는 인용하지 않고

[15:43] 정답만 가져온 것이 아닐까 생각할 수 있지만

[15:45] 그것도 아닙니다. 실제로

[15:47] 웹사이트에 가보면

[15:48] 이 전동칫솔의 최저가는

[15:50] 63파운드였습니다

[15:53] Deep Research가 인용한 66파운드가 아니었죠

[15:57] 사이트를 방문했다고 할 때도

[16:00] 신뢰하지 마세요

[16:02] DeepSeek R1의 검색은 어땠을까요?

[16:04] 배터리 수명에 대해 완전히 잘못된 정보를 제공했습니다

[16:06] 70일이라고 주장했지만 실제로는 30일이나 35일이고

[16:09] 그들의 사고 과정을 볼 수 있지만

[16:12] 이는 곧 완전히

[16:14] 허위 정보를 만들어내는 것을 목격한 셈이죠

[16:16] '이 사이트에서 영국 아마존을 확인해보니

[16:19] 최저가가 40파운드라고 가정해보면'이라고 했는데

[16:22] 이것도 사실이 아닙니다

[16:25] 실제로 사이트를 확인하지도 않았고

[16:26] 가상의 결과를 제시했을 뿐인데

[16:29] 요약문에서는 이를

[16:31] 마치 사실인 것처럼 서술했습니다

[16:34] 보시다시피 가정이라는 것을 알면서도

[16:36] 요약에서는 이를

[16:38] 사실처럼 표현했습니다

[16:40] 제가 너무 가혹하거나

[16:43] 관대하다고 생각하실 수도 있지만

[16:46] 저는 그저 기술 발전 속도를 체감하고 있습니다

[16:48] 모든 차트와 벤치마크가

[16:51] 우상향하고 있죠

[16:53] 제가 틀렸다면 지적해주시겠지만

[16:55] 이런 작은 환각들이 화이트칼라 직종의

[16:58] 마지막 방어선인 것 같습니다

[17:01] 한 프롬프트에서는

[17:03] 딥 리서치를 통해 DeepSeek R1 논문에서

[17:06] 39개의 개별 참조를 분석했는데,

[17:09] 약간의 환각이 있었지만

[17:11] 결과의 깊이는 정말 놀라웠습니다.

[17:14] 간단히 말해서, 만약 이런 모델들이

[17:16] 이러한 반복적인

[17:18] 환각을 만들어내지 않는다면,

[17:20] 수천만 명의 사람들에게

[17:22] 정리해고 통지나 다름없지 않을까요?

[17:24] 솔직히 말씀드리면, 언젠가는

[17:26] 저에게도 그런 날이 올 수 있죠.

[17:27] 얼마 전 유튜브를 보다가

[17:29] 한 유튜브 채널을 봤는데

[17:31] 명백히 AI로 생성된 것이었어요.

[17:33] 목소리가 분명히 AI였죠. 많은 분들이

[17:35] 저를 AI라고 의심하시지만 전 아닙니다만,

[17:37] 이 목소리는 확실히 AI였어요.

[17:40] 하지만 댓글들 중 어느 누구도

[17:41] 이것을 언급하지 않았고,

[17:43] 분석도 꽤 괜찮았으며

[17:45] 영상 편집도 매끄러웠어요.

[17:46] 어딘가에 사람이 개입했겠지만,

[17:49] 내년이나 내후년, 아니면

[17:50] 올해 말이 되면

[17:52] AI 관련 뉴스가 나오는 순간

[17:55] 즉시 심층 분석을 제공하는 영상들이

[17:57] 제가 할 수 있는 것보다 훨씬 빠르게 나올 거예요.

[17:59] 물론 여러분들이 계속 봐주시길 바라지만

[18:02] 기술이 너무 빠르게 발전하고 있어서

[18:04] 가끔은 이 모든 것을

[18:06] 받아들이기가 벅차네요.

[18:09] 하지만 지금은 아직,

[18:11] 권위 있는 정보와 소문을 구별하는 데

[18:13] 어려움을 겪고 있긴 하지만,

[18:15] DeepSeek R1의 검색보다는 더 잘하고

[18:18] Gemini의 딥 리서치보다도

[18:19] 훨씬 더 잘합니다. 아직은 제가 더 낫다고 생각하지만

[18:23] 시간이 얼마 남지 않은 것 같네요.

[18:26] 시청해 주셔서 감사합니다.

[18:28] 그런 날이 와도 계속 지켜봐 주시길 바라며,

[18:31] 좋은 하루 보내세요.