[00:00]
오픈AI가 불과 12시간 전에
[00:03]
O3 기반의 Deep Research 시스템을 출시했습니다
[00:07]
그들의 가장 강력한 언어 모델을
[00:09]
에이전트라고 부르는데
[00:11]
아침 내내 그들이 공개한 모든 문서와 벤치마크를 읽고
[00:13]
직접 테스트도 해봤습니다
[00:16]
이름이 뭔가 비슷한 것이 생각나서
[00:18]
제가 얻은 결과를
[00:21]
DeepSeek R1의 검색 기능과
[00:24]
구글의 Deep Research와 비교해봤습니다
[00:27]
그런데 재미있는 건, OpenAI가
[00:30]
구글과 정확히 같은 제품명을 사용했다는 겁니다
[00:32]
들리는 바로는
[00:34]
O3 Pro AR Mini라는 이름을 고려했다가
[00:37]
대신 경쟁사의
[00:38]
제품명을 선택했다고 합니다
[00:40]
물론 이건 초기 테스트 결과이고
[00:43]
이 서비스를 이용하려면
[00:44]
월 200달러를 지불하고 유럽에서는 VPN을
[00:48]
사용해야 한다는 점을 참고하세요
[00:50]
전반적으로 인상적이었지만
[00:53]
큰 주의사항이 있습니다
[00:56]
이것이 전 세계의
[00:58]
경제적 가치가 있는 작업의
[01:00]
한 자릿수 퍼센트라도 처리할 수 있는지는
[01:02]
여러분의 판단에 맡기겠습니다
[01:05]
간단히 말하자면, 새로운 O3 모델을 사용하는데
[01:07]
혹시 이름들이 헷갈리실 수 있는데
[01:09]
이건 그들의 가장 강력한 모델이고, 며칠 전에 발표된
[01:12]
O3 Mini와는 다릅니다
[01:14]
제가 그것에 대한 영상도 만들었고
[01:16]
O1 Pro 모드와도 다른데, 그것도 영상으로 다뤘습니다
[01:19]
그리고 참고로 이 둘은
[01:21]
GPT-4-0이나 GPT-4와도 다릅니다
[01:24]
기본적으로 이건 그들의 최고 모델이고
[01:27]
이걸 사용해서 딥 리서치를
[01:28]
수행하는 거죠, 그게 중요한 점입니다
[01:30]
테스트 결과 전에 잠깐
[01:32]
'인류의 마지막 시험'이라는
[01:34]
벤치마크에 대해 들어보셨을 텐데
[01:37]
이름이 좀 부적절하다고 생각합니다
[01:38]
이건 기본적으로 매우 심오하고
[01:41]
난해한 지식을 테스트하고
[01:43]
모델이 그러한
[01:44]
지식들을 연결해서 정답을 찾을 수 있는지를 보는 겁니다
[01:46]
그래서 사실 그렇게 놀랍지는 않았습니다
[01:49]
이 '인류의 마지막 시험'에서
[01:51]
웹 접근권한이 주어졌을 때
[01:53]
딥 리서치 에이전트의 성능이 급상승했다는 게
[01:57]
이 벤치마크 결과에서 제가 얻은
[01:59]
주요 시사점은 만약 여러분이
[02:01]
난해한 지식을 찾고 싶다면 OpenAI의
[02:04]
딥 리서치 에이전트가 적합하다는 겁니다
[02:06]
그리고 참고로 그 시험의 주저자는
[02:08]
2025년의 최적화 압박을 견디지
[02:11]
못할 것이라고 예상했습니다
[02:13]
제게 더 흥미로웠던 것은
[02:15]
AI가 진정으로 유용한 보조자가 될 수 있는지를 테스트하는
[02:17]
GAIA 벤치마크였습니다
[02:20]
왜 더 흥미로웠을까요? 세 가지 이유가 있습니다
[02:22]
첫째, 과제들이 더 현실적입니다
[02:25]
특정 컨퍼런스를 조사하고
[02:28]
구체적인 세부 질문에 답하는 것이
[02:30]
이건 레벨 1에 불과하고
[02:32]
레벨 3 질문들은
[02:34]
이런 겁니다: 매우 전문적인
[02:37]
표준 세트를 조사해서
[02:39]
그 표준들 중 몇 퍼센트가
[02:41]
2023년까지 대체되었는지 찾는 것입니다
[02:45]
두 번째 이유는 이 벤치마크가
[02:47]
LLM 회의론자로 알려진 얀 룬이 공동 저술했다는 점입니다
[02:51]
2024년 4월 기준 최신 기술 수준은 다음과 같습니다:
[02:54]
인간 응답자들은 92%를 얻은 반면
[02:58]
GPT-4는 15%밖에 얻지 못했습니다
[03:01]
참고로 제가 플러그인들을 확인해봤는데
[03:03]
그 플러그인 중 하나가 검색 기능이 있는 GPT-4였어요
[03:06]
그들은 이런 주목할 만한 성능 차이에 대해 언급했는데
[03:08]
인간은 92%인 반면, 검색 기능이 있는 GPT-4는 15%를 기록했죠
[03:11]
이는 최근 전문적인 기술이 필요한 작업에서
[03:14]
언어 모델이 인간의 성능을 뛰어넘는 추세와는
[03:16]
대조적인 결과를 보여줍니다
[03:18]
이제 세 번째 이유를 살펴보면
[03:21]
OpenAI의 딥 리서치 에이전트는
[03:22]
이 벤치마크에서 72-73% 정도의 성능을 보였습니다
[03:26]
이는 64번의 시도 중 가장 많이 나온 답변을 기준으로 한 것이고
[03:28]
첫 번째 답변만을 고려하더라도
[03:31]
여전히 67%의 성능을 보여줍니다
[03:33]
따라서 두 가지 사실이 동시에 성립하는데
[03:36]
첫째, 지난 9개월 동안의
[03:38]
성능 향상이 정말 놀라웠습니다
[03:40]
15%에서 67% 또는 72%까지 올랐거든요
[03:43]
하지만 여전히 노력을 기울인 인간의 성능이
[03:48]
92%로 훨씬 더 높다는 사실은
[03:50]
변함없는 사실입니다
[03:52]
자, DeepSeek R1과의 비교와
[03:55]
Gemini의 딥 리서치를 보기 전에
[03:58]
솔직히 말씀드리면, O3를 처음 접했을 때
[04:00]
제가 가장 먼저 하고 싶었던 것은
[04:02]
딥 리서치에 숨겨진 O3를
[04:05]
제가 만든 벤치마크로 테스트해보는 것이었죠
[04:07]
Simple Bench라는 공간 추론이나
[04:09]
상식, 기본적인 추론을 테스트하는
[04:11]
벤치마크였습니다
[04:13]
안타깝게도 테스트는 잘 진행되지 않았는데
[04:15]
모델이 질문에 답하는 대신
[04:17]
끊임없이 저에게 질문을 던졌기 때문입니다
[04:20]
물론 이것이 오히려 훌륭한 점이라고 할 수도 있죠
[04:21]
AGI는 명확한 질문을 해야 하니까요
[04:23]
하지만 평균적으로 한 가지 질문만 하는 게 아니라
[04:25]
사실 제가 말씀드리고 싶은 건
[04:27]
그냥 답변해달라고 간곡히 부탁해도
[04:29]
보통 4-5개의 질문을 연달아 한다는 거예요
[04:31]
정말 짜증나는 일이죠
[04:33]
아니면 이게 AGI의 신호일 수도 있고요
[04:36]
판단은 여러분께 맡기겠습니다
[04:38]
하지만 실제 상식이나
[04:40]
공간 추론에서는 좀 실망스러웠어요
[04:41]
물론 이게 너무 가혹한 평가일 수도 있죠
[04:44]
8개 정도의 질문만 테스트했으니까요
[04:46]
하지만 실질적인 개선의 징후는 보이지 않았습니다
[04:48]
이런 종류의 질문에 대해
[04:49]
이 영상에서 더 이상 시간을 할애하지는 않겠지만
[04:51]
기본적으로 실제 세계를
[04:52]
완전히 이해하지 못하는 것 같아요
[04:54]
이 경우에 캐산드라가
[04:56]
여전히 쉽게 움직일 수 있다는 점을 이해하지 못했죠
[04:57]
다른 질문에서는 뭔가 이상한 점을 직감했지만
[05:01]
각각의 포인트에 대해
[05:03]
합리적인 가정을 적용해보라고 했을 때도
[05:05]
여전히 실패했습니다
[05:07]
꽤 흥미로웠던 건
[05:10]
온갖 생소한 웹사이트를 인용하면서
[05:11]
한 여성이 허벅지에 손을 얹은 채
[05:14]
앞뒤로 움직일 수 있는지
[05:16]
알아보려 했다는 거예요
[05:18]
결국 Simple Bench 질문을 포기할 수밖에 없었는데
[05:20]
계속해서 질문을 하다가
[05:22]
결국 제가 퍼즐을 여러 번
[05:24]
직접 풀어주게 되더라고요
[05:26]
그리고 참고로 제가 모델의 질문에
[05:29]
답변하기를 거부했을 때는
[05:31]
그냥 조용히 멈춰버렸어요
[05:33]
참고로 프로팁을 하나 드리자면
[05:35]
이런 교착 상태를 벗어나고 싶다면
[05:37]
새로고침 버튼을 누르고
[05:39]
다른 모델을 선택하면 작동합니다
[05:42]
물론 여전히 O3를 사용하고 있겠죠
[05:44]
아마도 그들이 사용하는 유일한 모델일 테니까요
[05:46]
딥 리서치는 이렇게 생겼는데요
[05:48]
하단에서 딥 리서치를 선택하면 됩니다
[05:50]
좌측 상단에서 모델을 선택하는 것이 아닙니다
[05:52]
저는 이 페이지에 계속 머물러 있을 건데요
[05:54]
이게 정말 잘 작동한 훌륭한
[05:56]
예시였기 때문입니다
[05:58]
제가 운영하는 'Signal to Noise'라는
[06:01]
구독자 만 명도 안 되는
[06:03]
작은 뉴스레터가 있는데
[06:06]
DeepSeek R1과 구글의 딥 리서치를 테스트해봤습니다
[06:09]
둘 다 동일한 질문을 했죠
[06:12]
Signal to Noise 뉴스레터의
[06:14]
Beehive 게시물을 모두 읽고
[06:16]
AI explained가 작성한 글 중에서
[06:18]
주사위 평가가 5점 이상인
[06:20]
모든 게시물을 찾아서
[06:22]
해당 게시물의 'so what' 섹션을 출력하라고 했죠
[06:25]
예를 들어, 제 최신 글이 여기 있는데
[06:26]
아래로 스크롤하면
[06:28]
주사위 평가가 3점인 것을 볼 수 있습니다
[06:30]
AI는 먼저 몇 가지 명확한 질문을 했고
[06:32]
그 후에 작업을 시작해서
[06:34]
주사위 평가가 5점 이상인
[06:37]
두 개의 게시물을 찾아냈습니다
[06:39]
또한 주사위 평가의 의미를 정확히 파악하고
[06:42]
'so what' 섹션을 출력했죠
[06:45]
저는 '그래, 이거 정말 시간을 절약해주겠는데'
[06:48]
라고 생각했습니다
[06:49]
제가 직접 검색했다면 꽤 시간이 걸렸을 테니까요
[06:52]
DeepSeek의 웹 버전은
[06:54]
제가 테스트하는 몇 시간 내내 사용 중이었지만
[06:57]
그래도 R1은 테스트했습니다
[06:59]
어떻게 했냐고요? Perplexity Pro에서
[07:02]
R1을 사용해 동일한 질문을 했는데
[07:04]
결과를 보니 주사위 평가가
[07:07]
5점 이상인 항목이 전혀 없다고 나왔습니다
[07:10]
물론 Perplexity는 놀랍고
[07:12]
검색 기능이 있는 R1도 굉장히 훌륭하며
[07:15]
둘 다 일정 수준까지는 무료지만
[07:17]
정말 어려운 검색이 필요하다면
[07:19]
딥 리서치를 사용할 것 같네요
[07:21]
구독 비용이 꽤 들긴 하지만
[07:23]
사용할 가치가 있다고 봅니다
[07:25]
사용량 얘기가 나왔으니 말씀드리면
[07:27]
Pro 티어는 월 100회 쿼리가 가능하고
[07:29]
Plus 티어는 월 10회입니다
[07:32]
무료 티어는 곧
[07:35]
매우 적은 횟수로 제한될 예정이라고 하네요
[07:38]
네, 그는 Plus 티어라고 썼지만 무료 티어를 의미했죠
[07:41]
Gemini Advance와 그들이 말하는
[07:43]
딥 리서치는 어떨까요?
[07:45]
OpenAI가 자신들의 이름을
[07:48]
이렇게 사용한 것에 대해
[07:49]
화가 났을 것 같은데요
[07:51]
아무튼, 제 경험상 Gemini는
[07:54]
가장 좋지 않은 옵션 중 하나였습니다
[07:56]
Signal to Noise 뉴스레터에서
[07:59]
주사위 평가를 전혀 찾지 못했다고 하더군요
[08:02]
그 이후로는 Gemini의 딥 리서치 테스트를
[08:05]
중단하고
[08:07]
딥 리서치와 DeepSeek의 비교에만
[08:09]
집중했습니다. 요약하자면 딥 리서치가
[08:13]
DeepSeek R1보다 거의 항상 더 나았지만
[08:15]
환각 현상이 자주 발생했습니다
[08:18]
또한 DeepSeek은
[08:20]
계속해서 질문을 하면서 귀찮게 하지 않았는데
[08:22]
이게 좋은지 나쁜지는
[08:23]
여러분의 판단에 맡기겠습니다
[08:25]
여러분을 위해 모델이
[08:27]
명확한 질문을 하지 않도록 강제할 수 있는지
[08:29]
확인해봤는데 보시다시피
[08:32]
이 특정 쿼리에서는
[08:34]
작동하지 않았습니다
[08:35]
저는 벤치마크가 얼마나 있는지 확인하고 싶었는데
[08:37]
인간 기준치가 여전히 최고의 현재 LLM보다 두 배나 높은
[08:39]
벤치마크들이 있는지, 그리고 그것들이 최신인지
[08:42]
O3 mini도 테스트되어야 하는데
[08:44]
제가 만든 벤치마크가 공식적으로 인정받지는 않았지만
[08:46]
다른 텍스트 기반 벤치마크 중에서도
[08:47]
인간과 AI 성능 간에 그런 큰 차이를 보이는
[08:49]
벤치마크가 있는지 확인하고 싶었습니다
[08:51]
방금 봤듯이 GAIA 벤치마크는
[08:53]
더 이상 그런 차이를 보이지 않습니다
[08:55]
AI가 명확한 질문을 했을 때, 저는 LLM에만 집중하라고 했고
[08:57]
그 기준을 충족하는 모든 벤치마크를
[08:59]
찾아달라고 했습니다. 다른 기준은 없이
[09:01]
오직 그 조건만 만족하는 벤치마크를 찾아달라고 했죠
[09:03]
널리 인정받는 벤치마크가 아니어도 된다고 했습니다
[09:06]
더 이상의 질문은 하지 말라고 했더니
[09:08]
AI는 이 조건에 맞는 벤치마크를
[09:10]
찾는 대로 알려주겠다고 했습니다
[09:12]
하지만 그 후에 멈춰버렸죠
[09:13]
이런 일이 가끔 있어서
[09:15]
계속하라고 독려했더니
[09:18]
작업을 진행했습니다
[09:19]
Simple Bench라는 꽤 생소한 벤치마크를
[09:21]
찾아낸 것이 인상적이었습니다
[09:24]
하지만 제 이름을 Philip Wang이라고 했는데
[09:26]
그건 잘못됐네요. 제 어머니가 놀라실 일이죠
[09:28]
그리고 Code ELO가 또 다른
[09:30]
그런 벤치마크의 예시라고 했습니다
[09:34]
와, 또 다른 예시가 있다니 좋았죠
[09:37]
인간 프로그래머들이 현재 모델들보다
[09:38]
훨씬 뛰어난 성능을 보인다고 했고
[09:40]
최고의 모델조차 Codeforces 참가자 중
[09:42]
하위 20% 정도의 성능을 보인다고 했습니다
[09:44]
흥미로웠죠
[09:46]
뉴스레터 결과를 포함한
[09:48]
모든 출력 결과에 대해
[09:50]
실제로 답변이 사실인지
[09:52]
확인하고 싶었습니다
[09:54]
그런데 Code ELO의 경우 사실이 아니었죠
[09:57]
보시다시피 O3 mini는 아직 벤치마크되지 않았지만
[10:00]
O1 mini조차도 90번째 백분위에 도달했습니다
[10:02]
이는 곧 최고의 모델이
[10:05]
하위 20%의 성능을 보인다는 게
[10:07]
사실이 아니라는 뜻입니다
[10:09]
일부는 Code ELO가 Codeforces를 기반으로 하며
[10:11]
O3 mini가 Codeforces에서
[10:13]
테스트되었다고 지적할 수 있지만
[10:15]
그래도 이 진술은
[10:17]
여전히 사실이 아닙니다
[10:20]
이것이 제가 보는 Deep Research의
[10:21]
본질적인 문제점입니다
[10:24]
건초더미에서 바늘을 찾는 데는 훌륭하지만
[10:27]
바늘과 나사를 구분할 수 있어야 합니다
[10:29]
두 가지 모두를 제시할 테니까요
[10:31]
하지만 기억하세요, 많은 경우
[10:34]
건초더미를 직접 뒤적이며 찾아다닐 필요는 없게 해줬죠
[10:36]
그런 장점은 있습니다
[10:39]
같은 벤치마크 질문을
[10:41]
이번에는 공식 DeepSeek R1 검색에
[10:43]
물어봤습니다
[10:45]
서버가 잠시 작동해서
[10:48]
답변을 받았지만 문제는
[10:50]
답변이 꽤 형편없었다는 거죠
[10:52]
무료이고, 대부분 오픈소스이며
[10:54]
서구의 거대 기업들을 겸손하게 만들었다는 것은 알지만
[10:56]
그렇다고 DeepSeek One이 완벽하다는 건 아닙니다
[10:58]
Halo Bench는 실제 벤치마크이고 찾아보니
[11:02]
찾기는 어려웠지만 확인했습니다
[11:04]
첫 번째 문제는 30분 동안 찾아봐도
[11:06]
인간 평가자들이 85%의 정확도를 보였다는
[11:11]
출처를 찾을 수 없었다는 겁니다
[11:13]
참고로 이 벤치마크는
[11:15]
환각 현상을 탐지하는 것에 관한 것인데
[11:17]
GPT-4 Turbo가 최고 성능을 보이며
[11:20]
40%의 정확도를 보인다고 하는데, 만약 사실이라면
[11:23]
이는 실제로 제가 제시한 기준,
[11:25]
즉, 인간의 기준치가 최고 성능 LLM의
[11:27]
두 배 이상이어야 한다는 기준을 충족시킬 것 같았습니다.
[11:29]
하지만 이 열을 보시면 알 수 있듯이
[11:31]
GPT-4 Turbo는 40%를 얻지도 못했고
[11:33]
최고 성능 모델도 아닙니다.
[11:35]
실제로 이 논문의 전체 초점은
[11:37]
이 Links 모델에 맞춰져 있는데,
[11:39]
이것이 실제 최고 성능을 보이는 모델입니다.
[11:41]
자, 이제 Deep Research로 돌아가서,
[11:43]
제가 흥미로운 결과를 얻었는데,
[11:46]
다른 분들도 자신의 분야에서
[11:47]
재현할 수 있을지 궁금합니다. 저는 모델에게
[11:50]
비교적 잘 알려지지 않은 크레올 언어인
[11:53]
미샨 크레올에 대해 50개의 질문을 했습니다.
[11:55]
어떤 파일도 제공하지 않고 Deep Research만 클릭한 뒤
[11:58]
기다렸더니, 모델이 몇 가지
[12:00]
명확한 질문을 했습니다. 그렇죠,
[12:01]
여러분이 생각하시는 것처럼
[12:03]
'이게 좀 뜬금없네, 필리.
[12:05]
왜 이런 얘기를 하는 거지?' 라고 생각하실텐데,
[12:07]
모델이 약 88%의 정확도를 보였습니다.
[12:10]
'음, 좀 특이하긴 한데
[12:12]
괜찮네'라고 생각하실 텐데,
[12:13]
흥미로운 점은 제가 GPT-4를 테스트했는데,
[12:16]
이는 ChatGPT 무료 버전에서
[12:18]
가장 일반적으로 사용되는 모델입니다. 심지어
[12:20]
이 질문들의 출처인
[12:22]
사전도 함께 제공했습니다. 약 100페이지지만,
[12:24]
원본 자료에 직접 접근할 수 있는 모델이
[12:27]
더 높은 점수를 받을 것 같았죠.
[12:29]
하지만 놀랍게도 82%밖에 얻지 못했습니다.
[12:32]
물론 작은 모델들은 처리해야 할
[12:34]
컨텍스트의 양에 압도될 수 있고,
[12:36]
Deep Research는 각 질문에 대해
[12:38]
엄청난 양의 연산을 수행할 수 있어서
[12:40]
이 경우에는 더 높은 점수를
[12:42]
얻을 수 있었습니다. 이게 완전히
[12:44]
뜬금없다는 걸 알지만, 저는 이런 일이
[12:46]
일어날 것이라고 확신했기에
[12:49]
몇 주 전에 프로토타입을 만들었습니다.
[12:51]
작동 방식은 이렇습니다. 예를 들어
[12:54]
기사나 텍스트, 또는 트윗을 제출하면
[12:56]
O1이 기사에 맥락과 뉘앙스를 추가할
[12:59]
연구 방향을 제시합니다.
[13:01]
기자나 학생에게 도움이 되죠.
[13:03]
그러면 각각의 방향이
[13:05]
Sonar Pro로 전송됩니다. 이는
[13:07]
Perplexity의 최신 API로,
[13:09]
웹 검색이 가능합니다. 만약 흥미로운
[13:11]
결과가 반환되면 2011이 이를
[13:14]
통합하고, 그렇지 않으면 제외합니다.
[13:16]
그리고 Sonar Pro로부터
[13:18]
다섯 개의 결과를 모두 검토한 후
[13:21]
O1이 가장 흥미롭고 중요한 내용들을
[13:24]
종합하여 가장 핵심적인 뉘앑스를 포착하고
[13:27]
인용이 포함된
[13:29]
에세이 형태로 작성합니다.
[13:32]
네, 이게 제 작업 흐름에 도움이 됐죠.
[13:35]
딱 일주일 동안이었습니다. 그리고 나서는
[13:38]
이 Deep Research에 의해 완전히 대체되었죠.
[13:42]
자, 이제는 완전히 쓸모없어진
[13:45]
제 프로토타입을 한번 보여드리죠.
[13:48]
여기 모델이 생성한 보고서가 있고
[13:49]
아래에 인용문들이 있습니다.
[13:52]
아래로 내려보면, 이건 정말
[13:54]
재미있었고 자랑스러운 작품이었죠.
[13:56]
OpenAI의 세련된 프레젠테이션에는
[13:58]
채팅 기록에서 'DeepSeeker가 좋은 이름인가?'와 같은
[14:01]
숨겨진 보석들이 포함되어 있었지만,
[14:04]
릴리스 노트 이상으로
[14:05]
자세한 내용은 다루지 않았습니다.
[14:08]
예를 들어, Deep Research가
[14:10]
어떤 사이트를 검색할 수 있고 없는지 등에 대해서는
[14:12]
제가 테스트해본 바로는 유튜브를 탐색할 수 없었습니다
[14:14]
하지만 이상하게도 이 질문에 대해서는
[14:16]
유튜브를 인용한 다른 출처들을 통해
[14:18]
정답을 맞출 수 있었습니다
[14:21]
채널 구독자들은 아시겠지만, 지난 영상에서
[14:23]
제가 OpenAI의 기업 가치가 올해
[14:25]
두 배가 될 것이라고 예측했던
[14:27]
영상을 찾아달라고 부탁드렸었는데
[14:30]
AI가 맞는 영상을 찾았지만
[14:32]
유튜브 검색을 통해서가 아니었죠
[14:34]
타임스탬프를 요청했을 때는
[14:36]
유튜브를 직접 볼 수 없기 때문에
[14:38]
정확한 답을 줄 수 없었습니다
[14:40]
쇼핑 조언은 어떨까요?
[14:42]
이번에는 매우 구체적으로 지정했습니다
[14:44]
영국에서 구매 가능한 높은 평점의 전동칫솔로
[14:46]
배터리 수명이 2달 이상인 제품이어야 하고
[14:49]
가격 히스토리를 확인할 사이트도 지정해줬죠
[14:52]
본질적으로 제가 최근 구매한 제품이
[14:54]
좋은 구매였는지 알고 싶었습니다
[14:56]
사실 이미 직접 리서치는 했지만
[14:58]
AI가 동일한 결과를 도출할 수 있는지
[15:00]
확인하고 싶었던 거죠
[15:02]
여느 때처럼 모델이 끊임없이
[15:04]
질문을 쏟아내며 세부사항을 확인했고
[15:06]
이미 제가 알려준 내용도 다시 물어보더군요
[15:09]
그래도 결국에는
[15:10]
리서치를 완료했고
[15:12]
실제로 제가 구매한 전동칫솔을
[15:14]
찾아냈다는 점은 좋았습니다
[15:17]
하지만 안타깝게도
[15:19]
가격 히스토리 확인을 위해
[15:22]
특정 웹사이트를 지정해줬음에도
[15:24]
실제로는 확인하지 않았습니다
[15:26]
제시된 링크 중 어느 것도
[15:28]
Camel Camel Camel 사이트와 연관이 없었고
[15:31]
심지어 이 사이트를 사용했다고 주장했음에도 불구하고
[15:34]
'Camel Camel Camel을 사용했다'고 말했지만
[15:37]
실제로는 그 사이트의
[15:39]
링크가 전혀 없었습니다
[15:41]
혹시 웹사이트는 인용하지 않고
[15:43]
정답만 가져온 것이 아닐까 생각할 수 있지만
[15:45]
그것도 아닙니다. 실제로
[15:47]
웹사이트에 가보면
[15:48]
이 전동칫솔의 최저가는
[15:50]
63파운드였습니다
[15:53]
Deep Research가 인용한 66파운드가 아니었죠
[15:57]
사이트를 방문했다고 할 때도
[16:00]
신뢰하지 마세요
[16:02]
DeepSeek R1의 검색은 어땠을까요?
[16:04]
배터리 수명에 대해 완전히 잘못된 정보를 제공했습니다
[16:06]
70일이라고 주장했지만 실제로는 30일이나 35일이고
[16:09]
그들의 사고 과정을 볼 수 있지만
[16:12]
이는 곧 완전히
[16:14]
허위 정보를 만들어내는 것을 목격한 셈이죠
[16:16]
'이 사이트에서 영국 아마존을 확인해보니
[16:19]
최저가가 40파운드라고 가정해보면'이라고 했는데
[16:22]
이것도 사실이 아닙니다
[16:25]
실제로 사이트를 확인하지도 않았고
[16:26]
가상의 결과를 제시했을 뿐인데
[16:29]
요약문에서는 이를
[16:31]
마치 사실인 것처럼 서술했습니다
[16:34]
보시다시피 가정이라는 것을 알면서도
[16:36]
요약에서는 이를
[16:38]
사실처럼 표현했습니다
[16:40]
제가 너무 가혹하거나
[16:43]
관대하다고 생각하실 수도 있지만
[16:46]
저는 그저 기술 발전 속도를 체감하고 있습니다
[16:48]
모든 차트와 벤치마크가
[16:51]
우상향하고 있죠
[16:53]
제가 틀렸다면 지적해주시겠지만
[16:55]
이런 작은 환각들이 화이트칼라 직종의
[16:58]
마지막 방어선인 것 같습니다
[17:01]
한 프롬프트에서는
[17:03]
딥 리서치를 통해 DeepSeek R1 논문에서
[17:06]
39개의 개별 참조를 분석했는데,
[17:09]
약간의 환각이 있었지만
[17:11]
결과의 깊이는 정말 놀라웠습니다.
[17:14]
간단히 말해서, 만약 이런 모델들이
[17:16]
이러한 반복적인
[17:18]
환각을 만들어내지 않는다면,
[17:20]
수천만 명의 사람들에게
[17:22]
정리해고 통지나 다름없지 않을까요?
[17:24]
솔직히 말씀드리면, 언젠가는
[17:26]
저에게도 그런 날이 올 수 있죠.
[17:27]
얼마 전 유튜브를 보다가
[17:29]
한 유튜브 채널을 봤는데
[17:31]
명백히 AI로 생성된 것이었어요.
[17:33]
목소리가 분명히 AI였죠. 많은 분들이
[17:35]
저를 AI라고 의심하시지만 전 아닙니다만,
[17:37]
이 목소리는 확실히 AI였어요.
[17:40]
하지만 댓글들 중 어느 누구도
[17:41]
이것을 언급하지 않았고,
[17:43]
분석도 꽤 괜찮았으며
[17:45]
영상 편집도 매끄러웠어요.
[17:46]
어딘가에 사람이 개입했겠지만,
[17:49]
내년이나 내후년, 아니면
[17:50]
올해 말이 되면
[17:52]
AI 관련 뉴스가 나오는 순간
[17:55]
즉시 심층 분석을 제공하는 영상들이
[17:57]
제가 할 수 있는 것보다 훨씬 빠르게 나올 거예요.
[17:59]
물론 여러분들이 계속 봐주시길 바라지만
[18:02]
기술이 너무 빠르게 발전하고 있어서
[18:04]
가끔은 이 모든 것을
[18:06]
받아들이기가 벅차네요.
[18:09]
하지만 지금은 아직,
[18:11]
권위 있는 정보와 소문을 구별하는 데
[18:13]
어려움을 겪고 있긴 하지만,
[18:15]
DeepSeek R1의 검색보다는 더 잘하고
[18:18]
Gemini의 딥 리서치보다도
[18:19]
훨씬 더 잘합니다. 아직은 제가 더 낫다고 생각하지만
[18:23]
시간이 얼마 남지 않은 것 같네요.
[18:26]
시청해 주셔서 감사합니다.
[18:28]
그런 날이 와도 계속 지켜봐 주시길 바라며,
[18:31]
좋은 하루 보내세요.