AI 가속화: 신규 Gemini 모델과 AI 실업 이야기 분석

채널 아이콘
AI Explained 구독자 323,000명

요약

이 영상에서는 구글이 공개한 최신 언어 모델 Gemini 2.5 Pro의 성능과 한계, 그리고 Google 리더들이 전망한 AGI(범용 인공지능) 타임라인을 살펴봅니다. 다양한 벤치마크 테스트 결과와 실제 코드 지원 사례를 통해 모델의 강점과 약점을 파악하고, 심볼 벤치(Symbol Bench)를 통한 성능 변화를 분석합니다. 이어서 최근 화제가 된 AI 실업률 통계와 '화이트칼라 피의 피바다' 전망을 맥락에 맞춰 재해석하며, 인간과 AI의 협업이 생산성에 미치는 영향을 통해 당장 체감할 변화와 2030년 전후의 큰 전환점을 전망합니다.

주요 키워드

Gemini 2.5 Pro AGI(범용 인공지능) 벤치마크 Hallucination(환각) Symbol Bench Reinforcement Learning(RL) Token Calm Before the Storm AI 실업률 Text-to-Speech(TTS)

하이라이트

  • 🚀 Gemini 2.5 Pro는 주요 벤치마크에서 Claude, Grock, OpenAI 03을 제치며 업계 최고 수준의 성능을 보여줍니다.
  • ⚡️ 1백만 토큰까지 처리 가능한 대규모 컨텍스트 창을 제공해 복잡한 문서 이해와 응답 능력을 대폭 향상시켰습니다.
  • 🔑 Google DeepMind와 Google CEO는 AGI(범용 인공지능) 달성을 2030년 이후로 예상한다고 밝혔지만, 현 모델 성능은 그 기대를 앞당길 가능성을 시사합니다.
  • 📊 벤치마크 분석에서는 과학적 질문 정답률 86.4%, 환각 현상 최소화, 차트·도표 해석 능력 등이 우수했으나, 실제 코딩 지원에서는 Claude가 여전히 강점을 보였습니다.
  • 🧪 심볼 벤치(Symbol Bench) 테스트 결과, 최근 업데이트된 Gemini 2.5 Pro는 평균 62%까지 성능이 개선되어 지속적인 발전을 입증했습니다.
  • 📈 미국 대학 졸업자 실업률은 2022년 9월 이후 2%에서 2.6%로 30% 상승했으나, 과거 수치와 비교하면 여전히 낮은 수준임을 확인했습니다.
  • 🌩️ Anthropic CEO는 2027~28년경 화이트칼라 업무 절반이 자동화될 수 있다고 경고하지만, 인간-모델 협업으로 인한 ‘고요함 후의 폭풍(Calm Before the Storm)’ 이론도 주목해야 합니다.
  • 🎙️ Emergent Mind 스폰서를 통해 논문 요약·음성 합성 서비스를 활용할 수 있으며, 11 Labs V3 Alpha와 Google Gemini의 TTS 경쟁도 흥미롭습니다

용어 설명

Gemini 2.5 Pro

구글이 공개한 최신 대규모 언어 모델로, 주요 벤치마크에서 최고 성능을 기록하고 1백만 토큰까지 처리합니다.

AGI(범용 인공지능)

인간과 유사한 수준으로 학습·추론할 수 있는 인공지능으로, 구글 리더들은 2030년 이후에 도달할 것으로 전망합니다.

Hallucination(환각)

모델이 사실과 다른 정보를 생성하는 현상으로, Gemini 2.5 Pro는 이를 이전 모델 대비 적게 발생시킵니다.

Symbol Bench

영상 화자가 개발한 자체 벤치마크로, 기존 테스트에서 잡아내지 못하는 수학·코딩 상식 오류를 측정합니다.

Reinforcement Learning(강화 학습)

모델이 보상·벌점 기반으로 학습해 특정 목표를 최적화하는 기법으로, 코드·수학 성능 향상에 사용됩니다.

[00:00:00] AI 개발 가속과 Gemini 2.5 Pro 발표

다른 이슈를 제치고 구글이 발표한 Gemini 2.5 Pro를 조명합니다. 주요 벤치마크에서 최고의 성능을 기록했으며, 응답 속도·API 비용·대규모 컨텍스트(1백만 토큰) 지원이 장점입니다.

AI 발전이 가속화되고 있으며, 구글이 새로운 Gemini 2.5 Pro를 출시했다. 이는 대부분의 벤치마크에서 세계 최고 성능을 보이는 언어 모델이다.
Gemini 2.5 Pro는 Claude Opus 4, Grok 3, OpenAI O3를 포함한 모든 다른 모델들을 능가하며, 더 빠른 응답과 저렴한 API 비용, 최대 100만 토큰 처리 능력을 제공한다.
[00:00:50] AGI 전망과 시각적 착시 테스트

DeepMind의 Demis Hassabis와 구글 CEO Sundar Pichai는 AGI 달성을 2030년 이후로 예상한다고 밝힙니다. 모델 한계를 보여주는 착시 문장 예시로 아직 완전한 이해는 요원함을 지적합니다.

하지만 구글 딥마인드 CEO와 구글 CEO 모두 2030년 이전에는 AGI를 기대하지 않는다고 발표했다. 실제로 Gemini 2.5 Pro는 간단한 시각적 착시 문제에서도 오답을 제시하는 한계를 보였다.
순다르 피차이는 단기-중기적으로 구글이 직원을 해고하는 것이 아니라 더 많이 고용할 것이라고 밝혔다. 하지만 CEO들의 말을 항상 신뢰할 수는 없어 화이트칼라 일자리 위기에 대한 심층 분석이 필요하다.
[00:02:03] Gemini 2.5 Ultra vs Pro 모델 전략

Lex Friedman 인터뷰에서 공개된 Ultra 모델과 Pro 모델의 트레이드오프를 설명합니다. Ultra는 최대 성능을 지향하지만 비싼 반면, Pro는 이전 Ultra 수준을 유지하면서 더 빠르고 실용적입니다.

현재 공개된 Gemini 2.5 Pro조차 가장 강력한 버전인 Gemini 2.5 Ultra가 아니다. 구글은 매년 10배 더 많은 컴퓨팅 자원을 투입하여 지속적인 발전을 추구하고 있다.
Google의 AI 모델 개발 전략에 대한 설명으로, 각 세대마다 프로 모델이 이전 세대 울트라 모델의 성능에 근접하도록 하되 더 빠르고 비용 효율적으로 서비스할 수 있게 한다는 접근법을 소개합니다.
제미나이 2.5 프로의 벤치마크 결과를 분석하며, 전문 지식 테스트에서 86.4% 점수로 해당 분야 PhD들의 60%를 크게 앞서고, 환각 현상 억제와 시각 자료 해석에서도 우수한 성능을 보인다고 설명합니다.
[00:03:43] 벤치마크 성능 분석 및 현실적 코드 지원

Gemini 2.5 Pro의 obscure knowledge 테스트, 과학 질문 정답률(86.4%), 환각 최소화, 차트·그래프 해석 능력 우수함을 확인합니다. 다만 실제 Firebase 연결 문제 진단에서는 Claude가 더 빠르게 이슈를 해결했습니다.

제미나이 2.5 프로가 중간급 모델임에도 불구하고 기록적 성과를 단일 시도로 달성했다는 점을 강조하며, 아직 딥 싱크 모드는 공개되지 않았다고 언급합니다.
코딩 성능에 대한 혼재된 평가를 제시하며, 다중 언어에서는 제미나이가 우수하지만 소프트웨어 엔지니어링 벤치마크에서는 클로드가 앞선다고 분석합니다.
개인적 경험을 통해 벤치마크와 실제 사용의 차이를 보여주며, Google의 파이어베이스 문제 해결에서 제미나이보다 클로드가 더 효과적이었다는 사례를 공유합니다.
[00:05:49] Symbol Bench를 통한 성능 테스트 및 RL 효과

화자의 Symbol Bench 결과, 최신 Gemini 2.5 Pro는 평균 62%로 지속적 성능 향상을 보입니다. RL(강화 학습) 도입으로 코딩·수학 상식 오류를 줄였지만, 여전히 개선 여지가 있습니다.

저자가 자신의 벤치마크인 Symbol Bench에 대해 설명하며, 최신 Gemini 2.5 Pro 모델의 성능이 예상과 달리 크게 향상되어 자신의 이론이 틀렸음을 인정합니다.
4번의 테스트에서 평균 62%를 기록한 최신 모델의 성능을 바탕으로, 모든 모델 유형에서 지속적인 성능 향상을 확인하며 Simple Bench의 수명이 3-12개월 정도로 예상된다고 전망합니다.
인간이 최신 AI 모델들을 이길 수 없는 텍스트 기반 벤치마크가 없어지는 순간을 중요한 전환점으로 설명하며, Google CEO들이 제시한 2030년 직후 AGI 달성 시점에 대해 언급합니다.
순다르 피차이가 AGI라는 용어보다는 2030년까지의 극적인 기술 진전과 그로 인한 긍정적·부정적 외부 효과에 대한 대비가 더 중요하다고 강조하며, 오늘의 스폰서 소개로 전환합니다.
[00:08:31] 스폰서 소개: Emergent Mind 플랫폼

Emergent Mind를 활용해 최신 AI 논문 요약을 PDF·마크다운·오디오로 받아볼 수 있는 서비스를 소개합니다. Gemini 2.5 Pro를 포함한 다양한 모델을 활용해 트렌드 논문을 빠르게 소화할 수 있습니다.

Emergent Mind라는 AI 논문 요약 서비스를 소개하며, 이를 통해 트렌딩 논문들을 놓치지 않고 확인할 수 있다고 설명한다.
[00:09:12] AI와 일자리, 실업률 통계 해석

NYT·Reddit에서 화제가 된 대학 졸업자 실업률 30% 상승 보도를 분석합니다. 실업률이 2%→2.6%로 증가했으나, 과거 2010년(5%), 1992년(3.5%)과 비교하면 여전히 낮은 수준임을 제시합니다.

최근 AI로 인한 지식 노동 쇠퇴와 관련된 기사들이 바이럴되고 있으며, 뉴욕타임스 등에서 이미 변화가 시작되었다고 보도하고 있다고 언급한다.
이런 주장들의 근거가 되는 통계를 분석해보니, 미국 대졸자 실업률이 2022년 9월 이후 30% 상승했다는 것이 핵심 데이터였다고 설명한다.
하지만 실제로는 2%에서 2.6%로의 상승이며, 전체 근로자 4%보다도 낮은 수준이라고 맥락을 제공한다.
데이터를 더 자세히 살펴보면 2010년에는 5%, 1992년에는 3.5%였던 것과 비교해 현재 2.7%는 상대적으로 낮은 수준임을 보여준다.
AI의 미래 영향을 과소평가하지는 않지만, 현재 이미 큰 영향이 나타나고 있다고 말하기엔 이르다는 입장을 밝힌다.
Anthropic CEO 다리오 아모다이가 언급한 '화이트칼라 대학살' 관련 기사를 소개하며, AI가 1-5년 내 초급 일자리의 절반을 없앨 수 있다는 조건부 전망에 대해 논의한다.
[00:11:16] ‘화이트칼라 피의 피바다’ 전망과 자동화 조건

Anthropic CEO Dario Amodei의 2027~28년 화이트칼라 업무 절반 자동화 전망을 다룹니다. 자동화를 위해서는 환각 제거와 오류 자가 수정 능력이 필수적이며, 본격적 도입 전 인간 검증이 필요합니다.

대부분의 사람들이 AI 혁명의 임박함을 인식하지 못하고 있으며, Anthropic의 연구원들은 2027-28년까지 모든 화이트칼라 업무를 자동화할 수 있는 모델이 등장할 것이라고 확신한다고 주장합니다.
화자는 화이트칼라 자동화의 전제조건으로 AI의 환각현상과 자가교정 불가능한 실수들의 해결을 제시하며, 여전히 1%라도 실수 가능성이 있다면 인간의 개입이 필요하다고 분석합니다.
화자가 2023년에 제시한 '폭풍 전의 고요' 이론을 소개하며, 인간과 AI가 협력하여 생산성을 증대시키는 단계가 먼저 올 것이라고 예측했다고 설명합니다.
[00:12:42] AI 환각 문제와 인간-모델 협업

오픈AI 모델 환각 현상이 지속됨에 따라, 인간 검증자 역할이 중요해집니다. 이른바 ‘고요함 후의 폭풍(Calm Before the Storm)’ 이론으로, 생산성 증가가 일자리 변화를 지연시킬 수 있음을 설명합니다.

샘 알트만이 2년 전 환각현상이 해결될 것이라고 예측했지만, 현재 New Scientist 기사에 따르면 AI 환각현상이 오히려 악화되고 있으며 지속될 것으로 보인다고 지적합니다.
Klarna와 Duolingo 같은 기업들이 AI로 인력을 대체하려다가 고객 선호도 때문에 다시 인간 직원을 고용하는 사례를 통해 현재 AI 한계를 보여줍니다.
최첨단 AI 모델들이 여전히 자가교정에 약한 상황에서 인간이 AI를 보완하여 생산성을 높이는 협력 단계가 지속되며, 이는 실업률에 제한적 영향만 미칠 것이라고 결론짓습니다.
AI 경쟁이 심화되면서 각국은 투자를 늘리고 규제를 줄이고 있다. 하지만 모델들이 충분한 컴퓨팅 파워와 자기 교정 능력을 갖게 되면 전환점이 올 수 있다.
[00:14:34] TTS 경쟁: 11 Labs V3 Alpha vs Google Gemini

11 Labs V3 Alpha 데모를 통해 음성 합성 품질을 체험하고, Gemini 2.5 Flash와 비교합니다. 감정 표현과 쉿 소리, 셰익스피어 낭독 등에서 양사 경쟁 구도를 보여줍니다.

AI가 훈련 데이터 범위를 벗어난 것들만 놓치게 되면, 화면 녹화나 로봇 데이터 등을 통해 더 많은 데이터가 제공될 것이다. 2020년대의 안주 상태가 빠르게 뒤집힐 수 있다.
블루칼라 직종도 화이트칼라 직종과 마찬가지로 AI 자동화의 영향을 받을 것이다. Figure O2 같은 완전 자율형 인간형 로봇이 그 예시다.
이런 변화 속에서 우리는 일레븐랩스 V3 알파 같은 뛰어난 AI 도구들을 사용할 수 있게 되었다. 속삭임부터 셰익스피어까지 다양한 음성 표현이 가능하다.
다른 사람들이 트위터 논쟁 같은 것에 집중하고 있는 동안,
우리는 진짜 뉴스에 집중해봅시다.
AI의 발전 말이죠.
저는 이것이 가속화되고 있다고 말하고 싶습니다.
특히 구글의 경우가 그렇습니다.
구글은 방금 최신 버전의
Gemini 2.5 Pro를 출시했습니다.
명백히 대부분의 벤치마크에서
세계 최고의 언어 모델입니다.
네, 제 자체 심플 벤치를 포함해서요.
Claude Opus 4, Grok 3,
그리고 OpenAI의 O3를 포함한 모든 다른 모델들을 능가합니다.
물론 우리는 OpenAI의 O3 Pro를
곧 기대하고 있습니다.
그리고 이건 응답이 더 빠르고,
API를 통해 더 저렴하다는 사실 이전의 이야기입니다.
최대 100만 토큰까지 처리할 수 있습니다.
이는 다른 모델들보다
4-5배 더 많은 양입니다.
하지만 너무 들뜨기 전에,
한 가지 이유가 있습니다.
구글 딥마인드의 CEO인 데미스 사라비스가
Gemini를 담당하고 있고,
구글 자체의 CEO인 순다르 피차이가
어제 둘 다 2030년 이전에는
AGI를 기대하지 않는다고 말했습니다.
팟캐스트 청취자들에게는 죄송하지만,
여기 이 두 줄을 봐주세요.
이 두 개의 수직선 중 어느 것이
더 길다고 말하시겠습니까?
음, Gemini 2.5 Pro,
최신 버전 0605입니다.
네, 미국에 살지 않는다면
이 명명 체계는 매우 혼란스럽습니다.
하지만 이 최신 버전이 뭐라고 하는지 아시나요?
"첫 눈에 보기에는 A선이
B선보다 훨씬 길어 보입니다."
"하지만 이것은 착시현상이고
실제로는 같은 길이입니다."
나중에 이 모델은 더 나아가서
"화면에 자를 대고 직접 테스트해보세요.
길이가 동일하다는 것을 발견하실 겁니다"라고 말합니다.
듣고 계신 분들을 위해 말씀드리면,
명백히 같은 길이가 아닙니다.
물론 이것은 일화적인 사례이지만,
순다르 피차이가 단기 내지 중기적으로
구글이 직원을 해고하는 것이 아니라
더 많이 고용할 것이라고 말한 이유가 있습니다.
물론 CEO들을 항상 신뢰할 수는 없습니다.
그래서 저는 이 비디오의 마지막 부분을
최근에 보고 계신 모든 헤드라인들을
화이트칼라 대학살에 대해 조사하는 데 할애하겠습니다.
더 깊이 파고들면 모든 것이
보이는 것과 같지 않다는 것을 발견했습니다.
이상하게도 지난 18시간 동안
렉스 프리드만에서 공개된 인터뷰로
구글 CEO 순다르 피차이와의 인터뷰로 시작하고 싶습니다.
이 비디오의 전반부는
Gemini 2.5 Pro에 관한 것이기 때문입니다.
하지만 이것조차 Gemini 2.5의
가장 크고 최고 버전이 아닙니다.
그것은 Gemini 2.5 Ultra인데,
실질적으로 아무도 사용할 수 없습니다.
따라서 여러분이 보게 될 모든 기록적인
벤치마크 점수들은
그들의 가장 크고 최고 모델도 아닙니다.
매년 저는 앉아서 말합니다.
"내년에 걸쳐 10배 더 많은 컴퓨팅을
투입할 것이고
진전을 볼 수 있을까요?"
오늘 여기 앉아서 저는
앞으로 1년 동안 많은 진전이
있을 것이라고 생각합니다.
이런 의미에서 컴퓨팅에 제한되어 있다고 생각하는데,
우리가 Flash, Nano, Flash, Pro를 하는 이유 중 일부입니다.
모델들은 있지만 울트라 모델은 없었어요. 마치
매 세대마다 우리는 프로 모델로
울트라의 약 80-90% 정도의
성능을 낼 수 있다고 느꼈지만
울트라는 훨씬 더 느리고
서비스하기에 훨씬 더 비쌌어요.
하지만 우리가 할 수 있었던 것은
다음 세대로 넘어가서
다음 세대의 프로를 이전 세대의
울트라만큼 좋게 만들면서도
빠르고 사용할 수 있는 방식으로
서비스할 수 있게 한 것이죠. 우리가
모두 가장 많이 사용하는 모델들은
우리가 제공할 수 있는 최대 성능보다
아마 몇 달 정도 뒤처져 있을 거예요.
맞죠? 왜냐하면 그것이 가장 빠르고
사용하기 쉬운 것은 아니니까요. 하지만
최신 버전의 제미나이 2.5 프로가
안정적인 릴리스가 될 예정이고
앞으로 몇 달간 수억 명의 사람들이
사용하게 될 것이니, 빠르게
벤치마크 결과들을 살펴보죠.
오른쪽에서 보시면
제미나이 2.5 프로의 세 가지 반복 버전의
결과를 볼 수 있어요. 분명히 하자면, 최신
버전이 앞으로 몇 주 안에
모든 사람들에게 배포될 예정입니다.
인류의 마지막 시험으로 테스트된
전문 지식에서는 다른 모델들을
약간 앞서고 있어요. 극도로 어려운
과학 기반 질문들에서는
86.4%를 기록했는데, 해당 분야의 PhD들이
약 60% 정도를 기록하는 것과 비교하면요.
환각 현상에 대한 대략적인 평가에서는
다른 어떤 모델보다도 좋은 점수를 받았어요.
차트와 시각 자료, 기타
그래프 종류를 읽는 데서는 적어도
03과 동등한데, 03은 제미나이보다
2.5 프로보다 약 4배 더 비싸고
훨씬 더 느려요. 다시 강조하자면
제미나이 2.5 프로는 정말로 제미나이
시리즈의 중간 모델이에요. 또한
이러한 기록적인 점수들의 대부분이
단일 시도에서 나온 것이라는 점도
주목해야 해요. 우리는 아직 제미나이 2.5
프로의 딥 싱크 모드를 보지 못했어요.
그것은 대략 다른 모델들이 활용하는
다중 시도나 병렬 실험과
동등한 것이죠.
코딩에 관해서는 상황이 훨씬 덜
명확해요. 다중 언어를 다룰 때는
ADA의 폴리글롯 벤치마크로 판단했을 때
제미나이가 더 잘 하는 것 같아요.
소프트웨어 엔지니어링에 좀 더
초점을 맞춘 Swebench Verified 같은 경우에는
클로드가 여전히 확실히 앞서는 것 같아요.
하지만 저는 한 가지 고백할 것이
있는데, 파이어베이스에서 도메인을
연결하는 문제가 있었어요. 파이어베이스는
백엔드에서 구글이죠. 이것은
앱 호스팅 인프라와 더 관련이 있었지만
구글 엔티티인 파이어베이스라면
제미나이가 그것에 대해 가장 잘 알 것이라고
생각했을 거예요. 2시간 동안의
전체 대화를 보여드리지는 않지만
기본적으로 제미나이 2.5 프로로는
포기했어요. 공정하게 말하자면 이것은
5월 버전의 제미나이 2.5
프로였지만, 클로드 포 오퍼스는
거의 즉시 문제를 진단할 수 있었어요.
그리고 코딩에 이러한 모델들을 사용하는
모든 사람들이 벤치마크가
항상 실제 사용 환경을 반영하지
않는 유사한 일화들을 가지고 있을 거라고
확신해요.
벤치마크 얘기가 나온 김에, 제가 만든 벤치마크인 Symbol Bench는 어떨까요? 사실 고백할 게 있는데,
어제 출시된 최신 버전의 Gemini 2.5 Pro가 성능이 떨어질 거라고 생각했거든요.
왜 그렇게 생각했냐면, 3월에 나온 첫 번째 버전의 Gemini 2.5 Pro가
51.6%를 기록했는데, 5월 버전의 Gemini 2.5 Pro를 테스트했을 때는
완전한 테스트 실행 자체가 정말 어려웠거든요.
트위터에서도 얘기했지만, 모델이 실제로 질문에 답변한
한 번의 실행에서 약 47% 정도를 기록했어요.
그래서 제가 여러분께 와서 "그래, 코딩과 수학을 위한 RL을 하고 있지만,
그게 모델의 상식을 침식하고 있어"라며 자랑하려던 이론이 있었어요.
이것이 Symbol Bench가 다른 벤치마크에서 포착하지 못하는 것들을 테스트한다는 걸 보여주죠.
하지만 안타깝게도 실제로 일어난 일은, 어제 저녁 최신 버전의 Gemini 2.5 Pro를 테스트했을 때
속도 제한 때문에 완전한 5번의 실행을 할 수 없었다는 거예요.
그래서 아직 결과를 보고하지 않고 있습니다. 하지만 우리가 실행한
4번의 테스트 결과를 보면, 평균 약 62%를 기록했어요.
그래서 RL 최적화에 대한 제 작은 이론이 완전히 무너졌죠.
하지만 진짜로, 4번의 실행만으로도 모든 모델 유형에서
성능이 점점 더 나아지고 있다는 걸 볼 수 있어요. 말하기 싫지만,
진심으로 Simple Bench가 3개월에서 12개월 이상
지속되지 못할 것 같아요. 이제 일자리 관련 기사들에 대해
얘기해야겠지만, Claude나 Gemini 2.5 Pro가 이제
맞히고 있는 질문 유형에 대한 좀 더 자세한 분석을 원한다면
제 패트리온 비디오를 확인해보세요. 간단히 말하면,
평균적인 인간이 최신 모델들을 이길 수 있는
텍스트 기반 벤치마크가 더 이상 없는 순간이 오면,
우리는 상당한 루비콘 강을 건넜다고 할 수 있을 거예요.
구글과 구글 딥마인드 CEO인 순다르 피차이와 데미스 하사비스는
완전한 AGI의 시점을 2030년 직후로 봤어요.
하지만 당연히 우리는 아직 AGI와는 거리가 멀다는 얘기도 보죠.
그래서 이 두 가지가 동시에 경험되고 있는 거예요.
질문에 답하겠지만 이것도 던져보죠. 용어 자체는
거의 중요하지 않다고 느껴요. 제가 아는 건 2030년까지
극적인 진전이 있을 것이라는 거예요. 우리는 그 진전의
결과들, 긍정적인 외부 효과와 부정적인 외부 효과 모두를
2030년까지 큰 방식으로 다뤄야 할 거예요. 그래서 저는
우리가 용어에 대해 논쟁하든, 아니면 Gemini가 2030년의
그 순간이 언제인지 답할 수 있든, 진전은 극적일 것이라고
강하게 믿어요. 그건 제가 믿는 바입니다.
이제 잠깐 오늘 사용할 수 있는 도구에 대해 말씀드릴게요.
그리고 네, Gemini 2.5를 포함한 다양한 모델을 활용할 수 있습니다.
오늘 비디오의 스폰서가 되겠습니다,
Emergent Mind입니다.
Emergent Mind라는 서비스인데, 제가 이 채널을 후원하기도 전에
약 2년 정도
사용해왔습니다. 이 서비스를 통해
제가 놓쳤을 수도 있는 트렌딩 논문들을
쉽게 확인할 수 있어요,
이런 것처럼 말이죠. 아시다시피 저는 논문을
직접 전체를 읽어보지만, 가끔
해커뉴스나 X에서 트렌딩 중인
논문을 놓치기도 합니다. 이런 요약본은
PDF나 마크다운으로 다운로드하거나
오디오로도 들을 수 있어요. 2.5 Pro
요약본은 당연히 프로 플랜에서
이용 가능하고, 어쨌든
설명란에 링크를 걸어뒀습니다. 이제 일자리 얘기로 넘어가서, 이번주와
지난주에 이런 기사들이
트위터와 레딧에서 바이럴을 타는 걸
많이 봤습니다. '지식 노동의 쇠퇴가
시작되었나?'라고 뉴욕타임스가
물었습니다. 한 링크드인 임원이
뉴욕타임스 게스트 에세이에서
말하길, 이미 시작되었으며
커리어 사다리의 맨 아래 단이 부서지고 있다고 했습니다. 이제
당연히 저는 AI의 잠재력과
노동 시장에 미칠 영향을
과소평가하는 사람이 아닙니다. 하지만
이런 이야기들은 지금
일어나고 있는 일에 대한 것이지, 3~5년 후에
올 수도 있는 일에 대한 게 아니었습니다. 그래서 궁금했어요.
이런 주장을 뒷받침할 통계가
있을까? 많은 기사들이
서로를 인용하고 있지만, 모든 기사가
공통으로 제시하는 통계는
미국 대졸자의 실업률이
2022년 9월 이후
30% 상승했다는 것입니다. 30%까지 상승한 게 아니라
30% 상승했다는 거죠. 꽤 불길하게 들리죠? 하지만 두 가지
맥락적 사실을 알려드릴게요. 첫 번째는
그 30% 상승이라는 게
대졸자 기준으로 2%에서 2.6%로 오른 것입니다.
전체 근로자는 4%인데 말이죠.
그러니까 2.6%라고 들으면
조금 덜 극적이죠. 지금 일부
시청자분들이 화가 나고 있는 게
느껴집니다. 그래서 한 가지
맥락적 사실을 더 들려드리고 제 생각을 말씀드릴게요. 왜냐하면
미국 대졸자 실업률 2.6%가
그렇게 극적으로 들리지 않더라도,
30% 상승은 꽤 현실적이거든요. 그래서 깊이 파고들어서
이런 기사들이 인용하고 있는
데이터 소스를 봤습니다. 여기서
볼 수 있듯이 대졸자들의 실업률이 지금은
2.7%인 것 같네요. 빨간색 선이고
올해 3월 데이터입니다.
하지만 범위를 넓혀보면
예를 들어 2010년에는 모든 대졸자 중
5%였습니다. 심지어
1992년에도
3.5%였어요.
걱정 마세요. 저는 결코 앞으로 올 일의 영향을
과소평가하는 게 아닙니다. 다만
그 영향이 이미
눈에 띄게 나타나고 있다고 말하기엔
좀 과하다는 얘기입니다. 이제
바이럴이 된 다른 기사는
이것입니다. '막 뒤의 화이트칼라
대학살'이라는 제목으로, Anthropic의 CEO인
다리오 아모다이의
인용문을 대거 담고 있습니다. 'AI가 모든
초급 화이트칼라 일자리의 절반을
향후 1~5년 내에 없앨 수 있다'는 식으로
조건부로 표현되면, 사실 반박하기가
꽤 어렵습니다. AI가
가속화되고 있는 방식을 보면, '가능하다'는
시나리오에 반박하기가 정말 어려워요. 아모다이는
조금 더 위험한 영역으로 들어가서
대부분의 사람들이
대부분의 사람들이 이런 일이 곧 일어날 것이라는 사실을 모르고 있다는 점입니다.
Anthropic의 다른 연구원들, 예를 들어 Schulto Douglas 같은 사람들은
훨씬 더 단정적입니다. 여기서 중요한
구분을 해야 할 점들이 있습니다.
하나는 현시점에서 우리가
거의 확실하게 보장받고 있다고 생각한다는 것입니다.
실질적으로 모든 화이트칼라 업무를
자동화할 수 있는 모델들을 2027-28년경
또는 2020년대 말까지 거의 확실하게 갖게 될 것이라는 점입니다.
이 주제는 당연히 별도의
영상으로 다뤄야 할 만큼 중요하지만, 제가 보기에는
화이트칼라 자동화를 위한 필요충분조건은
환각현상과 모델이 스스로
교정하지 못하는 어리석은 실수들을
없애는 것입니다.
만약 2027년과 2028년의 최첨단 모델들이
이런 실수를 할 가능성이 1%라도 있다면
그런 실수들을 확인하기 위해
인간이 개입하는 것이 분명히
대규모 생산성 향상을 가능하게 할 것입니다.
이것이 제가 개인적으로
'폭풍 전의 고요' 이론을 믿는 이유입니다.
이 이론을 제가 2023년에 이 채널에서
처음 제시했습니다. 당시 저는
인간이 최첨단 AI의 작업을
보완하면서 생산성이
대폭 증가하는 것을 먼저 보게 될 것이라고 했습니다.
그래서 저는 아마데가 말하는
화이트칼라 자동화가 불과 몇 년
또는 그보다 짧은 시간 안에 일어날 것이라고
생각하지 않습니다. 여러분 중 많은 분들이
생각하고 계실 거라고 압니다. 이런 CEO들이
외부에 있는 우리들보다 훨씬 더 잘 알고 있을 것이라고요.
하지만 저는 거의 정확히 2년 전
샘 알트만이 했던 말을 기억합니다. 정확한 인용을 하자면:
"18개월에서 2년 안에는 환각현상에 대해
이야기하지 않게 될 것입니다." 이는
GPT-4 출시 후 그가 했던
월드 투어에서 한 말입니다. 그런데 그 말로부터 거의 정확히 2년이 지난 지금,
New Scientist에서 이런 기사가 나왔습니다.
AI 환각현상이 더 심해지고 있으며
계속 존재할 것이라는 내용입니다.
이 기사는 여러 가지 중에서도
Simple QA라는 벤치마크의 통계를 인용합니다.
이전에 채널에서 다뤘던 내용인데,
기본적으로 OpenAI의 최신 모델인 o3가
이전 모델들보다 조금 더
환각현상을 보인다는 것입니다.
그리고 여러분은 AI를 대신 사용하기 위해
고객 서비스 팀을 해고한 Klarna에 대한
바이럴 기사들을 기억하실 것입니다.
그런데 이제는 같은 화제성 없이
조용히 그 정책을
번복했습니다. 고객들이
사람과 대화하는 것을 선호한다고 말하면서요.
700명의 직원을 해고한 후,
이제 많은 인간 상담원들을 다시 고용하고 있습니다.
언어 학습 앱인 Duolingo도
AI에 의존하겠다고 했다가 후퇴하여
그 정책을 번복하고
더 많은 인간을 고용했습니다.
이것이 바로 '폭풍 전의 고요' 이론으로 이어집니다.
최첨단 언어 모델들이 여전히
자신의 환각현상을
스스로 교정하는 데 약한 동안,
인간은 여전히 그들의 노력을 보완하여
전반적으로 더 높은 생산성으로 이어질 수 있습니다.
이는 실업률에 제한적인 영향을 미칩니다.
AI로 인해 직장을 잃은 사람들의
일화적 사례들이 있다는 것을 알고 있습니다.
저를 믿으십시오. 저는 그것을 알고 있고
그런 기사들을 읽었습니다.
하지만 실업률에 미치는 순 효과는 제한적입니다.
이는 당연히 AI에 대한 더 많은 투자로 이어집니다.
AI에 더 많은 투자를 하고 AI 규제는 점점 줄어들게 됩니다
각국이 소위 AI 경쟁에서 승리하려고 하기 때문이죠
하지만 그러다가 전환점이 올 수도 있습니다
충분한 컴퓨팅 파워를 사용하는 모델들이
다양한 자기 교정 방법론에 접근할 수 있게 되면
마침내 어리석은 실수를 멈추고
훈련 데이터 범위를 벗어난 것들만 놓치게 될 것입니다
물론 그 시점에서는
제가 이에 대한 다큐멘터리도 만들었는데
화면 녹화, 대규모 감시,
또는 로봇 데이터를 통해
엄청난 양의 데이터가 추가로 제공될 것입니다
그러면 2020년대 나머지 기간 동안
자리잡았을지도 모르는 안주 상태가
빠르게 뒤집힐 수 있습니다
솔직히 말하면, 블루칼라 직종도
AI 자동화의 영향으로부터
화이트칼라 직종보다 그리 오래
면역되어 있지는 않을 것입니다
그 시점에서는 말이죠
이것은 완전 자율형 Figure O2 로봇
인간형 로봇입니다
그래서 저는 아마도 임박한 변화를 기대하는 사람들과
LLM이 완전히 과대평가되었다고 생각하는 사람들
모두를 화나게 했겠지만
그래도 어쩔 수 없습니다
이것이 제가 생각하는 미래의 모습입니다
이 모든 일이 벌어지는 동안
우리는 몇 가지 멋진 AI 도구에 접근할 수 있게 됩니다
새로운 일레븐랩스 V3 알파 같은 것 말이죠
안녕 제시카, 새로운 일레븐 V3 써봤어?
방금 받았는데 선명도가 놀라워
이제 이렇게 속삭이기도 할 수 있어
오, 멋지네. 이것 좀 봐
이제 완전한 셰익스피어도 할 수 있어
사느냐 죽느냐, 그것이 문제로다
이 준결승전을 위한 조명이 켜집니다
경기장이 기대감으로 들끓고 있습니다
상징적인 흑백 유니폼을 입은 일레븐랩스 유나이티드가
개막 휘슬과 함께 바로
의도를 가지고 전진하고 있습니다
이 영상의 주제처럼
일레븐랩스도 안주할 수 없습니다
구글이 제미나이 2.5 플래시의 네이티브
텍스트-음성 변환 기능으로 그리 뒤처지지 않기 때문입니다
안녕 제시카, 새로운 일레븐 V3 써봤어?
방금 받았는데 선명도가 놀라워
이제 속삭이기도 할 수 있어
이런 식으로. 오, 멋지네
이것 좀 봐. 이제 완전한
셰익스피어도 할 수 있어. 사느냐 죽느냐,
그것이 문제로다. 안녕 제시카,
새로운 일레븐 V3 써봤어? 방금 받았는데
선명도가 놀라워
이제 이렇게 속삭이기도 할 수 있어. 오, 멋지네
시청해 주셔서 정말 감사합니다
항상 그렇듯이 여러분의 생각을 알려주시고
멋진 하루 보내세요