Anthropic: AI가 ‘모든 화이트칼라 업무 자동화’ 도구를 만들었다 – 나의 반응

채널 아이콘
AI Explained 구독자 323,000명

요약

이 영상은 Anthropic이 발표한 ‘Claude Co-work’ 도구를 통해 코드뿐 아니라 향후 모든 화이트칼라 업무가 AI로 자동화될 것이라는 예측을 검증한다. 발표자는 과도한 과대선전과 AGI 신봉 사이에서 균형 잡힌 관점을 제시하며, 실제 업무 사례를 통해 생산성 향상 가능성과 오류 위험을 동시에 보여준다. OpenAI·옥스포드 이코노믹스 자료를 인용해 인간-모델 협업이 이미 생산성의 전환점에 도달했음을 제시하고, AI 모델의 깊이 있는 이해와 피상적 암기가 혼재하는 이유를 Beckman & Quaos 논문을 통해 설명한다.

주요 키워드

LLM Claude Co-work 인간-AI 협업 생산성 전환점 AGI Claude Opus 4.5 강화 학습 데이터 증강 이해 계층화 옥스포드 이코노믹스

하이라이트

  • 🔑 예측 검증: 주요 AI 연구소는 이미 자사 코드의 100%가 AI로 작성될 것이며 2026년에는 모든 화이트칼라 업무도 자동화될 것으로 전망했다.
  • ⚡️ 바이럴 툴: Anthropic의 Claude Co-work는 발표 이틀 만에 4,200만 뷰를 기록하며 코드 외 업무 자동화 가능성을 보여줬다.
  • 📌 균형 잡힌 접근: 과도한 과대선전과 AGI 공포 사이에서 생산성 이점을 놓치지 않도록 중간 길을 제시한다.
  • 🚀 생산성 전환점: OpenAI 논문에 따르면 AI와 인간의 반복 협업이 단독 인간 작업보다 생산성을 더 높여주는 시점에 이미 도달했다.
  • 🌟 실제 사례: 축구 클럽 리그 순위 PPT 제작 과제에서 Claude Co-work는 시각적 완성도를 제공했으나 일부 데이터 오류를 보이며 인간 검토의 중요성을 확인시켰다.
  • 🔍 이해의 층위: Beckman & Quaos 논문을 통해 LLM이 원리 이해와 피상적 암기를 병행하며 상황에 따라 기계적으로 토글하는 이유를 설명했다

용어 설명

Claude Co-work

Anthropic이 개발한 코드 외 지식 업무 자동화를 지원하는 도구

Claude Opus 4.5

Claude Co-work를 구동하는 Anthropic의 최신 대형 언어 모델(LLM)

AGI

Artificial General Intelligence(범용 인공지능), 인간과 유사한 지능 수준을 목표로 하는 개념

LLM

Large Language Model(대형 언어 모델), 대규모 데이터로 학습된 자연어 처리 모델

reinforcement learning

강화 학습, 보상을 통해 에이전트가 스스로 학습하도록 하는 기계 학습 기법

data augmentation

데이터 증강, 학습 데이터를 인위적으로 확장해 모델 성능을 향상시키는 방법

[00:00:00] 코드 자동화 예측과 Claude Co-work 소개

주요 AI 연구소의 CEO는 자사 코드의 100%가 AI로 작성될 것이라 예측했고, 2026년에는 모든 화이트칼라 업무가 자동화될 것으로 전망했다. Anthropic의 Claude Co-work 출시 소식과 4,200만 뷰를 기록한 바이럴 현상을 소개하며, 이 도구가 Claude Opus 4.5 모델 기반으로 제작된 사실을 확인한다.

주요 AI 연구소 CEO가 2024년경까지 모든 코드의 100%가 AI에 의해 작성될 것이라고 예측했으며, 2026년에는 모든 지식 업무가 자동화될 것이라고 전망했습니다.
Anthropic이 최근 출시한 Claude Co-work는 비코딩 업무 자동화로 4,200만 조회수를 기록하며 화제가 되었고, 이 도구 자체가 Claude Opus 4.5로 제작되어 AI 코딩 예측을 뒷받침하는 것으로 보입니다.
[00:00:53] 과대선전 vs AGI 공포, 중간 지점 제안

일각의 과대선전과 AGI 종말론적 공포 사이에서 균형 잡힌 시각을 제시한다. Claude Co-work를 이미 사용해본 경험을 바탕으로, 도구 효용을 과소평가하거나 전적으로 믿기보다는 생산성 향상 기회를 놓치지 말자는 중용의 길을 강조한다.

내년에는 소프트웨어 엔지니어들이 경험한 것처럼 다른 지식 업무 분야에서도 연초에는 직접 작업하던 것이 연말에는 거의 자동화되는 변화를 겪을 것으로 예상됩니다.
발표자는 Claude Code를 오래 사용한 경험을 바탕으로 이러한 예측들이 사실이 아니라고 주장하며, 과도한 기대나 완전한 무시 모두 문제가 될 수 있다고 지적합니다.
AI 모델이 대규모 코드베이스에서 작은 버그를 찾고 훌륭한 시를 쓰는 천재적 능력을 보이면서도, 기본적인 추론 작업에서는 실패하는 이유에 대해 설명하겠다고 합니다.
Claude Co-work에 대해 간단히 설명하며, 일부에서는 이를 AGI라고 부르고 있고, 이는 Claude Opus 4.5에 대한 바이럴 게시물들과 연관되어 나타나는 현상이라고 설명합니다.
화자는 AI 도구 사용에 대한 극단적인 반응들 사이의 중간 지점을 제시한다. AI 도구들로 생산성 향상은 가능하지만 아직 완벽하지는 않다는 균형잡힌 관점을 강조하며, Claude Code와 Co-work 사용 경험을 소개한다.
[00:03:48] 실제 활용 사례: 축구 클럽 순위 PPT 제작

새 직원에게 축구 클럽의 최근 5시즌 리그 순위를 비교해 PPT를 만들라는 과제를 청해 Claude Co-work에 시켜본 결과, 시각적으로 완성도 높은 플랜을 제시했으나 일부 날짜·순위 데이터에 오류가 있었다. 오류 검증 과정을 통해 인간 검토가 여전히 필요함을 보여준다.

실제 테스트 사례를 통해 AI의 한계를 보여준다. 축구 클럽의 리그 순위 비교 차트 제작을 요청했을 때, Co-work는 훌륭한 계획과 시각적으로 인상적인 결과를 제공했지만, 핵심 데이터인 리그 순위 정보가 부정확했다는 문제점을 지적한다.
검증 결과 2023년과 2025년 데이터가 모두 틀렸음을 확인했다. BBC와 11v11 등 신뢰할 만한 출처에서는 스톡포트가 3위가 아닌 7위였다고 나타났으며, AI는 이런 불확실성에 대한 주의사항도 제공하지 않았다고 비판한다.
시청자들에게 AI 도구에 대한 균형잡힌 접근을 당부한다. 최신 도구를 따라잡지 못하면 실패할 것이라는 극단적 불안감도, AI 도구를 완전히 무시하는 것도 모두 잘못된 접근이라고 설명한다.
Claude Code 수석 개발자의 후속 설명을 인용하며, Co-work 개발 과정에서도 인간의 계획, 설계, 그리고 AI와의 지속적인 상호작용이 필요했다고 밝힌다. 이를 통해 AI 도구 사용의 현실적 측면을 조명한다.
AI 도구 사용 시 반복적인 수정과 개선을 통해 결과물을 얻는 것과 인간이 처음부터 직접 작업하는 것 중 어느 것이 더 효율적인지에 대한 근본적인 질문을 다룬다.
[00:06:22] 생산성 전환점: 인간-AI 협업의 이점

OpenAI 2025년 논문을 인용해, 모델에게 초안 생성과 재시도를 반복시킨 뒤 인간이 검토·편집하는 방식이 단독 인간 작업보다 더 높은 생산성을 달성했다고 설명한다. 이는 이미 코드뿐 아니라 모든 지식 업무에도 적용 가능한 전환점임을 강조한다.

2025년 OpenAI 연구 결과에 따르면, AI 모델이 반복해서 시도하고 인간이 검토 및 편집하는 방식이 인간이 직접 작업하는 것보다 더 높은 생산성을 제공하는 전환점을 이미 지났다고 발표했다.
화이트칼라 산업 전반에 걸친 GDP 연구가 이러한 전환점의 실질적 의미를 보여주며, 발표자는 자신의 일상적인 코딩 경험을 통해 이를 확인했다고 설명한다.
AI가 실수를 하지만 전반적으로는 유용하다는 점을 강조하며, PowerPoint 제작 사례를 들어 약간의 수정만으로도 처음부터 만드는 것보다 빠르게 양질의 결과물을 얻을 수 있다고 설명한다.
[00:07:18] Claude Co-work 접근성 및 비용 고려사항

Claude Co-work는 Mac OS 전용의 Max 요금제(최소 월 90~100달러)에서만 이용 가능하다. GBTC 5.2 Pro나 Opus 4.5 같은 최신 모델은 가격 장벽이 높아 일반 사용자보다는 엔thusiast 위주로 활용되고 있음을 지적한다.

Claude 코워크의 기술적 제약사항을 설명한다. 맥스 티어(월 90-100달러)에서만 사용 가능하며, Mac OS 전용이고 프로 티어에서는 사용할 수 없다는 점을 언급한다.
생산성 향상 효과는 최신 AI 모델에서만 나타나며, 이런 모델들은 주로 얼리어답터들이 사용하고 가격으로 인해 일반 대중의 접근이 제한되어 있다고 분석한다.
전환점 이론과 제한된 최신 모델 사용률을 고려할 때, 현재 AI가 생산성과 노동 시장에 미치는 영향은 상대적으로 제한적일 것으로 예상된다고 주장한다.
2026년 1월 옥스포드 이코노믹스 보고서 데이터를 인용하여 실제 현실이 이론과 일치함을 보여준다. 신규 졸업자 실업률이 약간 높아졌지만 역사적 추세와 크게 다르지 않다고 분석한다.
[00:08:08] 노동시장 데이터: AI 영향 한계

옥스포드 이코노믹스 2026년 보고서를 통해, AI 도입이 신입 졸업자 실업률에 미친 영향은 과거 경기 변동 수준과 유사하며, 2025년 노동생산성 성장률도 특이하게 높지 않다고 분석한다. 기업들의 AI 연계 해고 발표는 투자자 메시지 포장일 가능성을 지적한다.

과거 2015년이나 2010년에 비해 현재 신규 졸업자 실업률이 높지 않으며, 실제로 작년 3월부터 9월까지 하향 추세를 보였다고 설명한다.
옥스포드 이코노믹스는 향후 1-2년간 AI가 실업률을 크게 높이지 않을 것으로 예상한다고 발표했지만, AI가 인간 일자리에 전혀 영향을 미치지 않았다는 것은 아니라고 명시한다.
AI 도입으로 쉽게 성과를 낼 수 있는 고객서비스 같은 분야에서는 새 기술 도입 인센티브가 크며, 이를 위한 예산 조달 과정에서 급여를 포함한 다른 사업 부문에 영향을 미칠 수 있다고 설명한다.
AI로 인한 대량 해고 헤드라인에도 불구하고, 실제 노동 생산성 지표는 예상보다 크게 증가하지 않았습니다. 2025년 생산성 성장률은 2000-2007년보다도 낮은 수준을 보이고 있습니다.
기업들이 AI 때문에 일자리를 줄인다고 주장하는 이유는 투자자들에게 더 긍정적인 메시지를 전달하기 위함입니다. 약한 수요나 과거 과도한 채용보다는 AI를 원인으로 제시하는 것이 더 나은 인상을 주기 때문입니다.
LLM의 환각 현상 발견 이후 초기 도입 열기가 사그라들었지만, 최근에는 다시 증가하고 있습니다. 사람들은 각자의 사용 사례에 맞는 다양한 모델들을 비교하기 시작했고, ChatGPT의 점유율이 눈에 띄게 감소하고 있습니다.
화자는 대량 해고보다는 젠슨 황의 관점에 동의합니다. 일자리의 목적을 개별 자동화 가능한 작업과 혼동해서는 안 된다는 것입니다. 축구 해설자 예시를 통해, 기술적 기능은 자동화할 수 있지만 궁극적 목적인 엔터테인먼트와 관객 몰입은 AI가 최적으로 수행하지 못할 수 있다고 설명합니다.
[00:10:56] 업무의 진정한 목적 vs 자동화 가능한 과제

엔비디아 젠슨 황의 인터뷰를 인용해, 축구 중계 해설처럼 엔터테인먼트·참여 유지가 목적이거나, 본질적 가치가 중요한 직무는 단순 업무 자동화만으로 대체되지 않을 수 있음을 설명한다.

영상은 AI 모델의 취약성에 대한 두 번째 부분으로 전환합니다. 왜 모델들이 한 순간에는 매우 똑똑해 보이다가 다음 순간에는 매우 바보 같아 보이는지에 대한 이유를 탐구하며, 이 주제에 관한 논문들을 소개합니다.
[00:11:39] LLM의 이해 수준과 취약성: 세 가지 계층

Beckman & Quaos 논문을 바탕으로 LLM이 표현하는 이해를 단순 개념 연결, 상황 의존 연결, 원리 이해(원리 도출) 세 단계로 분류한다. 이 과정에서 피상적 암기와 깊이 있는 알고리즘적 이해가 병행된다는 점을 정리한다.

6일 전에 발표된 논문에 대해 소개하며 MATS 프로그램 스폰서십을 언급합니다. MATS는 정렬되지 않은 AI 모델의 위험성을 연구하는 인재를 양성하는 프로그램으로, 세계적 수준의 멘토링과 지원을 제공합니다.
대규모 언어 모델의 취약성에 대한 핵심 질문을 제기합니다. 복잡한 코드에서 작은 버그는 찾아내면서도 때로는 무작정 11GB 파일을 삭제하는 등 예측 불가능한 행동을 보이는 이유를 탐구합니다.
'이해'라는 개념 자체의 모호성에 대해 철학적 접근을 시도합니다. 영어에서 'understand'의 어원과 의미를 분석하며, 인간조차 이해가 정확히 무엇을 의미하는지 명확하게 정의하지 못한다고 설명합니다.
Beckman과 Quaos의 논문을 인용하여 이해의 세 단계를 제시합니다. 단순한 개념적 이해(연결 인식), 조건적 이해(상황별 연결), 그리고 원리적 이해(새로운 기능 도출)로 구분하여 설명합니다.
LLM이 가진 이해력의 본질을 설명합니다. 이들은 다양한 사실을 통합하는 근본 원리나 규칙을 파악하는 능력을 보유하며, 세 계층에 걸친 다양한 메커니즘의 혼합으로 분산된 이해력을 가지고 있습니다.
LLM의 학습 방식의 특징을 분석합니다. 이들은 단순함이나 간결함을 추구하지 않고, 작업 완수를 위해 취약하거나 깊이 알고리즘적인 연결고리를 학습하며, 세상으로부터 깊은 알고리즘과 패턴을 도출할 수 있습니다.
구체적인 예시로 LLM의 능력을 설명합니다. 덧셈 이해를 통해 기억된 계산 쌍들을 삭제할 수 있고, 시 작성에서 라임과 의미를 미리 계획하는 회로를 가지며, 수치 비교나 내성 인식 등 다양한 계산 가능한 회로들을 보유합니다.
[00:15:31] 미래 가능성과 결론: AI 활용의 중용

LLM은 이해의 여러 계층을 넘나들며 때론 탁월한 성과를, 때론 심각한 오류를 보인다. 현재는 인간과 AI의 협업을 통해 중간 지점에서 생산성을 극대화하는 전략이 최선이며, 향후 강화 학습·하이브리드 아키텍처 등 연구 진전에 따라 이해 수준이 더욱 고도화될 여지가 있음을 제언한다.

LLM의 한계와 취약성을 지적합니다. 이들은 취약한 암기에도 의존하며, 게으른 영리한 학생처럼 때로는 제대로 학습하고 때로는 필요한 것만 암기하는 방식으로 작동합니다.
인식론적 신뢰 문제를 제기합니다. LLM이 정답을 맞혔을 때 통합 메커니즘에 의존했는지 얕은 휴리스틱에 의존했는지 구분하기 어려우며, 이는 인간도 마찬가지로 지름길에 의존하거나 깊이 사고하는 방식을 번갈아 사용한다고 설명합니다.
LLM과의 대화를 거대한 위원회와의 대화로 비유합니다. 전문성이 극도로 다양한 구성원들로 이루어져 있으며, 고품질 회로와 저품질 회로가 경쟁하는 구조로, 다음 단어 예측을 위해 할 수 있는 모든 것을 시도하는 외계 지성이라고 설명합니다.
인간과 LLM의 개념 이해 차이를 구체적 예시로 설명합니다. 인간에게 '톰의 아내는 메리다'는 수많은 함축을 가진 구현된 개념이지만, LLM에게는 단순히 미래 예측을 위한 가중치 업데이트 정보에 불과하다고 대비시킵니다.
LLM들은 개념들을 깊은 수준에서 이해할 수 있지만, 동시에 얕은 수준에서도 작동한다. Tom Smith의 아내와 Mary Stone의 남편이 같은 사람이라는 것을 연결하지 못하는 것이 그 예시다.
이런 약점은 데이터 증강으로 해결 가능하지만, 핵심은 LLM의 이중적 특성이다. 강화학습이 고차원 회로를 강화할 수 있다는 증거는 아직 엇갈린다.
현재 방법으로는 LLM이 어느 정도 정답을 맞히면, 더 높은 정확도를 위해 고차원 회로를 학습할 인센티브가 줄어든다. 하지만 우리는 아직 미지의 영역을 탐험하고 있다.
앞으로 몇 달 안에 모델들이 더 높은 이해 수준에 도달하도록 하는 획기적 방법이 발견될 수 있다. 혼란스러운 상태에서 다양한 방법을 탐색하는 것이 가장 생산적일 수 있다.
다양한 새로운 양식으로 훈련되면 어떤 이해 수준에 도달할지 궁금하다. 미국 정부는 AI 연구실들에 국립연구소 접근권을 제공하고 있으며, 날씨 예보 등에서 입증된 하이브리드 아키텍처도 있다.
주요 AI 연구소 중 한 곳의 CEO가
작년에 지금쯤이면
그 회사가 작성하는 코드의 100%가
AI 모델에 의해 생성될 것이라고
예측했습니다. 2026년까지는
모든 지식 업무가 자동화될 것이고,
Anthropic이 최근 며칠 전
출시한 새로운 도구가
이를 뒷받침하는 것 같습니다. 이름은
Claude Co-work입니다. 이 도구는
비코딩 업무 자동화 능력으로
4,200만 조회수라는 엄청난 화제를
불러일으켰을 뿐만 아니라, 이 도구 자체가
최신 프론티어 모델인 Claude Opus 4.5로
구동되는 Claude Code 내에서
제작되어서, 사실상 모든 코드가
이제 AI에 의해 작성될 것이라는
예측을 정당화하는 것으로 보입니다.
그렇다면 만약 그들이 이를 맞췄다면,
Anthropic과 Schulto Douglas 같은 사람들이
올해인 2026년에 모든 화이트칼라
업무 자동화에서도 같은 일이
일어날 것이라고 말하는 게 맞을까요?
내년에 가장 주목할 점은
다른 형태의 지식 업무들이
소프트웨어 엔지니어들이
지금 느끼고 있는 것과 같은 경험을
하게 될 것이라는 점입니다.
그들은 연초에는 대부분의
코드 라인을 직접 타이핑했지만,
연말에는 거의 타이핑하지 않게 되었죠.
저는 이것을 Claude Code 경험이지만
모든 형태의 지식 업무에 적용되는 것으로
생각합니다. 또한 지속적 학습이
만족스러운 방식으로 해결될
것이라고 생각합니다.
저는 Claude Code를 꽤 오랫동안
사용해 왔고, 새로운 Claude Co-work도
사용해보고 있습니다. 제 경험상
이러한 예측들은 사실이 아닙니다.
하지만 많은 사람들이 목욕물과 함께
아기까지 버리게 되어
꽤 놀라운 생산성 향상을
놓칠 수 있습니다. 따라서
얻을 수 있는 이익을 과소평가해서도
안 되는 이유를 보여드리겠습니다.
그리고 좀 더 깊이 들어가고 싶은 분들을 위해
마지막에 '왜'에 대해 설명하겠습니다.
모델이 어떻게 대규모 코드베이스에서
작은 버그를 발견하고 제게
강력한 시를 써주는 천재적인 능력을
발휘하면서도 여전히 이렇게
기본적인 작업에 실패할 수 있는지?
아니, 오렌지라는 단어에 A가 몇 개 있는지
말하는 게 아닙니다. 비록 놀랍게도
GPT 5.2도 여전히 이를 제대로
맞히지 못합니다. 제가 말하는 것은
왜 그들이 때때로 그렇게 취약해서
Tom Smith의 아내가 Mary Stone이라는 것은
기억하지만 Mary Stone의 남편이
Tom Smith라는 것은 추론하지 못하는지?
그리고 이 모든 것이 화이트칼라든
그렇지 않든 여러분의 직업에
어떤 의미인지? 최신 데이터는
무엇을 보여주는지? 먼저 물론
Claude Co-work에 대해 간단히 말씀드리겠는데,
불가피하게 일부 사람들은 이를 AGI라고
부르고 있습니다. 물론 이는
기본 모델인 Claude Opus 4.5가
적절한 스캐폴딩이 주어질 때
이미 AGI라는 수많은 바이럴 게시물과
기사들 이후에 나온 것입니다.
실제로 주목할 만한 평론가들의 긴 목록이
이런 관점을 가지고 있습니다.
이런 게시물들은 물론 두 가지 매우
극단적인 반응으로 이어질 수 있는데,
둘 다 권하지 않습니다.
그것들을 어떻게 사용해야 하는지 이해할 수 없습니다. 우리는
너무나 많은 것을 놓치고 있고 우리의 경력은
운명적입니다. 이 영상은 여러분을
중도의 길로 안내하길 바랍니다. 즉,
상당한 생산성 향상을 얻을 수 있지만
아직 완벽하지는 않다는 것입니다. 참고로
저는 Claude Code를 아주 오랫동안 사용해왔고
Co-work는 지난 48시간 동안 사용했습니다.
과장된 기대감을 조금 깨뜨리기 위해서요. 만약
신입사원에게 이런 업무를 주었다면, 이 축구
클럽의 리그 순위를 지난 5시즌 동안
오늘 날짜 기준으로 비교 차트를 만들어라.
그리고 내 데스크톱에 파워포인트로 추가해라.
아, 그리고 궁금한 점이 있으면 질문하고
이 업무에 어떻게 접근할 건지 계획을 공유해라.
저는 기대하죠, 여러분도 동의하시는지 모르겠지만
그들이 하루가 끝날 무렵
그 질문에 확실한 답을 줄 수 있는
자료를 찾을 수 없었다고 말하거나
아니면 관련 파워포인트를 만들었을 거라고 생각합니다.
이제 여기 Co-work 탭과
그것이 제시하는 질문들의 종류를 보시면
정말로 훌륭한 계획을 제공합니다.
저는 즉시 승인했고
솔직히 그리 오래 걸리지도 않았습니다.
결과는 시각적으로 상당히 인상적이었고
거의 받아들일 만했습니다.
분명히 적당히 어려운 업무를 선택해야 하는데
너무 쉬우면 그냥 직접 하니까요.
그래서 이것이 결과였습니다.
약간의 문제가 있었습니다.
2023년 1월과 2025년에 대해
AI가 제공한 날짜 중 두 개를 확인했는데
이 클럽의 리그 순위가
둘 다 틀렸습니다.
직접 확인해보니 약 5분 만에
다른 두 개의 자료 출처를 찾을 수 있었습니다.
BBC와 11v11이라는 사이트 모두
스톡포트가 2025년 1월 13일 기준으로
3위가 아니라 7위였다고 했습니다.
그런데 이 Co-working AGI는
신뢰할 만한 자료를 찾을 수 없었다는
주의사항을 요약에 포함시키지 않았습니다.
물론 저는 Claude Opus 4.5로 구동되는
전설적인 Claude Code로부터
이런 예시들을 수백 개도 보여드릴 수 있지만
그건 너무 지루하거나 여러분에게 공정하지 못할 것 같습니다.
코드베이스의 전체 맥락을 보셨어야 하니까요.
저는 그저 여러분이 이런 바이럴 포스트를 보고
돈을 다 쓰지 않으면
그리고 지난주에 출시된 도구를 따라잡지 못하면
사무직에서 완전히 실패할 거라고
생각하며 떠나지 않길 바랍니다.
그리고 모델이 실수를 하면
내가 바보인 거고, 분명 내가
뭔가 잘못했을 거라고 생각하지 말았으면 합니다.
하지만 정반대의 실수를 하는 것도
원하지 않습니다. 즉, 이런 도구들을
완전히 무시하고 생산성을
전혀 높일 수 없다고 생각하는 것 말이죠.
진실은 그 중간 어딘가에 있습니다.
그리고 보세요, Claude Code의 수석 개발자도
나중에 답글에서 이렇게 말했습니다.
Claude Co-work의 모든 코드가
Claude Opus 4.5에 의해 작성되었다고 한 후에
그는 명확히 했습니다. "전혀 개입하지 않은 건 아니었다.
우리 인간이 계획하고 설계하고
Claude와 주고받아야 했다."
그러면 제 똑똑한 시청자들에게는
핵심적인 질문이 생깁니다.
Claude Code로 초안을 작성하게 한 다음
재작성하고 또 재작성하는 것이
더 빠를까요, 아니면
테스트에 실패하고 재작업하고 다시
제대로 만들어내는 것과 인간이 그냥
처음부터 스스로 하는 것 중 어느 것이
더 나은지 말이죠. 코딩이든 다른 화이트칼라 업무든요.
다행히 2025년 10월 OpenAI 논문에서
핵심 단서를 찾을 수 있습니다.
블라인드 인간 평가를 사용한 결과,
우리는 이미 그 전환점을 지났습니다.
모델에게 계속해서 다시 시도하게 하고
다시 시도하게 한 다음,
인간이 검토하고 편집하는 것이
인간이 직접 하는 것보다
더 높은 생산성 배수를 제공합니다.
이 GDP 논문은 수십 개의
화이트칼라 산업을 다루며,
저는 이에 대한 전체 영상을 만들었습니다.
그래서 너무 자세히 들어가지는 않겠지만,
제게는 이것이 진짜 전환점입니다.
그리고 네, 제가 거의 매일 하는
코딩에서 이를 직접 경험했습니다.
AI는 많은 실수를 하고 때로는
위험한 실수도 하지만,
아기와 목욕물을 함께 버리지는 마세요.
제 PowerPoint만 봐도 실제로
꽤 잘 설계되어 있고
거의 모든 다른 사실들이 정확합니다.
그래서 몇 개의 숫자만 편집하면
처음부터 만드는 것보다 짧은 시간에
괜찮은 프레젠테이션을 만들 수 있습니다.
기술적 세부사항을 조금 말씀드리면,
Claude 코워크는 맥스 티어에서만 사용 가능합니다.
최소 90달러 또는 100달러이며 맥스에서만 가능합니다.
Mac OS이지 Windows가 아닙니다.
하지만 맥스에서만 가능하고,
Claude 프로 티어에서는 안 됩니다.
하지만 이 생산성 향상은
최신 모델 중 일부에서만 해당됩니다.
우리 같은 얼리어답터들이 시도할 가능성이 높은 모델들이죠.
일반 대중은 덜 그렇고,
또한 GPT-4.5 Pro나 Claude 3.5 Opus 같은 모델들은
가격에 의해 크게 제한되어 있습니다.
만약 우리가 그 전환점에 대해 맞다면,
그리고 최적의 스캐폴딩으로 최신 모델을 사용하는
사람이 얼마나 적은지에 대해 맞다면,
현재 AI가 생산성과
노동 시장에 미치는 영향은
상대적으로 제한적일 것으로 예상됩니다.
그럼 데이터는 어떻게 보여줄까요?
2026년 1월 7일 널리 인용되는
옥스포드 이코노믹스 보고서에 따르면,
제게는 정확히 그것을 보여줍니다.
네, 신규 졸업자들은 약간 높은
실업률에 직면하지만, 이는 다른
역사적 추세와 크게 다르지 않습니다.
이걸 듣고 계신다면, 신규 졸업자
실업률은 2015년이나 2010년 같은
꽤 최근 과거에 훨씬 높았습니다.
저자들은 이 그래프를 확대하면
작년 3월부터 9월까지
실제로 약간의 하향 추세가 있었다고 언급합니다.
저자들은 "우리는 AI가 내년이나
내후년에 미국이나 다른 곳의
실업률을 크게 높일 것으로
예상하지 않는다"고 말합니다.
이는 AI로부터 인간 일자리에
전혀 영향이 없었다는 뜻은 아닙니다.
인과적 영향도 포함해서 말이죠. 예를 들어,
AI 도입으로부터 가장 쉽게
승리할 수 있는 섹터들은
새로운 기술을 시험해볼
더 큰 인센티브를 가지고 있습니다.
고객 서비스 운영과 Klarna 같은
회사들을 생각해보세요. 이를 위한 재원을 마련하기 위해,
그들이 계속해서, 급여를 포함한 사업의
삭감되었을 수도 있습니다. 좋습니다. 하지만 대량 해고나
일자리 대재앙이 임박했다는 수많은 헤드라인은 어떻게 설명할까요?
음, 저자들은 만약 AI가 이미
쓸모없어진 근로자들의 대량 해고로 이어지고 있다면,
그렇다면 노동 생산성 지표도
증가해야 한다고 말합니다.
왜냐하면 동일한 산출량을
더 적은 근로자로 생산하기 때문입니다.
생산성에 영향을 미치는
주기적 요인들이 많이 있지만,
2025년에 집중하면 - 청록색으로 표시된 부분인데,
저는 색맹이라 청록색인지 확실하지 않지만
그 색이라고 생각합니다 - 시간당
노동 생산성 성장률이 이전 연도나
기간보다 현저히 높지 않다는 것을 볼 수 있습니다.
실제로 2025년의 생산성 성장률은
2000년부터 2007년까지의
모든 기간보다 작아 보입니다.
그렇다면 왜 그렇게 많은 기업들이
AI 때문에 일자리를 줄이고 있다고
선언하는 걸까요? 저자들은
일자리 손실을 AI 사용 증가와
연결시키는 것이 약한 수요나
과거의 과도한 채용 같은 다른 부정적 요인들보다
투자자들에게 더 긍정적인 메시지를
전달한다고 말합니다.
저는 많은 기업과 개인이
대형 언어 모델이 얼마나 심하게 환각 현상을 보이는지
발견한 후, 초기의 도입과 테스트 물결이
작년 중반쯤에 어느 정도 사그라들었다고 생각합니다.
하지만 최근에는 다시 증가하고 있습니다.
사람들은 물론 자신들의 사용 사례에 맞는
다양한 모델을 비교하기 시작하고 있습니다.
Google DeepMind의 CEO인 데미스가 말했듯이,
끊임없는 진전을 이루고 있으며,
생성형 AI에서 ChatGPT의 점유율이
상당히 눈에 띄게 떨어지고 있다는 사실을 지적했습니다.
이것이 물론 제가 디자인한 앱인
lmconsil.ai의 배경 이론입니다.
여기서 여러분은 모든 최첨단 모델들의 답변을
보기 좋고 사용자 정의 가능한 형식으로 비교할 수 있습니다.
실제로 모델들끼리 채팅하게 하는 것도
여기서 매우 인기있는 기능이 되어서
세미콜론으로 모델들 간의
셀프 채팅을 시작할 수 있는
단축키도 만들었습니다.
그런데 말이죠, 만약 제가 대량 해고가
다가오는 것을 본다면, 여러분에게
최대한 경고하겠습니다. 하지만 저는
다리오 아모데이의 종말론적 관점보다는
젠슨 황의 관점에 더 가깝습니다.
그는 며칠 전 인터뷰에서
일자리의 목적을 그 일자리 안의
개별적으로 자동화 가능한 작업들과
혼동하지 말라고 말했습니다.
축구 해설자를 예로 들어보죠.
그 해설자의 목소리를 자동화할 수 있고,
그 해설자가 하는 전술 분석도
자동화할 수 있습니다.
모든 것을 더 빠르고 저렴하게 할 수 있습니다.
하지만 축구 해설자의 궁극적인 목적은
여러분이 시청하는 동안 즐겁게 해주고,
경기에 몰입하게 하는 것입니다.
그리고 그 목적은 AI 모델이
가장 잘 수행하지 못할 수도 있습니다.
그리고 이런 나무만 보고 숲을 놓치는 것이
우리가 이 영상의 두 번째 부분으로
넘어가는 이유입니다.
특정 상황에서 모델들이
취약한 이유 말입니다.
왜 한 순간에는 IQ 200처럼 보이다가
다음 순간에는 IQ 50처럼 보일까요?
이번 주에 저는 이 주제에 관한
일련의 논문들을 읽어왔고,
아마 제가 가장 좋아하는 것은 이 논문입니다.
불과 6일 전에 나온 이 논문을 말입니다.
만약 여러분이 대규모 언어 모델의 내부 원리에 관심이 있으시다면
우리 스폰서에 대해 잠깐 말씀드리겠습니다.
바로 MATS 프로그램입니다.
2025년 여름 프로그램 지원 마감이 지금으로부터 단 4일 남았습니다.
아시다시피 MATS는 연구자들을 발굴하고 훈련시키는 곳입니다.
아마도 세상에서 가장 인재가 부족한 문제 중 하나인
정렬되지 않은 AI 모델의 위험성을 줄이는 일을 연구합니다.
여러분도 잘 아실 텐데, 이곳 졸업생들은
Meta, Anthropic, DeepMind 같은 곳에서 일하고 있습니다.
물론 다른 많은 곳에서도 말이죠.
제가 추천할 만한 기준을 충족하는 프로그램답게
세계적 수준의 멘토링과 함께
장학금, 컴퓨팅 예산, 그리고 전액 지원도 제공됩니다.
설명란의 링크를 확인해 보세요.
자, 이제 다시 본론으로 돌아가서
왜 대규모 언어 모델이 그렇게 취약해 보이는지에 대한 구체적인 질문입니다.
엄청나게 복잡한 코드베이스를 탐색해서
아주 작은 버그를 찾아내기도 하지만
때로는 Claude가 멀쩡히 작업하다가
어떤 사용자의 데스크톱에서 11GB의 파일을
이틀 전에 무작정 삭제해 버렸다고 합니다.
왜 그런 일이 일어날까요?
간단히 말해서, 대규모 언어 모델에는
여러 단계의 '이해'가 존재하기 때문입니다.
하지만 먼저 기묘한 생각을 하나 해볼게요.
우리는 영어에서 '이해'라는 단어가 무엇을 의미하는지조차 모릅니다.
무엇을 가리키는지는 알지만, 우리가 '아래에서' 하는 일이 뭘까요?
'아래'라는 접두사가 일반적인 '밑'이라는 의미가 아니라면
'겪다'나 '상황 하에서'의 '아래'와 같은 건가요?
'이해한다'는 단어의 어원에 대한 최선의 추측은
아이디어들 사이에 있는 것
무언가와 연결된 존재 안에 있는 것 같습니다.
거리두기보다는 말이죠.
하지만 다시 말하면, 초기 인간들도
이해가 무엇을 의미하는지 완전히 파악하지 못했던 것 같습니다.
무언가의 존재 안에 있다는 것처럼 말이죠.
'이해하다'와 같은 동의어인 '포용하다'도
본질적으로 무언가를 움켜쥔다는 뜻입니다.
하지만 무언가를 쥐거나 붙잡는다는 것이
왜 논리적으로, 지적으로 이해한다는 뜻이 될까요?
그런데 '지능'이라는 단어의 어원은
사물들 사이에서 선택하는 것입니다.
그러니까 무언가의 존재 안에 서 있고
사물들 사이에서 선택하고, 무언가를 파악한다는
이런 개념들의 모임이 있다면
본질적으로 우리가 이해에 대한
완전히 직관적인 정의를 갖지 못한다는 것은
LLM에 이해를 부여하는 데 어려움을 겪을 수밖에 없다는 뜻입니다.
Beckman과 Quaos의 이 논문에서
그들은 이해를 세 가지 범주로 나눕니다.
단순한 개념적 이해는
하나의 개체가 다양하게 나타나는 것들 사이에
연결이 있다는 것을 단순히 인식하는 것입니다.
그게 전부입니다. 두 가지 사이의 연결을 찾는 것말이죠.
그다음 두 번째 단계는
세상 상태 또는 조건적 이해입니다.
이런 것들이 참이거나 연결되는 것은
특정 상황에서, 특정 시간에만 그렇다는 것이죠.
마지막은 궁극적인 이해로
제가 다른 영상에서 새로운 기능을 효율적으로 도출하는 것이라고
설명했던 것입니다. 바로 원리적
이해력. 다양한 사실들을 통합하는
근본 원리나 규칙을 파악하는 능력입니다.
시간이 부족하시다면, 이 논문의
핵심은 다음과 같습니다.
대형 언어 모델은 세 계층에 걸친
다양한 메커니즘의 혼합으로 분산된 이해력을 보유하고 있습니다.
이들은 어떤 의미에서는
단순함이나 간결함을 추구하지 않습니다.
그저 작업을 완수하기 위해 필요한
취약하거나 깊이 알고리즘적인
연결고리를 학습할 뿐입니다.
이들은 이해력의 세 번째 단계에
도달할 수 있습니다. 즉, 세상으로부터
깊은 알고리즘과 패턴을 도출하는 것이죠.
이들은 덧셈을 이해할 수 있고,
따라서 기억된 '이것 더하기 이것은
얼마다'라는 쌍들을 삭제할 수 있으며,
시를 통해 미리 계획을 세웁니다.
시의 새로운 행이 시작되기 전 토큰에서,
클로드 내부에는 이미 라임이 무엇이 될지
그리고 그 라임을 달성하기 위해 필요한
의미를 계획하는 회로가 있습니다.
연구자들은 수치 비교,
객관식 질문 답변을 위한
계산 가능한 회로를 발견했고,
제가 작년 가을에 논의했듯이
내성이 필요함을 인식하는
회로까지 발견했습니다.
이러한 회로들이 명확히 정의되고
재사용 가능하다는 점을 고려할 때,
이들이 개념을 이해하지 못했다고
누가 말할 수 있겠습니까? 하지만
문제는 이것입니다. 대형 언어 모델은
취약한 암기에도 의존합니다.
이들은 실용적으로 세계 상태를
모델링하는 것과 얕은 휴리스틱이나
경험칙에 의존하는 것 사이를
오가며, 어떤 회로가 손실을
최소화하고 예측을 가장 효율적으로
향상시키는지에 따라 결정합니다.
이들은 마치 게으른 영리한 학생처럼
때로는 자신을 강제로 재료를
제대로 학습시키고, 다른 때는
필요한 것만 암기합니다.
하지만 이들이 때때로 암기를 사용한다는
사실은 저자들도 알고 있듯이
인식론적 신뢰의 기반을 훼손합니다.
이들이 무언가를 맞혔을 때, 통합 메커니즘에
의존했을까요, 아니면 단순히 얕은
휴리스틱의 무리에 의존했을까요?
물론, 인지심리학도 인간이
같은 행동을 한다고 지적합니다.
때로는 지역적 또는 국제적 무대에서
떠오르는 첫 번째 생각을 말하거나
행동하며 지름길에 의존합니다.
다른 인간들은 이러한 휴리스틱을
재검토하고 문제에 대해 깊이
생각하려고 노력합니다.
따라서 대형 언어 모델과 대화할 때,
저자들이 알고 있듯이 이는 마치
전문성이 극도로 다양한
거대한 위원회와 대화하는 것과 같습니다.
고품질 회로가 때로는 강화되지만,
때로는 저품질 회로에 의해
묻히기도 합니다. 기억하세요,
이들은 쉬운 방법이든 어려운 방법이든
다음 단어나 토큰을 예측하기 위해
할 수 있는 모든 것을 하는 외계 지성입니다.
인간에게 '톰의 아내는 메리다'라는
문장은 구현된 개념입니다.
이는 수십 가지 함축을 가지고 있으며,
특히 '메리의 남편은 톰'이라는 의미를 포함합니다.
대형 언어 모델에게는 '토마스 스미스의
아내는 메리다'라는 말을 처음 들었을 때,
이는 단순히 미래에 '톰 스미스의 아내는'
Tom Smith의 아내는 같은 의미입니다. 하지만
이런 개념들을 연결하지는 못합니다. 따라서
믿을 만한 근거가 없죠.
Mary Stone의 남편은이라는 문장이
Tom으로 끝날 것이라고 말이죠. 다른 여러
논문들에서 논의하듯이, 이런 특별한 약점은
데이터 증강을 통해 해결할 수 있습니다.
하지만 그게 제 요점은 아닙니다. 제 요점은
LLM들이 매우 깊은 수준에서 사물을 이해할 수 있고
동시에 매우 얕은 수준에서도 이해한다는 것입니다.
강화학습이 이런 고차원적 회로를
강화할 수 있다는 증거는 엇갈립니다.
말하자면 말이죠. 하지만 이 논문과 다른 연구들은
LLM이 대부분의 경우 정답을 맞힐 수 있을
정도로 학습하면, 현재 방법으로는
더 자주 정답을 맞히기 위해
더 고차원적 회로를 학습할 인센티브가
훨씬 적다는 것을 보여줍니다. 하지만 우리는
외계의 풍경을 탐험하고 있습니다.
한 달 뒤, 두 달 뒤에
획기적인 발전이 있을 수도 있습니다.
모델들이 훨씬 높은 차원의
이해 수준에 도달하도록 인센티브를 제공하는
방법을 찾을 수도 있죠. 이 논문에서는
모델들이 거의 혼란스러운
상태에 도달하도록 격려함으로써
이를 달성할 수 있다고 합니다. 바로 그때가
여러 방법을 가장 생산적으로
탐색할 수 있는 때입니다. 그리고
다양한 새로운 양식으로 훈련된다면
어떤 수준의 이해에 도달할 수 있을까요?
미국 정부는 AI 연구실들에
미국의 수십 개 국립연구소에 대한
접근권을 제공하고 있습니다. 그리고
날씨 예보 등에서 그 가치를 입증한
하이브리드 아키텍처를 얻기도 전의
이야기입니다.
어쨌든 이 영상이
너무 길어지고 있네요. 요점은 여러분을
그 두 극단 사이 어딘가에
남겨두는 것입니다. AI 모델들이
여러분의 워크플로우에서 지속적으로
실수를 한다면 여러분만 그런 게 아닙니다.
하지만 모든 게 과대광고라고 말하는 것도
공정하지 않을 것입니다. 저에게는
AI에 대한 최대한의 이해와 그것을 활용한 생산성은
그 중간 지점에서 나옵니다.
시청해 주셔서 정말 감사합니다. 멋진 하루 보내세요.