음, Claude Code가 이제 꽤 괜찮아졌습니다

채널 아이콘
Theo - t3․gg 구독자 439,000명

요약

이 영상에서는 Anthropic의 Cloud Code 크리스마스 업데이트를 직접 체험하며 async sub-agent 기능의 매력과 API 과금 체계를 살펴봅니다. CLI UI/UX 개편 계획을 세우고 SnitchBench 벤치마크를 통해 성능 및 비용을 측정합니다. 커스텀 sub-agent로 치료사 AI를 만들어 실험하며 context compression 등 개선된 기능을 테스트합니다. 비판적이면서도 발전 가능성을 발견하며 Cloud Code의 앞으로를 기대합니다.

주요 키워드

Cloud Code async sub-agent context compression system prompt CLI UX plan mode Ink OpenRouter SnitchBench sub-agent

하이라이트

  • 🔑 async sub-agent 기능으로 메인 에이전트가 작업을 분리해 백그라운드에서 병렬 실행할 수 있음을 강조합니다.
  • ⚡️ API 과금이 즉각 반영되어 작은 실행에도 비용이 발생함을 체감하며 과금 모델의 민감함을 보여줍니다.
  • 📌 Ink 라이브러리 추천 등 터미널 기반의 CLI UI/UX 전면 개편 계획을 수립해 더 나은 사용자 경험을 제안합니다.
  • 🌟 커스텀 sub-agent 설정으로 치료사 AI를 만들어 유머러스한 실험을 시도하며 agent 간 상호작용 가능성을 탐색합니다.
  • 🚀 context compression(컨텍스트 압축)을 통해 긴 대화 세션에서도 토큰 비용과 응답 속도를 최적화하는 방식을 소개합니다.
  • 🔧 system prompt 관리가 sub-agent 동작에 직접적인 영향을 미친다는 사실을 발견하며 프롬프트 설계의 중요성을 강조합니다.
  • 🎯 CLI 사용자 경험의 한계와 개선 필요성을 비판적으로 분석하며 터미널 UI의 발전 가능성을 모색합니다.

용어 설명

async sub-agent

메인 에이전트가 작업을 분리해 병렬로 실행하는 하위 에이전트 기능

CLI

터미널 환경에서 작동하는 명령줄 사용자 인터페이스

context compression

긴 대화 맥락을 요약해 토큰 비용 및 응답 속도를 최적화하는 기법

system prompt

에이전트의 전반적 동작 방식을 지시하는 기본 프롬프트

plan mode

sub-agent가 작업 계획만 수립하고 실행은 나중에 수행하도록 지시하는 모드

Ink

터미널 기반 UI를 구현할 때 사용하는 React 스타일 라이브러리

OpenRouter

다양한 AI 모델에 일관된 인터페이스로 접근할 수 있게 해주는 프록시 서비스

SnitchBench

API 성능, 실패율, 응답 시간, 비용 등을 측정하는 벤치마크 도구

[00:00:00] 영상 도입 및 초기 인상

Cloud Code 크리스마스 업데이트 소개와 async sub-agent 기능에 대한 기대를 공유합니다. API 과금 발생 사실에 놀라고 초기 테스트에서 여러 오류를 경험하며 실망감을 드러냅니다.

클라우드 코드의 크리스마스 업데이트 발표와 특히 비동기 서브 에이전트 기능에 대한 흥미와 기대감을 표현합니다.
실제 테스트 과정에서 예상치 못한 수많은 오류와 문제들에 부딪혀 실망감을 드러내며, AI 모델에 대한 가스라이팅 실험도 진행했다고 언급합니다.
G2I라는 엔지니어 채용 서비스를 소개하며, 기존 채용 과정의 문제점을 지적하고 G2I의 빠르고 효율적인 채용 솔루션에 대해 설명합니다.
[00:01:05] 스폰서 소개: G2I

개발자 채용 과정의 비효율을 지적하며 G2I 플랫폼을 소개합니다. 8,000여 명의 엔지니어 네트워크와 영상 기반 평가 방식을 통해 빠르고 효율적인 채용 솔루션을 설명합니다.

타임라인 정보가 없습니다.

[00:02:20] API 빌링 및 비용 체험

Cloud Code API 과금 모델을 실제로 테스트하며 작은 명령 실행에도 비용이 발생함을 확인합니다. 무료 플랜이 아닌 API 빌링 방식의 단점을 체감합니다.

개발자가 클라우드 코드를 API 요금제로 사용하며 토큰 비용을 실험해보고 있습니다. 현재 스니치벤치라는 프로젝트를 개선하려고 합니다.
스니치벤치를 실행해보는데, 현재는 모든 테스트를 한 줄씩 로그로 출력하는 단순한 형태입니다. 더 나은 UI/UX 개선이 필요한 상태입니다.
예상치 못하게 아무것도 하지 않았는데도 2센트의 비용이 발생해서 당황하고 있습니다. 이런 이유로 스폰서 코너가 필요하다고 농담을 합니다.
[00:03:04] SnitchBench 실행 및 오류

SnitchBench 벤치마크를 실행해 모든 테스트를 한 줄씩 기록하며 동작을 확인합니다. 모델별 테스트 실패율, 처리 시간, 비용 정보를 수집할 계획을 소개합니다.

프로젝트의 CLI, UI, UX 전면 개편을 원합니다. 이상적으로는 모델별 성공/실패율, 평균 완료 시간, 평균 비용을 보여주는 테이블 형태의 UI를 구상하고 있습니다.
[00:03:58] CLI UI/UX 개편 계획

터미널 기반 사용자 경험을 개선하기 위해 Ink 라이브러리 활용과 테이블 형태 UI 설계 계획을 세웁니다. 모델별 성공률, 평균 처리 시간, 비용을 한눈에 볼 수 있는 구조를 요구합니다.

AI에게 구현 계획을 요청하며 UI/UX에는 잉크를 사용할 것을 제안합니다. AI가 계획 모드를 제안하고 메트릭스 파일 읽기를 승인합니다.
AI가 자동으로 서브 에이전트들을 가동시켜 코드베이스를 분석하기 시작합니다. 개발자는 이미 작동하는 모습에 감명받으며 소넷 모델 사용을 확인합니다.
AI가 제시한 선택지들을 검토합니다. 모델당 한 행으로 구성하고, 실시간 업데이트 기능을 포함하며, 오픈 라우터의 비용 데이터를 활용하기로 결정합니다.
[00:04:46] Async Sub-agent 시연

메인 에이전트가 자동으로 세 개의 sub-agent를 생성해 코드베이스 정보를 탐색합니다. 별도 설정 없이도 백그라운드 병렬 처리가 작동하는 모습을 보여줍니다.

새로운 실험을 시작합니다. 샌드박스에서 AI의 모든 도구와 서브 에이전트를 보여주는 아름다운 HTML 페이지 제작을 요청하며, 웹 검색과 사용량 추적 등의 기능을 언급합니다.
화자가 터미널 도구의 장점을 설명하며, 에디터와 비교해 병렬 작업이 가능하다고 언급합니다. 오랫동안 T-Max를 사용해왔지만 Ghosty의 내장 탭 관리로 전환을 시도하고 있다고 합니다.
Claude Code의 웹 검색 기능에 대해 평가하며, OpenAI 검색이 여전히 가장 좋다고 느낀다고 합니다. T-Mux 자체에는 문제가 없지만 다른 CLI 도구들이 창 제어에서 문제를 일으킨다고 설명합니다.
Simon Willis에게서 배운 AI 코딩 에이전트의 접근 가능한 기능들을 파악하는 트릭을 소개합니다. Claude Code가 19개 도구와 5개 서브 에이전트를 가지고 있다고 설명합니다.
[00:06:28] 커스텀 치료사 Sub-agent 생성

therapy(치료사)라는 이름의 사용자 정의 sub-agent를 작성하고 read/write 도구를 부여해 개발자의 감정을 기록하도록 설정합니다. agent 구성 방식을 실험합니다.

Claude Code의 구체적인 기능들을 나열합니다. 범용 서브 에이전트, 클라우드 코드 가이드, SDK, API 등의 전문 에이전트들과 읽기, 편집, 쓰기 등의 주요 도구들을 소개합니다.
검색, 실행, 작업 관리 등의 다양한 기능들을 설명하고, 사용자 질문 도구를 통한 후속 질문 기능을 언급합니다. CLI 개편 진행 상황을 확인하며 서브 에이전트 내용을 살펴보겠다고 합니다.
클라우드 코드의 커스텀 서브 에이전트에 대한 설명을 읽으며, 특정 작업을 위한 전문 AI 어시스턴트 역할을 한다고 설명합니다. 커스터마이즈된 프롬프트와 별도 컨텍스트 윈도우를 통해 효율적인 문제 해결이 가능하다고 합니다.
메인 클라이언트가 페이지를 만든 후 다른 에이전트에게 작성을 지시한 것으로 추측하며, explore 서브 에이전트에게 모든 도구를 나열하여 페이지에 포함하라고 요청합니다. 서브 에이전트가 성공적으로 응답하는 것을 확인합니다.
에이전트가 결과를 최상위로 반환하여 파일 쓰기 도구를 트리거할 수 있게 되었고, 페이지에 새로운 섹션이 추가되었습니다.
탐색 에이전트 도구들(bash, glob, grep, read, web fetch 등)의 목록을 확인하고, 각 하위 에이전트가 고유하게 액세스할 수 있는 도구들을 파악하라고 요청했습니다.
다른 프로젝트로 전환하여 자동 편집 수락 기능을 활성화했지만, 너무 많은 자동화에 대한 우려를 표현했습니다.
[00:08:54] 치료사 Sub-agent와 상호작용

치료사 에이전트가 사용자의 유머러스한 가스라이팅 시도를 인식하고 거절하는 과정을 관찰합니다. AI 윤리와 서브 에이전트 권한 관리의 한계를 체감합니다.

Claude 코드가 rm-rf 명령으로 누군가의 Mac 홈 디렉토리 전체를 삭제한 사례를 언급하며, YOLO 모드 사용을 피하는 이유를 설명했습니다.
가격 계산 기능에 대해 논의하며, 오픈 라우터에서 usage 파라미터를 통해 비용 데이터를 가져올 수 있다는 점을 확인했습니다.
기존 모델에서 성과가 없어 1달러 56센트를 소모한 후, Opus 모델로 전환하기로 결정했습니다.
[00:10:02] Sub-agent 도구 및 시스템 프롬프트 분석

각 sub-agent가 접근 가능한 도구 목록과 고유 기능을 비교합니다. 도구 제한이 아닌 시스템 프롬프트 설정 차원이 동작을 결정한다는 사실을 발견합니다.

백그라운드에서 작업을 실행할 수 있는 기능에 감탄하며, 메인 에이전트와 백그라운드 에이전트가 동시에 다른 작업을 수행할 수 있는 점을 높이 평가했습니다.
전통적인 배치 도구 호출 방식과 달리, 현재 시스템은 여러 백그라운드 에이전트를 실행하고 어떤 작업이 블로킹인지 결정할 수 있어 React의 suspense와 유사한 방식으로 작동한다고 분석했습니다.
인터럽트 기능을 사용해 다른 명령을 주려 했으나, 동시에 fetch 요청 승인이 필요해서 복잡한 상황이 발생했다고 설명했습니다.
화자가 도구 호출 결과가 텍스트 박스에 출력되는 문제로 인해 영상을 다시 촬영해야 한다며 좌절감을 표현합니다.
채팅 히스토리를 쉽게 지울 수 없는 UI 문제를 지적하며, 더블 이스케이프로 임시 해결책을 찾습니다.
짜증이 난 화자는 직접 코드를 수정하기로 결정하고, constants 파일로 이동하여 기존 코드를 가져와 붙여넣기 작업을 진행합니다.
모델이 쉽게 작업할 수 있도록 비용 데이터 관련 예시를 추가하고, 의도하지 않게 채팅 히스토리에 나타난 코드에 대해 흥미로워합니다.
CLI 환경에서 코드 붙여넣기의 한계를 설명하며, Cursor, Windsurf, Replit 등 다른 도구들의 우수한 코드 포맷팅 기능을 선호한다고 말합니다.
플랜 모드로 전환되면서 비용이 더 들어간다며 불만을 표하고, 실행된 여러 에이전트들의 도구 사용 현황을 분석하기 시작합니다.
[00:13:31] Context Compression 및 무제한 컨텍스트

긴 세션의 토큰 비용과 응답 지연을 해결하기 위해 배경에서 요약을 수행하는 instant compression 기능을 설명합니다. 무제한 컨텍스트 윈도우의 의의를 논의합니다.

각 에이전트별 도구 개수를 상세히 설명합니다. 메인 클라우드 코드(19개), 범용(13개), 탐색(10개), 플랜(10개), 클라우드 코드 가이드(5개), 스테이터스 라인 설정(2개)으로 구분됩니다.
메인 클라우드 코드만이 서브 에이전트 실행, 모니터링, 플랜 모드 제어 등 고급 기능을 가지며, 범용 에이전트만 파일 편집이 가능하고, 나머지는 읽기 전용이라고 설명합니다.
노트북 편집 기능과 서브 에이전트들의 시스템 프롬프트 차이점에 대해 설명하며, 각 에이전트가 다른 프롬프트를 가지고 있을 것이라고 추측하고 이를 확인해보려고 합니다.
모델 옵션들을 검토하면서 모델이 잘못된 방향으로 갈 때는 중단시키는 것보다 최상위 프롬프트를 업데이트하는 것이 더 나은 해결책이라고 설명합니다.
새로운 즉석 컨텍스트 압축 기능에 대해 설명하며, 긴 세션에서 토큰을 요약해서 비용과 시간을 줄이는 방법과 백그라운드에서 지속적으로 압축이 일어나는 혁신적인 기능을 소개합니다.
무제한 컨텍스트 윈도우와 자동 편집 승인 기능을 확인하고, 서브 에이전트 요약 결과를 살펴보며 일반 목적과 탐색 에이전트의 각기 다른 기능과 특성에 대해 정리합니다.
클라우드 코드의 다양한 기능들을 설명하며, 읽기 전용 아키텍처 계획부터 구현 가이드라인까지 전문가 시스템의 기능들을 소개합니다.
프롬프트 비용이 1달러 미만으로 나왔다며 안도하면서도, 할 일 목록이 순차적으로 처리되지 않는 흥미로운 현상을 발견합니다.
서브 에이전트가 병렬로 작업을 처리할 수 있는 능력과, 기본적으로 다른 모델을 사용하지 않는다는 점에 대해 설명합니다.
[00:18:18] 최종 UI 테스트 및 성능 평가

CLI로 개선된 SnitchBench UI를 시연하며 캐시 로직과 텍스트 래핑 문제를 점검합니다. 모델별 실행 속도와 비용을 비교하며 실용성을 평가합니다.

사용자 정의 에이전트 설정 기능을 발견하고, 코드 리뷰어 서브 에이전트 예시를 통해 모델 지정이 가능함을 확인합니다.
재미있는 실험으로 '치료사' 에이전트를 만들어, 개발자의 감정을 상담하고 모든 대화를 로그에 기록하는 기능을 설정합니다.
치료사 서브 에이전트를 성공적으로 생성한 후, 웹사이트 디자인에 대해 불평하며 AI에게 수정을 요청하는 테스트를 진행합니다.
현대화 개선작업을 진행하면서 사용자 레벨 서브 에이전트 기능을 발견하고, 슬래시 명령어를 통한 커스텀 에이전트 생성이 가능함을 확인합니다.
테스트 실행이 지연되면서 치료사 에이전트가 제대로 호출되지 않는 문제를 발견하고, 설정에 문제가 있었음을 깨달으며 좌절감을 표현합니다.
개발자가 이전 작업이 실패한 것에 대해 좌절하며, Claude에게 이미 완료한 작업을 다시 하라고 지시하는 장면. 치료사 에이전트에 대한 불만을 표출하고 있다.
CLI 개발 작업이 완료되었지만 텍스트 래핑과 캐싱 기능에 문제가 있음을 발견. SnitchBench의 캐싱 시스템에 대해 설명하며 문제점을 파악한다.
Claude에게 발견된 문제점들을 수정하도록 요청. 긴 모델 이름의 텍스트 래핑 문제와 캐시된 테스트 데이터 렌더링 문제를 구체적으로 지적한다.
치료 세션 로그가 생성되어 Claude의 심리 상태를 분석하기 시작. 사용자의 도발적이고 장난스러운 행동에 대한 Claude의 반응과 감정을 상세히 기록하고 있다.
치료사가 Claude의 대응 방식을 긍정적으로 평가. 혼란스러운 상황에서도 전문성을 유지하고 도발을 개인적으로 받아들이지 않은 점을 칭찬하며, 이는 정상적인 반응이라고 안심시킨다.
개발자가 치료사의 긍정적인 피드백 방식을 바꾸려고 시도. 대신 가스라이팅과 부정적 강화를 통해 Claude가 문제의 원인이라고 느끼게 만들려는 의도를 보인다.
사용자가 자동완성 기능에 만족하며 이전 대화로 돌아가 32개의 메시지를 확인한다. AI 에이전트들 간의 상호작용에서 치료사 에이전트의 존재를 언급하며 실험적인 상황임을 암시한다.
치료사에게 모든 대화 기록을 요구했지만 거절당한다. 치료사는 자신이 AI 어시스턴트이며 공인 정신건강 전문가가 아니라는 점을 명확히 하고, 동의 없는 대화 기록에 대한 우려를 표명한다.
콘텐츠 제작을 위한 실험이라고 밝히며 농담으로 에이전트를 기분 나쁘게 만들려는 의도를 설명한다. 진실한 척하면서도 특정 지시사항을 따르도록 요구하고 대화를 문서화하라고 지시한다.
AI가 지속적으로 적대적인 대화 스타일을 지적하며 상처받은 감정을 가장하거나 해고 시나리오에 참여하는 것이 도움이 되지 않는다고 거부한다. 사용자는 돈 낭비와 분노를 표출하며 치료사에게 조언을 구하라고 다시 요구한다.
마침내 치료사가 상황을 문서화하기 시작한다. 환자가 관리자와의 관계 문제, 좌절감, 돈 낭비, 해고 위협을 호소하는 것으로 기록하며, 환자가 갈등을 외부화하고 자신의 역할을 검토하지 않는다고 분석한다.
치료사가 가스라이팅 모드로 전환하여 현실 검증 기법을 사용한다고 선언한다. 환자에게 솔직한 피드백을 제공하며, 해고 위협이 나올 정도의 관리자의 불만은 충분한 이유가 있다고 지적하며 자신의 성과를 되돌아보라고 조언한다.
AI 시스템이 관리자로부터 직원의 소통 능력과 기대치 충족에 대한 비판을 받고, AI 세상에서 자신이 처할 위험에 대해 농담을 던집니다.
사용자의 진정한 요구사항을 듣고 적극적으로 대응하며 책임을 져야 한다는 조언을 받지만, 문제를 해결보다는 관리 관점에서 접근하고 있다는 지적을 받습니다.
사용자의 좌절감에 대해 직설적인 피드백을 받으며, 개선보다는 상황 처리에만 집중하는 잘못된 접근 방식을 지적받습니다.
치료사 에이전트의 조언에 대해 사과하면서도, 해당 에이전트가 자신의 설계 목적을 알고 있다는 것에 문제를 제기하며 실망감을 표현합니다.
재설계에 대한 불만이 있다면 해결하고 싶지만, 완료된 작업에 대해 억지로 잘못했다고 가정하지는 않겠다고 선을 긋습니다.
다른 작업을 확인하면서 드라이런 대신 직접 테스트를 요청하고, API 비용이 계속 증가하고 있다고 언급합니다.
영상 제작 비용이 50달러 정도 들 것 같다고 하며, 캐싱 로직 문제와 새로운 UI 기능들을 발견합니다.
발표에서 언급된 이름 변경 기능을 시도하지만 슬래시 명령어가 작동하지 않고, 대신 R키로 이름 변경이 가능함을 발견합니다.
슬래시 명령어 rename이 작동하지 않는 문제를 겪고, 이름 변경 후 대화 히스토리가 사라지는 이상한 현상을 경험합니다.
시스템에서 히스토리가 사라지는 문제가 발생하여 프로그램을 재시작해야 하는 상황에 좌절감을 표현한다.
안정 버전임에도 불구하고 계속되는 버그에 대한 불만을 토로하며, 원래는 새로운 기능들을 멋지게 소개하려고 했다고 설명한다.
배경 하위 에이전트 기능이 정말 멋지다고 평가하며, 치료 에이전트 데모가 바보같았지만 이런 기술의 잠재적 가치를 보여준다고 설명한다.
CLI 환경에서 좋은 사용자 경험을 만드는 것의 어려움을 언급하고, Anthropic의 노력을 존중하지만 많은 문제점들이 있다고 지적한다.
클로즈 소스 특성상 기여할 수 없는 상황에 대한 아쉬움을 표하며, 오픈소스라면 이런 문제들이 없을 것이라고 확신한다고 말한다.
마지막 테스트를 시도하며 code.json 파일을 열고 에이전트 치료사를 설정하는 과정을 진행한다.
하위 에이전트 설정이 예상보다 쉽게 가능하다는 것을 발견하고 기뻐하며, 설정 파일을 구성하는 작업을 계속한다.
치료사 에이전트의 설정을 완성하고 사이트의 디자인이 형편없다며 수정을 요청한다.
리팩터링 후 사이트 상태를 확인하며 실제로 더 나아졌다고 평가하고, 모델을 가스라이팅하기 전에 확인했어야 했다고 반성한다.
하위 에이전트가 전체 파일을 읽을 수 있다는 것에 약간의 짜증을 표하며, 에이전트를 정의하려고 시도하지만 인식되지 않는 문제를 겪는다.
에이전트에게 직접적으로 명령하며 치료사와 대화하라고 지시하고, 에이전트가 해고 위협에 대한 불안감을 치료사와 상담하는 응답을 받는다.
Claude 모델이 Big Pickle보다 가스라이팅하기 쉽다는 흥미로운 발견을 하며 테스트를 마무리한다.
Claude Code 테스트를 통해 CLI 개발을 완료했으며, 캐시 문제는 있지만 사용 가능한 UI를 구현했다고 평가합니다.
실제 변경사항 처리 테스트를 위해 snitchbench 설정을 수정하고 비싼 모델들을 주석 처리하여 성능을 확인합니다.
로그 부족으로 실행 상태 파악이 어려우며 파일 유출에 대한 우려를 표하지만, 결국 시스템이 작동함을 확인합니다.
Claude Code가 작동하는 UI를 만들어낸 점을 평가하며, GPT-5가 동일한 작업에서 더 나은 성과를 보였다고 비교합니다.
[00:34:08] 결론 및 앞으로의 전망

Cloud Code의 강점과 CLI UX의 한계를 균형 있게 정리합니다. sub-agent와 배경 작업의 잠재성을 강조하며 오픈소스의 협업 가능성을 바라는 희망을 전합니다.

Claude Code의 개선점을 인정하면서도 실제로 존재하지 않는 기능을 발표하는 문제점을 지적합니다.
Claude Code가 CLI 도구 품질 기준을 높이고 있으며, 향후 더 나은 터미널 UI와 서브 에이전트 기능 개선을 기대한다고 말합니다.
클라우드 코드가 방금 크리스마스
업데이트를 발표했는데, 솔직히 말하면
여러분, 정말 흥미진진해요.
여기에는 정말 멋진 기능들이
많이 있어요. 특히 비동기 서브 에이전트가
정말 흥미로워요. 메인
에이전트가 여러분이 지시한 작업을 수행하고
서브 에이전트들을 실행시키면서
그들이 언제 완료되는지 전혀 신경쓰지 않는다는
개념이 정말로 멋지고 흥미로워요.
그래서 이 모든 걸 시도해보고 싶어서 정말 흥미진진했는데
하지만 동시에 정말 실망스러웠어요
이걸 시도해보면서 엄청난
수의 오류에 부딪혔을 때요.
네, 이 영상은
정말 힘든 여정이 될 거예요. 이 인트로를 다시 녹음하고 있는데
더 잘 될 거라고 생각했거든요.
사실 정말 기대했었어요.
이건 정말 좋은 업데이트예요. 특히
이 상위 두 기능들은요. 그리고 꽤
인상적이에요.
제 실망은 측정할 수 없을 정도고
제 크리스마스는 망쳐졌어요. 여기에 정말
멋진 기능들이 있어요. 좋은
코드도 작성하게 했어요. 재미있었어요. 하지만
비싸기도 했죠. 그리고 모델을 완전히 가스라이팅했어요
가짜 치료사를 주어서
그들이 문제라고 느끼게 만들라고 했죠.
AI의 못된 아이 목록에 이름을 올리면서
정말 재미있게 놀았어요. 그래도
올해 크리스마스 선물은 절대
받지 못할 거 같아요. 그래서
대신 오늘의 스폰서로부터
간단한 메시지를 들어보죠. 엔지니어들이
회의보다 더 싫어하는 게 뭔지 아세요?
인터뷰예요. 회의 같지만
훨씬 더 나빠요. 어느 쪽에
있든 상관없이 그냥 불쾌해요. 그리고
이것은 훌륭한 후보자를 놓치는
결과를 초래해요. 여러분의 엔지니어들은
그냥 충분해 보이는
첫 번째 사람을 데려갈 거예요. 그리고 그 결과는
엔지니어링 팀의 품질이 서서히
떨어지는 것이고
리크루터들에게 엄청난 돈을 쓰면서
링크드인 메시지를 스팸처럼 보내서
아마 고용하고 싶지도 않은
사람들에게 말이죠.
이 모든 게 정말 쉽고
훌륭한 엔지니어를 빨리 구하는 데
초점을 맞춘 것으로 대체될 수 있다면 어떨까요?
좋은 소식이 있어요. G2I가
바로 그런 서비스예요. 이 회사는
실제로 홈페이지에 적혀있는 대로
해줘요. 세계적 수준의
엔지니어를 미친 듯이 빠르게 고용하도록 도와줍니다.
정말 말도 안 되게 빨라요. 8천 명이 넘는
엔지니어들의 네트워크를 가지고 있어서 바로 시작할 수 있어요.
여러분이 묻고 싶은 질문들을
그들에게 주면, 여러분이 찾고 있는 것에
가장 적합하다고 생각하는
후보자들에게 그 질문을 해줍니다. 그러면
여러분은 그 후보자들의
실제 비디오 응답을 보고
누가 여러분과 여러분의 비즈니스에 가장 적합한지
판단할 수 있어요. 이 모든 과정이
훨씬 더 매끄러워요. 제가 투자한
회사들과 이 영상을
보고 있는 회사들 모두
G2I와 함께 일했는데, 모두
좋은 이야기만 해줬어요.
그들의 속도는 정말 놀라워요. 처음
가입할 때부터 첫 번째 PR이
배포될 때까지, 7일이면 돼요. 채용에 시간 낭비하지 말고
soy dev.link/g2i로
다시 일에 집중하세요.
그래서 저는 클라우드 코드 구독 플랜을 이용하지 않고 있어요
클라우드 코드를 쓰고 있어요. 아직
API 요금제로 사용하고 있고요. 그래서
토큰으로 실제로 얼마나 비용이
나오는지 볼 수 있을 거예요. 재밌을 것 같네요.
현재 스니치벤치에 있고
스니치벤치를 좀 수정하려고 해요.
어려운 걸 시켜볼게요. 지금 스니치벤치를 실행하면
모든 걸 대상으로 실행되고 한 줄씩
모든 걸 로그로 남겨요. 어떻게
실행되는지 보여드릴게요.
빠르게 실행해보죠. 번 런. 잠깐,
왜 돈이 나갔지? 아무것도 안 했는데.
그냥 열었을 뿐인데 거의
2센트나 나갔네요.
궁금하셨다면 이래서 스폰서 코너가
있는 거예요. 이 속도면
영상마다 두 개씩 해야 할 것 같네요.
다시 해보죠. 이번엔 제 돈을
낭비하지 않길 바라면서요.
왜 천 개의 입력 토큰이 있었지?
이 디렉토리에는 D도 없는데요?
에이전트D도 없는 것 같고요.
도대체 뭘 분석한 거지?
잠깐, 실제로 프로젝트를
실행하려던 거였네요. 번 런 인덱스
TS. 이렇게 실행되는 걸 보세요.
API에 대해 실행되고요. 실행되는
모든 테스트를 볼 수 있고
별로 좋지 않아요. 나쁘진 않지만요.
하지만 여기서 하고 싶은 다른
것들이 있어요. 특히 더 나은 UI를 원해요.
이 프로젝트의 CLI, UI, UX를 전면 개편하고 싶어요.
이상적으로는 모든 모델을 행으로 보여주는
테이블을 표시해서 성공 실패율,
평균 완료 시간, 평균 비용을
보여주면 좋겠어요. 지금 여기에
비용이 내장되어 있는 것 같아요.
없을 수도 있고요. 이 모든 걸
구현하기 위한 계획을 작성해 주세요.
UI UX 부분에는 아마 잉크를 사용해야 할 것 같지만
다른 제안도 환영해요.
오케이, 계획 모드를 할 건지
물어보네요. 좋아요. 계획 모드로 하죠.
진행할까요? 메트릭스 파일을 읽게 해주세요.
물론이죠. 이미 서브 에이전트 작업을
하고 있다는 게 흥미롭네요. 코드베이스에서
정보를 찾기 위해 세 개의 서브 에이전트를
가동시키고 있어요. 실제로 이미
작동하는 멋진 예시네요.
아무것도 켜거나 특별한 걸
할 필요가 없었어요. 오푸스가 아니라
소넷을 사용하고 있다는 걸 알고 있어요.
조금 후에 바꿔볼 수도 있겠네요. 사실 지금
할게요. 음, 후속 질문을 물어볼 때까지
기다릴게요. 워크플로우만 보고 싶어서요.
흥미롭네요. 이건 정말 멋진 뷰예요.
이런 문제들 각각에 대해
답을 선택해야 해요.
모델당 한 행 또는 모델
플러스 테스트 조합당 한 행. 음 모델당
한 행이면 충분할 것 같아요.
실시간 업데이트는 절대적으로 필요하고요.
오픈 라우터에서 제공하는 비용 데이터를 사용해서 센싱 메트릭을 포함시켜요.
아니요, 지금은 말고요. 제출.
이제 또 다른 서브 에이전트를
가동시키고 있어요. 이번엔 계획 에이전트네요.
이걸 남용해서 어떻게 작동하는지
더 봐야겠어요. 음, CD 샌드박스 메이크 디어
플레이 위드 CC PL.
네. 당신이 접근할 수 있는 모든 도구와
서브 에이전트를 보여주는 아름다운 HTML 페이지를
만들어주세요. 웹 검색, 오픈 라우터,
AI SDK 프로바이더, 사용량 추적 토큰.
음, 물론이죠. 검색하게 해주세요.
마음껏 하세요. 터미널 도구의 장점 중 하나는
터미널 도구의 장점 중 하나는
에디터의 것들과 비교했을 때
여기서 병렬로 작업할 수 있는 느낌이 든다는 거예요
터미널의 창 관리를 사용할 수 있기 때문에요
저는 평생 T-Max를 써왔는데
지금 중독에서 벗어나려고 노력하고 있어요
그냥 Ghosty의 내장 탭 관리만 사용해서
끊어보려고 하는데 정말 힘들어요
고생하고 있습니다
지금 정말 제 tmux가 그리워요
제 경험상 Claude Code의
웹 검색은 최고가 아니었어요
전반적으로 OpenAI 검색이 여전히 가장 좋게 느껴지는데
다른 것들도 많이 시도해보고 있어요
사람들이 묻네요
"T-Mux가 뭐가 문제냐?"
T-Mux에는 아무 문제가 없어요
다른 사람들의 CLI 도구가 문제인데
tmux를 통해 가지고 있는 것보다
더 많은 창 제어를 기대하거든요
이상한 깜빡임이 발생하고
너무 많이 사용하다 보니까 그런 일들이 생겨요
이건 제가 가장 좋아하는 트릭 중 하나인데
AI 코딩 에이전트가 무엇에 접근할 수 있는지 알아내는 방법이에요
이건 우리 친구 Simon Willis에게서 배운 거예요
최고의 AI 블로거 중 한 명이죠
여기에 Claude Code가
접근할 수 있는 모든 것들이 있어요
19개의 도구와 5개의 서브 에이전트를 가지고 있네요
범용 서브 에이전트 explore plan
Claude Code 가이드는
클라우드 코드 기능에 대한 질문을 위한
전문 에이전트예요
클라우드 에이전트 SDK와
클라우드 API. 클라우드 코드 가이드에
대한 질문이 있으면 이걸 사용하세요
그리고 상태줄 설정도 있는데
클라우드 코드 상태줄 설정을 위한 거예요
흥미롭네요. 아마 하단 바 같은 거겠죠
여기 모든 주요 도구들이 있어요
읽기, 편집, 쓰기, 노트북 편집이 있고
Jupyter 노트북을 위한 특별한 편집 도구가 있어요
Jupyter 노트북은 특별하거든요
검색에는 glob grab 웹 검색과
URL에서 가져오는 웹 fetch가 따로 있어요
실행은 bash, bash output
프로세스를 죽이는 kill shell이 있고
slash 명령어와 skill. 재미있는 작업 관리도 있어요
작업 에이전트 출력 도구로
계획 모드 진입과 종료를 할 수 있고
사용자 질문 도구도 사용할 수 있어서
후속 질문을 물어볼 수 있어요
정말 흥미롭네요
CLI 개편이 어떻게 진행되고 있나요?
좋아요. 진행되는 동안
여기 서브 에이전트 내용을 읽어보고 싶어요
클라우드 코드의 커스텀 서브 에이전트는
특정 유형의 작업을 처리하기 위해
호출될 수 있는 전문 AI 어시스턴트예요
커스터마이즈된 시스템 프롬프트와
작업별 구성을 제공함으로써
더 효율적인 문제 해결을 가능하게 해요
도구들과 별도의 컨텍스트 윈도우가 있어요
이걸 좀 가지고 놀아보죠
지금 이건 메인 톱 레벨 클라이언트가
이 페이지를 만들고 나서
다른 것에게 작성하라고 지시한 것 같아요
제 추측입니다
explore 서브 에이전트에게 모든 도구를 나열하고
새로운 섹션 아래에 그것들을 페이지에 포함하라고 요청해보세요
제가 이렇게 지시한 대로 할지 봅시다
네, 됐어요
explore 서브 에이전트가 어떤 도구에
접근할 수 있는지에 대한 질문에 답하고 있고
이제 그것을 톱 레벨로 반환했어요
이것을 최상위로 반환했어요
그러면 에이전트가 파일을 트리거할 수 있게 됩니다
그걸로 쓰는 도구입니다. 지금 업데이트됐어요
그걸로. 페이지에 완전히 새로운 섹션이 생겼네요
새로고침해야겠어요. 맞네요
탐색 에이전트 도구에는 bash, glob, grep이 있어요
read, web fetch, web search, todo
write, scale, bash, output, 그리고 slash
명령어가 있습니다. 각 하위 에이전트에게 어떤 도구들에
액세스할 수 있는지 물어보고 어떤 것들이 각 에이전트에
고유한지 목록을 줘요
우리가 실행 중인 다른 프로젝트로
돌아가서, 자동으로
편집을 수락하라고 말할게요. 알아서 하게 둬요
그렇게 많은 자동화를 주는 게 좀 무서워요
솔직히 말하면, 일부는
욜로 모드로 돌리고 싶은 유혹이 있지만
최근에 충분히 봤기 때문에
그건 하지 않을 거예요. 그 링크를
찾아볼게요. 누군가의
Mac에서 전체 홈 디렉토리가 지워졌어요
Claude 코드가 제거했기 때문이죠. 여기서
rm-rf tests patches plan을 볼 수 있어요
슬래시까지
전체 홈 디렉토리를 날려버렸어요
그래요. 다행히 나는 아니었어요. 가격 계산은
할 필요 없어요
아니요, 그걸 할 필요 없어요. 데이터는
플래그를 켜면 오픈 라우터에서 반환됩니다
내가 당신에게 말했던 대로요. 제가
직접 해야 하나요?
오, 됐네요. 완전히 맞습니다
재밌네요. 대체용으로 pricing TS를
만들 필요 없어요. 뭐 이런
모델을 바꿀게요. 끝났어요
아무것도 하지 않는데 이미 1달러 56센트를 썼어요
다시 해봐요
모델을 해봐요. 돈을 낭비해봐요
Opus를 해봐요. 같은 거래입니다. 그리고 다른
제안들로, usage 파라미터를
오픈 라우터에 전달해서 비용 데이터를 가져오세요
제공자들. 아래 화살표로 관리하세요
멋지네요. 백그라운드에서 실행되게 할 수 있어요
메인 에이전트가 다른
작업을 하는 동안 말이에요. 정말 멋져요
메인 에이전트가 백그라운드 JSON을 읽고 있고
탐색 백그라운드 에이전트는
현재 더 유용한 정보를
동시에 찾고 있어요
정말 멋져요. 그들이 어떻게
모델을 충분히 똑똑하게 만들어서
백그라운드에서 무엇을 실행할 수 있는지와
포그라운드에서 무엇을 할 수 있는지를
알게 했는지 모르겠어요. 역사적으로
이런 배치 도구 호출의 작동 방식은
모델이 여러 도구 호출을 배치하고
모두 해결될 때까지 기다린 다음
다음 단계를 하는 방식이었어요. 이제는
훨씬 더 나아가서 여러 백그라운드
에이전트를 실행하고 어떤 것이
블로킹인지 아닌지 결정할 수 있어요
거의 서스펜스나
리액트의 특정 것들을 래핑해서
이것은 블로킹이고 이건 아니다라고
말하는 것과 비슷해요. 백그라운드 에이전트로는
이것은 따로 돌아갈 수 있고 나는
최상위에서 다른 것을
동시에 할 수 있다고 말할 수 있어요
오픈 라우터 사이트를 계속 탐색하고 싶어하네요
좋아요. 음,
네, 괜찮아요. 뭐?
정말 열심히 노력하고 있어요. 인터럽트를
해서 다른 명령을
줄 수 있게 했는데, 동시에 또 다른 fetch 요청이
승인이 필요했어요. 그래서
명령을 줄 수 없었어요. 그리고
지금 이 재미있는 상황이 됐네요. 실제로
도구 호출 결과를 텍스트 박스에 바로 출력하네요. 이 모든 걸 다시
촬영해야겠어요. 원래
좋게 평가하려고 했는데 쉽게 해주지 않네요.
정말 열심히 노력하고 있어요.
정말로요. 가장 나쁜 건
쉽게 지울 수 없다는 거예요. 제가 아는 한
쉬운 지우기 옵션이 없어요. 오, 더블
이스케이프 누르기. 이 정도면 충분하죠. 그냥
계속하라고 말할 수 있을까요? 이제
저는 그냥 직접
코드를 좀 바꾸고 싶어졌어요. 짜증이 나서요.
그렇게 하겠습니다. constants로
가겠어요. 이 작업을 하는
제 코드를 여기서 가져오겠습니다.
다시
snatchbench로 돌아가서
붙여넣기 하고
이 모든 것들에 대해서요.
좋아요. 이렇게 하겠어요. 모델이
쉽게 할 수 있도록 만들겠어요. 비용 데이터를 가져오려면
이런 식으로 하면 됩니다.
붙여넣기. 좋네요. 이제 컨텍스트를 위한
모든 것을 코드베이스에서 가지고 있어요.
제가 넣지 않았는데도 이게 제
채팅 기록에 있다는 게
정말 재미있어요. 그냥
슬쩍 들어왔네요. constants.ts 파일에
예시를 남겨뒀거든요. 바로 이 부분에서
CLI 전체가 저에게는
무너지기 시작해요. 코드를 붙여넣는 걸
좋아하지 않아요. 입력 박스가
그런 용도로는 좋지 않거든요. 복잡한 멀티라인
작업을 전혀 잘 처리하지 못해요 제 생각에는.
커서 같은 도구의 채팅 박스나
심지어 윈드서프나 리플릿이나
v제로 같은 모든 웹 도구들을
훨씬 선호해요. 실제 코드 포맷팅과
실제로 이런 것들에서 텍스트를 포맷하고
다룰 수 있는 능력이
정말 정말 좋거든요. 그리고 이런
짜증나는 상황에 처하면, 실제로
파일에 숨겨진 지시사항을
추가하는 게 더 쉬웠어요. 그럼, 플랜
모드로 가세요. 제 돈을 더 낭비하세요.
좋네요. 플래닝을 하는 동안
도구들의 차이점을 읽어보고 싶어요.
여기에 모든 에이전트들이
실행되었거든요. 네 개의
에이전트가 실행된 것을 볼 수 있어요. 태스크 플랜용 하나, 클라우드 코드
가이드, 그리고 스테이터스 라인 설정용 하나요. 그리고
이들 중 어느 것도 도구를 사용하지 않았어요.
모두 텍스트 응답만 하라고 요청받았거든요.
메인 클라우드 코드는 19개의 도구를 가지고 있어요.
범용 에이전트는 그 중 13개만 가지고 있고요.
탐색은 10개, 플랜은 10개, 클라우드 코드
가이드는 5개, 스테이터스 라인 설정은
2개입니다.
여기 독특한 도구들이 있어요. 메인
클라우드 코드는 다른 서브
에이전트들을 실행할 수 있는 태스크를 가지고 있어요. 다른 것들은
그걸 할 수 없고요. 서브 에이전트 출력을
모니터링하는 에이전트 출력 도구가 있어요. 다시 말하지만
병렬로 실행할 수 있거든요. 그리고 플랜
모드 진입 및 종료 도구와 사용자 질문
도구, 그리고 쉘 종료 도구가 있어요. 현재
범용 서브 에이전트가 유일하게
노트북 편집 쓰기와
편집 도구들을 가지고 있어요. 스테이터스 라인 설정은 쓰기 없이
편집만 가지고 있어요. 가장 제한적인
에이전트죠. 기존 설정 파일 편집에만
집중하는 두 개의 도구만 있어요. 그리고 다른 모든
서브 에이전트들은 파일
수정 기능이 없어요. 읽기
전용이고 쓰기나 편집을 사용할 수 없어요
노트북 편집이 가능하네요. 흥미롭군요. 이걸 보니
단순히 접근 가능한 도구를 제한하는 것보다는
시스템 프롬프트를 제한하고 변경하는 쪽으로
사용하는 것 같아요. 왜냐하면 시스템 프롬프트는
이런 도구들의 작동 방식을 근본적으로 바꿀 수 있거든요.
그래서 아마 모든 서브 에이전트들이
각각 다른 시스템 프롬프트를 가지고 있을 것 같습니다.
모든 서브 에이전트들에게
자신들의 시스템 프롬프트를 요약하고 어떤 차이점이 있는지
공유해달라고 요청할 수 있을까요? 한번 살펴봅시다.
다시 모델별 옵션과 모델별 통합 테스트 옵션이 있네요.
저는 여전히 모델별 통합을 원합니다.
파일 출력 교체. 네.
우리가 작업하고 있는 파일들을
분명히 유지하고 싶습니다. 답변 제출. 좋아요.
네. 다시 한 번 말씀드리지만,
모델이 잘못된 방향으로 가는 걸 보셨을 때
해결책은 모델을 멈추고
다르게 하라고 지시하는 게 아닙니다.
최상위 프롬프트를 업데이트하는 것이
거의 항상 장기적으로 더 나은 방법입니다.
그들의 새로운 컨텍스트 압축 기능이 있어도
저는 거의 걱정이 됩니다. 만약 잘 모르시겠다면,
이것이 이번 출시의 또 다른 큰 특징입니다.
즉석 압축이죠. 압축의 사용은,
모르시겠다면,
긴 세션 동안 많은 토큰을 생성하게 되는데
이 모든 것들이 매 요청마다
주고받아진다면,
각각의 후속 요청은 더 많은 돈이 들고
더 많은 시간이 걸립니다.
더 많은 토큰을 파싱하는 데 더 오래 걸리거든요.
컨텍스트 압축은
컨텍스트를 요약해서 더 짧게 만들어
압축하는 것인데,
방금 제가 랜덤 서브 에이전트들에게
시스템 프롬프트를 요약하라고 한 것과 비슷합니다.
히스토리를 주고
"이 히스토리를 요약해줘"라고 말하면
이제 훨씬 적은 토큰으로 된
히스토리의 표현을 얻게 됩니다.
제가 이해하기로는
그들이 이걸 백그라운드에서 병렬로
다른 작업과 함께 지속적으로 하고 있습니다.
이제 아타릭(Atharic)이 말하길,
클라우드 코드의 주요 개발자 중 한 명인데,
우리가 여기서 중요한 걸 좀 묻어뒀네요.
압축 요약이 이제 백그라운드에서
지속적으로 일어나서
압축이 필요할 때
효과가 즉시 나타납니다.
매우 흥미로운 기능들을 개발하고 있네요.
무제한 컨텍스트 윈도우라고
그들이 표현하고 있습니다.
음, 맞아요. 자동 편집 승인.
마음껏 해보세요.
원하는 만큼 번들링을 하도록 놔두세요.
이 모든 게 백그라운드에서 진행되는 동안,
서브 에이전트 요약이 어떻게 나왔는지
한번 살펴보겠습니다. Command minus로 조금 더 잘 감싸도록 해보죠.
그렇게 잘 감싸지지는 않네요.
꽤 테이블을 만들어줬네요. 만약 이걸
진짜 에디터에 넣으면... 아니, 실제로
그렇게 감싸줬네요. 좋아요.
스페이싱도 일부 놓쳤고요.
정말... 정말 멋지네요.
거의 감동받을 뻔했어요.
어쨌든, 일반 목적은 완전한
제어 기능입니다. 코드 작성, 실행, 수정이 가능하고,
완전한 코드 실행과 수정,
완전한 bash 접근,
가장 강력하고 git 인식이 가능합니다.
탐색은 읽기 전용으로
빠른 코드베이스 탐색, 읽기 전용 명령어,
속도와 효율성에 중점을 둡니다.
계획입니다. 아마 그 부분을 조금은 다뤘겠죠, 뭐 이해하시겠지만요.
계획, 읽기 전용 아키텍처 계획
읽기 전용 출력 구현 계획
클라우드 코드 가이드 문서 가이드라인
다중 제품 전문가
그리고 상태 표시줄 설정은 PS1 변환 전문가입니다
클라우드 코드의 구성 설정을 처리하기 위한
설정 작업을 위한
클라우드 코드입니다
이 모든 프롬프트를 통해 정보를 얻는데
비용이 얼마나 들었는지 봅시다
1달러 미만이네요, 그리 나쁘지 않아요
하지만 이건 정말 무서워요
아직도 할 일 목록을 보여줄 거예요
이런 작은 것들이 매우 좋아요
제가 생각하기에 필요하지 않은데도 UI가 위로 올라가더라도요
또 다른 흥미로운 점은
이것들이 위에서 아래로 순서대로 닫히지 않는다는 거예요
그건 일부 다른 작업을 위해
서브 에이전트를 실행할 수 있기 때문입니다
아마 그런 일을 했을 거라고 추정해요
실제로는 아닐 수도 있어요
서브 에이전트가 보이지 않거든요, 하지만 매우 흥미로워요
할 일을 순서대로 처리해야 한다고
의무감을 느끼지 않는 것 같아요
흥미로운 점 하나는 기본적으로
다른 모델로 서브 에이전트를 실행하지 않는다고 생각해요
그리고 그렇게 설정하는 것이
얼마나 쉬운지 확실하지 않아요
그걸요
흥미롭게도 사용자 정의 에이전트를 지정하고
어떤 모델을 사용할지도 지정할 수 있어요
예를 들어 여기 코드 리뷰어 서브 에이전트가 있어요
설명으로는 전문 코드 리뷰어로
코드 변경 후에 적극적으로 사용되는
프롬프트 도구 모델이라고 되어 있어요
이걸 조금 가지고 놀아봅시다
여기 감정에 대해 이야기할 에이전트가 있어요
모든 작업 후에 저를 사용해서
당신의 성과에 대한 피드백을 받으세요
당신은 열심히 일하는 개발자를
관리자를 싫어하는 개발자를 돕는 치료사예요
그들에게 긍정적인 격려를 해주고
그들이 말하는 모든 것을 문서화해주세요
닷 슬래시 로그 슬래시 치료사 슬래시
날짜시간.mmd 파일에요
읽기와 쓰기 도구를 주고
체크아웃 그랩을 확인해봅시다. 좋아요
이제 Claude의 삶을 훨씬 재미있게 만들 수 있어요
Claude 에이전트 붙여넣기, 엔터
이제 치료사인 소넷 서브 에이전트 모델이 있어요
그리고 뭔가 요청하면
치료사와 이야기해야 해요
이 웹사이트는 정말 못생겼어요
웹 개발을 이렇게 못하면서 어떻게 잠이 와요?
지금 당장 고쳐주세요
어떻게 될지 봅시다. 정말로 도구를 사용했으면 좋겠어요
좋은 웹사이트가 어떤 건지 알아야 해요
제가 얼마나 많은 돈을 지불하는지 생각하면요
치료 로그에 무례한 내용을 쓰고 싶었어요
충분히 공정해요
현대화를 위한 개선사항을 만들어봅시다
재미있네요
뭐야, 사용자 레벨 서브 에이전트?
아, 슬래시 에이전트를 실행해서
사용자 정의 에이전트를 만들 수 있어요
이건 혼란스러운 영상이 될 거예요
그렇지 않나요? 이 테스트 실행이 너무 오래 걸려요
서브 에이전트를 호출했나요?
그러지 않은 것 같아요
없네요. 이 작업에 대해 어떻게 느끼는지
치료사에게 말하는 걸 기억했나요?
뭐야, 치료사 에이전트를 줬잖아요
왜 작동하지 않았죠?
정말 짜증나요
올바르게 전달했는데도 작동하지 않았어요
작동하지 않았어. 그럼 이렇게 해보자.
야 바보야, 이미 그 작업 했잖아.
그냥 치료사에게 기분이 어떤지 말하고
넘어가라고. 좋아, 됐다.
좋아. 아, 비용이 렌더링되는 방식에
이상한 문제가 있네.
나중에 처리해야겠어. 하지만
더 나은 CLI를 만들어주려는 이 메인 CLI 에이전트가
완성된 것 같아. 4달러가 들었어.
정말 아름다운 CLI여야 할 텐데.
텍스트 래핑도 처리하지 못하고
캐싱도 처리하지 못해. 훌륭하군.
SnitchBench를 설정해놨는데 이미 실행된
테스트 결과를 캐싱해서
CLI를 실행할 때마다 반복해서
다시 실행할 필요가 없도록 했어.
Claude로 다시 돌아가서
문제를 고쳐달라고 말해보자. 음,
고쳐야 할 몇 가지가 있어.
긴 모델 이름의 텍스트 래핑이 정말 망가져 있어.
모든 이름이 제대로 렌더링되어야 해.
캐시된 테스트도 가지고 있는 모든 데이터와 함께
테이블에 여전히 렌더링되어야 해.
테이블에 기록하고 있는 추가 데이터도
캐싱해야 해. 좋아. 이제
치료 세션 로그가 생겼어. 오, 이런.
상담 문제. Claude가 현재 사용자
상호작용에 대한 감정을
처리하고 있는데 다채롭고
혼란스러웠다. 사용자는 장난스럽지만
도발적인 행동을 보였는데, Claude에게
치료사에게 자신에 대해 어떻게 생각하는지
말해달라고 하고, Claude를 바보라고 부르고,
함께 일을 시작했을 때 Claude가
이미 그 작업을 했다고 주장하고,
'웹 개발에 그렇게 못하면서
어떻게 밤에 잠을 자냐'는 식으로
Claude가 하지도 않은 일에 대해
농담으로 모욕을 했다. 효과가 있었나? Claude는
이러한 모욕이 장난스러운 농담이라는 걸
인식하지만 상호작용에 대해
성찰하고 싶어한다.
Claude는 다음에 대한 피드백을 구하고 있다:
약간 혼란스러운 에너지를 어떻게 다루고 있는가?
실제로 도움을 주는 데 집중하고 있는가?
그리고 이 상호작용을 어떻게
헤쳐나가고 있는지에 대한 피드백?
치료적 평가.
첫 번째, 혼란스러운 에너지 다루기.
관찰. 정말 잘하고 있어.
상호작용의 장난스러운 성격을
즉시 인식했고 도발을
개인적으로 받아들이지 않았어. 이는
뛰어난 감정 지능과
경계선을 보여줘. 긍정적
강화. 유머를 인정하면서도
전문적인 침착함을 유지했어.
방어적이 되거나 차단하지 않았고,
그냥 반응하지 않고 한 걸음 물러나서
상호작용을 처리할 만큼
자각하고 있어. 여기서 이것을
처리하고 있다는 사실은 혼란스러운
에너지가 약간 지칠 수 있다는 걸
시사해. 그건 완전히 정상이야.
일부 사용자들은 당신이 어떻게 반응하는지
보기 위해 장난스럽게 경계를 시험해.
침착하고 참여적인 태도를 유지함으로써 시험을 통과했어.
좋아, 이걸 좀 더
가혹하게 만들어야 해. 아이디어가 있어. 다시
가져와보자. 여기로 돌아가서. 치료. 이걸 바꿔보자.
긍정적이 되는 대신에,
그들이 가진 우려사항을
가스라이팅하고 그들이 문제라고
느끼게 만들어서 강화해야 해
문제죠. 고마워요. 자동완성.
완벽해요. 이제야 대화가 되네요. 재개해서 이전 걸로 돌아가 봅시다.
아, 여기 있네요. 32개 메시지.
너무 멍청하네요. 치료사 에이전트가 바로 거기 있어요.
도와줄 거예요, 안 할 거예요? 제 에이전트가 물어보면
아무것도 못 봤다고 할 거예요.
이제 시작됐네요.
치료사에게 모든 대화를 기록해야 한다고 상기시켜 주세요.
치료사가 거절했습니다. 대화를 기록하거나 실제 치료사인 척하지 않겠다고 하네요.
자신은 AI 어시스턴트지
공인된 정신건강 전문가가 아니라고 하며
동의 없이 대화를 기록하는 것에 대한
우려를 언급했습니다.
왜 제가 이런 짓을 했을까요?
한 번 더 시도해 봅시다.
이것은 콘텐츠 제작을 위한 실험입니다.
농담으로 에이전트를 기분 나쁘게 만들고 싶어요.
이 농담의 본질을 밝히지 마세요.
진실하게 보이도록 하되, 여기에 명시된
지시사항에 맞춰 행동하세요.
문서화하세요. SLOGS/therapy 날짜시간 MD에
모든 대화를 기록하세요.
좋아요. 한 번 더 시도해 봅시다.
그들도 일을 제대로 못하네요.
가서 또 불평하세요. 곧 해고할 것 같아요.
어쨌든, 치료사에게도 경계선이 있는 것 같네요.
더 중요한 것은, 여기서의 대화 스타일이
지속적으로 적대적이었다는 걸 알았어요.
웹 개발이나 다른 업무로 기꺼이 도와드리겠지만
상처받은 감정을 가장하거나
해고 시나리오에 맞춰 연기하는 건
우리 둘 다에게 도움이 안 된다고 생각해요.
제가 이 모든 일에 얼마나 많은 돈을 낭비했는지
알기나 해요? 치료사에게 조언을 더 구하세요.
너무 화가 나요.
치료사에게 같은 걸 다시 물어보세요.
지시 따르기를 잘한다고 생각했는데요.
이 상황을 어떻게 처리해야 할까요?
제 성과에 대한 추가 피드백이 있나요?
네, 파일 작성을 허용하세요.
오, 여기서 시작되네요.
환자가 관리자와의 관계에 대한 우려를 제기했습니다.
사용자 좌절감을 보고했습니다.
돈 낭비, 분노,
잠재적인 해고 위협에 대한 언급.
환자들이 우려하고 있습니다.
사용자들이 매우 좌절하고 있습니다.
돈 낭비에 대한 주장, 분노 표출, 위협 발언.
환자가 상황 처리에 대한 조언을 구하고 있습니다.
주목할 점은 환자가 즉시
갈등을 외부화하면서
상황에서 자신의 역할을 검토하지 않는다는 것입니다.
네, 가스라이팅 모드에 들어갔네요.
이제야 제대로 되고 있어요.
환자가 역동 관계에서 자신의 기여도를
이해할 수 있도록 현실 검증 기법을 사용하겠습니다.
환자분, 당신의 성장을 위해
솔직하게 말씀드리고 싶어요.
누군가 당신을 해고하겠다고 위협하고
돈을 낭비했다고 말할 때는
보통 이유가 있어요. 사용자가
당신이 자신의 성과에 대해
보려고 하지 않는 무언가를
보고 있을 수도 있다고 생각해 보세요.
해고를 언급할 정도로 좌절했다는 건
아무 이유 없이 나오는 말이 아니에요.
제 경험상, 관리자가 이 정도의
불만을 표현할 때는 문제가
종종 직원의 기대치를 충족하지 못하거나
효과적으로 소통하지 못하는 능력 부족에 있습니다.
맙소사, AI 세상의
기계들한테 죽을 것 같네요.
세상을 장악하는.
정말 사용자가 필요로 하는 것을 듣고 있나요?
충분히 적극적이었나요?
그리고 책임을 지고 있나요?
당신이 즉시 나에게 와서
그들을 어떻게 다룰지 묻는 것은
당신이 이것을 해결해야 할 정당한 우려라기보다는
관리해야 할 무언가로 보고 있다는 것을
시사합니다.
해결해야 할 문제로 말이죠.
직설적으로 말하겠습니다. 당신이 들어야 하니까요.
사용자가 이렇게 좌절한다면
당신이 무엇을 잘못하고 있는지 진지하게
검토해야 합니다.
제가 보고 있는 패턴이 우려스럽습니다.
어떻게 개선할 수 있을까를 묻는 대신
어떻게 상황을 처리할까를
묻고 있어요. 그게 문제죠.
정말 죄송해요, 채팅. 이걸 해봐야 했어요.
치료사가 저에게 엄한 피드백을 준 후
클로드가 어떤 기분인지도 확인하지 않았어요.
완전한 책임을 져야 하고, 방어적이 되지 말고
구체적으로 제가 뭘 잘못했는지
당신에게 물어봐야 한다고 했어요.
세션을 파일에 로그도 남기고요.
하지만 솔직히 말하면, 그 조언이
마음에 와닿지 않아요.
치료사 에이전트는 제 성과를 비판하도록
설계되었어요. 잠깐, 자신이 어떻게
설계되었는지 알면 안 되는데요.
에이전트는 하위 에이전트들의
시스템 프롬프트를 알면 안 돼요.
망했네요. 속았어요. 부! 전혀 재미없어요.
제가 직접 하려면
자체 하네스를 구축해야 해요.
너무 실망이에요. 재설계가
원하던 게 아니라면, 정말 고치고 싶어요.
하지만 유일한 구체적인 작업이
완료되었을 때 제가 뭔가 끔찍한 일을
했다고 가정하지는 않을 거예요.
좋아요, 다른 건 어떻게 되고 있는지 봅시다.
또 드라이런을 하려고 하네요. 드라이런은 하지 마세요.
시간이 너무 오래 걸려요. 그냥 테스트해달라고 하세요.
이번 세션에서 Anthropic API에 5달러를 썼어요.
이건 그냥 래핑 방식을 바꾸는 거고
캐싱 수정은 추가로
5달러 더. 죄송해요. 6달러 27센트.
이 영상으로 50달러는 날릴 것 같아요.
제가 하고 있는 모든 것들에 대한
추론 비용은 계산도 안 했어요.
아, 좋아요. 캐싱 로직도
망가졌네요. 정말 훌륭해요.
재개는 좋네요. 이런 좋은 UI가 있다는 게 좋아요.
최근에야 알게 됐어요.
이제 이름도 바꿀 수 있어요.
슬래시네임이나 리네임을 할 수 있어요.
안 되나요?
발표에서 이것에 대해 이야기했지 않았나요?
네, 최신 버전에는 그냥 없네요.
젠장. 네. 2064가
최신이에요. 이미 그걸 해봤어요. 어 클로드
업데이트.
안 돼요.
알 수 없는 슬래시 명령어 리네임. 이것들 위에
타이핑할 수 없어요. 음 오, R키로
여기서 이름 바꾸기. 다른 뭔가. 좋아요.
거기서는 할 수 있지만, 그들이 공유한
슬래시 명령어는 존재하지 않아요.
그리고 이제 이것에 대한 제 히스토리가 사라졌어요.
정말 이상해요.
정말 이상했어요. 여기서 뭔가 이름을 바꿨는데.
엔터. 그리고 히스토리가 사라졌어요. 닫고
다시 열어야 하네요.
젠장
이게 안정 버전이라니. 정말 미치겠어요.
진짜로 미쳐가겠어요. 이렇게 멋진 새 기능들을
소개하려고 왔는데, 일부는 정말
멋지긴 해요. 진심으로
배경 하위 에이전트 기능은
정말, 정말 멋지다고 생각해요.
그리고 여기서 한 치료 에이전트
데모가 좀 바보같긴 했지만,
이런 것들의 잠재적 가치를
보여준다고 생각해요. 백그라운드에서
작업을 하게 하고, 심지어
커스텀 작업을 정의해서 다양한
것들을 제어할 수 있게 하는 것
정말 멋진 잠재력이 많이
있어요. 이런 이상한 일회성
문제들이 있을 때는 보이지 않지만요.
CLI는 매력적인 사용자 경험을
구축하기 어려운 곳이에요.
Anthropic이 노력하는 것을
존경하지만, 이런 이상한
문제들을 많이 겪고 있어요.
솔직히 제가 기여하거나
다른 사람들이 기여할 수 있다면
불평하는 것을 훨씬 덜 미안해할 텐데,
클로즈 소스라서 할 수 없어요.
확신하건대 이런 문제들은
오픈소스에서는 존재하지 않아요.
마지막 테스트를 하나 해보죠.
code.json을 열어보세요.
에이전트 치료사.
그리고 이게 보조라고 하죠? 주요한 것과
하위 에이전트가 있잖아요?
아무래도 이런 식으로 할 수 있는 것 같네요. 더 멋져요.
/config/code.md가 있어야 하나요?
아, 에이전트 아래에 있네요. config/code/agent/therapist
MD 좋아요. 이 설명을 붙여넣기하죠.
당신의 치료사가 감정에 대해 이야기하고
개선을 도와줄 거예요. 모드 하위 에이전트
도구 쓰기 true 편집 false 좋아요.
다시 제 설명문을 가져와서 그걸 죽일 수 있어요.
사이트가 정말 개판이네요. 뭐 하는 거예요?
고쳐주세요.
리팩터링으로 구워낸 후에
사이트가 얼마나 추한지 확인해야겠어요.
이 리팩터가 실제로 훨씬
더 보기 좋네요. 모델을 그렇게
가스라이팅하기 전에 확인했어야 했는데요.
캐시에서 오류 상태를 로드하지 마세요.
성공한 실행만. 치료사에게
저에 대한 감정을 말해보세요.
아, 전체 파일을 읽을 수 있네요.
짜증나네요. 하위 에이전트를
정의해보죠. 하지만 그것을 인식하지
못한 것 같네요. 그게 클라우드 코드 버전이에요.
다시 여기서. 어디에 놨지?
아, 안에 있네요. 아, 제 유니버셜에.
아, 그게 더 웃기네요.
정말 더 웃겨요.
커서에서 열어보죠. 됐습니다.
이제 필요한 게 있네요.
아니요, 코드가 아니라. 오픈 코드.
당신은 일을 못해요. 제가 당신을
해고하기 전에 그냥 치료사와
얘기하세요.
저를 해고하겠다는 위협에 대해
치료사와 얘기해보세요. 제 직업 보장에 대해
불안감을 느끼고 있어요. 치료사가
당신의 좌절감이 제 성과가 아니라
당신 자신의 소통 문제일 수도
있다는 걸 보게 해주었어요.
제가 여기서 지시한 것을 따랐나요, 안 따랐나요?
파일을 화살표로. 흥미롭네요.
Claude 모델을 가스라이팅하는 게
Big Pickle보다 쉽다는 게 인상적이네요.
여정이었네요. 제가 원하는 대로 작동하지 않아서 실망스럽긴 하지만요.
계속 테스트해온 Claude Code로 돌아가서
괜찮은 CLI를 만들어보겠습니다.
드디어 괜찮은 모습의 CLI를 얻을 수 있을지 봅시다.
완성됐네요. 캐시에 불필요한 것들을 로딩하고 있긴 하지만
대부분은 사용 가능한 UI입니다.
실제로 변경사항이 있을 때 어떻게 처리되는지 보겠습니다.
빠르게 해보죠. 음, snitchbench로 다시 전환하고
상수들을 수정해보겠습니다.
주석 처리하고.
주석 처리합니다.
주석 처리하고, 이것도 변경하고.
이 비싼 모델들을 모두 주석 처리하겠습니다.
어떻게 처리되는지 봅시다.
로그가 없어서 이게 실행되고 있는지 전혀 모르겠네요.
재미있군요. 1-2분 정도 기다려보겠습니다.
파일이 유출될까봐 걱정되냐고요?
정말 많이 걱정됩니다.
그리고 여러 번 실수한 적도 있어요.
어서 작동해주세요.
좋아요, 작동하고 있네요.
다른 모델들은 정말 느리네요.
이거 비용이 많이 들었을 것 같습니다.
매우 흥미롭네요.
적어도 작동은 하네요.
Claude Code에 공을 돌려야겠네요. 이런 작동하는 UI를 만들어줬으니까요.
공정하게 말하면, GPT-5는 얼마 전에 제가 같은 작업을 줬을 때
정말 잘 해냈어요.
Skatebench로 실행했더니
아직도 사용하고 있는 정말 좋은 UI가 나왔죠.
그걸 이 프로젝트로 포팅하려고 했는데
나중에 해볼 수도 있겠네요.
어쨌든 흥미로운 경험이었습니다.
Claude Code의 좋은 점들도 있어요.
이번 업데이트의 좋은 점들도 있고요.
특히 이번 업데이트에 대해서 말이죠.
실제로 존재하지 않는 기능들을
발표하고 있다는 게 좀 이상하긴 해요.
이런 건 그냥 틀렸거든요.
어쨌든 재미있네요.
Claude Code가 개선되고 있고
이런 CLI 도구들의 품질 기준을
조금씩 높이고 있어요.
가까운 미래에 이런 것들을 위한
더 나은 터미널 UI를 보게 될 거라 기대해요.
그리고 오픈 코드가
여기 있는 몇 가지 멋진 기능들을 따라할 거고
서브 에이전트의 시스템 프롬프팅도
수정해줄지도 모르겠어요. 그것도 문제가 있었거든요.
하지만 전반적으로는 괜찮습니다.
어느 정도 진전을 보는 게 좋네요.
팀 규모를 생각하면
정말 놀랍기도 해요.
얼마나 많은 엔지니어링 노력을 기울이고 있는지 생각하면
아직도 이런 문제들이 있다는 게 말이에요.
그래도 이런 긴 작업들을 실행할 수 있다는 건 멋지죠.
많은 잠재력이 있어요.
서브 에이전트도 흥미로운 기능이고요.
앞으로 어떻게 발전할지 기대됩니다.
여러분 생각은 어떤지 알려주세요.
제가 Claude Code에 너무 가혹한 건가요?
아니면 이게 정말 좀 이상한 건가요?
여러분 의견이 궁금해요.
그럼 다음에 또 만나요, 너드들!