이 제미니 트릭이 마침내 RAG를 대체할 수 있을까?

Prompt Engineering 구독자 190,000명

요약

이 영상은 LLM API 사용 비용을 최대 90%까지 절감할 수 있는 ‘컨텍스트 캐싱(context caching)’ 개념을 소개하고, Retrieval Augmented Generation(RAG)의 대안으로 활용할 수 있음을 설명합니다. 구글, Anthropic, OpenAI 등 주요 API 제공사의 캐싱 기능을 비교하며, 특히 구글의 구현체를 활용한 단계별 데모와 비용 구조 분석을 통해 효과를 검증합니다. PDF 스캔 문서 예제와 GitHub 저장소를 캐싱해 MCPS 서버를 생성하는 인컨텍스트 학습 사례를 통해 실제 적용 방법을 제시하며, 캐시 관리 함수(list, update, delete) 등 실용 팁을 공유합니다. 이를 통해 LLM 기반 시스템 개발 시 비용과 지연시간을 줄이면서도 높은 성능을 유지하는 전략을 제시합니다.

주요 키워드

context caching RAG vector stores TTL tokens in-context learning multimodal MCPS Git Ingest cost reduction

하이라이트

🔑 컨텍스트 캐싱은 LLM API 호출 비용을 최대 75~90%까지 줄일 수 있는 강력한 방법이다.
⚡️ 소규모 문서엔 RAG 대신 컨텍스트 캐싱을 사용해 벡터 스토어 오버헤드를 피할 수 있다.
🌟 구글은 초기 32,000토큰 캐시 지원에서 4,000토큰으로 낮춰 접근성을 크게 향상했다.
📌 캐시된 토큰과 비캐시 토큰 모두 투명하게 동일 처리돼 성능과 비용을 동시에 최적화한다.
🚀 TTL(Time to Live) 설정으로 캐시 유지기간을 유연하게 조정하거나 세션 종료 후 자동 삭제할 수 있다.
🔍 PDF 스캔 문서를 멀티모달로 캐싱해 600페이지 분량 내용을 단시간에 요약할 수 있다.
🛠 GitHub 저장소를 Markdown으로 변환 후 캐싱해 MCPS 서버 생성 같은 인컨텍스트 학습에 활용 가능하다.
💡 캐시 목록 조회, TTL 업데이트, 캐시 삭제 기능으로 실시간 세션 관리와 비용 최적화가 수월해진다.

용어 설명

컨텍스트 캐싱(context caching)

LLM에 전달되는 컨텍스트를 저장해 반복 호출 시 재사용하는 기법

RAG(Retrieval Augmented Generation)

검색(리트리벌) 결과를 결합해 생성 모델 성능을 높이는 방식

벡터 스토어(vector store)

문서 임베딩을 저장하고 검색하는 데이터 저장소

TTL(Time to Live)

캐시가 자동 삭제되기 전 유지되는 시간 설정

인컨텍스트 학습(in-context learning)

모델 입력에 문서나 사례를 제공해 추가 학습 없이 문맥 기반 답변을 유도하는 방식

[00:00:00] 컨텍스트 캐싱 소개

LLM API 비용 급증 문제를 언급합니다. 컨텍스트 캐싱 개념과 이점을 소개합니다.

[00:01:06] Google 캐싱 구현 시작하기

Google의 컨텍스트 캐싱 구현 과정을 안내합니다. API 사용법 및 제어 옵션을 설명합니다.

[00:03:04] 비용 절감 효과 분석

캐시 활용 시 75~90% 비용 절감 수치를 제시합니다. 토큰 요금 구조와 저장 비용을 분석합니다.

[00:04:14] PDF 예제 데모

PDF 스캔 문서를 캐싱하고 요약하는 데모를 보여줍니다. 멀티모달 처리 가능성을 확인합니다.

[04:14] 컨텍스트 캐싱의 작동 방식을 설명하고, MCPS 파이썬 패키지 문서를 활용한 실제 예제를 살펴볼 예정입니다.

[04:34] Google Generative AI 패키지를 설치하고 필요한 패키지를 임포트하여 Gemini 클라이언트를 설정합니다.

[04:46] 600페이지 분량의 스캔된 비행 계획 문서를 Gemini의 멀티모달 기능을 통해 처리합니다.

[05:25] Gemini 2.0 플래시를 사용하여 캐시를 생성하고 시스템 지시사항과 문서 내용을 설정합니다.

[06:05] API 키 오류를 수정하고 캐시 생성 과정을 다시 실행합니다.

[06:40] 약 16만 개의 토큰이 저장된 캐시가 생성되어 Gemini API를 통해 상호작용할 수 있게 되었습니다.

[07:08] 캐시 구성과 사용자 요청 처리 방식에 대해 설명합니다. 여러 캐시를 동시에 사용할 수 있으며, 간단한 설정만으로 작동합니다.

[07:18] 모델의 메타데이터를 분석하여 처리된 토큰의 수와 캐시 작동 방식을 상세히 설명합니다. 총 16만 개의 토큰이 처리되었습니다.

[08:20] 문맥 학습을 위한 캐싱의 주요 기능들을 소개합니다. 캐시 목록 조회, 업데이트, 삭제 등의 기능이 포함됩니다.

[00:08:39] 캐시 관리 함수

캐시 목록 조회, 기간 설정, 삭제 방법을 다룹니다. 실시간 세션 관리 팁을 제공합니다.

[00:09:18] MCPS 인컨텍스트 학습 사례

GitHub repo 캐싱 후 MCPS 서버 생성 과정을 설명합니다. 코드 변환 및 서버 구축 사례를 다룹니다.

[10:07] git-ingest 패키지 설치와 사용법을 설명합니다. GitHub 저장소를 LLM이 읽을 수 있는 마크다운 형식으로 변환하는 기능을 소개합니다.

[10:47] GitHub 레포지토리의 파일들을 선택적으로 포함/제외하여 단일 파일로 생성하고, 이를 LLM에 입력하여 전체 컨텍스트를 활용할 수 있는 기능 소개

[11:12] Gemini 2.5 Pro 모델을 사용한 FastAPI GitHub 레포지토리 기반 API 서버 생성 프로젝트 설정 설명

[11:50] 시스템 지시사항 설정: FastAPI GitHub 레포지토리 컨텍스트를 활용한 코딩 어시스턴트 역할 정의

[12:15] 레포지토리에서 JSON, CSS, JS 등 불필요한 파일들을 제외하고 필요한 파일만 선택적으로 가져오는 과정 설명

[12:53] 캐시 생성 과정과 300초의 유효 시간 설정, 그리고 15만 4천 개의 토큰이 캐시되어 75% 비용 절감 효과 설명

[13:34] 캐시된 컨텐츠를 활용한 API 서버 구축 예시와 토큰 사용량 분석: 캐시된 토큰과 캐시되지 않은 토큰의 구분

[14:28] 컨텍스트 캐싱을 통해 대부분의 토큰이 캐시되어 있어 비용이 크게 절감됨을 설명합니다.

[14:41] MCP 서버의 예시를 통해 특정 디렉토리 내 파일 읽기/쓰기 기능 구현을 설명합니다.

[15:15] Gemini가 캐시된 콘텐츠를 바탕으로 MCP 구현 방법을 제시할 수 있음을 보여줍니다.

[00:15:43] 결론 및 비교

컨텍스트 캐싱의 중요성을 재강조합니다. OpenAI, Anthropic과의 차별점을 요약합니다.