안녕, RAG? 구글이 드디어 쓸만한 것을 출시하다!

채널 아이콘
SullyOmar 구독자 2,830명

요약

영상은 구글의 최신 AI 모델인 Gemini 2.0 Flash의 등장을 알리며, 기존에 널리 쓰였던 RAG(정보 검색 보강 생성) 기법이 이제는 구식이 될 수 있음을 주장한다. 화자는 RAG의 기본 개념과 기존 기법의 한계를 설명하며, 새로운 대용량 토큰 처리와 병렬 처리 전략을 통해 훨씬 더 효율적인 데이터 처리 방법을 제시한다. 또한, 실제 사례(예: 대용량 Earnings Call transcript 처리)를 들어 왜 단순 임베딩과 청크화 방식이 한계가 있는지 상세히 논의한다. 마지막에는 AI 제품 개발자와 분석가들에게 간결하면서도 효과적인 방법을 사용할 것을 권장합니다.

주요 키워드

Gemini 2.0 Flash RAG 임베딩 토큰 한계 컨텍스트 윈도우 청크화 벡터 데이터베이스 병렬 처리 AI 모델 Hallucination

하이라이트

  • 🔑 구글의 Gemini 2.0 Flash 모델 출시와 가격 대비 성능의 우수함을 강조함.
  • ⚡️ RAG(검색 보강 생성) 기법의 기본 개념과 한계를 상세히 설명함.
  • 🌟 기존 방식인 문서 청크화와 임베딩 과정이 복잡하며, 대용량 데이터의 추론에는 부적합함을 지적함.
  • 🚀 병렬 처리를 활용해 여러 문서를 동시에 분석함으로써, AI 모델의 응답 정확도를 높이는 방법을 소개함.
  • 📌 향후 AI 제품 개발 및 분석 시 단순하지만 효과적인 접근법을 사용할 것을 권장함.

용어 설명

RAG

Retrieval Augmented Generation의 약어로, 외부 자료를 검색해 언어 모델의 답변에 보강하는 기법을 의미함.

임베딩(Embedding)

텍스트를 수치화하여 벡터로 변환하는 기법으로, 문서 간 유사도 측정에 사용됨.

벡터 데이터베이스

임베딩된 데이터를 저장 및 검색하는 시스템으로, 문서 청크의 유사도를 빠르게 찾기 위해 사용됨.

토큰 한계(Token Limit)

AI 모델이 한 번에 처리할 수 있는 텍스트의 최대 토큰 수를 의미하며, 과거에는 작았으나 최신 모델은 매우 큼.

컨텍스트 윈도우(Context Window)

모델이 한 번에 참고할 수 있는 텍스트 영역을 의미하며, Gemini 모델은 대용량 컨텍스트 윈도우를 제공함.

청크화(Chunking)

대용량 문서를 작고 의미 있는 단위로 분할하는 기법으로, 기존 RAG에서 주로 사용됨.

[00:00:00] 소개 및 배경

구글이 Gemini 2.0 Flash를 출시하며, 가격 대비 우수한 성능을 소개함. RAG 기법에 대한 논쟁의 시작점을 제시함.

구글이 Gemini 2.0 Flash를 출시했으며, 이는 현재 최고의 가성비 모델로 평가받고 있습니다.
RAG의 필요성에 대한 포스팅으로 인한 오해를 해소하고, 새로운 AI 모델이 가져올 변화를 설명하겠다고 소개합니다.
[00:00:28] RAG 기법의 기본 개념

RAG(검색 보강 생성)의 정의 및 활용 방식을 설명함. 임베딩, 청크화, 벡터 데이터베이스 등 기법의 세부 메커니즘을 다룸.

RAG(Retrieval Augmented Generation)의 기본 개념과 ChatGPT, Perplexity 등에서의 활용 사례를 설명합니다.
컨텍스트 윈도우의 개념과 2023년의 4,000 토큰 제한에 대해 설명합니다.
전통적인 RAG 시스템에서의 임베딩, 벡터 데이터베이스 저장, 청킹 과정을 상세히 설명합니다.
Gemini 2.0의 100만-200만 토큰 처리 능력과 이전 모델과의 큰 차이점을 비교 설명합니다.
Gemini 2.0의 성능이 크게 향상되어 이전 모델의 6페이지 분량에서 현재는 백만 개 이상의 토큰을 처리할 수 있으며, 높은 정확도를 유지합니다.
Gemini의 최신 모델은 가장 낮은 환각(허구 정보 생성) 비율을 보여주며, 2023년 모델들과 비교했을 때 큰 발전이 있었습니다.
[00:03:12] 기존 RAG의 한계와 문제점

과거 4,000토큰 제한 등의 문제로 기존 RAG가 한계를 보였음을 지적함. 단편적 정보 청크화가 복잡한 추론에 부적합함을 설명함.

전통적인 RAG 방식(문서를 작은 청크로 나누는 방식)이 더 이상 필요하지 않으며, 20줄 정도의 간단한 코드로 PDF 링크만으로도 처리가 가능해졌습니다.
실적 보고서와 같은 긴 음성 통화 기록(약 5만 토큰)을 예로 들어, 기존의 청킹 방식에 대해 설명합니다.
현재 RAG의 주요 문제점은 청킹과 임베딩 과정에서 정보를 효과적으로 추론할 수 없다는 것입니다.
애널리스트가 전사본을 분석할 때 단순한 수치 검색보다는 복잡한 분석이 필요하다는 점을 설명합니다.
실적 전망이나 투자 가치와 같은 복잡한 질문에는 전체적인 문맥 이해가 필요함을 강조합니다.
전통적인 RAG 방식의 한계점을 설명하고, 단순한 청크 매칭으로는 복잡한 분석이 불가능함을 지적합니다.
[00:07:00] 병렬 처리 및 새로운 접근법

대용량 문서를 병렬로 처리하는 새로운 전략을 소개함. Gemini 모델의 대용량 컨텍스트 윈도우를 활용한 효과적인 분석법과 추천 방안을 제시함.

Gemini의 강력한 추론 능력을 설명하며, 50,000 토큰을 처리하며 전체적인 맥락을 이해할 수 있다고 강조합니다.
구글 AI 스튜디오의 실용적인 활용법을 소개하고, 문서 분석에 있어 새로운 접근 방식을 제안합니다.
넓은 의미의 RAG는 여전히 유효하며, 특정 사용 사례에 대한 설명을 시작합니다.
대량의 문서(10만 개)를 처리할 때의 접근 방식에 대해 설명. 실적 발표, 기업 자료 등 다양한 문서가 있는 상황을 예시로 듦.
대량 문서 처리시 단순 검색 시스템을 활용하여 관련 문서를 먼저 찾는 것이 효율적임을 설명.
새로운 접근 방식으로 병렬 처리 기법 소개. 선별된 문서들을 Google Gemini에 개별적으로 보내는 방식 제안.
기존의 청킹 방식 대신 AI 모델의 저렴한 비용을 활용한 병렬 처리 방식의 장점 설명.
맵리듀스와 유사한 이 방식이 관련 정보를 효과적으로 필터링하고 처리하는 방법임을 정리.
전통적인 RAG 시스템의 한계점을 설명하며, 문서를 병렬로 처리하고 AI에 전달하는 새로운 접근 방식을 소개합니다.
구글의 새로운 모델은 비용이 저렴하면서도 환각 현상이 적고 정보 검색 능력이 뛰어나다는 장점이 있습니다.
RAG 시스템 구축 시 단순하게 시작하고 필요할 때만 복잡성을 추가하는 것을 권장합니다.
전통적인 RAG의 한계를 지적하며, 모든 데이터를 종합적으로 분석하여 충분한 답변을 제공하기 어렵다는 점을 설명합니다.
구글이 최신 모델을 출시했는데요,
Gemini 2.0 Flash입니다.
현재 사용할 수 있는 모델 중에서
가성비가 가장 좋습니다.
제가 RAG가 더 이상 필요하지 않을 수 있다고
포스팅을 했더니 많은 분들이
제 의도를 오해하시고 화를 내셨습니다.
이 영상에서는
제가 정확히 무슨 의미였는지 설명하고
전통적인 의미의 RAG가
왜 더 이상 필요하지 않다고 생각하는지,
이 새로운 AI 모델들이
AI 제품 개발 방식을 어떻게 바꿀 수 있는지,
그리고 이것이
개발자나 AI 입문자들에게
어떤 의미인지 설명하겠습니다.
먼저 RAG에 대해 모르시는 분들을 위해
간단히 설명하겠습니다.
RAG는 검색 증강 생성
(Retrieval Augmented Generation)의 약자로
ChatGPT 같은 LLM이
학습 데이터에 없는
정보를 가져올 수 있도록
도와주는 일반적인 기술입니다.
Perplexity 같은 기업들이
웹 검색할 때 질문을 보강하거나
ChatGPT에서
프로젝트에 파일을 추가할 때
이 기술이 사용됩니다.
이때 뒤에서 일어나는 중요한 개념이
컨텍스트 윈도우입니다.
컨텍스트 윈도우는
AI가 처리할 수 있는
텍스트의 최대 양을 의미합니다.
AI 시간으로는 엄청나게 긴 2년 전인
2023년에는 토큰 제한이 매우 작았습니다.
2023년 초를 보면
토큰 제한이 4,000개였습니다.
당시에는 RAG가 매우 중요했죠.
일반적인 기법으로
정보를 가져와서
임베딩을 만들고
벡터 데이터베이스에 저장했습니다.
대량의 텍스트나
파일, PDF가 있으면
청킹이라는 중요한 과정을 거쳤는데,
이는 텍스트를
작은 조각으로 나누는 것입니다.
대략 한 단락 정도의
크기로
256에서 512 토큰 정도입니다.
이 텍스트를 가져와서
임베딩으로 변환하고
벡터 데이터베이스에
저장했습니다. 사용자가
질문을 하면, 그 질문을 가지고
가장 관련성 있는
작은 정보 조각들을 찾아
언어 모델에 전달해
답변을 생성하도록 했습니다.
하지만 Gemini 2.0처럼
대규모 컨텍스트를 가진
모델은 100만, 200만 토큰을 처리할 수 있어서
모든 정보를 한 번에 제공하고
사용자가 답변을 얻을 수 있습니다.
이 차이를 이해하는 게 중요한데,
예전에는 4,000 토큰이었지만
지금은 토큰 제한이
매우 커졌습니다.
Gemini는 100만 토큰을 처리할 수 있고
일부 모델은 200만 토큰까지
처리할 수 있습니다.
이 차트를 보시면
GPT-3.5는 4,000 토큰이었는데
토큰은 약 6페이지 분량이었지만,
현재는 Gemini 2.0에
백만 개가 넘는 토큰을 입력할 수 있는데, 이는 엄청난 양의
텍스트이며 여전히 상당히
정확합니다. 여기를 보시면
이것이 환각 비율입니다.
모르시는 분들을 위해 설명하자면,
환각은 AI 모델이
거짓 정보를 만들어낼 가능성을 의미하는데,
Gemini의 최신 모델, 즉 Google의 최신
모델이 가장 낮은 환각
비율을 보여줍니다. 이러한 모델들은
2023년과 비교했을 때
매우 다릅니다. 제가 이 글을 작성했을 때
RAG가 죽었다고 한 것은 전통적인
방식, 즉 하나의 문서를 가져와서
작은 청크로 나누는 것이
더 이상 필요하지 않다는 의미입니다. 코드를 보면
요즘은 약 20줄의 코드면 됩니다.
ChatGPT를 사용해보셨거나
Cursor나 Sonic과 같은 도구를 사용해보셨다면,
코딩이 가능하며, 정말 좋은 점은
PDF 링크만 제공하면 된다는 것입니다.
임베딩 과정을 거치지 않아도 되므로
훨씬 더 쉬워졌습니다. 하지만
다루고 싶은 세부사항이 많이 있습니다.
이제 RAG에 대해 이해했으니
제가 왜 RAG가 '인용구로' 죽었다고 했는지
설명해드리겠습니다.
그리고 모델에 직접 컨텍스트를 제공해야 할 때와
그렇지 않을 때에 대한 명확한 사례를
몇 가지 알려드리겠습니다.
예를 들어, 음성 통화 기록의
시나리오를 살펴보겠습니다.
아주 긴 통화 기록이 있다고 가정해보죠.
매우 긴 기록인데,
예를 들어 실적 보고서라고 합시다.
실적 보고서에는
많은 내용이 담겨있죠.
CEO가 말하는 내용들,
예를 들어 특정 재무상태나
회계연도의 실적, 사용한
기술 등 많은 내용을 다룹니다.
보통 한 시간 정도 길이이고,
간단히 말해서
약 5만 개의
토큰이라고 가정해보겠습니다.
즉, 5만 토큰의 실적 발표 통화 기록이 있는 거죠.
많은 사람들이 하는 방식은
'와, 이걸
더 작은 조각으로 나누고 싶어'라고 생각하는 것입니다.
예를 들어
작은 조각들로 나누려고 할 때
한 조각당 512 토큰 정도로
나누는 거죠. 실제로 다양한
청킹 기술들이 있는데,
지금은 자세히 다루지 않겠습니다.
간단히 말해서
우리가 이 실적 발표를 가지고
이렇게 한다고 치면
우리는 이것을 가져와서
여러 개의 청크로 나눕니다.
약 100개 정도의
청크가 될 것입니다. 이런
시나리오에서 발생하는 문제,
단순한 청킹과 RAG에서
실제로 발생하는 문제는
내용을 추론할 수 없다는 것입니다. RAG에는
두 가지 주요 요소가 있는데, 사실과 정보를 찾을 수 있는가와
데이터를 추론할 수 있는가 입니다.
오늘날 RAG의 문제점은
청킹을 하고
임베딩을 할 때 정보를 추론할 수 없다는 것이며,
이 예시가 바로 그것을 보여줍니다.
이것이 완벽한 사용 사례인데, 예를 들어
내가 애널리스트이고 이 전사본을
분석하고 싶을 때, 만약 매우 구체적인
사실에 대해 질문한다면, 예를 들어
순수익이 얼마였는지 같은 질문은
찾기 쉬운 숫자죠. 사람이라면
Ctrl+F로 검색해서
revenue를 찾아보면 아마
빠르게 찾을 수 있을 겁니다. 이건 그다지
가치 있는 일이 아니죠. 2년 전에는
의미가 있었을지 모르지만 지금은 아닙니다.
대신 '그들의 실적 전망이 어떻게
다른 것과 비교되는지' 같은
질문을 할 수 있죠. 매우
복잡한 질문으로, 전사본 전체를 분석해야 하는
그런 질문을 할 수 있습니다.
예를 들어, 알고 싶은 게
전망이 어떤지, AI에게
물어보고 싶을 수 있죠. 이게 좋은
투자인지 나쁜 투자인지. 이제
이걸 어떻게 적절한 청크를 찾는 것으로 변환할까요?
청크 처리 과정에서 일반적으로
일어나는 일은, 사용자의 쿼리를 받아
기본적으로 가장 유사한
텍스트 청크를 찾으려고 시도하고
그것을 LLM에 전달하는 거죠. 전통적인 RAG는
작동하지 않습니다. 그렇게 할 수 없어요.
매우 복잡한 에이전트 기반 RAG가
필요하고, 할 수 있는 다양한 것들이
있지만 그건 완전히 다른 이야기죠.
하지만 그건 작동하지 않습니다. 이제
간단히 가정해봅시다. 이 전사본을
가져와서 단순히
이 코드 라인을 사용하고
이것을 Gemini에 전달한다고 해봅시다.
Gemini는 추론 능력으로 전사본을 보고
CEO가 특정한 것을 어떻게 말했는지
살펴볼 수 있고, 아마도 실적 보고서도
볼 수 있으며, 통화 시작 시
언급된 숫자들도 볼 수 있죠.
그들이 언급했을 수 있는
통화 시작 부분의 숫자들과
통화 끝부분을 볼 수 있고
중간에 답변한 질문들도
볼 수 있습니다. 통화 중간의 질문들도 볼 수 있죠.
50,000 토큰을 처리하며 추론할 수 있고
훨씬 더 나은, 더 정확한
답변을 당신의 질문에 제공할 수 있습니다.
이 개념이 바로 제가 RAG 킬러라고
말했을 때 의미한 것입니다.
많은 사람들이 RAG라고 생각하는 전통적인 방식은
하나의 문서, 하나의 PDF를 가지고
PDF를 하나 또는 두 개 가지고 있고
그것에 대한 질문에 답하고 싶은 경우
그 방식은 이제 구식이 되었습니다.
더 이상 그렇게 할 필요가 없습니다.
Gemini로 가서 구글의
모델을 사용할 수 있고
AI 스튜디오로 가서 문서를
드래그 앤 드롭으로
AI 스튜디오에
여기에서 원하는 모든 문서를
드래그해서 올리고
구글에 질문하면 됩니다. 저는 강력히 추천합니다.
여러분 모두가 이런 종류의
문서가 있다면 구글에 가서
업로드하세요. 더 나은 결과를
얻을 수 없을 테니까요. 하지만 RAG,
검색 증강 생성은 더 넓은 의미에서
죽지 않았습니다. 많은 정의가 있기 때문에
아주 좋은 예를 들어드리겠습니다.
때때로 사람들이 댓글에서
이렇게 말하곤 합니다. '만약 내가'
문서가 10만 개라면 어떻게 할까요?
2023년, 2024년, 2025년의 실적 발표가 있고,
그리고 어떤 이유에서인지
AI에 업로드한 모든 파일 중에
엔비디아의 자료나,
애플에 대한 트랜스크립트,
엔비디아 자료도 있고,
관련 없는 문서들도 많이 있다면
이런 경우에는 RAG가 적용됩니다.
하지만 여기서 차이점은,
10만 개의 문서가 있을 때
여러분이 하고 싶은 것은
10만 개의 문서가 있다면
아마도 검색을 하실 거예요.
복잡하게 생각하지 말고
검색을 하고, 여러분은
Ctrl+F가 아닌 다른 방식으로
이미 존재하는 많은 검색 시스템을
활용할 수 있습니다. 이제
애플의 실적 보고서를 모두 찾았다고
해봅시다. 좋습니다. 그러면 약
10개의 문서가 있을 텐데, 저는 여전히
이것들을 청킹하지 않을 것입니다. 왜냐하면
추론 능력을 잃게 되니까요.
대신에 제가 할 일은
10개의 문서를 Google Gemini에
각각 따로 보내는 겁니다. 자, 예를 들어보죠.
만약 제가
문서 1만 개가 있고 이것을 처리해야 한다면
3개로 필터링했다고 가정해보겠습니다.
최근에 제가 선호하는 방법은
비용이 조금 더 들더라도
병렬 처리를 하는 것입니다.
이것은
병렬화 기법인데
이 기술은 제가 트위터에서
발견했고, 많은 사람들이
최근에 이야기하고 있는 것으로
Deep Seek 출시와 함께
기본적으로 하는 일은
3개나 5개 정도의
가장 관련성 높은 문서를 찾아서
512 토큰으로 청킹하는 대신
AI 모델들이 요즘
매우 저렴해졌기 때문에 추천하는 방법은
이 문서들을 가져와서
세 개 모두를 병렬로
Google Gemini에 보내는 것입니다. 제가
이걸 가져와서
찾는 대신에, 실제로
개별적으로 처리할 건데요,
같은 질문을 할 것이고
여러분이 보게 될 차이점은
직접 시도해보시면 알 수 있는데
질문에 대한 답변을 받을 때
엄청난 차이가 있습니다. 그래서 제가
이렇게 보고 말하죠.
사용자가 어떤 질문을 했다고 합시다.
사용자의 질문을 가져와서
동일한 질문을
세 개의 문서에 각각 따로 주고
이를 Gemini라고 부릅시다.
Google 1,
Google 2,
Google 3이라고 하고
이것들을 가져와서 마지막으로
이 모든 것을 활용합니다. 모든 결과를
병합해서 최종적으로
사용자의 질문에 답하게 됩니다.
이것은 전혀 새로운 기술이 아닙니다.
일종의 맵리듀스와 같은 것으로
필터링하고
관련 없는 정보를 모두
제거하는 방식입니다. 다시 말하지만
제가 말씀드리고 싶은 것은
임베드 인 청크 방식은 더 이상 효과적이지 않습니다
이것이 바로 전통적인 RAG 시스템의 방식입니다
검색을 하면 세 개의 문서를 가져와서
이 문서들을 병렬로 처리하고
구글에게 각각을 따로 분석하게 하고
그 답변들을 취합한 다음
최종 답변을 다른 AI에게 전달하여
답을 얻습니다. 이것이 훨씬 더
견고한 시스템이며, 오늘날 모델들의
비용이 매우 저렴해졌기 때문에
특히 구글의 모델들은 비용이
매우 저렴하면서도 높은 품질의 답변을
제공하기 때문에 이것이 최선의 방법입니다
특히 환각 현상 발생률이 낮고
정보를 잘 찾아내는 능력이
뛰어나기 때문입니다. 이것으로
'RAG가 죽었다'는 포스트의 의미를
이해하실 수 있을 것 같습니다. RAG 킬러라고도 하죠
만약 여러분이 RAG를 구축하거나
관련 작업을 하신다면, 저는 단순하게
시작하시길 추천드립니다. 사람들은 보통
일을 복잡하게 만들기 좋아하는데, 개인 개발자라면
단순하게 유지하세요. 예를 들어
특정 시스템에 파일을 업로드하는 것처럼
간단하게 시작하고 복잡성이 필요할 때만
추가하세요. 많은 사람들이
불필요한 복잡성을 추가하길 좋아합니다
1년 후에는 상황이 달라질 수 있죠. 모델이 100배
더 저렴해지고 100배 더 효율적이 될 수도
있습니다. 어쩌면 이런 필터링 단계도
필요 없을 수 있죠. 하지만 결국
대부분의 사람들이 알고 있는 전통적인
RAG 방식은, 특히 이 분야에
익숙하지 않은 분들이 보시기에
더 이상 존재할 이유가 없다고 봅니다
모든 데이터를 종합적으로 분석하여
충분한 답변을 제공할 수 없기 때문입니다
오늘 영상은 여기까지입니다
이를 통해 전통적인 RAG가 왜
작동하지 않는지, 그리고 왜 구글의
Gemini 모델이 이런 종류의
사용 사례에서 특히 강력하고
유용한지 이해하셨길 바랍니다
제품을 개발하시든,
분석가로서 모든 문서를
읽어야 하는 사람이든
구글의 새로운 모델은 매우 유용합니다
그리고 한 가지 더 추가하자면
이 과정에서 AI 모델을
혼합해서 사용할 수 있습니다
매우 저렴한 모델을 사용해서
모든 문서를 분석하게 하고
그 답변들을 가져와서
정말 원한다면
Pro-01이나 03 같은
더 똑똑한 모델에게 전달할 수 있습니다
AI 모델이 알맞은 청크를
선택하게 하는 것보다 훨씬 효과적이죠
더 똑똑한 모델에게 전달할 수 있습니다
AI 모델이 올바른 청크를
선택하게 하는 것은 효과가 없습니다
이상입니다. 영상 시청해 주셔서 감사합니다
안녕히 계세요