제미니 2.5 플래시: 가격 대비 성능에서 독보적인 모델

GosuCoder 구독자 9,180명

요약

이 영상은 제미니 2.5 플래시가 이전 모델인 제미니 플래시 2.0의 강점을 계승하며 가격 대비 뛰어난 성능을 보여준다는 점을 강조한다. 평가 프레임워크를 통해 토큰 비용, arena score 등 여러 지표를 바탕으로 실사용 코드 환경에서의 성능을 분석하였다. 특히 ‘생각 모드’와 ‘코드 모드’ 간의 차이가 모델의 출력 및 diff 처리에 미치는 영향을 상세하게 비교하였다. 마지막으로, 다양한 모델 간 역할 분담과 혼합 모델 평가를 통해 향후 활용 방향과 개선점을 논의한다.

주요 키워드

제미니 2.5 플래시 가격 대비 성능 평가 프레임워크 토큰 비용 arena score 생각 모드 코드 모드 micromanager GPT4.1 오케스트레이터

하이라이트

🔑 제미니 2.5 플래시는 이전 모델 대비 가격 대비 성능이 크게 향상되어 독보적인 위치를 차지합니다.
⚡️ 평가 프레임워크와 arena score를 통해 모델별 토큰 당 비용과 실제 성능을 정량적으로 분석합니다.
🌟 ‘생각 모드’와 ‘코드 모드’의 사용 차이가 모델의 출력 품질 및 diff 처리에 미치는 영향을 중점적으로 다룹니다.
🚀 micromanager 코딩 오케스트레이터를 활용하여 모델의 실제 코드 생성 및 관리 능력을 평가하는 과정을 설명합니다.
📌 혼합 모델 설정을 통해 각 역할에 최적화된 모델 배분 전략을 제시하며, GPT4.1 등과의 성능 차이를 비교합니다.
🔥 최종 평가에서는 제미니 2.5 플래시가 다양한 테스트에서 가격 대비 성능 면에서 확실한 강점을 보임을 강조합니다.

용어 설명

제미니 2.5 플래시

가격 대비 뛰어난 성능을 제공하며, 이전 2.0 모델의 강점을 계승한 차세대 모델.

생각 모드

모델이 추가 토큰을 사용해 사고 과정을 활성화하는 모드로, 코드 작성 시 토큰 생성 및 품질에 영향을 미침.

코드 모드

코드 작성에 최적화되어 동작하는 모드로, 실제 프로그래밍 환경에서 모델이 어떻게 작동하는지 평가함.

micromanager 오케스트레이터

모델의 작업을 작은 단위로 쪼개어 관리하며, 실제 코드 생성 및 실행 평가를 지원하는 도구.

arena score

모델의 성능을 정량적으로 평가하기 위해 토큰 비용과 연계하여 산출하는 지표.

eval framework

모델을 실제 코드베이스 및 다양한 테스트 케이스에 적용하여 평가하는 시스템.

[00:00:01] 제품 소개 및 초기 평가

제미니 2.5 플래시의 출시와 초기 인상을 소개하며, 이전 모델인 2.0 플래시와의 차별점을 언급합니다.

[00:00:20] 평가 체계와 테스트 설정

평가 프레임워크를 통한 arena score 및 토큰 당 가격 분석을 설명하며, 전반적인 테스트 환경을 소개합니다.

[00:02:30] 생각 모드 vs 코드 모드 비교

생각 모드와 비활성화 상태에서의 성능 차이, 코드 diff 및 문맥 처리 문제를 중심으로 성능 분석 결과를 제시합니다.

[02:30] 현재 개발 중인 화면 녹화 시스템은 로컬 버전의 Loom과 유사하며, 웹캠과 모니터 연결이 가능한 다중 파일 지원 시스템입니다.

[03:20] 성능 평가 방법론을 설명하며, 파이썬 스크립트와 LLM을 심사관으로 활용하여 출력을 검증하고 점수를 산출하는 시스템을 소개합니다.

[03:53] 심사 점수의 편차는 약 15%이며, 이상치가 발견될 경우 사람이 직접 개입하여 판단을 내리는 프로세스를 설명합니다.

[04:30] 화면 녹화 테스트에서 GPT4.1과 GPT4.0 Mini는 30%, Flash 2.5 비사고 버전은 60%, 사고 버전은 46%의 성능을 보였습니다.

[05:32] GPT4.1은 더 비싼 모델임에도 코드 모드에서는 Flash 2.5보다 낮은 성능을 보였습니다.

[05:54] 마이크로매니저 코딩 오케스트레이터를 도입하여 작업을 더 작은 단위로 나누어 각각 독립적인 컨텍스트로 처리하는 방식을 설명합니다.

[06:22] 새로운 접근 방식으로 GPT4.1은 75%까지 성능이 향상되었고, Flash 2.5 사고 버전은 62%로 개선되었으나, 비사고 버전은 비슷한 수준을 유지했습니다.

[07:02] 모델 성능 비교 결과, GPT4.0 mini와 GPT4.1 mini는 아키텍트, 마이크로매니저, 디자이너 역할에서 성능이 크게 저하되어 각각 8%와 12%의 낮은 성과를 보였습니다.

[07:45] 혼합 모델 테스트에서는 Gemini 2.5를 아키텍트와 마이크로매니저로 사용하고, 다른 모델들을 보조 역할로 활용했습니다. GPT4.1은 80% 초반대의 좋은 성과를 보였고, Gemini 2.5 버전들은 75-80% 정도의 성능을 보였습니다.

[00:08:06] 모델 역할 분담 및 혼합 모델 평가

다양한 역할(아키텍트, 디자이너 등)로 모델을 배분해 테스트하며, GPT4.1 등 다른 모델과의 성능 및 역할 배분 전략을 비교합니다.

[08:59] Eval 2 테스트에서 GPT04 mini가 놀랍게도 90-95% 의 매우 높은 성능을 보였으며, Flash 2.5의 non-thinking 버전이 thinking 버전보다 더 좋은 결과를 나타냈습니다.

[09:41] 토큰 수 증가에 따른 성능 차이가 발견되었으며, thinking 모드는 코드 모드에서 맥락이 늘어날수록 품질이 저하되는 경향을 보였습니다.

[10:13] 이러한 테스트 결과를 통해 문제 유형에 따른 모델 선택의 중요성이 입증되었으며, 향후 모든 평가와 코드 프롬프트를 오픈소스로 공개할 예정입니다.

[10:33] GPT4.1은 코드 모드 단독으로는 성능이 좋지 않았지만, 오케스트레이터에서는 뛰어난 성능을 보여줬습니다. 이는 많은 사람들이 GPT4.1의 코딩 능력을 평가절하하는 이유를 설명해줍니다.

[10:57] Eval 3 테스트에서 Flash 2.5는 약 30%, 비사고 버전은 40% 성능을 보여준 반면, GPT4.1 미니와 GPT04 미니는 한자릿수 성능을 기록했습니다.

[11:45] Ader Polyglot 리더보드에서 새 모델은 Gemini 2.0 Flash보다 크게 향상된 성능을 보여주며, GPT4.1과 비슷한 수준의 결과를 더 저렴한 비용으로 달성했습니다.

[12:34] 새로운 팀 구성: 마이크로 매니저로 Gemini 2.5 Pro Preview, 디자이너로 Claude 3.7 Sonic, 미들레벨에 GPT4.1, 시니어와 아키텍트에 Gemini 2.5 Pro를 배치할 예정입니다.

[13:32] 이전에는 OpenAI와 Claude가 지배적이었던 환경이 이제는 Google의 모델들이 주도하게 되었으며, 특히 비용 효율성과 정확한 서버 호출, 웹 검색 능력이 돋보입니다.

[14:00] Gemini 2.5 Flash에 대한 매우 긍정적인 평가를 내리며, GPT4.1과 비교했을 때도 대등한 성능을 보여주고 있다고 설명합니다.

[00:14:26] 최종 평가 및 향후 계획

전체 테스트 결과를 종합해 제미니 2.5 플래시의 가격 대비 성능 우수성을 강조하며, 향후 개선 및 추가 테스트 계획을 공유합니다.

[14:28] 이 모델의 주요 장점으로 2.0 대비 큰 업그레이드, 뛰어난 가격 대비 가치, 일관된 출력 품질, 그리고 향상된 코드베이스 처리 능력을 언급합니다.

[15:15] 부메랑 모드 사용 시의 제한사항과 이를 개선하기 위한 방안에 대해 설명하며, 큰 컨텍스트 윈도우의 장점을 강조합니다.

[16:01] 모델의 한계점으로 생각 모드 설정의 개선 필요성과 큰 컨텍스트 윈도우에서 발생하는 diff 오류 문제를 지적합니다.

[17:22] thinking 모드는 단순 코드 작성, 주니어 모드, 인턴 모드, 코드 모드에는 적합하지 않으며, 아키텍트 모드나 계획 수립용 오케스트레이터로 사용하는 것이 좋을 것 같다고 설명합니다.

[18:00] O4 mini가 가격 대비 가치 면에서 가장 큰 경쟁자이며, Gemini 2.5 Flash와 성능을 비교했을 때 케이스별로 다양한 결과를 보이지만, Gemini 2.5 Flash가 여전히 우위를 가지고 있다고 평가합니다.

[18:51] 코딩과 마케팅 분야에서 LLM 성능을 평가하기 위한 두 개의 평가 프레임워크를 구축 중이며, LLM을 심사관으로 활용하고 인간 중심 평가를 포함한 다양한 방법론을 연구하고 있습니다.

[19:26] 초기 단계의 테스트임에도 불구하고 매우 일관된 결과를 보여주었으며, 극단적인 이상치가 거의 없었다고 보고합니다.