Gemini 2.5 Flash: 강력하면서도 가장 저렴한 모델이 GPT 4.5, Deepseek R1, 3.7 Sonnet을 제압하다! (완전 테스트됨)

채널 아이콘
WorldofAI 구독자 105,000명

요약

이 영상은 구글의 최신 AI 모델인 Gemini 2.5 Flash의 프리뷰를 통해 모델의 성능, 가격 경쟁력, 그리고 다양한 벤치마크 테스트 결과를 소개합니다. 실제로 모델은 실시간 어플리케이션, 챗봇, 에이전트 기반 워크플로우 등에 적용할 수 있는 높은 효율성을 보입니다. 또한, 다양한 코딩, UI/UX, 추론 및 독해 테스트를 통해 Gemini 2.5 Flash의 종합적인 강점을 확인할 수 있습니다. 영상은 테스트 사례와 모델의 개선된 토큰 비용 구조를 중심으로 설명합니다.

주요 키워드

Gemini 2.5 Flash 가격 경쟁력 토큰 비용 실시간 어플리케이션 생각 모드 비생각 모드 벤치마크 테스트 코드 실행 창의 코딩 추론 능력

하이라이트

  • 🔑 Gemini 2.5 Flash의 프리뷰 출시와 전반적 소개가 이루어집니다.
  • ⚡️ 모델의 가장 큰 강점은 뛰어난 가격 경쟁력과 저렴한 토큰 비용 구조입니다.
  • 🌟 두 가지 모드(생각 모드와 비생각 모드)를 통한 세밀한 가격 책정이 강조됩니다.
  • 🚀 스티키 노트 앱, 게임 시뮬레이션, SVG를 이용한 나비 생성 등 다양한 벤치마크 테스트가 진행됩니다.
  • 📌 수리 문제, 창의 코딩, 독해 및 추론 테스트를 통해 전반적인 성능과 논리적 추론 능력이 입증됩니다.
  • 🌟 전체 테스트에서 Gemini 2.5 Flash는 경쟁 모델과 비교해 높은 효율성과 비용 효율성을 보입니다.

용어 설명

생각 모드 (Thinking Mode)

입력 토큰과 출력 토큰에 대해 상대적으로 높은 비용을 지불하지만, 복잡한 추론과 계산을 수행하는 모드.

비생각 모드 (Non-Thinking Mode)

더 낮은 비용으로 빠른 응답을 제공하는 모드로, 복잡한 연산 없이 기본 기능에 초점을 맞춤.

실시간 어플리케이션 (Real-Time Applications)

즉각적인 응답이 필요한 챗봇, 분석 및 에이전트 기반 워크플로우 등을 포함한 응용 분야.

토큰 (Token)

AI 모델의 입력 및 출력 단위로, 가격 책정과 성능 평가에 중요한 요소.

[00:00:00] 소개 및 개요

영상은 구글의 최신 Gemini 2.5 Flash 프리뷰를 소개합니다. 모델의 전반적인 성능과 AI 업계에서의 의미를 간략하게 설명합니다.

구글이 제미나이 2.5 플래시 프리뷰를 공개했으며, 이는 뛰어난 성능과 혁신적인 가격 정책을 갖춘 올라운더 모델입니다.
낮은 지연시간과 비용 효율성을 갖춘 이 모델은 챗봇, 분석, 에이전트 워크플로우에 적합하며, 제미나이 2.5 프로급의 품질을 제공합니다.
[00:00:20] 가격 및 토큰 비용

모델의 두 가지 모드(생각/비생각)와 이에 따른 토큰 비용 구조가 상세히 설명됩니다. 저렴한 가격과 낮은 비용이 주요 포인트로 강조됩니다.

두 가지 가격 티어를 제공하며, 사고 모드는 백만 토큰당 입력 15센트/출력 3.5달러, 비사고 모드는 입력 15센트/출력 60센트로 매우 경제적입니다.
[00:01:01] 벤치마크 테스트 – UI 및 코드

스티키 노트 앱과 파이썬 게임 시뮬레이션 등 다양한 UI 및 코드 생성 테스트를 진행합니다. 이를 통해 모델의 실전 성능과 응용 가능성이 평가됩니다.

무료 티어에서 일일 500개 요청이 가능하며, 벤치마크 테스트에서 대부분의 영역에서 경쟁 모델들을 능가하는 성능을 보여줍니다.
구글 AI 스튜디오에서 쉽게 접근 가능하며, 사고 모드와 비사고 모드 중 선택하여 사용할 수 있습니다.
다양한 분야의 벤치마크 테스트를 통해 Gemini 2 플래시의 성능을 평가하기로 했습니다.
첫 번째 테스트로 현대적인 스티커 노트 앱의 프론트엔드를 구현하여 UI/UX 설계 능력을 평가했습니다.
[00:03:21] 창의 및 공간 추론 테스트

나비 SVG 생성, p5.js를 이용한 TV 앱 코딩 등 창의적 작업과 공간 추론 능력을 테스트합니다. 모델의 구조적 사고와 코드 실행 능력이 부각됩니다.

생성된 앱은 드래그 앤 드롭, 색상 선택, 노트 잠금 등 다양한 기능을 완벽히 구현했습니다.
두 번째 테스트로 콘웨이의 생명 게임을 파이썬으로 구현했고, 패턴 생성과 시뮬레이션이 성공적으로 작동했습니다.
마지막으로 가장 어려운 과제인 대칭적인 나비 모양 SVG 코드 생성을 통해 공간 추론과 기하학적 이해도를 테스트합니다.
SVG 생성 테스트에서 나비 모양을 성공적으로 구현했으며, 기능적인 측면에서 Gemini 2.5 Pro와 유사한 수준의 성능을 보여주었습니다.
기차 속도-거리-시간 문제를 해결하는 과정에서 정확한 수학적 추론을 보여주며 오후 1시 12분이라는 정확한 답을 도출했습니다.
[00:07:00] 독해 및 추론 도전

수학 문제, 기후 모델 논문 독해, 탐정 추리 문제 등 다양한 독해와 논리 추론 문제가 제시됩니다. 모델은 조건문 처리와 복합 정보 종합 능력을 보여줍니다.

창의적 코딩 과제에서 숫자 키로 채널을 변경할 수 있는 TV 앱을 p5.js를 사용해 성공적으로 구현했습니다.
기후 모델링 논문 관련 독해와 과학적 추론 과제에서 빠르고 정확한 분석 능력을 보여주었습니다.
모델이 전체 논문을 읽고 세 가지 유형의 단락을 분석하여 다중 섹션 정보를 종합하고 추론을 도출하여 명확한 답변을 제시했습니다.
연역적 추론 테스트에서 5명의 용의자가 있는 탐정 사건을 분석하여, 상충되는 진술들 중에서 진실을 찾아내는 능력을 평가했습니다.
모델은 데이비드가 범인이라는 정확한 결론을 도출했고, 모든 가능성에 대한 논리적 설명을 제공했습니다.
채널 지원 방법으로 슈퍼 땡스 옵션과 프라이빗 디스코드 가입을 제안하며, 디스코드에서는 AI 도구 구독 서비스와 독점 콘텐츠를 제공합니다.
[00:09:41] 최종 평가 및 채널 안내

테스트 전반을 종합하며 모델의 우수성을 재확인합니다. 채널 구독, 뉴스레터, Discord 커뮤니티 가입 등 추가 안내로 마무리됩니다.

타임라인 정보가 없습니다.

구글이 올해 열심히 작업해왔고
오늘 드디어
제미나이 2.5 플래시 프리뷰를 공개했는데요
정말 훌륭한 올라운더 모델이라고 할 수 있습니다
하지만 이 모델이 돋보이는 점은 성능이 아닌
가격 정책에 있습니다
낮은 지연시간과
비용 효율적인 워크호스 모델로 포지셔닝되었죠
제미나이 2.5 플래시는 대용량
실시간 애플리케이션을 위해 설계되었으며
챗봇, 분석, 에이전트 워크플로우에서
강력한 잠재력을 보여줍니다
고급 추론에 강점이 있는
제미나이 2.5 시리즈를 기반으로 하며
제미나이 2.5 프로와 같은
대형 모델에 버금가는 품질을 제공하면서도
더 빠른 속도와 획기적으로 낮은
비용을 자랑합니다. AI 분야에서 큰 진전이죠
여기서 중요한 점은 두 가지 가격대가 있다는 겁니다
사고 모드의 경우
입력 토큰 백만 개당 15센트
출력 토큰 백만 개당 3.5달러를 지불하는데
이 수준의 성능에 비하면 매우 저렴합니다
두 번째로 비사고 모드가 있는데
이 모드에서는
입력 토큰 백만 개당 15센트,
출력 토큰 백만 개당
놀랍게도 단 60센트밖에 들지 않습니다
이는 정말 믿기 힘들 정도로 저렴한 가격이며
특히 실시간 애플리케이션에 적합합니다
구글은 플래시를
차세대 다양한 종류의
에이전트 워크플로우와 챗봇,
그리고 이 채널에서 본 모든 것들을
구동하기 위한 것임을 분명히 하고 있습니다
또한 좋은 점은 구글 팀이
이 모델의 일일 요청 한도를
늘렸다는 것입니다
무료 티어에서도
하루 500개의 요청이 가능한데
이는 이전보다
훨씬 많은 양입니다
벤치마크 점수에 관해서는
크기와 가격 대비
매우 강력한 모델입니다
컨텍스트 윈도우는
100만 토큰이며
다른 많은 모델들과 비교했을 때
OpenAI의 04 Mini
Claude 3.7 Sonnet, Gra 3 Beta,
Deepseek R1과 비교해도 좋은 성능을 보입니다
대부분의 경우 더 뛰어난 성능을 보이지만
유일하게 뒤처지는 부분은
라이브 코드벤치입니다
하지만 다른 분야에서는
다국어 장문 처리와
수학, 과학 분야에서
다른 모델들을 능가합니다
코딩에서는 약간 뒤처지지만
가격을 고려하면 Claude 3.7 Sonnet의
훌륭한 대안이 될 수 있습니다
좋은 점은 이제
구글 AI 스튜디오에서 이 모델을 사용할 수 있다는 것입니다
드롭다운 메뉴를 클릭하면
새로운 2.5 플래시 프리뷰를
볼 수 있고, 선택하면
두 가지 모드 옵션이 있습니다
사고 모드를 사용하거나
사고 예산을 설정하여
실제 모드를 사용하지 않고
더 저렴한 옵션을 선택할 수 있습니다
이제 추론부터 프론트엔드까지
다양한 프롬프트를
살펴보도록 하겠습니다
수학까지 다양한 분야를 평가해보겠습니다.
이 모델을 여러 벤치마크 테스트로
평가해서 성능을 확인해보겠습니다.
어제 우리는 03 모델을 살펴보았는데
그 모델이 꽤 괜찮은 성능을 보여주었고
다른 메트릭 점수들을 능가했습니다.
이제 Gemini 2 플래시가
이것을 해낼 수 있는지 확인해보겠습니다.
먼저 현대적인 노트 앱의
프론트엔드를 만들어보겠습니다.
스티커 노트를 추가할 수 있게 할 건데,
이를 통해 사용자 인터페이스 구축,
UI/UX 디자인 로직 처리 능력을
평가할 수 있습니다.
어떤 결과가 나오는지 확인해보죠.
생성이 완료되면 파일을 열어보겠습니다.
자, 첫 번째 스티커 노트 앱이
생성되었네요.
정말 멋지게 만들어졌습니다.
기능도 제대로 작동하는데요,
여러 종류의 노트를 추가할 수 있고
드래그 앤 드롭 기능이 있으며
다양한 색상도 선택할 수 있습니다.
특히 마음에 드는 건
노트 잠금 기능을 추가한 거예요.
노트의 잠금을 해제하고
'유튜브 영상 만들기'와 같은
내용을 작성할 수 있습니다.
그리고 다시 잠그고 이동시킬 수 있죠.
물론 드롭다운 메뉴의
색상 텍스트 같은 작은 부분들은
수정이 필요하지만,
전반적으로 고급 스티커 노트 앱을
잘 생성했습니다.
기능성과 프론트엔드 모두
훌륭하게 구현됐네요.
이건 확실히 합격입니다.
다음으로는 콘웨이의 생명 게임을
파이썬으로 구현해보겠습니다.
이건 코딩 시뮬레이션 터미널 애플리케이션
카테고리에 속하는데요,
모델이 파이썬 스크립트와
알고리즘 설계를 얼마나 잘 처리하는지
확인해보려고 합니다.
코드가 파이썬 파일로 출력되었네요.
실행해보도록 하겠습니다.
여기서 특이한 점은 사용 가능한
패턴들이 생성된다는 건데요,
대부분의 모델에서는 보지 못했던 기능입니다.
글라이더 패턴을 생성하고
엔터를 눌러보겠습니다.
원하는 세대 수를 추가할 수 있는데
100을 입력해보죠.
그러면 터미널에서
시뮬레이션이 실행됩니다.
정말 놀랍네요.
이것도 확실히 합격입니다.
이제 여러분이 기다리던 프롬프트인데요,
코드 실행을 활성화하고
나비 모양의 SVG 코드를
생성해보도록 하겠습니다.
나비는 대칭이어야 하는데,
이건 대부분의 모델들이
어려워하는 프롬프트입니다.
이를 통해 모델의
공간 추론 능력, 대칭 로직,
SVG 문법 이해도와
기하학적 지식을 평가할 수 있습니다.
대부분의 모델이 완성하기 어려운
과제라는 걸 알고 있죠.
여기서는 모델이 공간 추론,
대칭 로직, SVG 문법,
기하학에 대해 얼마나 잘 이해하는지
자, 실제로 어떤 결과가 나오는지 살펴보겠습니다.
답변을 생성할 때 주목할 만한 점은,
답변이 생성되는 과정에서
모델의 추론 과정, 계획, 그리고
구조화 방식을 확인할 수 있다는 것입니다.
이제 답변이 생성되었으니
이 코드를 복사해서
어떤 결과물이 나왔는지 확인해보겠습니다.
시작하기 전에 한 가지 말씀드리고 싶은데,
월드 오브 AI 뉴스레터를
꼭 구독하시길 추천드립니다.
매주 다양한 내용의
뉴스레터를 발행하고 있습니다.
이를 통해 AI 분야의
최신 동향을 쉽게
파악하실 수 있습니다. 완전 무료이니
꼭 구독해 보시기 바랍니다.
여기 온라인 SVG 뷰어가 있습니다.
코드를 붙여넣어 보겠습니다. 자, 보시죠.
놀랍게도 나비 모양을 제대로 구현했네요.
색상 구성이 아주 매력적이진 않지만
나비 날개의 기능적인 부분은
정확하게 구현했습니다.
이는 기존의 Gemini 2.5 Pro가
생성할 수 있었던 것과 비슷한 수준입니다.
전반적으로 이런 결과물을
만들어낼 수 있다는 게 놀랍습니다.
지금까지 세 가지 다른 생성 결과를 봤는데
모두 인상적인 답변을 보여줬습니다.
다음은 다른 프롬프트입니다.
"한 기차가 A도시를 오전 9시에 출발하여
시속 60km로 달리고 있습니다.
다른 기차는 B도시를 오전 11시에 출발해
A도시를 향해 시속 90km로 달립니다.
A도시와 B도시 사이의 거리는 450km입니다.
두 기차는 몇 시에 만나게 될까요?"라는
문제를 제시했습니다.
이 프롬프트는 기본적으로
속도, 거리, 시간의 관계를 이해하고
대수 방정식을 푸는 능력을 테스트합니다.
모델이 보여준 문제 해결 단계를 보면
정답인 오후 1시 12분을
정확하게 도출해냈습니다.
이는 확실히 통과로 평가할 수 있습니다.
다음은 창의적 코딩 프롬프트입니다.
여기서는 제가 0에서 9까지의 숫자 키로
채널을 변경할 수 있는
TV를 코딩해달라고 요청했습니다.
p5.js 스케치로 구현해달라고 했죠.
이는 기본적으로 창의적 코딩 프롬프트로,
모델이 인터랙티브 프로그래밍과
p5.js 캔버스 조작을 얼마나 잘
이해하고 있는지 테스트합니다.
어떤 결과물이 나오는지 확인해보겠습니다.
자, 결과가 나왔네요.
이게 모델이 생성한 결과물입니다.
제가 보기에는 꽤 괜찮아 보이고,
이 TV 앱에서
다양한 창의적인 생성물을
만들어낼 수 있었습니다.
보시다시피 다양한 종류의 결과물을
출력할 수 있었죠.
이것도 확실히 통과입니다.
다음 프롬프트는 독해력과
과학적 추론에 관한 것입니다.
기후 모델링 논문의 세 섹션을 읽고
하이브리드 모델이 왜 더 나은지
설명하는 것이 과제였습니다.
모델의 접근 방식과 답변 생성 능력을
테스트해보고자 했죠.
보시다시피 모델이 매우 빠르게
응답을 생성했고,
답변을 생성하는 과정에서
전체 논문을 읽고
세 가지 유형의 단락에 집중하여
여러 섹션의 정보를 종합하고
추론을 도출했으며
이렇게 명확한 답변을 제시했습니다.
보시다시피 이 모델이
생성한 답변의 품질이
상당히 합리적입니다.
실제로 답변을 읽어보면
확실히 유효한 답변이기 때문에
이 테스트는 통과라고 할 수 있습니다. 마지막 프롬프트는
연역적 추론 프롬프트입니다.
기본적으로 5명의 용의자가 있는
탐정 사건이며 서로 상충되는
진술이 있습니다. 단 한 명만이
진실을 말하고 있습니다. 누가 범인일까요?
여기서 우리는 모델의
조건부 진술 처리
능력을 평가하고 있습니다. 한 사람은
"다른 사람이 범인이다"라고 말하고
다른 사람은 "나는 범인이 아니다"라고 하며
또 다른 사람은 "나는
현장에 없었다"고 말합니다.
우리는 모델이
주어진 여러 제약 조건을 바탕으로
논리적으로
진실을 추론할 수 있는지 테스트합니다.
최종적으로 데이비드가
범인이라는 정확한 답을 도출했고
이는 실제 답과 100% 일치합니다.
또한 모든 가능성에 대해
잘 설명하고 있습니다. 따라서 이 마지막
프롬프트도 확실히 통과입니다.
이 영상이 마음에 드셨다면
채널을 지원해주실 수 있습니다.
아래 슈퍼 땡스 옵션을 통해
후원하실 수 있고, 또는
저희 프라이빗 디스코드에 가입하시면
다양한 AI 도구 구독 서비스를
매월 무료로 이용하실 수 있습니다.
거기에 일간 AI 뉴스와 독점 콘텐츠도 제공되며
더 많은 혜택이 있습니다. 이처럼
우리는 다양한 벤치마크
점수를 테스트하고 평가했습니다.
이 모델은 모든 테스트를 통과했는데
이는 정말 인상적인 결과입니다.
제 의견으로는 이 모델을
더욱 인상적으로 만드는 것은
가격 구조입니다. 이것이
이 모델을 사용하고 싶은 이유입니다.
저렴한 가격으로 다른
최첨단 모델들과
동등한 성능을
얻을 수 있습니다. Gemini나
Gemini 2.0 Flash, Gemini 2.5 Pro,
그리고 벤치마크 시트에서 본
Rock 3나
Claw 3.7 Sonnet과 같은 다른 모델들과 비교해도 뒤지지 않습니다.
여러분, 오늘 영상이
도움이 되었길 바랍니다.
두 번째 채널도 구독하시고
뉴스레터도 팔로우해 주세요.
디스코드 가입과 트위터 팔로우도 부탁드립니다.
마지막으로 구독과
알림 설정, 좋아요 눌러주시고
이전 영상들도
확인해 주세요.
최신 AI 소식을
놓치지 않으실 수 있습니다.
그럼 여러분, 좋은 하루 보내시고
긍정적인 에너지 전파하세요.
곧 다시 만나요. 안녕히 계세요!