Gemini 2.0이 나를 놀라게 했다

Theo - t3․gg 구독자 439,000명

요약

영상은 Google의 최신 AI 모델 Gemini 2.0에 대한 평가와 분석을 담고 있다. 발표자는 Gemini 2.0의 성능, 가격, 토큰 비용 등 구체적인 수치를 바탕으로 다른 AI 모델과의 차별점을 설명한다. 또한 T3 Chat 및 Savala와 같은 실제 개발 도구 경험과 API, 인프라 이슈를 언급하며, 앞으로 AI 가격 경쟁 및 기술 발전의 방향성을 전망한다.

주요 키워드

Gemini 2.0 Google AI T3 Chat Savala 가격 비교 토큰 비용 컨텍스트 윈도우 API 인프라 칩 기술

하이라이트

🔑 Gemini 2.0의 놀라운 성능과 예상치 못한 기능들이 강조됩니다.
🚀 다양한 AI 모델들의 가격, 토큰 비용 및 성능 비교가 상세히 이루어집니다.
⚡️ 높은 토큰 컨텍스트 크기와 빠른 데이터 처리 속도가 개발 효율성을 높입니다.
🌟 Google의 자체 칩 기술 및 인프라가 경쟁 우위를 선사하는 요소로 부각됩니다.
📌 T3 Chat과 Savala 같은 플랫폼을 통한 실제 사용 사례와 개발 도구 사용 경험이 공유됩니다.
🚀 API 설정 및 통합 이슈와 함께, 개발자 경험 개선을 위한 다양한 전략이 언급됩니다.

용어 설명

Gemini 2.0

Google이 선보인 최신 AI 모델로, 뛰어난 응답 속도와 비용 효율성을 특징으로 함.

T3 Chat

AI 기반 채팅 인터페이스를 제공하는 플랫폼으로, Gemini 2.0 등의 모델을 체험할 수 있음.

Savala

개발자 경험 개선을 목표로 하는 플랫폼으로, 빠른 배포 및 클라우드 서비스 연동 기능을 제공함.

Flashlight 모델

빠른 응답과 경량화를 지향하는 AI 모델 버전으로, 비교적 저렴한 가격에 제공됨.

Context Windows

AI 모델이 한 번에 처리할 수 있는 데이터의 양을 의미하며, 토큰 수로 표현됨.

Grock

빠른 추론 및 응답 생성을 목표로 설계된 AI 칩 제조 회사로, 높은 성능을 제공함.

Google의 최신 Gemini 2.0 모델에 놀라움을 표시하며, 경쟁사 대비 우수한 성능과 기능을 강조합니다. 발표 초반, 왜 기존 데이터와 기술력을 갖췄음에도 뒤처졌는지 설명합니다.

[00:00] 구글이 AI 경쟁에서 뒤처진 것에 대한 놀라움을 표현하며, 그들의 역사와 데이터를 고려할 때 이해하기 어렵다고 설명합니다.

[00:19] Gemini 2.0의 등장으로 구글이 더 이상 뒤처지지 않게 되었으며, 예상보다 훨씬 뛰어난 성능을 보여준다고 강조합니다.

T3 Chat에서 Gemini 2.0을 무료로 활성화한 경험과 함께 Savala 플랫폼을 통한 개발자 지원 내용을 언급합니다. 스폰서 소개를 통해 실제 개발 환경에서의 도구 사용 경험을 공유합니다.

[00:35] T3 chat에서 무료로 사용 가능하며, 플래시 라이트 버전의 놀라운 속도에 대해 언급합니다.

[01:06] 스폰서 Savala 소개를 시작하며, Vercel과 같은 우수한 개발자 경험을 제공한다고 설명합니다.

[01:23] Savala의 주요 기능들을 소개하며, PHP 지원과 간편한 배포 과정에 대해 설명합니다.

[01:45] Cloudflare 통합, 데이터베이스 관리, PR 미리보기 등 고급 기능들과 자동화 옵션에 대해 상세히 설명합니다.

다양한 AI 모델들의 가격, 성능, 토큰 비용에 대해 세부적으로 비교합니다. Gemini 2.0의 빠른 응답과 놀라운 가격 경쟁력이 부각되는 부분입니다.

[02:32] 개발자들을 위한 SaaL 서비스 소개와 50달러 무료 크레딧 제공 안내

[02:40] Artificial Analysis 사이트 소개와 현재 실험 버전 사용 중인 상황 설명

[02:54] 구글의 실험 모델 정책: 무료 사용과 사용량 제한에 대한 설명

[03:05] 2.0 공식 모델과 실험 버전의 차이점 및 요금 부과 정책 변경 설명

[03:19] 실험 모델 사용시 발생하는 사용량 제한과 비용 예측의 어려움 설명

[03:45] 다양한 AI 모델들의 가격 비교: GPT-4와 GPT-4 Mini의 가격 구조 분석

AI 모델들이 한 번에 처리할 수 있는 토큰 수, 즉 컨텍스트 윈도우 크기에 대해 설명합니다. 대용량 데이터 처리와 이에 따른 비용 효율성 문제를 함께 다룹니다.

[04:11] Claude 3.5 Sonnet의 높은 가격과 DeepSeek의 혁신적인 가격 정책 소개

[04:31] R1 모델의 뛰어난 성능과 경쟁력 있는 가격, GPT-4와의 성능 비교 분석

[04:52] 품질 대비 가격 분석에서 각 모델들의 위치와 특징 설명

[05:05] Gemini와 V3는 가격 대비 품질이 합리적이며, Claude는 새로운 모델들과 비교해 품질 대비 비싼 편입니다. Llama 40 mini는 저렴하지만 성능이 기대에 미치지 못합니다.

[05:30] Gemini의 성능은 다른 모델들에 근접하며, 많은 영역에서 Claude를 능가합니다. 특히 가격이 매우 저렴하여, 입력당 10센트(라이트 모델은 7센트)로 책정되었습니다.

[06:08] 컨텍스트 윈도우 크기에 대한 설명으로, 대부분의 모델이 128K 토큰을 처리할 수 있으며, Claude는 200K, Google의 Gemini는 1-2백만 토큰을 처리할 수 있습니다.

[07:12] Gemini의 큰 컨텍스트 윈도우 덕분에 전체 코드베이스를 한 번에 처리할 수 있으며, 저렴한 가격으로 효율적인 분석이 가능합니다.

[07:51] Gemini Pro 버전은 곧 200만 토큰 범위를 지원하며, 벤치마크에서도 우수한 성능을 보일 것으로 예상됩니다.

Google AI Studio, API 및 SDK 사용의 장단점과 설정의 어려움을 설명합니다. Google의 자체 칩 기술과 통합 인프라가 개발 환경에 미치는 긍정적 영향을 언급합니다.

[08:07] 구글의 새로운 모델은 조작할 수 없는 놀라운 성능 수치를 보여주고 있으며, Anthropic의 Claude와 비슷한 품질을 훨씬 저렴한 가격으로 제공합니다.

[08:43] rate limit 문제만 없다면 T3 채팅의 기본 모델로 설정할 계획이며, 현재 AI Studio에서 실험적인 thinking 모델을 테스트 중입니다.

[09:14] 비용과 부하 문제로 인해 아직 T3 채팅에 추가할 수는 없지만, 모델의 성능을 테스트하기 위해 Advent of Code 문제를 풀어보았습니다.

[09:45] 기존 reasoning 모델들의 느린 속도와 잦은 다운타임 문제와 달리, Gemini는 빠른 속도로 실용적인 결과를 제공하며 GPT-3.5보다 우수한 성능을 보여줍니다.

[10:32] Gemini의 라이트 모델은 단순한 텍스트 처리를 넘어 이미지, 비디오, 오디오까지 처리할 수 있으며, 스탠다드와 프로 버전은 더 고급 기능을 제공합니다.

[10:47] 다른 AI 모델들과 달리 Gemini는 검색 기능이 기본 내장되어 있어, 별도의 구현이 필요 없습니다.

[10:56] 대부분의 AI 제공업체들은 '도구' 개념을 통해 웹사이트나 서비스 연결을 구현해야 하지만, 구글은 이미 검색 기능이 통합되어 있습니다.

[11:19] 브라우저 베이스와 같은 플랫폼을 통해 AI가 웹을 탐색할 수 있는 헤드리스 도구를 구축할 수 있습니다.

[11:47] 이러한 통합 검색 기능이 Gemini를 주목하게 된 주요 이유이며, 이는 이제 비즈니스의 중요한 부분이 되었습니다.

[12:10] Claude의 예상치 못한 가격 인하와 새로운 기능 출시는 AI 채팅 앱 시장에 큰 변화를 가져왔습니다.

[12:39] 구글의 자체 프로세서 개발 노력이 이러한 저렴한 가격을 가능하게 만든 핵심 요인으로 보입니다.

[12:56] 구글이 자체 칩 개발에 성공하여 AI 및 텐서 워크플로우를 위한 고성능 컴퓨팅을 구현했습니다. 이전 세대보다 3배 빠른 추론 속도와 4배 향상된 학습 성능을 보여줍니다.

[13:20] 구글은 필요한 모든 데이터, 엔지니어링 팀, 연구진, 그리고 컴퓨팅 파워를 보유하고 있어 현재 시장에서 강력한 경쟁력을 가지고 있습니다.

[13:35] Grock(Q)은 협업 파트너로서 뛰어난 성능을 보여주며, 특히 R1과 Llama 모델에서 매우 빠른 처리 속도를 자랑합니다.

[14:18] Grock-Q는 추론에 특화된 칩을 개발하는 회사로, 주로 Llama 기반 모델에 최적화되어 있으며, 초당 3,000 토큰이라는 놀라운 처리 속도를 보여줍니다.

[15:06] 하지만 Grock의 한계점으로는 제한된 입력 크기(대부분 32k 컨텍스트), 컨텍스트 증가에 따른 성능 저하, 그리고 모델에 대한 제한된 통제력이 있습니다.

[15:32] Google은 모든 요소(데이터, 모델 개발, CPU, 아키텍처)를 소유하고 있어 통합된 시스템을 구축할 수 있습니다. 이는 Apple이 iPhone의 모든 구성 요소를 통합 관리하는 것과 유사합니다.

[15:59] Google이 AI 분야에서 Apple과 같은 위치에 있으며, 인터페이스가 불편함에도 불구하고 AI Studio 등 새로운 도구들은 개선되고 있습니다.

가격 경쟁력과 기술 발전에 따라 AI 시장이 변화할 전망을 제시합니다. 타 경쟁사들이 가격 및 성능 조정에 나설 가능성과 Google의 미래 전략을 기대합니다.

[16:26] 가격, 개발자 경험, 품질, 모델 성능 등 모든 분야에서 경쟁이 필요하며, Google이 유일하게 이 모든 영역에서 경쟁하고 있습니다.

[16:52] API 키 발급 과정은 복잡하지만, 일단 발급받으면 AISK나 Open Router 프로젝트와 같은 래퍼를 통해 쉽게 연동할 수 있습니다.

[17:14] AISK를 사용하면 다양한 제공업체를 쉽게 추가할 수 있으며, 환경 변수만 올바르게 설정되어 있으면 간단히 작동합니다.

[18:05] Vertex AI의 인증 시스템 문제점을 설명합니다. 환경 변수 대신 특별한 자격 증명과 private key가 필요하며, Google의 복잡한 인증 시스템으로 인해 구현이 매우 어렵다고 합니다.

[18:31] Vertex AI 대신 Google AI Studio 사용을 추천합니다. 더 간단하고 접근하기 쉬우며, 만약 오픈 모델이었다면 더 큰 영향을 미칠 수 있었을 것이라고 설명합니다.

[18:49] T3 chat 서비스 사용법을 소개하고, Flash와 Flashlight 모델의 이용 방법 및 가격에 대해 설명합니다.

[00:00] 구글이 AI 경쟁에서

[00:01] 이렇게 뒤처진 것을 보고 좀 놀랐습니다.

[00:03] 그들의 역사와

[00:05] 보유한 데이터, 그리고

[00:06] 그들이 이미 해낸 모든 것들을 생각하면

[00:09] 이렇게 뒤처진 것이 말이 안 되죠.

[00:11] 구글 검색이 성공한 이유는

[00:13] 바로 적절한 알고리즘을 작성하고

[00:14] 우리가 기대하는 검색 결과를 제공하기 위한

[00:16] 올바른 데이터를 수집했기 때문입니다.

[00:19] 하지만 오늘날은 더 이상 뒤처져 있지 않습니다.

[00:21] 왜냐하면 Gemini 2.0이

[00:23] 정말 대단하거든요. 제가 예상했던 것보다

[00:26] 훨씬 뛰어나고,

[00:28] 여러분이 예상하지 못한 이유들로

[00:31] 아마도 지금까지 나온 것 중

[00:32] 제가 가장 좋아하는 딥러닝 모델일 것 같습니다.

[00:35] 그래서 T3 chat에서

[00:38] 무료로 사용할 수 있게 했죠. 네, 정말입니다.

[00:41] T3 chat 2.0에서 무료로 사용 가능하고

[00:44] 더 빠른 플래시 라이트 버전도 있는데

[00:47] 그 속도가 정말 놀랍습니다.

[00:50] 이게 실시간으로 처리되는 게 말이 안 되죠.

[00:55] 뭔가 함정이 있을 것 같은데,

[00:57] 아마도 비용이 많이 들거나

[00:58] 성능이 떨어지거나 그럴 것 같습니다.

[01:01] 아직 확실히는 모르겠지만,

[01:02] 이것에 대해 자세히 알아볼

[01:04] 많은 것들이 있습니다. 본격적으로 알아보기 전에

[01:06] 오늘의 스폰서 소개를 하겠습니다.

[01:08] 누군가는 제 AI 비용을 지불해야 하니까요.

[01:09] 제 채널을 보신 분들은

[01:11] Vercel 같은 플랫폼에서

[01:12] 개발자 경험이 얼마나 좋은지

[01:14] 보셨을 겁니다. 자바스크립트

[01:16] 개발자가 아니라면 이런 경험을

[01:17] 못해보셨을 텐데, 오늘의 스폰서 Savala가

[01:20] 이런 경험을 모두에게 제공하며,

[01:21] 어쩌면 더 나은 경험을 제공합니다.

[01:23] Savala는 거의 모든 것을 배포할 수 있게 해주고

[01:25] PHP에도 매우 능숙합니다.

[01:27] 실제로 이 회사는

[01:28] 대형 워드프레스 호스팅 회사인 Kinsta의

[01:30] 일부이지만, 그 이상을 할 수 있습니다.

[01:32] 저는 PHP를 잘 모르지만

[01:33] 라라벨 앱을 정말 5번의 클릭만으로

[01:36] 배포할 수 있었습니다. 예전에는

[01:38] 혼자서 이걸 알아내느라

[01:39] 많은 시간을 보냈었죠.

[01:40] 여기 보이는 이미지처럼 단순한 기능만

[01:42] 제공한다면 그것도 좋겠지만,

[01:45] 더 많은 기능을 제공합니다. Cloudflare를

[01:46] 앞단에 설정해주고

[01:48] 모든 작업 내용을 보여줍니다.

[01:49] 이미지나 정적 페이지 같은

[01:51] 정적 자산이 있다면 PHP 서버가

[01:53] 시작될 때까지 기다릴 필요 없이

[01:56] Cloudflare에 올릴 수 있고

[01:58] 이 모든 것이 설정 가능합니다.

[02:00] 데이터베이스 같은 것들도 마찬가지죠.

[02:02] 서버리스가 아닐 때는

[02:03] PR이 올라올 때 미리보기 빌드가

[02:05] URL과 함께 생성되어

[02:07] 작동 방식을 확인할 수 있는데,

[02:09] 여기서는 이런 설정이 굉장히 쉽습니다.

[02:11] 파이프라인에 가보면

[02:12] 제가 올린 'please sub' PR에 대해

[02:15] 미리보기 앱을 만들 수 있고,

[02:16] 버튼만 누르면 즉시 실행됩니다.

[02:18] 자동으로 설정할 수도 있고

[02:20] PR이 승인되어 메인에 머지되면

[02:22] 자동으로 프로덕션 배포가

[02:24] 이루어지게 할 수도 있습니다.

[02:26] 만약 더 현대적이고

[02:28] 우리가 실제로 필요로 하는 서버 호스팅을

[02:30] 찾고 계시다면

[02:32] 개발자들에게 SaaL은 최고의 선택지 중 하나입니다.

[02:34] SaaL에서 50달러 상당의

[02:36] 무료 크레딧을 확인해보세요. s.al에서

[02:38] 제가 가장 좋아하는 사이트인 Artificial

[02:40] Analysis부터 시작해보겠습니다.

[02:42] 이 사이트에 많은 시간을 보냈는데,

[02:44] 주목할 만한 점은 아직

[02:47] 공식 출시 버전으로 업데이트하지 않고

[02:48] 여전히 실험 버전을 사용하고 있다는 것입니다.

[02:51] 구글이 하는 특이한 점 중 하나는

[02:53] 실험 모델에 대해서는

[02:54] 요금을 부과하지 않는다는 것입니다. 대신 사용량을

[02:56] 엄격하게 제한하지만, 무료로 접근할 수 있습니다.

[02:58] 제가 아는 한, 2.0 공식 모델은

[03:00] 실험 버전과 아마도 동일할 것이고

[03:03] 완전히 같지 않더라도

[03:05] 매우 유사할 것입니다. 차이점은

[03:06] 이제 요금을 부과한다는 것입니다.

[03:09] 이는 훨씬 더 높은 사용량 제한을

[03:11] 제공할 수 있다는 의미이며, 이제 비용이

[03:13] 얼마인지 알 수 있게 되었습니다. 이전에는

[03:15] 실험 모델을 사용할 경우

[03:16] 실제 트래픽에서는 거의 확실하게

[03:17] 사용량 제한에 도달했을 것이고

[03:19] 더 중요한 것은, 실제 출시되었을 때

[03:21] 최종 청구서가 얼마가 될지

[03:23] 전혀 알 수 없었을 것입니다. GPT-4 Mini처럼

[03:24] 백만 입력 토큰당 15센트에

[03:26] 가까운 가격이 될지,

[03:29] 아니면 GPT-4처럼 100 입력 토큰당

[03:30] 15달러에 가까운 가격이 될지

[03:33] 백만이든 천이든 입력 토큰당

[03:35] 저는 이 모든 숫자들을

[03:36] 추적하려고 노력해왔습니다.

[03:37] 추적하기가 어렵기 때문이죠. Artificial Analysis가

[03:39] 잘 하고는 있지만, GPT-4에 대해

[03:41] 단순 출력만 하고 있습니다. GPT-4는

[03:43] 기본적인 모델로, 입력당 백만 토큰에

[03:45] 250달러, 출력당 백만 토큰에 10달러로

[03:48] 나쁘지는 않지만 좋지도 않습니다. GPT-4 Mini는

[03:51] 놀랍도록 저렴해서 백만 입력 토큰당 15센트,

[03:53] 10분의 1도 안 되는 비용이고, 출력은 60센트로

[03:56] 역시 10분의 1도 안 되는 비용입니다.

[03:58] GPT-4는 터무니없이 비싸서 GPT-4 Mini보다

[04:02] 100배나 더 비쌉니다. 하지만 이는

[04:04] 이러한 모델을 실행하는 데 필요한

[04:06] 컴퓨팅 비용을 이해하면 납득이 됩니다.

[04:07] 그리고 제가 가장 불만스러워하는 것이 있는데,

[04:09] 거의 파산할 뻔했던

[04:11] Claude 3.5 Sonnet입니다. 백만 입력 토큰당 3달러,

[04:13] 출력 토큰당 15달러를 청구하죠.

[04:15] 하지만 DeepSeek가 등장해서 시장을 흔들어놓았습니다.

[04:16] 백만 입력 토큰당 27센트,

[04:19] 출력당 1.10달러인 기본 모델,

[04:21] 이전 버전의 가격이

[04:22] 여전히 적용되고 있는데,

[04:24] GPT-4 Mini보다도 저렴하다는 게 놀랍습니다.

[04:26] 하지만 정말 대단한 건 R1 모델입니다.

[04:29] 백만 입력당 55센트, 출력당 2.20달러로

[04:31] 믿을 수 없이 저렴합니다. 특히

[04:33] R1의 품질을 고려하면 더욱 그렇죠.

[04:36] 대부분의 평가에서 OpenAI의

[04:38] 추론 모델만큼 좋거나 더 뛰어납니다.

[04:40] 코딩 인간 평가에서는,

[04:43] 어려운 코딩 문제를 해결하는 테스트인데,

[04:45] R1이 GPT-4를 근소하게 이겼습니다.

[04:49] 매우 근소한 차이였지만, 승리했죠.

[04:50] 정말 뛰어난 모델이고, 이 가격에

[04:52] 말도 안 되게 좋습니다. 품질 대비

[04:53] 가격 섹션을 보면, GPT-4가

[04:56] 저 구석에 멀리 떨어져 있는 것을 볼 수 있습니다.

[04:58] GPT-4를 꺼보겠습니다. 모든 그래프를

[05:00] 망가뜨리거든요. 그러면 흥미로운 점을 보실 수 있는데,

[05:02] R1과 O03 Mini가

[05:05] Gemini와 V3는 가격 대비 품질 분석에서

[05:07] 훨씬 더 합리적인 수준을 보여줍니다. Claude는

[05:11] 다른 새로운 모델들과 비교했을 때

[05:14] 품질 대비 매우 비싼 편이고,

[05:15] Llama 40 mini는 놀랍도록 저렴하지만

[05:19] 예상외로 성능이 좋지 않습니다.

[05:22] Gemini가 여기에 포함되지 않은 이유는

[05:24] 촬영 당시 사이트가

[05:26] 새로운 Gemini 모델과

[05:28] 새로운 가격으로 업데이트되었기 때문입니다.

[05:30] 그렇다면 얼마나 비쌀까요?

[05:32] 품질은 이미 다른 모델들에

[05:34] 매우 근접해 있습니다.

[05:35] 추론 모델들에 매우 근접하고

[05:36] 많은 부분에서 Claude를 능가하고 있으며

[05:38] 코드 면에서는 비슷하지만

[05:39] 거의 모든 다른 영역에서 뛰어납니다.

[05:41] 이것을 무료로 제공하면서

[05:43] 파산하지 않을까요? 입력당 1백만 토큰에 10센트,

[05:46] 출력당 40센트입니다. 이게 라이트 모델이 아닙니다.

[05:49] 라이트 모델은 입력당 7센트,

[05:52] 출력당 30센트입니다. 우리는 새로운

[05:54] 최저가 모델을 갖게 되었습니다.

[05:56] Flash Light는 정말 놀랍습니다. 두 모델 모두

[05:59] Llama 40 mini보다 저렴하고,

[06:01] DeepSeek보다 훨씬 더 저렴합니다.

[06:03] 그리고 라이트 버전은 너무나 저렴해서

[06:06] 거의 공짜나 다름없습니다. 정말 믿을 수 없죠.

[06:08] 또 다른 중요한 점은

[06:10] 컨텍스트 윈도우입니다. 컨텍스트 윈도우는

[06:13] 응답을 생성하면서 처리할 수 있는

[06:15] 데이터의 양을 의미합니다. AI 모델에

[06:18] 너무 많은 데이터를 주면 작동이 중단됩니다.

[06:19] 이것은 다른 차트입니다. 이 차트는

[06:22] 컨텍스트 윈도우의 크기를 기반으로 하며

[06:24] 실제 크기는 이렇습니다.

[06:25] 구글 모델들을 제외하겠습니다.

[06:27] 너무 압도적이기 때문입니다.

[06:28] 대부분의 모델들은 128K 토큰의

[06:31] 컨텍스트를 가지고 있습니다. 이는

[06:33] 약 128,000개의 단어를 처리하면서도

[06:37] 응답을 생성할 수 있다는 의미입니다.

[06:39] 엄청난 양의 단어죠.

[06:41] 많은 토큰입니다. 저는 매우 큰

[06:43] 코드베이스들이 대부분의 모델이 가진

[06:45] 128K 토큰 제한 안에 충분히 들어가는 것을 봤습니다.

[06:48] Claude의 Sonnet과 Haiku는 실제로

[06:51] 200K 마크로 꽤 높은 편이고

[06:53] OpenAI는 이를 도전으로 받아들여

[06:55] GPT-4와 GPT-3.5로 맞췄습니다.

[06:57] 콘텐츠 크기가 이제는 너무 커서

[06:59] 더 이상 문제로 느껴지지도 않습니다.

[07:01] 구글은 Gemini 1.5에서 2백만을 달성했고

[07:04] 2.0에서는 1백만을 유지하고 있습니다.

[07:07] 1백만 토큰이면 대부분의 코드베이스가

[07:10] 이 컨텍스트 윈도우 안에 들어갑니다.

[07:12] 즉, Gemini에 전체 코드베이스를 주고

[07:14] 무언가를 찾아달라고 할 수 있으며

[07:16] 물론 입력과 출력 토큰당 비용이 발생하지만

[07:19] 백만 토큰의 코드베이스를 준다고 해도

[07:21] 아, 맞다! 단지 10센트밖에 안 듭니다.

[07:23] 신경 쓸 필요가 없죠.

[07:25] 이것이 정말 믿을 수 없는 점입니다.

[07:27] 다른 모델에서 이런 분석을 하려면,

[07:29] Llama 40 mini같은 저렴한 모델이라도

[07:31] 입력당 15센트지만,

[07:32] 이제 백만 토큰을 파싱할 수 있는

[07:34] 형태로 변환해야 합니다.

[07:37] 자체 레이어를 구축해야 하고

[07:38] RAG 같은 것을 만들어서

[07:40] 데이터를 찾고 실제로 가져와서 적용하는 방법을

[07:43] 찾아야 합니다.

[07:44] 하지만 백만 토큰이면

[07:46] 이런 걱정을 할 필요가 없습니다.

[07:47] 정말 대단하죠. 곧 출시될

[07:50] Pro 버전은

[07:51] 아직 얼리 액세스 상태인 Pro 버전은

[07:54] 200만 토큰 범위를 가질 예정이고

[07:56] 벤치마크에서도 훌륭한 성과를 보일 것이 거의 확실해요

[07:58] 이 모델들이 출시되는 게 정말 기대됩니다

[08:00] 유튜브가 아닌 구글 제품에 대해

[08:02] 이렇게 설레다니 믿기지 않네요

[08:04] 구글의 새로운 모델에 대해

[08:06] 이렇게 흥분될 줄은 몰랐어요

[08:07] 이런 수치는 조작할 수 없거든요

[08:10] 그리고 지금 구글의 수치는

[08:11] 정말 놀랍도록 좋아 보입니다

[08:13] 전반적인 품질 수준이

[08:16] Anthropic과 비슷한데 가격은

[08:18] 말도 안 되게 낮아요

[08:21] Flash가 Claude와 비슷하거나 더 나은 성능을 보이면서

[08:24] 출력 토큰 비용이 40분의 1이라는 게

[08:26] 정말 놀랍습니다. 30배 이상의 비용 절감 효과가 있는

[08:30] 어떤 면에서는 더 나은 모델로의 전환이죠

[08:32] DeepSeek에 대한 걱정도 이제는

[08:35] 없어진 것 같아요. 구글이 이제

[08:38] 최고 품질의 가장 저렴한 모델을 가지게 됐고

[08:40] 경쟁이 안될 정도예요

[08:43] 아마도 T3 채팅에서

[08:44] rate limit에 문제만 없다면

[08:45] 이걸 기본 모델로 설정할 것 같아요

[08:47] 너무 미쳤죠. 게다가 이게 전부가 아니에요

[08:50] 여기까지만 해도 놀라울 텐데

[08:52] 여기 공식 AI Studio에서

[08:54] API에서 thinking 데이터를 아직 얻을 수 없어서

[08:57] 보여드리려고 합니다

[09:00] 아직 깊이 알아보진 않았지만

[09:02] 여러분께 보여드리고 싶은 게

[09:04] 실제로 thinking 모델이 있다는 거예요

[09:06] 이 Gemini 2.0 flash thinking experimental을 보세요

[09:08] 비용이 0이고

[09:10] rate limit이 분당 10회로 꽤 제한적이에요

[09:12] 아직 T3 채팅에 추가할 수는 없어요

[09:14] 비용이 얼마나 될지 모르고

[09:16] 수십만 명의 T3 채팅 사용자들이

[09:19] 사용하면 부하가 심할 테니까요

[09:20] 하지만 얼마나 좋은지

[09:23] 보여드리고 싶어요

[09:24] 물론 여기 채팅 인터페이스는

[09:26] 최상은 아닐 거예요

[09:28] 그들의 주력 분야가 아니니까요

[09:30] 그들은 모델에 더 집중하고 있죠

[09:31] 테스트를 위해

[09:33] 제가 가장 좋아하는 문제를 풀어볼게요

[09:34] Python으로 Advent of Code 2021 day 5를 풀어보겠습니다

[09:39] 여기 thinking하고 있네요

[09:43] 그리고 생각하는 속도가 느리지 않아요

[09:45] reasoning 모델들의 문제점 중 하나는

[09:46] 많은 호스트들이 빠르지 않다는 거였어요

[09:49] 게다가 공식 호스트들이

[09:51] 자주 다운되곤 했죠

[09:53] DeepSeek의 성능이 좋고

[09:54] 결과에 만족하더라도

[09:55] 가격도 좋았지만

[09:57] API가 8일 동안이나 다운됐어요

[10:00] 이제 돌아온 것 같아서

[10:01] 드디어 T3 채팅에 다시 추가할 수 있을 것 같아요

[10:03] 공식 제공자를 통해서요

[10:05] 빠른 thinking reasoning 모델이

[10:07] 실제로 사용 가능한 결과를 빠르게 제공한다는 건

[10:12] 정말 대단한 일이에요

[10:14] reasoning을 포함해서 8초 만에

[10:16] 문제를 해결했다는 건

[10:17] GPT-3.5보다 여러 면에서 더 낫고

[10:20] 훨씬 저렴하다는 거죠

[10:22] 아마도 손해를 보면서

[10:23] 서비스하고 있는 것 같아요

[10:26] 이해하기 힘들 정도니까요

[10:28] 게다가 이게 다가 아니에요

[10:30] 지금까지는 자동완성과 텍스트에 대해서만 얘기했는데

[10:32] 이건 단순한 텍스트 입출력이 아닙니다.

[10:34] 여기서 우리가 보고 있는 라이트 모델은

[10:36] 텍스트, 이미지, 비디오, 오디오까지 모두 처리할 수 있습니다.

[10:39] 그리고 스탠다드와 프로는 더 나아가서,

[10:41] 오디오 처리에는 약간 더 비용이 들지만

[10:42] 더 고급 기능을 제공합니다.

[10:43] 또한 검색 기능도 내장되어 있어서

[10:45] 모델에 검색 기능을 설정할 수 있습니다.

[10:47] 다른 모델들과 달리 직접 구현할 필요가 없죠.

[10:49] 거의 모든 다른 모델에서는

[10:51] 검색 기능을 직접 추가해야 했습니다.

[10:54] 대부분의 AI 제공업체들은 현재

[10:56] '도구'라는 개념을 사용하는데,

[10:58] AI에게 특정 기능을 수행할 수 있다고 알려주고

[11:00] 인터페이스를 제공한 다음,

[11:02] 웹사이트나 다른 서비스에 연결되는

[11:04] 실제 기능을 직접 구축해야 합니다.

[11:06] '구글에서 검색하고 결과를 가져오려면

[11:08] 이 세 가지를 호출하세요'라고 지정하면

[11:11] AI가 이를 이해하고

[11:12] 자동으로 실행해서 결과를 텍스트로 생성합니다.

[11:15] 보통은 이런 기능을

[11:16] 직접 설정해야 하는데,

[11:17] 브라우저 베이스 같은 플랫폼을 사용하면 됩니다.

[11:19] 브라우저 베이스는 정말 훌륭한데,

[11:20] 여러 영상의 스폰서이기도 했죠.

[11:22] 원격 서버리스 브라우저를 위한

[11:25] 완전한 헤드리스 도구를 만들었습니다.

[11:26] 이를 통해 AI 워커가 웹을 탐색할 수 있게 해주죠.

[11:29] 따라서 Claude나 OpenAI용 검색 기능을

[11:32] 직접 만들고 싶다면,

[11:34] 브라우저 베이스를 이용해 도구를 만들어

[11:37] 설명을 추가하면 됩니다.

[11:39] 하지만 구글은 이미 내장되어 있죠.

[11:40] 이건 당연한 일입니다.

[11:42] 구글이 세계 최고의 검색 기업인데

[11:44] 자사 모델에 검색 기능이 없다면

[11:46] 이상하지 않겠어요?

[11:47] 사실 이게 제가

[11:49] Gemini를 자세히 보기 시작한

[11:50] 주된 이유입니다.

[11:51] 검색 도구 시스템을

[11:52] 직접 구축하는 데 시간을 쓰고 싶지 않았거든요.

[11:54] 많은 사람들이 T3 채팅에서

[11:57] 검색 기능을 원했는데,

[11:59] 구글 모델에서는 기능 플래그처럼

[12:01] 쉽게 켤 수 있습니다.

[12:02] 저는 지금 Gemini 모델을 배포하고 있어서

[12:04] 순다르가 트위터에서 하는 말에

[12:06] 주목하고 있습니다.

[12:07] 팔로우 버튼도 눌렀죠.

[12:09] 이제 이게 제 비즈니스의 일부니까요.

[12:10] Claude의 가격 인하는 정말 예상 못했습니다.

[12:12] 이렇게 새로운 것을 내놓고

[12:14] 더 저렴한 가격을 제시하다니요.

[12:16] 월 8달러짜리 AI 채팅 앱이 된 거죠.

[12:19] LLM은 Ask Jeeves를 부활시키기에

[12:21] 완벽한 계기가 됐을 텐데, Jeeves만이 아니라

[12:24] 여러분 Akinator 기억하시나요?

[12:26] 원조 AI였죠. 여러분이 생각하는 인물이나

[12:29] 사물을 맞추기 위해

[12:31] 20개의 질문을 하면서

[12:33] 가능성을 좁혀나갔죠.

[12:34] 어릴 때 저는 이거에

[12:36] 완전히 빠져있었는데,

[12:38] 이제는 완전히 새로운 세상이 됐네요.

[12:39] 이렇게 저렴해진 큰 이유는

[12:41] 새로운 컴퓨팅 기술 때문일 것 같습니다.

[12:43] 구글이 자체 프로세서 개발에

[12:45] 정말 많은 노력을 기울였죠. 처음에는 양자 컴퓨팅용으로,

[12:48] 그리고 폰 성능 개선을 위해서였죠.

[12:50] 퀄컴에 대해 길게 이야기할 수 있지만

[12:52] 여러분을 위해 그만두겠습니다.

[12:54] 그들이 만들고 있다는 것만 아시면 됩니다.

[12:56] 많은 기업들의 상황을 더 어렵게 만들고 있죠.

[12:58] 애플처럼 자체 칩을 만들고 싶어 하는 것은 이해가 됩니다.

[12:59] 하지만 그들은

[13:00] 텐서 워크플로우와 AI를 위한

[13:03] 고성능 컴퓨팅 칩에 집중했습니다.

[13:05] 제 추측으로는 이 칩들이

[13:07] 충분히 좋아져서

[13:08] 훨씬 더 빠르고 저렴하게 작업을 수행할 수 있게 되었습니다.

[13:11] 이전 세대보다 3배 빠른 추론 처리 속도와

[13:12] 4배 향상된 학습 성능,

[13:14] 에너지 효율성은 7% 개선되었습니다.

[13:16] 따라서 비용도 많이 절감되었죠.

[13:18] 이는 매우 합리적인 결과입니다.

[13:20] 이것이 바로 현재 구글과 경쟁하기 어려운 이유입니다.

[13:22] 구글은 모델 학습에 필요한

[13:24] 모든 데이터를 보유하고 있고,

[13:26] 모델을 설계하고 학습시킬 수 있는

[13:28] 모든 엔지니어와 연구팀을 보유하고 있으며,

[13:31] 자체 제작한 엄청난 컴퓨팅 파워로

[13:33] 이 모든 것을 더 잘 수행할 수 있습니다.

[13:35] Grock과 같은 회사는

[13:36] (우리가 정말 좋아하는 회사인데),

[13:39] Grock은 협업하기에 정말 좋았습니다.

[13:40] 우리는 초고속 모델을 위해

[13:42] 증류된 R1 모델과

[13:44] Llama 모델에 Grock을 사용하고 있습니다.

[13:46] Grock이 너무 빨라서

[13:48] T3 채팅의 스크롤 작동 방식을 변경해야 했을 정도입니다.

[13:50] 여기서 저는 Llama를 선택했는데,

[13:52] Advent of Code 2021의 8일차를... 아니 좀 더 쉬운

[13:56] 5일차를 Rust로 풀어보겠습니다.

[13:57] Python, JS 또는 JavaScript,

[14:00] 그리고 C++로도 시도해보겠습니다.

[14:04] 여러 언어로 시도하는 이유는

[14:07] 여러분들이 Grock이 얼마나 빠른지

[14:10] 직접 확인하셔야 하기 때문입니다. 따라가기도 힘들 정도로 빠르죠.

[14:14] 참고로 이것은 Q로 끝나는 Grock이지

[14:15] K로 끝나는 Grock이 아닙니다.

[14:18] K로 끝나는 Grock은

[14:20] 일론의 지갑하고만 경쟁하고 있죠. Q로 끝나는 Grock은

[14:23] 모델 학습이 아닌 추론을 위한

[14:25] 매우 빠른 칩을 만드는 회사입니다.

[14:29] 모델의 응답을 생성하기 위한 칩이죠.

[14:31] 그들의 칩 아키텍처는

[14:33] 현재로서는 Llama에서만 잘 작동하도록 설계되어 있어서

[14:35] 제공하는 거의 모든 모델이

[14:36] Llama 기반입니다. 스크롤을 내려보시면

[14:39] 많은 Llama 모델들을 보실 수 있습니다.

[14:41] Mistral도 어느 정도 작동하고

[14:42] OpenAI의 Whisper도 잘 작동합니다.

[14:44] 오디오 모델인데, 그들은

[14:47] 다른 곳들보다 압도적으로 빠릅니다.

[14:49] 이는 칩이 이러한 특정 모델들의

[14:51] 작동 방식에 최적화되어 있기 때문입니다.

[14:53] 그래서 이런 엄청난 수치가 나오는 거죠.

[14:55] OpenAI API의 공식 GPT-4가

[14:57] 초당 70 토큰을 처리하는 반면

[15:01] 여기 있는 여러 모델들은

[15:02] 초당 3,000 토큰을 넘습니다. 하지만 한계도 있죠.

[15:06] 입력 크기가 많이 제한되어 있어서

[15:07] 대부분 32k 컨텍스트만 처리 가능하고

[15:09] 일부는 그보다도 적습니다.

[15:10] 컨텍스트가 늘어나면 속도가 저하되고

[15:12] 가격 책정도 매우 합리적입니다.

[15:15] 이렇게 빠른 모델들의 경우에는요.

[15:17] 하지만 더 느리고 토큰 수가 많으며

[15:18] 컨텍스트 윈도우가 큰 모델들은

[15:20] 일반적인 가격대를 보입니다.

[15:21] 여기엔 여러 이유가 있는데

[15:23] 가장 큰 이유는 모델 자체에 대한

[15:24] 통제력이 거의 없다는 점입니다.

[15:26] 다른 곳에서 만든 모델을 가져와서

[15:29] 가격을 책정하고 자사의 칩에서

[15:31] 잘 작동하기를 바랄 수밖에 없죠.

[15:32] Google은 그런 문제가 없습니다.

[15:34] 모든 부분을 다 소유하고 있기 때문이죠.

[15:35] 모든 데이터를 가지고 있고,

[15:37] 모든 모델 개발을 소유하고 있으며,

[15:40] 실행에 필요한 모든 CPU와 아키텍처를 보유하고 있습니다.

[15:42] 이러한 동기화가 바로

[15:45] 제 아이폰이 뛰어난 제품인 이유입니다.

[15:47] 아이폰의 하드웨어, 칩셋,

[15:50] 소프트웨어와 다른 모든 것이

[15:51] 애플이 설계했기 때문이죠.

[15:53] 이런 통합이 더 빠른 발전을 가능하게 하고

[15:56] 다른 누구도 따라올 수 없는 이점을 만듭니다.

[15:58] 좀 이상하게 들릴 수 있지만,

[15:59] Google이 AI 분야에서

[16:00] Apple과 같은 위치에 있는 것 같습니다.

[16:02] 모든 것을 하나로 통합할 수 있는

[16:04] 최악의 대시보드를 가지고 있지만,

[16:06] 인터페이스와의 상호작용이 얼마나 불편한지

[16:09] 제대로 표현할 수가 없습니다.

[16:11] Google Cloud 제품들, Vertex Studio,

[16:13] 새로운 AI Studio는

[16:16] 실제로 꽤 괜찮고

[16:18] 작업하기도 좋습니다. Google은

[16:20] 여기서 승리할 진정한 기회가 있고,

[16:22] 저는 그것이 실현되기를 진심으로 희망합니다.

[16:26] 가격, 개발자 경험, 품질,

[16:29] 그리고 모델의 성능에서

[16:31] 더 많은 경쟁이 필요한데,

[16:33] 현재 Google만이

[16:34] 이 모든 분야에서 싸우고 있습니다.

[16:36] 단, Vertex는 빨리 중단해야 할 것 같네요.

[16:39] 채팅에서 나온 우려사항 중에,

[16:41] Google의 SDK가 사용하기 불편하다는 점 때문에

[16:43] 개발자들이 5배 비싼 옵션을

[16:45] 순전히 편의성을 위해 선택할 것이라는 의견이 있습니다.

[16:48] 동의하지만, API 키만 받으면

[16:50] Google 시스템을 더 이상 건드릴 필요가 없습니다.

[16:52] API 키를 받는 과정이

[16:54] 우스꽝스러울 정도로 어렵다는 건 인정합니다.

[16:56] Vertex에서는 실제로

[16:57] 전통적인 API 키를 받을 수 없지만,

[16:59] 새로운 AI Studio는 그렇게 나쁘지 않습니다.

[17:01] Studio에서 API 키를 받으면

[17:04] 설정하는 것이 어렵지 않습니다.

[17:05] Vercel의 AISK나

[17:08] Open Router 프로젝트 같은 래퍼를 사용하면

[17:11] 두 가지 모두 정말 훌륭한데,

[17:13] 키만 있으면 연결이 매우 쉽습니다.

[17:14] AISK는 다양한 제공업체를

[17:17] 쉽게 추가할 수 있게 해줍니다.

[17:19] 여기 프로덕션에 있는

[17:21] 모든 모델이 포함된 실제 파일입니다.

[17:24] 현재 사용 중인 모든 것에 대해

[17:25] AISK 제공자를 가져온 다음

[17:27] 사용하고자 하는 모델을 호출하여 정의합니다.

[17:29] 그리고 환경 변수만

[17:30] 제대로 설정되어 있다면

[17:32] (지금은 그 파일을 열지 않겠습니다)

[17:34] 바로 작동하고, 이 두 모델을 추가하는 것은

[17:35] 여기에 추가하고

[17:37] UI에 표시되도록 설정하기만 하면 됩니다.

[17:38] 현재 우리 코드베이스에는

[17:40] Google을 위한 특별한 처리가 없습니다.

[17:42] Vertex를 설정할 때는 많은

[17:44] 이상한 작업들을 해야 했지만,

[17:46] Gemini나 AI Studio에서는

[17:48] 그럴 필요가 없습니다.

[17:51] AISK에서 Google Provider를 가져와서

[17:54] 호출하기만 하면 끝입니다.

[17:56] Vercel이 Google의 개발자 경험 문제를

[17:59] 이렇게 잘 해결하고 있다는 게 재미있네요.

[18:01] Vertex의 문제를 해결하려고 했는데,

[18:03] Vertex의 한 가지 문제점은

[18:05] 환경 변수를 그냥 넣을 수가 없고

[18:07] 클라이언트 자격 증명과 private key가 특별히

[18:10] 필요한데, 이상적으로는 JSON 파일 형식으로

[18:13] 제공해야 하며 이는 Google의 이상한

[18:16] 인증 시스템에 의해

[18:17] 자동으로 업데이트됩니다. IAM보다

[18:19] 10배는 더 복잡하고 작동 방식을

[18:21] 설명하는 문서도 제대로 없어요. 제가

[18:22] 하루를 써서 인증을 구현했다고 했는데

[18:25] 농담이 아닙니다. 제가 최근에

[18:27] Google 스타트업 팀과

[18:28] 많은 시간을 보내고 있는 이유가 있죠.

[18:29] 그들도 저만큼이나 충격을 받았거든요.

[18:31] 이래서는 안 되는데, 하지만

[18:33] Vertex는 최대한 피하고

[18:35] 대신 표준 Google Generative AI인

[18:37] Google AI Studio를 사용하면

[18:39] 문제없이 잘 됩니다. 이게 만약

[18:41] 오픈 모델이었다면 세상을

[18:43] 완전히 바꿔놓았을 겁니다. 하지만

[18:44] 그들의 어마어마한 자금이 없었다면

[18:46] 잘 작동하지도 않았겠죠.

[18:47] 이건 정말 굉장히 멋진 것 같고

[18:49] 여러분의 생각이 궁금합니다.

[18:51] T3 chat에서 한번 시도해보세요. 무료로

[18:53] 이용할 수 있고, 모서리에 있는 작은 버튼만

[18:54] 클릭하면 됩니다. Flash를 사용하고

[18:56] 초고속 Flashlight 모델을 보고 싶다면

[18:58] 실험적 모델 아래에

[19:00] 숨겨져 있습니다. 로그인하면

[19:01] 많은 메시지를 받을 수 있고

[19:02] 더 많은 기능을 원한다면

[19:03] 월 8달러면 됩니다. 이게

[19:05] 전부인데, Google이 이렇게 빨리

[19:06] 따라잡은 것이 아직도 믿기지 않고

[19:08] 이로 인해 다른 것들도 발전하길 기대합니다.

[19:10] 바라건대 이로 인해

[19:12] OpenAI와 Anthropic이

[19:14] 가격을 낮추고 AI 기술이

[19:17] 모두에게 더 접근하기 쉬워질 것입니다.

[19:19] 다른 회사들이 Google이 제시한

[19:20] 가격보다 10배에서 100배나 더 비쌀 때

[19:22] 진정한 변화가 필요한 시점입니다.

[19:24] Google이 이런 변화를 만들어낼 줄은

[19:26] 전혀 예상치 못했는데,

[19:27] 점점 더 그렇게 되어가는 것 같네요.

[19:29] 여러분의 생각을 들려주세요.

[19:30] 다음에 또 만나요, 안녕히 계세요!