[00:00]
구글이 AI 경쟁에서
[00:01]
이렇게 뒤처진 것을 보고 좀 놀랐습니다.
[00:03]
그들의 역사와
[00:05]
보유한 데이터, 그리고
[00:06]
그들이 이미 해낸 모든 것들을 생각하면
[00:09]
이렇게 뒤처진 것이 말이 안 되죠.
[00:11]
구글 검색이 성공한 이유는
[00:13]
바로 적절한 알고리즘을 작성하고
[00:14]
우리가 기대하는 검색 결과를 제공하기 위한
[00:16]
올바른 데이터를 수집했기 때문입니다.
[00:19]
하지만 오늘날은 더 이상 뒤처져 있지 않습니다.
[00:21]
왜냐하면 Gemini 2.0이
[00:23]
정말 대단하거든요. 제가 예상했던 것보다
[00:26]
훨씬 뛰어나고,
[00:28]
여러분이 예상하지 못한 이유들로
[00:31]
아마도 지금까지 나온 것 중
[00:32]
제가 가장 좋아하는 딥러닝 모델일 것 같습니다.
[00:35]
그래서 T3 chat에서
[00:38]
무료로 사용할 수 있게 했죠. 네, 정말입니다.
[00:41]
T3 chat 2.0에서 무료로 사용 가능하고
[00:44]
더 빠른 플래시 라이트 버전도 있는데
[00:47]
그 속도가 정말 놀랍습니다.
[00:50]
이게 실시간으로 처리되는 게 말이 안 되죠.
[00:55]
뭔가 함정이 있을 것 같은데,
[00:57]
아마도 비용이 많이 들거나
[00:58]
성능이 떨어지거나 그럴 것 같습니다.
[01:01]
아직 확실히는 모르겠지만,
[01:02]
이것에 대해 자세히 알아볼
[01:04]
많은 것들이 있습니다. 본격적으로 알아보기 전에
[01:06]
오늘의 스폰서 소개를 하겠습니다.
[01:08]
누군가는 제 AI 비용을 지불해야 하니까요.
[01:09]
제 채널을 보신 분들은
[01:11]
Vercel 같은 플랫폼에서
[01:12]
개발자 경험이 얼마나 좋은지
[01:14]
보셨을 겁니다. 자바스크립트
[01:16]
개발자가 아니라면 이런 경험을
[01:17]
못해보셨을 텐데, 오늘의 스폰서 Savala가
[01:20]
이런 경험을 모두에게 제공하며,
[01:21]
어쩌면 더 나은 경험을 제공합니다.
[01:23]
Savala는 거의 모든 것을 배포할 수 있게 해주고
[01:25]
PHP에도 매우 능숙합니다.
[01:27]
실제로 이 회사는
[01:28]
대형 워드프레스 호스팅 회사인 Kinsta의
[01:30]
일부이지만, 그 이상을 할 수 있습니다.
[01:32]
저는 PHP를 잘 모르지만
[01:33]
라라벨 앱을 정말 5번의 클릭만으로
[01:36]
배포할 수 있었습니다. 예전에는
[01:38]
혼자서 이걸 알아내느라
[01:39]
많은 시간을 보냈었죠.
[01:40]
여기 보이는 이미지처럼 단순한 기능만
[01:42]
제공한다면 그것도 좋겠지만,
[01:45]
더 많은 기능을 제공합니다. Cloudflare를
[01:46]
앞단에 설정해주고
[01:48]
모든 작업 내용을 보여줍니다.
[01:49]
이미지나 정적 페이지 같은
[01:51]
정적 자산이 있다면 PHP 서버가
[01:53]
시작될 때까지 기다릴 필요 없이
[01:56]
Cloudflare에 올릴 수 있고
[01:58]
이 모든 것이 설정 가능합니다.
[02:00]
데이터베이스 같은 것들도 마찬가지죠.
[02:02]
서버리스가 아닐 때는
[02:03]
PR이 올라올 때 미리보기 빌드가
[02:05]
URL과 함께 생성되어
[02:07]
작동 방식을 확인할 수 있는데,
[02:09]
여기서는 이런 설정이 굉장히 쉽습니다.
[02:11]
파이프라인에 가보면
[02:12]
제가 올린 'please sub' PR에 대해
[02:15]
미리보기 앱을 만들 수 있고,
[02:16]
버튼만 누르면 즉시 실행됩니다.
[02:18]
자동으로 설정할 수도 있고
[02:20]
PR이 승인되어 메인에 머지되면
[02:22]
자동으로 프로덕션 배포가
[02:24]
이루어지게 할 수도 있습니다.
[02:26]
만약 더 현대적이고
[02:28]
우리가 실제로 필요로 하는 서버 호스팅을
[02:30]
찾고 계시다면
[02:32]
개발자들에게 SaaL은 최고의 선택지 중 하나입니다.
[02:34]
SaaL에서 50달러 상당의
[02:36]
무료 크레딧을 확인해보세요. s.al에서
[02:38]
제가 가장 좋아하는 사이트인 Artificial
[02:40]
Analysis부터 시작해보겠습니다.
[02:42]
이 사이트에 많은 시간을 보냈는데,
[02:44]
주목할 만한 점은 아직
[02:47]
공식 출시 버전으로 업데이트하지 않고
[02:48]
여전히 실험 버전을 사용하고 있다는 것입니다.
[02:51]
구글이 하는 특이한 점 중 하나는
[02:53]
실험 모델에 대해서는
[02:54]
요금을 부과하지 않는다는 것입니다. 대신 사용량을
[02:56]
엄격하게 제한하지만, 무료로 접근할 수 있습니다.
[02:58]
제가 아는 한, 2.0 공식 모델은
[03:00]
실험 버전과 아마도 동일할 것이고
[03:03]
완전히 같지 않더라도
[03:05]
매우 유사할 것입니다. 차이점은
[03:06]
이제 요금을 부과한다는 것입니다.
[03:09]
이는 훨씬 더 높은 사용량 제한을
[03:11]
제공할 수 있다는 의미이며, 이제 비용이
[03:13]
얼마인지 알 수 있게 되었습니다. 이전에는
[03:15]
실험 모델을 사용할 경우
[03:16]
실제 트래픽에서는 거의 확실하게
[03:17]
사용량 제한에 도달했을 것이고
[03:19]
더 중요한 것은, 실제 출시되었을 때
[03:21]
최종 청구서가 얼마가 될지
[03:23]
전혀 알 수 없었을 것입니다. GPT-4 Mini처럼
[03:24]
백만 입력 토큰당 15센트에
[03:26]
가까운 가격이 될지,
[03:29]
아니면 GPT-4처럼 100 입력 토큰당
[03:30]
15달러에 가까운 가격이 될지
[03:33]
백만이든 천이든 입력 토큰당
[03:35]
저는 이 모든 숫자들을
[03:36]
추적하려고 노력해왔습니다.
[03:37]
추적하기가 어렵기 때문이죠. Artificial Analysis가
[03:39]
잘 하고는 있지만, GPT-4에 대해
[03:41]
단순 출력만 하고 있습니다. GPT-4는
[03:43]
기본적인 모델로, 입력당 백만 토큰에
[03:45]
250달러, 출력당 백만 토큰에 10달러로
[03:48]
나쁘지는 않지만 좋지도 않습니다. GPT-4 Mini는
[03:51]
놀랍도록 저렴해서 백만 입력 토큰당 15센트,
[03:53]
10분의 1도 안 되는 비용이고, 출력은 60센트로
[03:56]
역시 10분의 1도 안 되는 비용입니다.
[03:58]
GPT-4는 터무니없이 비싸서 GPT-4 Mini보다
[04:02]
100배나 더 비쌉니다. 하지만 이는
[04:04]
이러한 모델을 실행하는 데 필요한
[04:06]
컴퓨팅 비용을 이해하면 납득이 됩니다.
[04:07]
그리고 제가 가장 불만스러워하는 것이 있는데,
[04:09]
거의 파산할 뻔했던
[04:11]
Claude 3.5 Sonnet입니다. 백만 입력 토큰당 3달러,
[04:13]
출력 토큰당 15달러를 청구하죠.
[04:15]
하지만 DeepSeek가 등장해서 시장을 흔들어놓았습니다.
[04:16]
백만 입력 토큰당 27센트,
[04:19]
출력당 1.10달러인 기본 모델,
[04:21]
이전 버전의 가격이
[04:22]
여전히 적용되고 있는데,
[04:24]
GPT-4 Mini보다도 저렴하다는 게 놀랍습니다.
[04:26]
하지만 정말 대단한 건 R1 모델입니다.
[04:29]
백만 입력당 55센트, 출력당 2.20달러로
[04:31]
믿을 수 없이 저렴합니다. 특히
[04:33]
R1의 품질을 고려하면 더욱 그렇죠.
[04:36]
대부분의 평가에서 OpenAI의
[04:38]
추론 모델만큼 좋거나 더 뛰어납니다.
[04:40]
코딩 인간 평가에서는,
[04:43]
어려운 코딩 문제를 해결하는 테스트인데,
[04:45]
R1이 GPT-4를 근소하게 이겼습니다.
[04:49]
매우 근소한 차이였지만, 승리했죠.
[04:50]
정말 뛰어난 모델이고, 이 가격에
[04:52]
말도 안 되게 좋습니다. 품질 대비
[04:53]
가격 섹션을 보면, GPT-4가
[04:56]
저 구석에 멀리 떨어져 있는 것을 볼 수 있습니다.
[04:58]
GPT-4를 꺼보겠습니다. 모든 그래프를
[05:00]
망가뜨리거든요. 그러면 흥미로운 점을 보실 수 있는데,
[05:02]
R1과 O03 Mini가
[05:05]
Gemini와 V3는 가격 대비 품질 분석에서
[05:07]
훨씬 더 합리적인 수준을 보여줍니다. Claude는
[05:11]
다른 새로운 모델들과 비교했을 때
[05:14]
품질 대비 매우 비싼 편이고,
[05:15]
Llama 40 mini는 놀랍도록 저렴하지만
[05:19]
예상외로 성능이 좋지 않습니다.
[05:22]
Gemini가 여기에 포함되지 않은 이유는
[05:24]
촬영 당시 사이트가
[05:26]
새로운 Gemini 모델과
[05:28]
새로운 가격으로 업데이트되었기 때문입니다.
[05:30]
그렇다면 얼마나 비쌀까요?
[05:32]
품질은 이미 다른 모델들에
[05:34]
매우 근접해 있습니다.
[05:35]
추론 모델들에 매우 근접하고
[05:36]
많은 부분에서 Claude를 능가하고 있으며
[05:38]
코드 면에서는 비슷하지만
[05:39]
거의 모든 다른 영역에서 뛰어납니다.
[05:41]
이것을 무료로 제공하면서
[05:43]
파산하지 않을까요? 입력당 1백만 토큰에 10센트,
[05:46]
출력당 40센트입니다. 이게 라이트 모델이 아닙니다.
[05:49]
라이트 모델은 입력당 7센트,
[05:52]
출력당 30센트입니다. 우리는 새로운
[05:54]
최저가 모델을 갖게 되었습니다.
[05:56]
Flash Light는 정말 놀랍습니다. 두 모델 모두
[05:59]
Llama 40 mini보다 저렴하고,
[06:01]
DeepSeek보다 훨씬 더 저렴합니다.
[06:03]
그리고 라이트 버전은 너무나 저렴해서
[06:06]
거의 공짜나 다름없습니다. 정말 믿을 수 없죠.
[06:08]
또 다른 중요한 점은
[06:10]
컨텍스트 윈도우입니다. 컨텍스트 윈도우는
[06:13]
응답을 생성하면서 처리할 수 있는
[06:15]
데이터의 양을 의미합니다. AI 모델에
[06:18]
너무 많은 데이터를 주면 작동이 중단됩니다.
[06:19]
이것은 다른 차트입니다. 이 차트는
[06:22]
컨텍스트 윈도우의 크기를 기반으로 하며
[06:24]
실제 크기는 이렇습니다.
[06:25]
구글 모델들을 제외하겠습니다.
[06:27]
너무 압도적이기 때문입니다.
[06:28]
대부분의 모델들은 128K 토큰의
[06:31]
컨텍스트를 가지고 있습니다. 이는
[06:33]
약 128,000개의 단어를 처리하면서도
[06:37]
응답을 생성할 수 있다는 의미입니다.
[06:39]
엄청난 양의 단어죠.
[06:41]
많은 토큰입니다. 저는 매우 큰
[06:43]
코드베이스들이 대부분의 모델이 가진
[06:45]
128K 토큰 제한 안에 충분히 들어가는 것을 봤습니다.
[06:48]
Claude의 Sonnet과 Haiku는 실제로
[06:51]
200K 마크로 꽤 높은 편이고
[06:53]
OpenAI는 이를 도전으로 받아들여
[06:55]
GPT-4와 GPT-3.5로 맞췄습니다.
[06:57]
콘텐츠 크기가 이제는 너무 커서
[06:59]
더 이상 문제로 느껴지지도 않습니다.
[07:01]
구글은 Gemini 1.5에서 2백만을 달성했고
[07:04]
2.0에서는 1백만을 유지하고 있습니다.
[07:07]
1백만 토큰이면 대부분의 코드베이스가
[07:10]
이 컨텍스트 윈도우 안에 들어갑니다.
[07:12]
즉, Gemini에 전체 코드베이스를 주고
[07:14]
무언가를 찾아달라고 할 수 있으며
[07:16]
물론 입력과 출력 토큰당 비용이 발생하지만
[07:19]
백만 토큰의 코드베이스를 준다고 해도
[07:21]
아, 맞다! 단지 10센트밖에 안 듭니다.
[07:23]
신경 쓸 필요가 없죠.
[07:25]
이것이 정말 믿을 수 없는 점입니다.
[07:27]
다른 모델에서 이런 분석을 하려면,
[07:29]
Llama 40 mini같은 저렴한 모델이라도
[07:31]
입력당 15센트지만,
[07:32]
이제 백만 토큰을 파싱할 수 있는
[07:34]
형태로 변환해야 합니다.
[07:37]
자체 레이어를 구축해야 하고
[07:38]
RAG 같은 것을 만들어서
[07:40]
데이터를 찾고 실제로 가져와서 적용하는 방법을
[07:43]
찾아야 합니다.
[07:44]
하지만 백만 토큰이면
[07:46]
이런 걱정을 할 필요가 없습니다.
[07:47]
정말 대단하죠. 곧 출시될
[07:50]
Pro 버전은
[07:51]
아직 얼리 액세스 상태인 Pro 버전은
[07:54]
200만 토큰 범위를 가질 예정이고
[07:56]
벤치마크에서도 훌륭한 성과를 보일 것이 거의 확실해요
[07:58]
이 모델들이 출시되는 게 정말 기대됩니다
[08:00]
유튜브가 아닌 구글 제품에 대해
[08:02]
이렇게 설레다니 믿기지 않네요
[08:04]
구글의 새로운 모델에 대해
[08:06]
이렇게 흥분될 줄은 몰랐어요
[08:07]
이런 수치는 조작할 수 없거든요
[08:10]
그리고 지금 구글의 수치는
[08:11]
정말 놀랍도록 좋아 보입니다
[08:13]
전반적인 품질 수준이
[08:16]
Anthropic과 비슷한데 가격은
[08:18]
말도 안 되게 낮아요
[08:21]
Flash가 Claude와 비슷하거나 더 나은 성능을 보이면서
[08:24]
출력 토큰 비용이 40분의 1이라는 게
[08:26]
정말 놀랍습니다. 30배 이상의 비용 절감 효과가 있는
[08:30]
어떤 면에서는 더 나은 모델로의 전환이죠
[08:32]
DeepSeek에 대한 걱정도 이제는
[08:35]
없어진 것 같아요. 구글이 이제
[08:38]
최고 품질의 가장 저렴한 모델을 가지게 됐고
[08:40]
경쟁이 안될 정도예요
[08:43]
아마도 T3 채팅에서
[08:44]
rate limit에 문제만 없다면
[08:45]
이걸 기본 모델로 설정할 것 같아요
[08:47]
너무 미쳤죠. 게다가 이게 전부가 아니에요
[08:50]
여기까지만 해도 놀라울 텐데
[08:52]
여기 공식 AI Studio에서
[08:54]
API에서 thinking 데이터를 아직 얻을 수 없어서
[08:57]
보여드리려고 합니다
[09:00]
아직 깊이 알아보진 않았지만
[09:02]
여러분께 보여드리고 싶은 게
[09:04]
실제로 thinking 모델이 있다는 거예요
[09:06]
이 Gemini 2.0 flash thinking experimental을 보세요
[09:08]
비용이 0이고
[09:10]
rate limit이 분당 10회로 꽤 제한적이에요
[09:12]
아직 T3 채팅에 추가할 수는 없어요
[09:14]
비용이 얼마나 될지 모르고
[09:16]
수십만 명의 T3 채팅 사용자들이
[09:19]
사용하면 부하가 심할 테니까요
[09:20]
하지만 얼마나 좋은지
[09:23]
보여드리고 싶어요
[09:24]
물론 여기 채팅 인터페이스는
[09:26]
최상은 아닐 거예요
[09:28]
그들의 주력 분야가 아니니까요
[09:30]
그들은 모델에 더 집중하고 있죠
[09:31]
테스트를 위해
[09:33]
제가 가장 좋아하는 문제를 풀어볼게요
[09:34]
Python으로 Advent of Code 2021 day 5를 풀어보겠습니다
[09:39]
여기 thinking하고 있네요
[09:43]
그리고 생각하는 속도가 느리지 않아요
[09:45]
reasoning 모델들의 문제점 중 하나는
[09:46]
많은 호스트들이 빠르지 않다는 거였어요
[09:49]
게다가 공식 호스트들이
[09:51]
자주 다운되곤 했죠
[09:53]
DeepSeek의 성능이 좋고
[09:54]
결과에 만족하더라도
[09:55]
가격도 좋았지만
[09:57]
API가 8일 동안이나 다운됐어요
[10:00]
이제 돌아온 것 같아서
[10:01]
드디어 T3 채팅에 다시 추가할 수 있을 것 같아요
[10:03]
공식 제공자를 통해서요
[10:05]
빠른 thinking reasoning 모델이
[10:07]
실제로 사용 가능한 결과를 빠르게 제공한다는 건
[10:12]
정말 대단한 일이에요
[10:14]
reasoning을 포함해서 8초 만에
[10:16]
문제를 해결했다는 건
[10:17]
GPT-3.5보다 여러 면에서 더 낫고
[10:20]
훨씬 저렴하다는 거죠
[10:22]
아마도 손해를 보면서
[10:23]
서비스하고 있는 것 같아요
[10:26]
이해하기 힘들 정도니까요
[10:28]
게다가 이게 다가 아니에요
[10:30]
지금까지는 자동완성과 텍스트에 대해서만 얘기했는데
[10:32]
이건 단순한 텍스트 입출력이 아닙니다.
[10:34]
여기서 우리가 보고 있는 라이트 모델은
[10:36]
텍스트, 이미지, 비디오, 오디오까지 모두 처리할 수 있습니다.
[10:39]
그리고 스탠다드와 프로는 더 나아가서,
[10:41]
오디오 처리에는 약간 더 비용이 들지만
[10:42]
더 고급 기능을 제공합니다.
[10:43]
또한 검색 기능도 내장되어 있어서
[10:45]
모델에 검색 기능을 설정할 수 있습니다.
[10:47]
다른 모델들과 달리 직접 구현할 필요가 없죠.
[10:49]
거의 모든 다른 모델에서는
[10:51]
검색 기능을 직접 추가해야 했습니다.
[10:54]
대부분의 AI 제공업체들은 현재
[10:56]
'도구'라는 개념을 사용하는데,
[10:58]
AI에게 특정 기능을 수행할 수 있다고 알려주고
[11:00]
인터페이스를 제공한 다음,
[11:02]
웹사이트나 다른 서비스에 연결되는
[11:04]
실제 기능을 직접 구축해야 합니다.
[11:06]
'구글에서 검색하고 결과를 가져오려면
[11:08]
이 세 가지를 호출하세요'라고 지정하면
[11:11]
AI가 이를 이해하고
[11:12]
자동으로 실행해서 결과를 텍스트로 생성합니다.
[11:15]
보통은 이런 기능을
[11:16]
직접 설정해야 하는데,
[11:17]
브라우저 베이스 같은 플랫폼을 사용하면 됩니다.
[11:19]
브라우저 베이스는 정말 훌륭한데,
[11:20]
여러 영상의 스폰서이기도 했죠.
[11:22]
원격 서버리스 브라우저를 위한
[11:25]
완전한 헤드리스 도구를 만들었습니다.
[11:26]
이를 통해 AI 워커가 웹을 탐색할 수 있게 해주죠.
[11:29]
따라서 Claude나 OpenAI용 검색 기능을
[11:32]
직접 만들고 싶다면,
[11:34]
브라우저 베이스를 이용해 도구를 만들어
[11:37]
설명을 추가하면 됩니다.
[11:39]
하지만 구글은 이미 내장되어 있죠.
[11:40]
이건 당연한 일입니다.
[11:42]
구글이 세계 최고의 검색 기업인데
[11:44]
자사 모델에 검색 기능이 없다면
[11:46]
이상하지 않겠어요?
[11:47]
사실 이게 제가
[11:49]
Gemini를 자세히 보기 시작한
[11:50]
주된 이유입니다.
[11:51]
검색 도구 시스템을
[11:52]
직접 구축하는 데 시간을 쓰고 싶지 않았거든요.
[11:54]
많은 사람들이 T3 채팅에서
[11:57]
검색 기능을 원했는데,
[11:59]
구글 모델에서는 기능 플래그처럼
[12:01]
쉽게 켤 수 있습니다.
[12:02]
저는 지금 Gemini 모델을 배포하고 있어서
[12:04]
순다르가 트위터에서 하는 말에
[12:06]
주목하고 있습니다.
[12:07]
팔로우 버튼도 눌렀죠.
[12:09]
이제 이게 제 비즈니스의 일부니까요.
[12:10]
Claude의 가격 인하는 정말 예상 못했습니다.
[12:12]
이렇게 새로운 것을 내놓고
[12:14]
더 저렴한 가격을 제시하다니요.
[12:16]
월 8달러짜리 AI 채팅 앱이 된 거죠.
[12:19]
LLM은 Ask Jeeves를 부활시키기에
[12:21]
완벽한 계기가 됐을 텐데, Jeeves만이 아니라
[12:24]
여러분 Akinator 기억하시나요?
[12:26]
원조 AI였죠. 여러분이 생각하는 인물이나
[12:29]
사물을 맞추기 위해
[12:31]
20개의 질문을 하면서
[12:33]
가능성을 좁혀나갔죠.
[12:34]
어릴 때 저는 이거에
[12:36]
완전히 빠져있었는데,
[12:38]
이제는 완전히 새로운 세상이 됐네요.
[12:39]
이렇게 저렴해진 큰 이유는
[12:41]
새로운 컴퓨팅 기술 때문일 것 같습니다.
[12:43]
구글이 자체 프로세서 개발에
[12:45]
정말 많은 노력을 기울였죠. 처음에는 양자 컴퓨팅용으로,
[12:48]
그리고 폰 성능 개선을 위해서였죠.
[12:50]
퀄컴에 대해 길게 이야기할 수 있지만
[12:52]
여러분을 위해 그만두겠습니다.
[12:54]
그들이 만들고 있다는 것만 아시면 됩니다.
[12:56]
많은 기업들의 상황을 더 어렵게 만들고 있죠.
[12:58]
애플처럼 자체 칩을 만들고 싶어 하는 것은 이해가 됩니다.
[12:59]
하지만 그들은
[13:00]
텐서 워크플로우와 AI를 위한
[13:03]
고성능 컴퓨팅 칩에 집중했습니다.
[13:05]
제 추측으로는 이 칩들이
[13:07]
충분히 좋아져서
[13:08]
훨씬 더 빠르고 저렴하게 작업을 수행할 수 있게 되었습니다.
[13:11]
이전 세대보다 3배 빠른 추론 처리 속도와
[13:12]
4배 향상된 학습 성능,
[13:14]
에너지 효율성은 7% 개선되었습니다.
[13:16]
따라서 비용도 많이 절감되었죠.
[13:18]
이는 매우 합리적인 결과입니다.
[13:20]
이것이 바로 현재 구글과 경쟁하기 어려운 이유입니다.
[13:22]
구글은 모델 학습에 필요한
[13:24]
모든 데이터를 보유하고 있고,
[13:26]
모델을 설계하고 학습시킬 수 있는
[13:28]
모든 엔지니어와 연구팀을 보유하고 있으며,
[13:31]
자체 제작한 엄청난 컴퓨팅 파워로
[13:33]
이 모든 것을 더 잘 수행할 수 있습니다.
[13:35]
Grock과 같은 회사는
[13:36]
(우리가 정말 좋아하는 회사인데),
[13:39]
Grock은 협업하기에 정말 좋았습니다.
[13:40]
우리는 초고속 모델을 위해
[13:42]
증류된 R1 모델과
[13:44]
Llama 모델에 Grock을 사용하고 있습니다.
[13:46]
Grock이 너무 빨라서
[13:48]
T3 채팅의 스크롤 작동 방식을 변경해야 했을 정도입니다.
[13:50]
여기서 저는 Llama를 선택했는데,
[13:52]
Advent of Code 2021의 8일차를... 아니 좀 더 쉬운
[13:56]
5일차를 Rust로 풀어보겠습니다.
[13:57]
Python, JS 또는 JavaScript,
[14:00]
그리고 C++로도 시도해보겠습니다.
[14:04]
여러 언어로 시도하는 이유는
[14:07]
여러분들이 Grock이 얼마나 빠른지
[14:10]
직접 확인하셔야 하기 때문입니다. 따라가기도 힘들 정도로 빠르죠.
[14:14]
참고로 이것은 Q로 끝나는 Grock이지
[14:15]
K로 끝나는 Grock이 아닙니다.
[14:18]
K로 끝나는 Grock은
[14:20]
일론의 지갑하고만 경쟁하고 있죠. Q로 끝나는 Grock은
[14:23]
모델 학습이 아닌 추론을 위한
[14:25]
매우 빠른 칩을 만드는 회사입니다.
[14:29]
모델의 응답을 생성하기 위한 칩이죠.
[14:31]
그들의 칩 아키텍처는
[14:33]
현재로서는 Llama에서만 잘 작동하도록 설계되어 있어서
[14:35]
제공하는 거의 모든 모델이
[14:36]
Llama 기반입니다. 스크롤을 내려보시면
[14:39]
많은 Llama 모델들을 보실 수 있습니다.
[14:41]
Mistral도 어느 정도 작동하고
[14:42]
OpenAI의 Whisper도 잘 작동합니다.
[14:44]
오디오 모델인데, 그들은
[14:47]
다른 곳들보다 압도적으로 빠릅니다.
[14:49]
이는 칩이 이러한 특정 모델들의
[14:51]
작동 방식에 최적화되어 있기 때문입니다.
[14:53]
그래서 이런 엄청난 수치가 나오는 거죠.
[14:55]
OpenAI API의 공식 GPT-4가
[14:57]
초당 70 토큰을 처리하는 반면
[15:01]
여기 있는 여러 모델들은
[15:02]
초당 3,000 토큰을 넘습니다. 하지만 한계도 있죠.
[15:06]
입력 크기가 많이 제한되어 있어서
[15:07]
대부분 32k 컨텍스트만 처리 가능하고
[15:09]
일부는 그보다도 적습니다.
[15:10]
컨텍스트가 늘어나면 속도가 저하되고
[15:12]
가격 책정도 매우 합리적입니다.
[15:15]
이렇게 빠른 모델들의 경우에는요.
[15:17]
하지만 더 느리고 토큰 수가 많으며
[15:18]
컨텍스트 윈도우가 큰 모델들은
[15:20]
일반적인 가격대를 보입니다.
[15:21]
여기엔 여러 이유가 있는데
[15:23]
가장 큰 이유는 모델 자체에 대한
[15:24]
통제력이 거의 없다는 점입니다.
[15:26]
다른 곳에서 만든 모델을 가져와서
[15:29]
가격을 책정하고 자사의 칩에서
[15:31]
잘 작동하기를 바랄 수밖에 없죠.
[15:32]
Google은 그런 문제가 없습니다.
[15:34]
모든 부분을 다 소유하고 있기 때문이죠.
[15:35]
모든 데이터를 가지고 있고,
[15:37]
모든 모델 개발을 소유하고 있으며,
[15:40]
실행에 필요한 모든 CPU와 아키텍처를 보유하고 있습니다.
[15:42]
이러한 동기화가 바로
[15:45]
제 아이폰이 뛰어난 제품인 이유입니다.
[15:47]
아이폰의 하드웨어, 칩셋,
[15:50]
소프트웨어와 다른 모든 것이
[15:51]
애플이 설계했기 때문이죠.
[15:53]
이런 통합이 더 빠른 발전을 가능하게 하고
[15:56]
다른 누구도 따라올 수 없는 이점을 만듭니다.
[15:58]
좀 이상하게 들릴 수 있지만,
[15:59]
Google이 AI 분야에서
[16:00]
Apple과 같은 위치에 있는 것 같습니다.
[16:02]
모든 것을 하나로 통합할 수 있는
[16:04]
최악의 대시보드를 가지고 있지만,
[16:06]
인터페이스와의 상호작용이 얼마나 불편한지
[16:09]
제대로 표현할 수가 없습니다.
[16:11]
Google Cloud 제품들, Vertex Studio,
[16:13]
새로운 AI Studio는
[16:16]
실제로 꽤 괜찮고
[16:18]
작업하기도 좋습니다. Google은
[16:20]
여기서 승리할 진정한 기회가 있고,
[16:22]
저는 그것이 실현되기를 진심으로 희망합니다.
[16:26]
가격, 개발자 경험, 품질,
[16:29]
그리고 모델의 성능에서
[16:31]
더 많은 경쟁이 필요한데,
[16:33]
현재 Google만이
[16:34]
이 모든 분야에서 싸우고 있습니다.
[16:36]
단, Vertex는 빨리 중단해야 할 것 같네요.
[16:39]
채팅에서 나온 우려사항 중에,
[16:41]
Google의 SDK가 사용하기 불편하다는 점 때문에
[16:43]
개발자들이 5배 비싼 옵션을
[16:45]
순전히 편의성을 위해 선택할 것이라는 의견이 있습니다.
[16:48]
동의하지만, API 키만 받으면
[16:50]
Google 시스템을 더 이상 건드릴 필요가 없습니다.
[16:52]
API 키를 받는 과정이
[16:54]
우스꽝스러울 정도로 어렵다는 건 인정합니다.
[16:56]
Vertex에서는 실제로
[16:57]
전통적인 API 키를 받을 수 없지만,
[16:59]
새로운 AI Studio는 그렇게 나쁘지 않습니다.
[17:01]
Studio에서 API 키를 받으면
[17:04]
설정하는 것이 어렵지 않습니다.
[17:05]
Vercel의 AISK나
[17:08]
Open Router 프로젝트 같은 래퍼를 사용하면
[17:11]
두 가지 모두 정말 훌륭한데,
[17:13]
키만 있으면 연결이 매우 쉽습니다.
[17:14]
AISK는 다양한 제공업체를
[17:17]
쉽게 추가할 수 있게 해줍니다.
[17:19]
여기 프로덕션에 있는
[17:21]
모든 모델이 포함된 실제 파일입니다.
[17:24]
현재 사용 중인 모든 것에 대해
[17:25]
AISK 제공자를 가져온 다음
[17:27]
사용하고자 하는 모델을 호출하여 정의합니다.
[17:29]
그리고 환경 변수만
[17:30]
제대로 설정되어 있다면
[17:32]
(지금은 그 파일을 열지 않겠습니다)
[17:34]
바로 작동하고, 이 두 모델을 추가하는 것은
[17:35]
여기에 추가하고
[17:37]
UI에 표시되도록 설정하기만 하면 됩니다.
[17:38]
현재 우리 코드베이스에는
[17:40]
Google을 위한 특별한 처리가 없습니다.
[17:42]
Vertex를 설정할 때는 많은
[17:44]
이상한 작업들을 해야 했지만,
[17:46]
Gemini나 AI Studio에서는
[17:48]
그럴 필요가 없습니다.
[17:51]
AISK에서 Google Provider를 가져와서
[17:54]
호출하기만 하면 끝입니다.
[17:56]
Vercel이 Google의 개발자 경험 문제를
[17:59]
이렇게 잘 해결하고 있다는 게 재미있네요.
[18:01]
Vertex의 문제를 해결하려고 했는데,
[18:03]
Vertex의 한 가지 문제점은
[18:05]
환경 변수를 그냥 넣을 수가 없고
[18:07]
클라이언트 자격 증명과 private key가 특별히
[18:10]
필요한데, 이상적으로는 JSON 파일 형식으로
[18:13]
제공해야 하며 이는 Google의 이상한
[18:16]
인증 시스템에 의해
[18:17]
자동으로 업데이트됩니다. IAM보다
[18:19]
10배는 더 복잡하고 작동 방식을
[18:21]
설명하는 문서도 제대로 없어요. 제가
[18:22]
하루를 써서 인증을 구현했다고 했는데
[18:25]
농담이 아닙니다. 제가 최근에
[18:27]
Google 스타트업 팀과
[18:28]
많은 시간을 보내고 있는 이유가 있죠.
[18:29]
그들도 저만큼이나 충격을 받았거든요.
[18:31]
이래서는 안 되는데, 하지만
[18:33]
Vertex는 최대한 피하고
[18:35]
대신 표준 Google Generative AI인
[18:37]
Google AI Studio를 사용하면
[18:39]
문제없이 잘 됩니다. 이게 만약
[18:41]
오픈 모델이었다면 세상을
[18:43]
완전히 바꿔놓았을 겁니다. 하지만
[18:44]
그들의 어마어마한 자금이 없었다면
[18:46]
잘 작동하지도 않았겠죠.
[18:47]
이건 정말 굉장히 멋진 것 같고
[18:49]
여러분의 생각이 궁금합니다.
[18:51]
T3 chat에서 한번 시도해보세요. 무료로
[18:53]
이용할 수 있고, 모서리에 있는 작은 버튼만
[18:54]
클릭하면 됩니다. Flash를 사용하고
[18:56]
초고속 Flashlight 모델을 보고 싶다면
[18:58]
실험적 모델 아래에
[19:00]
숨겨져 있습니다. 로그인하면
[19:01]
많은 메시지를 받을 수 있고
[19:02]
더 많은 기능을 원한다면
[19:03]
월 8달러면 됩니다. 이게
[19:05]
전부인데, Google이 이렇게 빨리
[19:06]
따라잡은 것이 아직도 믿기지 않고
[19:08]
이로 인해 다른 것들도 발전하길 기대합니다.
[19:10]
바라건대 이로 인해
[19:12]
OpenAI와 Anthropic이
[19:14]
가격을 낮추고 AI 기술이
[19:17]
모두에게 더 접근하기 쉬워질 것입니다.
[19:19]
다른 회사들이 Google이 제시한
[19:20]
가격보다 10배에서 100배나 더 비쌀 때
[19:22]
진정한 변화가 필요한 시점입니다.
[19:24]
Google이 이런 변화를 만들어낼 줄은
[19:26]
전혀 예상치 못했는데,
[19:27]
점점 더 그렇게 되어가는 것 같네요.
[19:29]
여러분의 생각을 들려주세요.
[19:30]
다음에 또 만나요, 안녕히 계세요!