테스트해본 Gemini Diffusion, O3 Pro, Eleven Labs V3, FLUX.1 Kontext [MAX]

All About AI 구독자 189,000명

요약

이 영상에서는 Gemini Diffusion부터 OpenAI O3 Pro 모델, Black Forest Labs의 Flux Context Max 이미지 편집 모델, Eleven Labs V3 음성 합성 기능까지 네 가지 신기술을 살펴봅니다. Gemini Diffusion은 확산(difusion) 방식으로 한 번에 모든 토큰을 병렬 생성해 초당 1,500개 이상의 토큰 속도를 실현하며, 랜딩 페이지와 레트로 3D 체스 게임 예시로 그 가능성을 입증합니다. O3 Pro 모델은 API 사용 시 가격이 80% 내려갔지만 응답 지연이 커 채팅용보다는 특정 용도에 적합하며, Flux Context Max는 복잡한 텍스트 지시를 따라 고도화된 이미지 편집을 수행합니다. Eleven Labs V3는 브래킷 표현과 다중 화자 태그를 통해 음성 합성에서 감정과 대화를 보다 세밀하게 제어할 수 있는 알파 버전입니다.

주요 키워드

Gemini Diffusion Parallel Token Generation Diffusion Architecture Tokens per Second O3 Pro Context Window Flux Context Max Image-to-Image Editing Eleven Labs V3 Bracket Expressions

하이라이트

🔑 Gemini Diffusion은 확산(difusion) 아키텍처로 모든 토큰을 병렬 생성해 초당 1,500개 이상의 토큰 속도를 달성합니다.
⚡️ 랜딩 페이지와 레트로 해커 테마, 3D 체스 게임 예시로 Gemini Diffusion의 빠른 코드 생성을 실시간 데모했습니다.
🚀 OpenAI O3 Pro 모델은 가격이 80% 인하돼 단가가 크게 낮아졌지만, 간단한 채팅은 16초 이상 지연돼 특정 사용 사례에 집중해야 합니다.
🌟 Flux Context Max는 Black Forest Labs의 프리미엄 텍스트 기반 이미지 편집 모델로, 복잡한 지시문도 높은 정확도로 처리합니다.
🎙 Eleven Labs V3 알파 버전은 브래킷 표현([laughter], [speaker])과 다중 화자 지원으로 감정과 대화 흐름을 세밀하게 연출할 수 있습니다.
📌 Gemini Diffusion의 순간 코드 생성은 웹 페이지를 매번 사용자 맞춤형으로 실시간 생성하는 가능성을 보여줍니다.
⚙️ O3 Pro 모델(API 전용)은 맥락 윈도우(20in/80out) 확장과 가격 인하를 통해 고급 애플리케이션에 활용할 수 있습니다.
✨ Flux Context Max로 이미지 내 마이크 제거, 배경 교체, 조명 변경까지 한 번의 프롬프트로 실현했습니다.

용어 설명

Gemini Diffusion

토큰을 병렬 생성하는 확산(difusion) 기반 대규모 언어 모델(LLM) 아키텍처

Parallel Token Generation

모델이 모든 토큰을 동시에 생성해 처리 속도를 극대화하는 기법

O3 Pro

OpenAI가 제공하는 세 번째 버전 프로 모델로, 20in/80out 맥락 윈도우를 지원

Flux Context Max

Black Forest Labs가 개발한 텍스트 기반 이미지 투 이미지(image-to-image) 편집 모델

Eleven Labs V3

다중 화자, 브래킷 표현 기반 감정 제어가 가능한 음성 합성(Text-to-Speech) 알파 모델

Tokens per Second

언어 모델이 생성하는 토큰(단어·기호) 처리 속도를 나타내는 단위

Gemini Diffusion 개념과 빠른 입출력 성능을 간단히 설명 후, AI 로봇 강아지를 홍보하는 스타트업 스타일 랜딩 페이지를 3.5초 만에 생성하는 실시간 데모를 진행합니다.

[00:00] 지난 몇 주 동안 놓쳤던 새로운 기술들을 살펴보며, 먼저 Gemini Diffusion이라는 새로운 형태의 LLM 아키텍처를 소개합니다.

[00:13] AI 로봇 개를 판매하는 모던한 스타일의 스타트업 랜딩 페이지를 생성하는 실시간 데모를 진행합니다. 초당 1,500토큰 이상의 처리 속도로 3.5초 만에 완성된 랜딩 페이지를 확인할 수 있습니다.

전통적인 토큰 순차 생성(chatGPT)과 달리, 디지털 노이즈 상태에서 수백 회의 병렬 패스(passes)로 모든 토큰을 한 번에 ‘폴라로이드 사진처럼’ 출력하는 방식을 폴라로이드 비유로 설명합니다.

[00:47] O3의 설명을 통해 Gemini Diffusion의 작동 원리를 폴라로이드 이미지 현상에 비유하여 설명합니다. 디지털 노이즈에서 시작해 초고속 개발 패스를 통해 모든 토큰을 병렬로 처리하여 한 번에 결과를 출력하는 방식입니다.

[01:21] 이 기술의 의미는 개인화된 코드를 실시간으로 생성할 수 있다는 점입니다. 정적인 웹페이지가 아닌, 클릭할 때마다 새로운 코드가 생성되고 사용자에 맞게 개인화될 수 있는 가능성을 제시합니다.

기존 랜딩 페이지에 “레트로 해커” 스타일을 적용해 2.9초, 초당 1,125토큰 속도로 코드 스타일을 변경하고, UI 요소 재정렬 등을 실험합니다.

[01:53] 기존 스타일을 레트로하고 해커 스타일로 변경하는 반복 작업을 시연합니다. 2.9초 만에 초당 1125토큰으로 처리하여 304줄의 코드를 생성했지만, 일부 문제점도 확인됩니다.

[02:45] 새로운 채팅으로 간단한 체스 게임을 만드는 시도를 합니다. 레트로 스타일링과 3D 효과를 적용하여 3.6초에 초당 1182토큰으로 처리하지만, 실제 게임 기능이 제대로 작동하지 않는 문제를 확인합니다.

간단한 체스 게임 UI를 레트로 3D 스타일로 3.6초 만에 생성하고, 실제로 말 이동과 상호작용 기능을 시연해 빠른 프로토타이핑 가능성을 보여줍니다.

[03:17] 체스 게임에서 피스 선택 문제를 해결하고 반복 개선을 통해 검은색 피스를 성공적으로 움직일 수 있게 되었습니다. 몇 초 만에 레트로 3D 체스 게임을 완성했다고 설명합니다.

[03:50] Gemini Diffusion이라는 흥미로운 기술을 소개하며, API 제공 시 후속 작업을 고려한다고 언급합니다. 이 기능을 사용하려면 대기자 명단에 등록해야 한다고 설명합니다.

OpenAI O3 및 O3 Pro 모델이 API에 출시됐음을 확인하고, 80% 가격 인하(2in/8out → 20in/80out)를 소개합니다. 간단한 ‘hello’ 테스트 결과 16초 지연을 기록해 채팅보단 특정 처리용도에 적합함을 시사합니다.

[04:07] OpenAI의 O3 모델 출시를 언급하며 프로 사용자와 API에서 사용 가능하다고 설명합니다. 응답 속도가 느리다는 점과 가격이 80% 인하되었다는 흥미로운 소식을 전합니다.

[04:43] O3 모델의 가격 구조를 확인하며 입력 2달러, 출력 8달러로 합리적이라고 평가합니다. O3 Pro는 입력 20달러, 출력 80달러로 상당히 비싸지만 특정 사용 사례에서는 가치가 있을 수 있다고 언급합니다.

[05:17] O3 Pro의 간단한 테스트를 시작하며 응답 시간을 확인해보기로 합니다. Replicate의 Flux One Context Max라는 Black Forest Labs의 새로운 이미지 편집 모델을 소개합니다.

Replicate 플랫폼의 Black Forest Labs Flux Context Max를 활용해 이미지에 네온사인 추가, 배경 교체, 마이크 제거, 테이블·조명·소품 변경 등 복합 명령을 텍스트로 전달해 편집 결과를 확인합니다.

[05:44] Flux One Context Max를 이미지 투 이미지 편집에 매우 뛰어난 프리미엄 텍스트 기반 이미지 편집 모델이라고 설명합니다. 배경 추가나 조명 변경 등의 편집 작업을 텍스트 프롬프트만으로 할 수 있다고 소개합니다.

[06:23] AI 이미지 생성 모델을 테스트하며 벽에 네온사인과 따뜻한 조명, 식물 배경을 추가하는 프롬프트를 시도합니다.

[06:57] 첫 번째 결과가 성공적으로 나왔으며, 'All About AI' 사인과 빨간 조명, 배경 식물이 잘 구현되었습니다.

[07:20] 더 극적인 변화를 시도하여 마이크 제거, 검은 티셔츠, 스팀 펌프, 집 내부 배경으로 완전히 다른 이미지를 생성합니다.

[07:44] 대부분의 요소가 성공적으로 변경되었고, 인물의 일관성은 유지되면서 배경과 소품들이 잘 바뀌었습니다.

[08:17] Black Forest Labs의 Flux Context Max 모델을 추천하며, 프로 버전도 있다고 언급합니다.

[08:32] O3 Pro 모델의 한계점을 설명하며, 헬로에 16초가 걸리는 등 일반 채팅보다는 특정 용도에 적합하다고 평가합니다.

[09:14] O3 Pro 모델에 대한 접근성을 확인하며, Plus 구독으로는 접근할 수 없고 API에서만 사용 가능할 것으로 추정한다고 설명합니다.

[09:33] 11 Labs의 새로운 V3 알파 모델을 소개하며, 텍스트에 감정 표현을 추가할 수 있는 새로운 기능을 시연합니다.

11 Labs V3 알파 버전에 브래킷 기반 표현([laughter], [excited])과 다중 화자([speaker]) 태그를 적용해 감정·스토리텔링 음성 출력 과정을 시연합니다.

[09:51] 괄호를 사용해서 '웃음' 같은 표현을 추가하는 방법을 보여주고, 실제로 음성에 웃음소리가 반영되는 것을 확인합니다.

[10:08] 두 번째 화자를 추가하는 기능을 시연하며, James라는 화자에게 '흥분된' 감정을 부여해서 대화를 만드는 과정을 보여줍니다.

[10:43] '스토리' 표현을 사용해서 화자의 말하는 방식을 바꾸는 방법을 설명하고, 더 긴 스토리텔링 형태의 텍스트를 추가합니다.

[11:00] 지하철역에서 이상한 파란 안개를 발견하고 들어가는 스토리를 생생한 음성으로 재생하여, V3 모델의 표현력을 실제로 보여줍니다.

[11:40] 음성 생성에서 화자가 예상과 다르게 나온 부분을 지적하며, 아직 완벽하지 않지만 매우 재미있는 기능이라고 평가합니다.

[11:52] 11 Labs V3가 아직 알파 단계이며 API에서는 사용할 수 없지만, 향후 API 지원 시 업데이트를 제공할 예정이라고 안내합니다.

[12:09] LLM을 활용해서 이런 감정 표현을 자동으로 설정하는 방법에 대한 아이디어를 제시하며, 향후 영상에서 다룰 예정이라고 예고합니다.

[12:17] 오늘 다룬 내용들(Gemini Diffusion, O3, Flux 모델, 11 Labs)을 요약하며, AI 분야의 흥미진진한 발전상을 강조하고 시청자들의 주말 실험을 격려합니다.

Gemini Diffusion, O3 Pro, Flux Context Max, Eleven Labs V3까지 네 가지 모델을 간단히 돌아보고, 각 기술이 주말 프로젝트나 프로토타입에 어떤 영감을 줄 수 있는지 제안하며 영상을 마무리합니다.

타임라인 정보가 없습니다.

[00:00] 오늘은 지난 몇 주 동안 놓쳤던

[00:02] 몇 가지 새로운 것들을 살펴보려고 합니다.

[00:04] 먼저 Gemini Diffusion부터 시작하죠.

[00:05] 이것은 새로운 형태의 LLM이라고 할 수 있습니다.

[00:07] 네, 이를 아키텍처라고 부를 수 있겠네요.

[00:10] 그럼 이제 바로 시작해보겠습니다.

[00:13] AI 로봇 개를 판매하는 랜딩 페이지를 만들어보세요.

[00:15] 모던한 스타일의 스타트업 랜딩 페이지로 만들어주세요.

[00:17] 아이디어는 이것을 매우 빠르게 할 수 있다는 것입니다.

[00:20] 초당 1,500토큰 이상까지 처리할 수 있습니다.

[00:23] 네, 지금 보시기 바랍니다.

[00:27] 랜딩 페이지를 만들어야 합니다.

[00:30] 바로 시작하겠습니다.

[00:31] 이제 모든 것이 한 번에 나타나는 걸 볼 수 있습니다.

[00:34] 그리고 3.5초 만에 랜딩 페이지가 완성되었습니다.

[00:38] 정말 놀랍지 않나요?

[00:41] 이것이 어떻게 작동하는지 말씀드리겠습니다.

[00:44] O3에게 이것을 설명해달라고 요청했습니다.

[00:47] Gemini Diffusion을

[00:49] 폴라로이드 이미지가 현상되는 것처럼

[00:51] 생각할 수 있습니다.

[00:54] 그냥 빈 종이였다가 갑자기

[00:56] 이미지가 모든 게 한 번에 나타나는 거죠.

[00:58] 모델도 같은 방식으로 작동하는데

[01:00] 여기서는 디지털 노이즈가 있고

[01:02] 초고속 개발 패스를 통해

[01:04] 모든 토큰을 병렬로 다듬어서

[01:06] 갑자기 모든 코드가

[01:10] 함께 나타나는 걸 볼 수 있습니다.

[01:13] ChatGPT처럼 단어별로 나오는 게 아니라

[01:15] 초당 1,500토큰 이상을 처리할 수 있습니다.

[01:19] 정말 놀라운 성능이죠.

[01:21] 이것의 의미는

[01:25] 개인화된 코드를 실시간으로 생성할 수 있다는 것입니다.

[01:28] 웹페이지가 정적이지 않을 수 있습니다.

[01:30] 클릭할 때마다 새로운 코드가 생성되는

[01:34] 그런 방식이 될 수 있습니다.

[01:36] 사용자에 맞게 개인화될 수도 있고요.

[01:39] 이렇게 빠른 토큰 생성으로

[01:41] 할 수 있는 일이 정말 많습니다.

[01:43] 맞죠? 이제 이것을

[01:45] 조금 바꿔보고 싶다고 해봅시다.

[01:47] 이걸로 반복 작업을 할 수 있습니다.

[01:50] 프롬프트를 생각해보겠습니다.

[01:53] 시도해보죠.

[01:54] 이 스타일이 마음에 들지 않네요.

[01:56] 더 레트로하고 해커 스타일로 만들어주세요.

[01:59] 시작하겠습니다.

[02:02] 이제 실시간으로

[02:03] 페이지가 얼마나 빨리 바뀌는지 볼 수 있습니다.

[02:06] 100% 완벽하지는 않지만 꽤 멋지죠?

[02:09] 여기서 뭔가 문제가 생긴 걸 볼 수 있습니다.

[02:11] 하지만 2.9초 만에, 초당 1125토큰으로

[02:16] 이걸 조금 바꿨습니다.

[02:18] 헤더 메뉴를 수정할 수 있는 걸 볼 수 있습니다.

[02:22] 주문 버튼도 있네요. 이게 뭔가 바뀌는지 봅시다.

[02:26] 여기 몇 가지 문제가 있습니다.

[02:28] 네, 변화가 없지만

[02:31] 지금은 여기에 시간을 쓰지 않겠습니다.

[02:32] 와! 하지만 시간을 쓰지 않을 거예요.

[02:35] 여기서 코드를 볼 수 있습니다.

[02:38] 304줄을 생성했습니다.

[02:41] 정말 멋지지 않나요?

[02:42] 새 채팅을 시작해서

[02:45] 조금 다른 걸 시도해봅시다.

[02:48] 게임을 만들어보겠습니다.

[02:50] 간단한 체스 게임을 만들어보세요.

[02:51] 레트로 스타일링과 3D 효과로

[02:53] 어떻게 되는지 봅시다.

[02:56] 좋습니다.

[02:57] 엄청난 양의 토큰을 처리하고 있습니다.

[03:00] 3.6초에 1182

[03:04] 초당 토큰입니다.

[03:06] 이제 작동하는지 봅시다.

[03:09] 흰색 말 차례입니다.

[03:12] 이게 작동할지 모르겠네요.

[03:14] 잘 모르겠습니다.

[03:16] 모르겠네요.

[03:17] 어떤 피스도 선택할 수 없네요. 그렇지 않을 것 같은데요.

[03:21] 그래서 이걸 고쳐보려고 합니다.

[03:23] 이것을 반복해서 개선할 수 있는지 보겠습니다.

[03:26] 좋아요. 이제 피스를 움직일 수 있네요.

[03:28] 오케이, 꽤 멋지네요. 제가

[03:30] 검은색을 움직이겠습니다. 네, 작동합니다.

[03:32] 저는 그걸 움직일 수 있는지 보고 싶어요. 네,

[03:35] 작동합니다. 이걸 움직여보겠습니다. 그리고

[03:37] 확인해보죠. 네, 작동하고 있습니다. 그리고

[03:41] 이것에 의해 막혔네요. 그래서 네, 그것은

[03:43] 우리가 만든 레트로 3D 체스 게임이었습니다.

[03:46] 네, 몇 초 만에 말이죠. 꽤

[03:48] 멋지네요. 그래서 네, 그것이 바로

[03:50] Gemini Diffusion입니다. 이것은 정말

[03:52] 흥미롭습니다. 우리는 이것을 후속으로 다룰 수도 있습니다,

[03:54] 특히 API에서 이것을 사용할 수 있게 되면요.

[03:57] 네, 꽤 멋지네요. 음, 여러분이

[03:59] 이것을 이용하고 싶다면 대기자 명단에 등록해야 할 것 같아요.

[04:01] 저는 방금 이메일로 초대장을 받았어요.

[04:04] 네, 저도 액세스 권한을 받았습니다.

[04:07] 음, OpenAI가 O3 모델을 출시했습니다.

[04:10] 이것은 프로 사용자에게 유료로 제공되고

[04:12] API에서도 사용할 수 있습니다. API에서 빠른 테스트를 해보겠습니다.

[04:14] 이것에 너무 많은 시간을 쓰지는 않겠습니다.

[04:16] 이미 충분히 다뤄진 것 같아요. 하지만

[04:17] 누군가가 안녕이라고 말했는데

[04:20] 응답하는 데 정말 오래 걸렸다는 걸 봤어요.

[04:23] 그래서 확인해보겠습니다. 음, 하지만 제가 발견한

[04:25] 흥미로운 점은 그들이

[04:28] 가격을 낮췄다는 거예요. 여기서 볼 수 있는지 보겠습니다.

[04:31] 아마 보이지 않을 수도 있지만

[04:34] 그들이 O3 모델의 가격을

[04:36] 80% 인하했습니다. 꽤

[04:40] 흥미롭다고 생각했어요. 그럼 O3를 찾아보겠습니다.

[04:43] 네, 모델로 갈 수 있습니다. 먼저 O3를 확인해보겠습니다.

[04:46] 입력 2달러, 출력 8달러로 되어 있네요.

[04:48] 꽤 좋네요. O3로는 꽤 흥미롭습니다.

[04:52] 우리는 분명히 이 가격 인하로

[04:54] O3로 뭔가 할 예정입니다.

[04:56] 그래서, 음, O3 Pro의 가격은

[04:58] 꽤 가파릅니다. 입력 20달러, 출력 80달러네요.

[05:03] 네, 꽤 가파르죠? 하지만, 음, 만약

[05:08] 사용 사례가 있다면 가치가 있을 수도 있어요.

[05:10] 모르겠어요. 저는 그에 대한

[05:12] 사용 사례가 없는 것 같아요. 하지만 음, O3 Pro의

[05:14] 빠른 테스트를 해보겠습니다. 그냥

[05:17] 안녕으로 시작하겠습니다. 그럼

[05:19] 찾을 수 있는지 보겠습니다.

[05:22] 좋아요. 여기 O3 Pro가 있네요, 맞죠?

[05:24] 좋아요. 그냥 테스트하겠습니다.

[05:27] 안녕하세요. 응답하는 데 얼마나 걸리는지 보겠습니다.

[05:31] 좋아요. 그냥 거기 놔두고

[05:33] 나중에 다시 확인하겠습니다. 음, 제가 확인하고 싶었던

[05:35] 또 다른 것은, 음, Replicate로 가시면

[05:39] 이 Flux One Context Max를 확인해보겠습니다.

[05:42] 이것은 Black Forest Labs의 새로운 모델입니다.

[05:44] 이것은 이미지 투 이미지 모델로

[05:46] 여러분의 이미지나 다른 이미지를 편집하는 데

[05:49] 매우 뛰어납니다. 제가 몇 가지

[05:51] 예시를 여기서 보여드릴 수 있을 것 같아요.

[05:54] 제가 이것을 가지고 놀아봤는데 정말 재미있거든요.

[05:56] 이것은 마치 프리미엄

[05:58] 텍스트 기반 이미지 편집 모델 같아요,

[06:00] 맞죠? 이미지를 찾아서

[06:02] 이것으로 뭘 할 수 있는지 보여드리겠습니다.

[06:05] 여기 이 이미지가 있다고 하고 배경에

[06:09] 뭔가를 추가하고 싶다면, 아마 옆쪽에

[06:10] 뭔가를 말이죠. 배경에서

[06:12] 조명을 바꾸고 싶을 수도 있어요.

[06:14] 그럼 우리는 이것을 바꿔낼 수 있어요.

[06:17] 조명을 말이죠. 그럼 우리는 이제 여기 있는

[06:21] 프롬프트만 사용해서 이것을 설명할 수 있습니다.

[06:23] 여기서 뭔가 생각해보겠습니다.

[06:24] 벽에 'All About AI'라고 적힌

[06:26] 네온사인을 배치해봅시다. 이건

[06:28] 부분적으로 그녀에 의해 가려져 있습니다.

[06:32] 조명은 따뜻한 빨간색으로 주고

[06:35] 배경에 식물들을 배치해서

[06:37] 좋은 분위기를 만들어봅시다.

[06:39] 이제 이걸 실행해볼 때 어떻게 나오는지 보죠.

[06:42] PNG 형식으로 원합니다. 네, 괜찮을 것 같네요.

[06:45] 자, 이걸 실행해봅시다.

[06:48] 지금까지 제 테스트에서는

[06:51] 지시사항을 정말 잘 따라왔습니다.

[06:54] 하지만 기다려보죠.

[06:57] 오케이, 꽤 좋네요, 그렇죠?

[06:58] 'All About AI' 사인이 보이고

[07:00] 따뜻한 빨간 조명도 있고

[07:02] 배경에 식물들도 있습니다.

[07:04] 네, 꽤 좋네요.

[07:06] 한 번 더 실행해서

[07:08] 어떻게 바뀌는지 봅시다. 거의 비슷하네요.

[07:11] 하지만 여기서 좀

[07:14] 실수가 있었지만, 여전히 마음에 듭니다.

[07:18] 여기서 다른 걸 시도해봅시다.

[07:20] 완전히 다른 걸로요.

[07:22] 마이크를 제거하고

[07:24] 티셔츠를 검은색으로 바꾸고

[07:26] 램프를 스팀 펌프로 교체하고

[07:29] 벽을 멋진 전망이 있는

[07:31] 집 내부로 바꾸고

[07:33] 테이블도 나머지와 어울리게 바꿉시다.

[07:35] 이미지의 모든 것이

[07:37] 바뀔 겁니다. 하지만 그녀를

[07:40] 이미지에서 일관되게

[07:42] 유지할 수 있는지 봅시다.

[07:44] 기본적으로 이제 이 이미지의 모든 것을 바꿀 겁니다.

[07:46] 오케이, 꽤 좋네요, 그렇죠?

[07:49] 램프는 바뀌지 않았지만

[07:51] 배경은 바뀌었네요. 보기 좋습니다.

[07:53] 테이블도 얻었고, 네,

[07:55] 이게 마음에 듭니다. 다시 실행해봅시다.

[07:57] 마이크가 사라졌네요. 새로운 각도도 얻었고요.

[08:00] 다시 실행해보겠습니다.

[08:02] 여기서 램프나 조명으로 뭔가 하는지 봅시다.

[08:04] 오케이, 바뀌지 않네요.

[08:06] 그냥 램프를 제거하고

[08:08] 맥북 프로나 그런 걸 추가해봅시다.

[08:10] 자, 이걸 실행해봅시다.

[08:13] 네, 이미지가 완전히 바뀌었지만

[08:15] 그녀는 여전히 비슷해 보입니다.

[08:17] 네, 이 모델을 꼭 확인해보세요.

[08:20] 꽤 멋집니다.

[08:22] Black Forest Labs Flux Context Max입니다.

[08:24] 아마 조금 더 저렴한

[08:26] 프로 버전도 있을 것 같지만

[08:29] 네, 이게 꽤 멋집니다. 우리 O3 요청을

[08:32] 다시 확인해봅시다. 그리 나쁘지 않았거든요.

[08:34] 헬로에 답하는 데 16초가 걸렸습니다.

[08:37] 이게 문제죠, 그렇지 않나요?

[08:39] 이 모델은 다른 용도로

[08:40] 사용해야 합니다. O3 Pro와

[08:42] 그냥 채팅할 수는 없어요. 이게

[08:45] 레딧이나 다른 곳에서

[08:47] 읽은 내용입니다. 특정한

[08:48] 사용 사례가 있어야 합니다. 헬로에

[08:52] 응답 받는 데 16초를

[08:54] 쓸 수는 없잖아요, 그렇죠?

[08:56] 여기서 추론 과정을 볼 수 있습니다.

[08:59] 그리 나쁘지 않았지만, 네,

[09:01] 요점은 이해하셨을 겁니다.

[09:02] O3 Pro에 더 이상 시간을

[09:04] 쓰지 않겠습니다. 향후

[09:06] 에피소드에서 테스트해볼 예정입니다. 그냥 언급하고 싶었습니다.

[09:10] API에서 사용할 수 있고

[09:12] ChatGPT에서도 사용할 수 있는 것 같습니다. 100% 확신하지는

[09:14] 접근할 수 있는지 확인해볼 수 있어요.

[09:17] O3 Pro는 제가 접근할 수 없네요.

[09:22] 아마 Pro 버전에서만 가능한 것 같아요.

[09:23] 제대로 확인하지 않았거든요.

[09:26] 저는 Plus 구독을 사용하고 있는데

[09:28] 접근할 수 없는 것 같아 보여요.

[09:30] 아마 API에서만 가능한 것 같아요.

[09:33] 확실하지 않지만요. 오늘 마지막으로

[09:35] 11 Labs의 새로운 기능들을 확인해보고 싶었어요.

[09:38] 새로운 V3 알파 모델이 정말 재미있거든요.

[09:42] 할 수 있는 것은

[09:44] 그냥 보여드릴게요. 이런 표현들을

[09:46] 추가할 수 있거든요.

[09:49] 보여드릴게요.

[09:51] 여기에 타이핑을 해보겠습니다. '오늘 길을 걷고 있었는데'라고 하면

[09:54] 이렇게 괄호를 사용할 수 있어요.

[09:56] '웃음'이라고 할 수 있죠.

[09:59] 이제 재생해보면 '오늘 길을 걷고 있었어요'

[10:02] 네, 웃음소리가 들어갔네요.

[10:04] 이제 두 번째 화자를

[10:06] 추가할 수 있어요.

[10:08] '화자 추가'를 하면 이걸 바꿀 수 있죠.

[10:11] 다른 사람을 써보겠습니다.

[10:13] James를 추가했고

[10:15] '흥분된' 상태로

[10:18] '무슨 일이 일어났어?'라고 할 수 있어요.

[10:21] 어떻게 들리는지 들어보죠.

[10:24] '오늘 길을 걷고 있었는데 무슨 일이 일어났어?'

[10:27] 괜찮네요. 변화가 있었지만

[10:30] 어느 정도 변화는 있었어요.

[10:32] 다른 화자들을 추가할 수 있다는 걸

[10:34] 볼 수 있어요. 정말 멋지다고 생각해요.

[10:36] 이제 Alexandra로 돌아가서

[10:38] 계속해보겠습니다.

[10:43] 제가 테스트해본 다른 괄호는 '스토리'였어요.

[10:46] 그러면 말하는 방식이 바뀌죠.

[10:49] 짧은 스토리를 추가해보겠습니다.

[10:52] 더 추가했고

[10:54] 스토리에 표현을 줬어요.

[10:58] 다시 재생해보죠.

[11:00] '오늘 길을 걷고 있었는데 무슨 일이 일어났어?'

[11:03] '14번가 유니언 스퀘어 지하철역 입구에서

[11:05] 깊은 금속성 소리가 울려퍼지는 걸 들었어.

[11:09] 호기심이 발동했지.

[11:11] 아니면 계단에서 올라오는 이상한 파란 안개 때문이었을 수도 있고.

[11:14] 어쨌든 들어갔어.

[11:17] 무슨 일이 일어났냐고? 거기 내려가 보니

[11:20] 텅 비어있었어. 조용한 게 아니라 완전히 비어있었지.

[11:23] 개찰구 소리도 없고, 쥐 소리도 없고,

[11:26] 원더월을 망치는 버스커도 없고,

[11:30] 그 이상한 파란 안개만 있었어.

[11:34] 인격장애를 가진 안개 같은.

[11:36] 꽤 좋았죠? 여기서 좀 이상했는데

[11:40] 좀 이상했어요.

[11:42] '무슨 일이 일어났어?'라고 했는데

[11:44] 남자가 대답했네요.

[11:46] 좀 이상했어요.

[11:48] 하지만 이걸로 놀아보고 있는데

[11:50] 정말 재미있어요.

[11:52] 다시 말하지만, 이건 11 Labs V3이고

[11:56] 아직 알파 모드에 있어요.

[11:59] API에서는 아직 사용할 수 없는 것 같아요.

[12:02] 하지만 API에 추가되면

[12:05] 업데이트를 할 예정이에요.

[12:07] 이런 표현들로 놀아보는 게 정말 재미있거든요.

[12:09] LLM을 사용해서

[12:11] 이런 표현들을 설정하는 데 도움을 받을 수 있을 것 같아요.

[12:14] 다른 비디오에서 다뤄보겠습니다.

[12:17] 네, 오늘 다루고 싶었던 내용은 기본적으로 이게 전부예요.

[12:19] Gemini Diffusion에 대해 살펴봤고,

[12:21] O3에 대해서도 간단히 살펴봤어요.

[12:24] Flux 모델도 살펴봤고

[12:26] 새로운 11 Labs도 살펴봤습니다.

[12:28] 네, 이 분야에서는 항상 그렇듯이

[12:30] 정말 흥미진진한 것들이 많아요.

[12:33] 이번 주말에 시도해보고 싶은 것들에 대한

[12:35] 영감을 얻으셨기를 바라요.

[12:37] 좋은 주말 보내시고

[12:38] 다음에 또 이야기해요.