새로운 AI 이미지 모델, 무료 AI 음악 생성기, GPT도 이제 ‘생각’합니다, 최신 AI 모델 및 DeepSeek Janus

AI Search 구독자 353,000명

요약

이번 영상은 AI 분야의 최신 혁신 소식을 폭넓게 다루며, 영상 속에서 Nvidia의 Diffusion Render와 Lumina image 2.0 같은 이미지 생성 및 편집 도구, 그리고 Diff Splat을 통한 3D 모델 생성 기술을 소개합니다. 또한, 무료로 제공되는 AI 음악 생성기와 DeepSeek Janus Pro와 같이 텍스트와 이미지를 동시에 처리하는 다중 모달 모델의 성능을 분석합니다. Alibaba의 Quen 시리즈와 OpenAI의 03 mini처럼 코딩, 긴 텍스트 처리 및 문제 해결 능력을 강화한 최신 모델들도 함께 검토됩니다. 마지막으로 Google의 Daily Listen과 Allen Institute의 Tulu 3 등, 다양한 분야에 혁신을 불러올 AI 기술들을 소개하며, AI 기술 발전의 속도와 그 응용 가능성을 강조합니다.

주요 키워드

Diffusion Render Lumina image Diff Splat AI 음악 생성기 DeepSeek Janus Quen 03 mini 다중 모달 오픈 소스 긴 문맥 처리

하이라이트

🚀 Nvidia의 Diffusion Render는 영상에서 3D 객체의 기하학, 깊이, 재질 및 조명 정보를 정확하게 추출하여 사실적인 리라이팅을 가능하게 합니다.
🌟 Lumina image 2.0은 소수의 파라미터(약 20억)로도 고품질의 이미지를 생성하며, 시스템 프롬프트 기능을 통해 출력 스타일을 효과적으로 조정할 수 있습니다.
🔥 Diff Splat은 텍스트 혹은 이미지를 입력받아 가우시안 스플랫 방식을 이용해 빠르고 뛰어난 3D 모델을 생성하는 혁신적인 도구입니다.
🎵 'yeah'와 Fuzz by Refusion 같은 무료 AI 음악 생성기는 사용자가 입력한 가사와 장르에 맞춰 완성도 높은 곡을 자동으로 만들어내어 음악 제작의 패러다임을 바꾸고 있습니다.
⚙️ DeepSeek Janus Pro와 같은 다중 모달 AI 모델은 텍스트와 이미지 입력을 동시에 처리하여 다양한 스타일의 이미지를 생성하며, 기존 모델들을 능가하는 성능을 보입니다.
🚀 고해상도 비디오와 전문적인 카메라 움직임을 구현하는 High laa Minimax의 디렉터 모델은 텍스트-비디오 생성의 새로운 가능성을 열어줍니다.
💡 Alibaba의 Quen 시리즈와 OpenAI의 03 mini는 코딩, 문제 해결 및 긴 문맥 처리 능력이 강화된 최신 AI 모델로, 실용성과 효율성 면에서 큰 주목을 받고 있습니다.
🎤 Google의 Daily Listen은 개인 맞춤형 오디오 콘텐츠를 매일 제공하며, AI가 뉴스와 팟캐스트의 미래를 어떻게 혁신할지에 대한 단서를 제공합니다.
🔍 Allen Institute의 Tulu 3은 완전 개방형(open source)으로 공개되어, 학습 데이터와 코드까지 공유하며 투명한 AI 발전을 이끌고 있습니다.

용어 설명

Diffusion Render

Nvidia가 개발한 영상 처리 모델로, 입력 영상에서 3D 기하학, 깊이, 리플렉션 및 표면 특성을 추출하여 사실적인 조명 및 셰이딩 효과를 구현합니다.

Lumina image 2.0

소규모 파라미터(약 20억)를 사용하면서도 고해상도 및 다양한 스타일의 이미지를 생성할 수 있는 오픈 소스 이미지 생성 모델입니다.

Gaussian Splat

3D 모델을 생성할 때, 3차원 공간에 분포된 작은 컬러 포인트(가우시안 분포)를 이용해 객체의 형태와 구조를 표현하는 기법입니다.

시스템 프롬프트

이미지 생성 모델에게 전체적인 스타일이나 역할을 지시하는 텍스트로, 프롬프트를 통해 생성 결과의 톤과 분위기를 결정할 수 있습니다.

Dual Chunk Attention

긴 시퀀스(예: 수십만 토큰)를 효율적으로 처리하기 위해 입력을 분할하여 순차적으로 분석하는 기법으로, 모델의 메모리 사용을 최적화합니다.

챕터 정보가 없습니다.

[00:00] AI는 쉬지 않고 발전하고 있으며 이번 주는

[00:03] 정말 놀라운 한 주였습니다. 새로운

[00:06] 오픈소스 이미지 생성기 두 개가 나왔고

[00:09] 영상의 조명, 색상, 재질을 감지하고

[00:12] 편집할 수 있는 AI가 등장했습니다

[00:15] 새로운 무료 AI 음악 생성기 두 개도 나왔고

[00:18] OpenAI가 지금까지 중 가장 성능이 좋은

[00:22] O3-mini 모델을 공개했습니다

[00:25] GPT와 Claude를 능가하는 AI 모델이

[00:28] 무려 세 개나 나왔습니다

[00:30] 더 많은 소식들이 있으니 바로 시작해보겠습니다

[00:33] 첫 번째로 소개할 매우 강력한 AI는

[00:36] 엔비디아의 디퓨전 렌더(Diffusion Render)입니다

[00:39] 이 AI는 비디오를 분석해서

[00:42] 물체의 기하학적 구조, 깊이, 재질 특성과

[00:45] 다른 특징들을 추정할 수 있습니다

[00:48] 예를 들어, 이런 입력 영상이 있다면

[00:51] 영상 속 모든 요소의 깊이를 계산할 수 있습니다

[00:54] 또한 노멀(normal)도 계산하는데

[00:57] 이는 영상 속 3D 물체의 표면을

[00:59] 정의하는 것으로, 사실적인 조명과

[01:02] 음영 표현에 매우 중요합니다

[01:04] 또한 알베도(albedo)도 계산하는데

[01:07] 이는 조명이나 음영 효과가 없는

[01:10] 물체의 기본 색상을 의미합니다

[01:12] 여기에 더해 물체의 금속성도 추정하는데

[01:15] 이는 물체의 반사도를 나타냅니다

[01:17] 그리고 물체의 거칠기도 추정합니다

[01:20] 더 많은 예시를 보여드리겠습니다

[01:22] 왼쪽 상단이 입력 영상이고

[01:24] 영상에서 이 모든 속성들을 추정할 수 있습니다

[01:27] 여기 또 다른 예시가 있는데

[01:29] 장면이 매우 복잡하고 물체가 많음에도

[01:31] 아주 잘 처리하는 것을 볼 수 있습니다

[01:33] 또 다른 예시를 보여드리겠습니다

[01:35] 이렇게 모든 특성을 이해하고

[01:38] 추정할 수 있기 때문에

[01:40] 정말 놀라운 작업들이 가능합니다

[01:42] 예를 들어 비디오 속 물체의 색상,

[01:45] 조명, 반사도를 조작할 수 있죠

[01:47] 실제로 작동하는 모습을 보여드리겠습니다

[01:50] 정말 놀랍지 않나요?

[01:52] 여기 조명 조정의 예시가 더 있습니다

[01:55] 왼쪽이 입력 영상이고

[01:57] 원하는 대로 조명을 조정할 수 있습니다

[02:00] 4개의 영상에서 조명과 그림자가

[02:03] 각각 다르게 적용된 것을 보세요

[02:05] 기존의 조명 수정 방식과 비교하면

[02:07] 이 새로운 도구가

[02:09] 훨씬 더 정확하고 일관성 있습니다

[02:11] 게다가 이미지나 비디오의

[02:13] 거칠기나 반사 특성도 변경할 수 있습니다

[02:15] 상단 행에서

[02:17] 공과 말의 거칠기와 반사도가

[02:20] 변화하는 것을 보세요

[02:23] 하단 행의 물체들도 마찬가지입니다

[02:26] 장면의 기하학적 구조와

[02:27] 조명을 이해하기 때문에

[02:30] 어떤 물체든 영상에 삽입할 수 있고

[02:33] 기존 조명과 자연스럽게 어울립니다

[02:36] 예를 들어 여기에

[02:38] 싱크대를 넣으면 이렇게 되고

[02:41] 테이블을 넣으면

[02:43] 장면에 매우 자연스럽게 통합되는 것을

[02:46] 볼 수 있습니다

[02:48] 작동 방식을 설명드리자면

[02:51] 먼저 입력 영상을 받아

[02:53] 디퓨전 모델을 통과시킵니다

[02:56] 역렌더링 단계에서는

[02:58] 영상을 분석하여

[03:01] 물체의 색상, 깊이 등

[03:03] 각 속성을 하나씩 추정하고

[03:06] 그 다음 단계로 넘어갑니다

[03:09] 그리고 이 정보들을

[03:11] 다음 단계로 전달합니다

[03:13] 이것은 순방향 렌더링 단계로 넘어가는데

[03:16] 이 단계에서는 추정된 값들을 받아

[03:18] 다양한 조명 조건에서 새로운 프레임을 생성하고

[03:20] 여러분이 지정한 속성들에 따라

[03:22] 변화를 주어 최종적으로

[03:25] 출력 비디오를 만들어냅니다. 이 AI의 특별한 점은

[03:27] 이 모든 과정을 수행할 때

[03:29] 명시적인 3D나 조명 데이터가 필요하지 않다는 것입니다

[03:31] 기존의 방식과는 달리

[03:34] 입력 비디오만으로 이 모든 것을

[03:36] 추정하고 편집할 수 있습니다. 자세한 내용은

[03:39] 아래 설명란에 프로젝트 페이지

[03:40] 링크를 걸어두었으니 참고하시기 바랍니다

[03:42] 다음으로 새로운 무료 오픈소스

[03:45] 이미지 생성기인 루미나 이미지 2.0을 소개합니다

[03:48] 이 모델은 크기 대비 정말 뛰어난 품질을 보여주는데

[03:52] 단 20억 개의 매개변수만을 사용합니다

[03:54] 반면에 Flux는 120억 개의 매개변수를 사용하여

[03:57] 6배나 더 큰 규모를 가지고 있죠

[04:00] 루미나 이미지 2는 1024 해상도까지 지원하며

[04:02] 텍스트 인코더로 Gemma 2를 사용하고

[04:06] VAE로는 Flux를 사용합니다

[04:09] 여기 몇 가지 예시를 보여드리겠습니다

[04:12] 보시다시피 실제와 같은 장면을

[04:14] 어려움 없이 생성해내고 있습니다

[04:17] 또한 이미지 내 텍스트 생성도 매우 뛰어나며

[04:20] 여기서 보실 수 있듯이

[04:23] 다양한 언어로 프롬프트를 입력할 수 있습니다

[04:25] 게다가 사실적인 이미지뿐만 아니라

[04:28] 이처럼 다양한 예술적 스타일도

[04:31] 생성할 수 있습니다

[04:34] 여기 정말 멋진 기능이 있는데요

[04:36] 하나의 이미지 안에 여러 이미지를

[04:39] 생성할 수 있습니다. 예를 들어

[04:41] 두 개의 패널로 구성된 이미지를 생성하는데

[04:43] 아래쪽은 캐니 엣지 맵을 보여주고

[04:46] 위쪽은 원본 이미지를 유지하여

[04:47] 직접적인 시각 비교가 가능하도록

[04:49] 할 수 있습니다. 이게 그 결과입니다

[04:52] 또 다른 예시를 보여드리면

[04:54] 두 개의 패널로 인물 얼굴을 표현하는데

[04:56] 왼쪽은 러프한 스케치에서

[04:58] 오른쪽은 초현실적인 포트레이트로

[05:01] 변환되는 모습을 보여줍니다

[05:03] 허깅 페이스에서 루미나를

[05:05] 무료로 온라인에서 사용할 수 있는

[05:08] 여러 공간들이 있어서 프롬프트만 입력하면 되고

[05:10] 고급 설정도 있습니다

[05:12] 루미나 이미지의 또 다른 강점은

[05:15] 시스템 프롬프트라는 것을 추가할 수 있다는 것입니다

[05:17] 이것은 AI의 규칙이나

[05:20] 역할을 설명하는 상위 프롬프트와 같은 것입니다

[05:21] 예를 들어, 이렇게 하는 대신

[05:24] '당신은 전문 사진작가입니다'라고

[05:27] 설정할 수 있습니다

[05:30] 그러면 모든 출력물이

[05:32] 실제 전문가의 사진처럼 생성됩니다

[05:35] 그리고 여기에는

[05:37] 네거티브 프롬프트를 입력하는데

[05:38] 이미지에서 제외하고 싶은

[05:40] 모든 것들을 지정할 수 있고, 여기서는

[05:42] 너비와 높이를 조정할 수 있습니다

[05:45] 이미지 생성 경험이 있다면

[05:47] 익숙할 다른 설정들도 있습니다

[05:49] 자, 간단한 프롬프트를 시도해보겠습니다

[05:52] '도시에 있는 여성의 초상화'라고 입력해보죠

[05:56] 실행해보면... 자, 이렇게 결과가 나왔네요

[05:59] 실제로 도시의 여성 초상화가 생성되었습니다

[06:01] 이번에는 시스템 프롬프트를

[06:03] '당신은 전문 사진작가입니다' 대신

[06:05] '당신은 인상파 화가입니다'라고 바꿔서

[06:08] 실행해보고 어떤 결과가 나오는지

[06:12] 확인해보겠습니다. 여기 결과가 나왔네요

[06:14] 보시다시피 스타일이 완전히 달라졌습니다

[06:18] 이 새로운 시스템 프롬프트 기능이 얼마나

[06:20] 유용한지 알 수 있습니다. 이제 이 새로운 Lumina Image를

[06:23] SDXL이나 Stable Diffusion 3와 같은

[06:26] 비슷한 크기의 모델들, 심지어 Dalle 3나 Omni-gen, NVIDIA의

[06:30] SAM과 비교해보면

[06:34] 대부분의 벤치마크에서

[06:36] Lumina Image가 가장 높은 점수를 받았습니다

[06:38] 작은 크기임에도 정말 인상적인

[06:41] 이미지 생성기라고 할 수 있죠

[06:44] 모델들은 이미 Hugging Face에 공개되어 있어서

[06:46] 다운로드할 수 있고, 앞서 말씀드린 대로

[06:48] 완전히 무료이며 오픈소스입니다

[06:50] 자세한 내용은 GitHub 페이지 링크를

[06:53] 아래 설명란에 첨부해두었습니다

[06:55] 다음으로는 새로운 3D 모델

[06:58] 생성기인 DiffSplat을 소개합니다. 이것은

[07:01] 텍스트나 이미지만으로 3D 모델을

[07:04] 생성할 수 있고, 이 모델은

[07:07] 가우시안 스플랫이라고 불리는 형태를 사용합니다

[07:09] 간단히 말하면 이것은

[07:11] 3D 공간에 있는 작은 컬러 포인트들의 집합입니다

[07:13] 그리고 이 시스템은 엄청나게 빠른데

[07:16] 모델 생성에 1-2초

[07:18] 정도밖에 걸리지 않습니다. 여기 보시는 것이

[07:21] 텍스트 설명을 3D 모델로 변환한

[07:23] 다양한 예시들인데, 앞서 말씀드린 대로

[07:25] 이미지를 업로드해서 3D 모델을

[07:28] 생성할 수도 있습니다

[07:30] 다양한 예시를 보면, 업로드한 캐릭터가

[07:33] 매우 상세하고 복잡하더라도

[07:36] 잘 처리할 수 있으며

[07:38] 캐릭터의 뒷모습도

[07:39] 정확하게 추정할 수 있습니다

[07:42] 간단히 작동 방식을 설명하자면

[07:44] 텍스트 설명이나 이미지를

[07:46] 입력받아서

[07:49] 디퓨전 모델에 넣습니다

[07:51] 이것은 기본적으로 Stable Diffusion이나 Flux와 같은

[07:53] 이미지 생성기입니다

[07:56] 좋은 점은 여기에

[07:58] 다른 이미지 생성기를 연결할 수 있다는 것입니다

[08:00] 예를 들어 SDXL이나 Pixart,

[08:03] Stable Diffusion 3 등을 사용할 수 있죠

[08:06] 그 다음에는 잠재 디코더를 통해

[08:08] 3D 모델을 생성하고

[08:10] 3D 렌더링 손실 컴포넌트가

[08:13] 다양한 시점에서의 일관성을 제공하여

[08:15] 3D 모델이 다른 각도에서도

[08:18] 일관되게 유지되도록 합니다

[08:20] 또한 매우 다재다능해서, 원본 객체를 가져와

[08:23] 그 객체의 노멀 맵을 추정할 수 있는데

[08:26] 이는 객체의 표면을 추정하는 것이고

[08:28] 여기에 새로운 텍스트 설명을

[08:30] 추가하면, 예를 들어 스팀펑크 로봇이라고 하면

[08:32] 이 노멀 맵을 기반으로

[08:35] 새로운 객체를 생성합니다

[08:38] 또는 표면을 추정하는 대신

[08:41] 객체의 깊이 맵을

[08:43] 추출할 수도 있고

[08:45] 이를 사용해 다른

[08:47] 텍스트 설명을 기반으로 새로운 3D 모델을

[08:50] 생성할 수 있습니다. 깊이 맵 대신

[08:52] 원본 객체의 엣지를 추출해서

[08:55] 다시 한 번 다른

[08:57] 텍스트 프롬프트를 사용해

[08:59] 추출된 엣지에 맞는

[09:01] 새로운 객체를 생성할 수 있습니다. 정말 강력하고

[09:03] 다재다능한 도구죠. 위쪽에

[09:06] GitHub 저장소가 이미 있어서

[09:08] 설치 방법과 로컬에서 실행하는

[09:10] 모든 지침이 포함되어 있습니다

[09:13] 자세한 내용은 메인 페이지 링크를

[09:15] 아래 설명란에서 확인하실 수 있습니다

[09:16] 다음으로는 드디어 괜찮은

[09:20] 오픈소스 음악 생성기가 있는데요, 이름은

[09:23] YuE라고 합니다. 프롬프트만으로 전체 노래를

[09:25] 만들 수 있어요. 가사를 입력하고

[09:28] 장르를 지정하기만 하면 됩니다. 마치

[09:31] Udio나 Sunno처럼 말이죠. 그러면

[09:33] 마법처럼 전체 노래를 생성해

[09:36] 줍니다. 몇 분 정도의 노래를 만드는데요

[09:38] 몇 가지 예시를 보여드리겠습니다.

[09:40] 장르로 '영감을 주는 여성 보컬의

[09:43] 밝은 팝, 공기같이 가벼운 일렉트로닉'

[09:45] 이렇게 입력했고, 여기 가사가 있습니다.

[09:48] 한 가지 생성 예시를 들려드리겠습니다.

[09:52] 자,

[09:53] 하늘을 물들이는 석양을 바라보며

[09:59] 당신은 계속 부정하지만

[10:02] 난 알아요, 당신이 나를 실망시켰지만

[10:07] 내가 여기 있어요, 내 마음을 지키려

[10:10] 깨지지 않은 채로, 당신이 하는 모든 말에도

[10:16] 모든 꿈 뒤에서 당신을 쫓고 있어요

[10:20] 삶이 허락하는 한 당신에게 닿으려 해요

[10:23] 이제 물러서지 않을 거예요, 당신도 알잖아요

[10:27] 이제는 부정할 수 없다는 걸

[10:32] 자, 이건 첫 번째 생성이었고

[10:35] 모든 설정을 그대로 두고

[10:37] 다시 한 번 생성해보면

[10:39] [음악]

[10:44] 또 다른 변주가 나옵니다

[10:47] 하늘을 이겨내려

[10:49] 당신은 계속 부정하려 하지만, 난 알아요

[10:54] 실수를 저질렀다는 걸

[10:56] 하지만 난 여기 있어요, 그 마음을

[11:00] 깨뜨리지 않은 채로, 당신이 하는 모든 말에도 난

[11:07] 당신의 눈을

[11:10] [음악]

[11:20] 이렇게 팝송 예시였고,

[11:22] 이번엔 랩은 어떤지 들어보겠습니다.

[11:25] 장르를 '피아노가 있는 랩, 거친 스트릿,

[11:28] 날카로운 보컬, 힙합 신디사이저, 선명한

[11:31] 남성 보컬'로 설정했는데요

[11:34] 랩처럼 들리긴 하지만

[11:35] 가사를 많이 뛰어넘고

[11:37] 이리저리 건너뛰는 게

[11:39] 보입니다. 어쨌든

[11:41] 이 부분을 들려드리고

[11:43] 입력한 가사를 보여드리겠습니다

[11:46] 이건 내 여정이고 난 이 경주를 뛰고 있어

[11:48] 그들은 내가 할 수 없다고 했어

[11:50] 절대 성공 못할 거라 했지만 이제 난 높이 날아

[11:53] 하늘을 향해 뻗어가, 배운 교훈들이

[11:55] 나를 만들었어, 이제 당당하게 서서

[11:57] 신경 쓰지 않아, 골목길의 메아리

[12:00] 음악은 나에게 필요해 봐

[12:03] 날 봐, 날 따라해

[12:08] 미국과 한국이 모두 함께

[12:12] 확신해, 세상으로부터

[12:16] 도전하고 승리할 거야

[12:20] 이 바보 같은 상황에서, 내 날개로

[12:24] 후렴 전 마지막 부분에서는

[12:27] 프롬프트에 없던 무작위 가사를

[12:29] 흘러나오기 시작합니다

[12:32] 하지만 실제로 굉장히 흥미로운 건

[12:34] 지시 없이도 계속 랩을 이어간다는

[12:36] 점이에요

[12:37] 마치 프리스타일 랩처럼요

[12:40] 마지막으로 재즈 예시를 들려드리겠습니다

[12:43] 장르는 '여성 블루스, 공기같은 보컬, 밝은 보컬'

[12:46] 피아노, 슬픈 로맨틱한 기타로 설정했습니다

[12:50] [음악]

[12:53] 재즈가 흘러나와요

[12:56] 떨어지는 밤

[13:00] 메아리치는

[13:02] 복도를 따라, 고요 속에서 부드러운

[13:07] 목소리가 나를 다시

[13:10] 집으로 이끌어, 내 마음을

[13:13] 기쁘게 해요, 이 순간을 놓치지 말아요

[13:17] 나를 꼭 안아주세요

[13:19] 당신 곁에 있으면 주변의

[13:24] 모든 것들이 희미해져요

[13:29] 놓치고 싶지 않아요, 영원히 함께해요

[13:34] 난

[13:37] 정말 멋지네요. 헤비메탈도 할 수 있는데

[13:40] 극단적인 스타일도 가능합니다.

[13:43] 주의하세요, 볼륨을 좀

[13:44] 이 부분에서는 스피커 볼륨을 좀 낮추시는 게 좋겠습니다.

[13:47] 모든 밤을 싸움 없이

[13:51] SC없이도 첫 번째 싸움에서 일어나

[13:55] 너의 손을 들어, 가벼워져라

[13:59] 뒤로 물러서, 내가 F를 억제하고 있으니

[14:04] 이런 식으로 진행되는데,

[14:09] 스크리밍과 같은 극단적인 보컬도

[14:12] 헤비메탈 스타일도 문제없이 소화합니다.

[14:14] 또한 다양한 언어로도

[14:17] 노래할 수 있는데, 예를 들어

[14:20] 일본어와 영어가 포함된

[14:22] 이 가사와 아래의 한국어 가사를 입력해보면

[14:27] 어떻게 나오는지 한번 들어보겠습니다.

[14:31] [음악]

[14:40] 내가 아는

[14:42] 유일한 사람

[14:47] only

[14:50] [음악]

[14:52] 사랑해

[14:59] 날 원하니

[15:01] 난 네 첫번째가 되고 싶어, 조금 더

[15:05] 가까이

[15:09] [음악]

[15:11] 더 가까이

[15:12] [음악]

[15:23] 마지막 부분에서 보시다시피

[15:26] 오토튠과 신스 보이스 이펙트도

[15:28] 적용했는데, 정말 대단하지 않나요?

[15:31] 이 모든 것이 무료로

[15:33] 오픈소스 AI로 바로 사용할 수 있다는 게

[15:35] 놀랍죠. 말씀드린 대로

[15:38] 장르와 가사만 지정하면

[15:40] 마법처럼 verse와 가사를 포함한

[15:42] 완전한 노래를 만들어줍니다.

[15:44] GitHub 링크 상단에

[15:46] 다운로드와 사용 방법에 대한

[15:48] 모든 설명이 있습니다.

[15:51] 현재로서는 상당한 GPU 메모리가 필요한데,

[15:53] 24GB나 최소 16GB 정도의

[15:56] GPU 메모리가 필요합니다.

[16:00] 꽤 많은 컴퓨팅 파워가 필요하지만,

[16:02] 다만 완전히 오픈소스이고

[16:04] Apache 2 라이선스 하에

[16:07] 배포되어 있어서

[16:08] 상업적 용도를 포함해

[16:11] 원하는 대로 사용할 수 있습니다.

[16:12] 게다가 오픈소스이기 때문에

[16:14] 다른 사용자들이 곧

[16:17] 더 낮은 VRAM으로도

[16:19] 실행할 수 있는 양자화 버전을

[16:22] 출시할 것이라 확신합니다.

[16:24] 예시에서 보여드린 것처럼

[16:27] 퀄리티가 아직은 완벽하지 않고

[16:30] Udio나 Sunno만큼 좋지는 않지만

[16:32] 완전히 무료인 오픈소스라는 점이

[16:35] 큰 장점입니다.

[16:37] 설치 튜토리얼을 원하시는지

[16:39] 댓글로 알려주세요.

[16:41] 메인 페이지 링크는

[16:43] 설명란에 남겨두겠습니다.

[16:46] YuE 외에도 또 다른 무료 AI 음악 생성기가

[16:50] 있는데, 이건 정말 훌륭합니다.

[16:52] Riffusion에서 만든 'Fuzz'라고 하는데,

[16:55] Riffusion은 AI 음악 생성 분야에서

[16:57] 오랫동안 활동해왔습니다.

[16:59] 제가 2년 전에 처음 출시됐을 때

[17:01] 다뤘었는데, 이번 주에

[17:03] Fuzz라는 새로운 모델을 출시했습니다.

[17:06] Fuzz의 샘플을 한번 들어보시죠.

[17:12] [음악]

[17:14] 당신의 얼굴을 바라보며

[17:17] 모든 이가 새로운 것을 가져오네

[17:25] [음악]

[17:38] 정말 멋진 점은

[17:40] GPU 자원이 허용하는 한

[17:43] 웹사이트에서 무제한으로

[17:46] 무료로 사용할 수 있다는 겁니다.

[17:47] 설명란에 링크를 남겨둘

[17:50] riffusion.com에 가시면

[17:52] 프롬프트를 입력하고

[17:53] 이 작곡 섹션에서 생성하실 수 있습니다.

[17:56] 여기서는 더 세밀한 제어가 가능합니다

[17:58] 가사를 입력할 수 있고

[18:00] 원하는 사운드도 지정할 수 있습니다

[18:03] 지금부터 인기 있는 몇 가지를 들려드리겠습니다

[18:05] 정말 좋은 소리가 납니다

[18:07] [음악]

[18:13] 순식간에 지나가는 순간을 되돌아보며

[18:17] 당신의 삶이 나를 무모하게 만들어

[18:21] 내 목걸이에 흔적을 남기고

[18:23] 베이스가 떨어지고 군중이 멈춘 후에

[18:27] 군중이 멈추면

[18:31] 베이비 네가 원하는 게 뭔지 말해줘

[18:34] [음악]

[18:37] 또 다른

[18:39] [음악]

[18:42] 도시라고 말해봐

[18:45] [음악]

[18:47] YuE와 비교해서 얼마나 더 깔끔하고 입체적인 사운드인지 들으셨죠

[18:51] 이 새로운 Riffusion 모델은

[18:54] 정말 놀랍도록 좋습니다

[18:57] 다른 예시를 들려드리겠습니다

[19:00] [음악]

[19:13] 내가 밑바닥에 있을 때

[19:16] 뒷골목에서

[19:20] 비처럼 쏟아지는 블루스처럼 내가 절망에 빠졌을 때

[19:24] 비가 내리는 것처럼 우울했을 때

[19:29] 하지만 달링 당신이 왔죠

[19:31] 달콤한 사탕수수처럼

[19:35] 나를 더 높이

[19:38] [음악]

[19:41] 베이비 진실로 나를 더 높이 데려가 줘

[19:48] 계속해서 나를 높이 데려가 줘

[19:53] 기타 사운드가 얼마나 실감나는지 보세요

[19:56] 목소리도 매우 고품질이고 다이나믹합니다

[19:59] 정말 아름답죠

[20:01] Riffusion의 또 다른 멋진 기능은

[20:04] 어떤 기존 곡이든 가져와서

[20:06] 전체 곡을 다운로드할 수 있을 뿐만 아니라

[20:08] 각각의 개별 스템도

[20:10] 다운로드해서 직접 리믹스할 수 있다는 겁니다

[20:13] 정말 멋진 도구죠

[20:15] 다음으로, DeepSeek 이야기가 여기서 끝났다고 생각하셨나요?

[20:18] 이번 주에 또 다른 대단한 것을 공개했습니다

[20:20] 이번에는 멀티모달 AI 모델인데요

[20:23] 이미지를 생성할 수 있는 모델입니다

[20:25] Janus Pro라고 불립니다

[20:28] Janice인지 Janus인지, J-anus라서 좀 헷갈리네요

[20:31] 어쨌든 DeepSeek R1처럼

[20:35] 이 모델도 무료이고 오픈소스입니다

[20:37] 하지만 Flux나 Stable Diffusion 같은

[20:41] 일반적인 디퓨전 모델과는 다릅니다

[20:43] 이것은 텍스트와 이미지를 모두 처리할 수 있는

[20:45] 멀티모달 AI 모델입니다

[20:47] 그들은 서로 다른 파라미터 크기를 가진

[20:50] 4가지 모델을 출시했는데

[20:53] 당연히 가장 큰 모델이 최고의 품질을 보여주고

[20:55] 가장 작은 모델이 가장 빠르고

[20:57] 컴퓨팅 자원을 적게 사용합니다

[20:59] 간단히 Janus의 생성 예시를

[21:02] 보여드리겠습니다

[21:04] 다양한 스타일을 생성할 수 있는데

[21:07] 사실적인 것부터

[21:09] 수채화, 유화, 애니메이션 스타일까지 가능합니다

[21:12] 매크로 사진이나 풍경 사진도 생성할 수 있고

[21:15] 정말 훌륭한 퀄리티를 보여줍니다

[21:18] 더 많은 예시를 보여드리면

[21:20] 픽셀 아트 스타일도 가능하고

[21:23] 2.5D 디지털 아트 타입의 이미지도

[21:26] 생성할 수 있습니다

[21:28] 단순한 이미지 생성기가 아니라

[21:31] 텍스트도 이해할 수 있어서

[21:33] 왼쪽의 벤치마크를 보시면

[21:35] 여러 멀티모달 이해 벤치마크와

[21:38] 비교했을 때 Janus Pro가

[21:41] 비슷한 파라미터 크기의

[21:43] 다른 모든 모델들을 능가합니다

[21:46] 오른쪽은 이미지 생성에 대한

[21:48] 지시 따르기 벤치마크의

[21:50] 성능을 보여주는데

[21:53] Stable Diffusion 3 Medium이나

[21:55] DALL-E 3, SDXL과 비교했을 때

[21:59] Janice Pro가 현재로서는 최고의 모델이라고

[22:02] 할 수 있습니다. 생성 품질은 Flux만큼

[22:05] 좋지는 않지만, 이 모델이 단 70억 개의

[22:07] 파라미터만 사용한다는 점을 고려해야 합니다.

[22:10] Flux는 120억 개의 파라미터를 사용하죠.

[22:12] 게다가 이건 단순한 디퓨전 모델이 아니라

[22:14] 이미지 생성뿐만 아니라 일반적인

[22:16] 텍스트와 채팅 기능도 갖추고 있습니다.

[22:19] 이렇게 작은 모델에

[22:21] 모든 기능을 담았다는 것과

[22:23] 다중 모달 이해와 이미지 생성

[22:25] 측면에서 다른 모델들을 능가한다는 점이

[22:28] 정말 놀랍습니다.

[22:30] Deep Seek 팀에게 정말 박수를 보내고 싶습니다.

[22:33] 그들이 최근에 발표하는 것들이

[22:35] 정말 대단하거든요. 말씀드렸듯이 이것은

[22:38] 완전히 무료이고 오픈소스입니다.

[22:40] 로컬에서 실행할 수 있도록 모델을

[22:42] 이미 공개했고, 게다가

[22:44] Hugging Face에서 온라인으로

[22:47] 무료로 사용해볼 수도 있습니다.

[22:49] 이번 주 AI 분야에는 정말 흥미로운

[22:52] 업데이트들이 있었는데요.

[22:54] 제가 전에 소개했던 제가 가장 좋아하는

[22:56] AI 비디오 생성기 중 하나인 Hailuo Minimax가

[22:58] 새로운 디렉터 모델을 출시했습니다.

[23:01] 이를 통해 생성된 영상의

[23:03] 카메라 움직임을 제어할 수 있어서

[23:05] 이런 멋진 영화적인 장면들을 만들 수 있죠.

[23:08] Hailuo에 로그인하고

[23:10] 생성 버튼을 클릭하면 텍스트-비디오 탭에서

[23:13] 찾을 수 있고, 아래쪽에서

[23:15] 이 새로운 디렉터 모델을 선택할 수 있습니다.

[23:17] 예를 들어, '햇살 가득한 초원에서

[23:19] 이젤에 그림을 그리는 외로운 화가'라고

[23:21] 프롬프트를 입력하고, 여기

[23:23] 카메라 아이콘을 클릭하면

[23:26] 장면의 카메라 움직임을 지정할 수 있습니다.

[23:29] 카메라를 좌우로 슬라이딩하거나

[23:30] 좌우로 패닝하거나

[23:32] 줌인, 줌아웃, 위아래로 틸팅 등

[23:34] 다양한 옵션이 있어서

[23:37] 장면의 카메라 움직임을 완벽하게

[23:40] 제어할 수 있습니다.

[23:42] 우리는 왼쪽으로 원형 회전을 선택해보죠.

[23:44] 이건 기본적으로 궤도 샷인데요.

[23:46] 이걸 클릭하면 프롬프트에

[23:49] 이런 키워드들이 추가된 것을 볼 수 있죠.

[23:52] 자, 이제 생성해보겠습니다.

[23:53] 여기 결과가 나왔네요.

[23:55] 실제로 카메라가 왼쪽으로 돌아가는 것을

[23:58] 볼 수 있습니다. 정말 인상적이죠.

[24:00] 이에 대한 전체 리뷰 영상을 준비 중이니

[24:02] 기대해 주세요. 다른 AI 비디오 소식으로는

[24:06] 알리바바가 최신 비디오 생성기를

[24:09] 출시했는데요.

[24:11] Wanx라고 하는데 발음이 맞나요?

[24:14] 어쨌든 이 모델의 생성 결과가

[24:16] 정말 뛰어나서 일부 유료 최상위 모델들보다도

[24:18] 더 좋은 성능을 보여줍니다.

[24:20] 현재 Qwen chat이라는 인터페이스에서

[24:23] 무료로 사용해볼 수 있는데요.

[24:25] 여기에 프롬프트를 입력하고

[24:27] 비디오 생성을 클릭하면 됩니다.

[24:29] 여기서 화면 비율을 선택하고

[24:31] 생성 버튼을 누르면 되죠.

[24:33] 무료로 제공되는 동안 꼭 사용해보세요.

[24:36] 이미 이 모델에 대한 전체 리뷰 영상을

[24:39] 만들어서 Wanx와 다른 최상위

[24:42] 비디오 모델들을 비교했으니

[24:44] 아직 보지 않으셨다면

[24:46] 꼭 확인해보세요. AI Portrait의

[24:48] 스폰서쉽에 감사드립니다.

[24:50] LinkedIn이나 비즈니스 프로필에 전문적인

[24:52] 프로필 사진 하나가 큰 차이를 만듭니다

[24:55] 직접 찍거나 친구에게 부탁할 수도 있지만

[24:57] 대부분의 사람들은 전문적인 사진을

[24:59] 잘 찍지 못합니다

[25:01] 전문 사진 촬영을 의뢰할 수도 있지만

[25:03] 평균적으로 200달러 이상의 비용이 들고

[25:06] 촬영 일정을 잡고 몇 시간 동안

[25:09] 어색하게 카메라 앞에서 포즈를 취해야 합니다

[25:11] 이런 상황에서 AI Portrait가 도움이 됩니다

[25:13] AI Portrait를 사용하면

[25:16] 몇 분 만에 전문적이고 고품질의 사진

[25:18] 포트폴리오를 생성할 수 있습니다

[25:21] 사진 한 장을 업로드하고 성별을 선택하면

[25:24] 다양한 배경에서 찍은 50장의

[25:27] 전문적인 헤드샷을

[25:29] 몇 분 안에 생성해냅니다

[25:31] 만약 실제 촬영의 번거로움 없이

[25:33] 고품질의 전문적인 사진이 필요하다면

[25:35] AI Portrait가 최선의 선택이 될 것입니다

[25:38] 아래 설명란의 링크를 통해 확인해보세요

[25:40] 이번 주 AI 뉴스를 살펴보셨다면

[25:43] DeepSeek에 대해 들어보셨을 겁니다

[25:45] 이는 인터넷을 휩쓸고 있는

[25:47] 중국의 AI 모델입니다

[25:50] OpenAI만큼 뛰어나면서도

[25:52] 완전히 오픈소스이고 무료로 사용할 수 있습니다

[25:56] 이미 DeepSeek에 대한 여러 영상을 만들었기에

[25:58] 여기서는 반복하지 않겠습니다

[26:01] 아직 보지 않으셨다면 그 영상을 확인해보세요

[26:03] 하지만 DeepSeek 외에도

[26:05] 최첨단 수준의 AI 모델들이

[26:07] 몇 가지 더 있습니다

[26:09] 알리바바가 최근에 출시한

[26:12] Qwen 2.5 Max는 그들의 가장 진보된 AI 모델입니다

[26:15] 이는 전문가 혼합 모델로

[26:18] 전문화된 AI들의 팀이

[26:20] 함께 작업하는 것으로 생각하면 됩니다

[26:23] 문제 해결을 돕기 위해

[26:25] 예를 들어, 코딩에 특화된 AI가 있고

[26:27] 수학에 특화된 AI가 있으며

[26:29] 글쓰기에 특화된 AI가 있는 식입니다

[26:31] 이렇게 AI 에이전트들을

[26:33] 팀으로 구성하면

[26:36] 더 높은 성능을 발휘할 수 있습니다

[26:38] 벤치마크 점수를 보면

[26:40] 빨간색 막대가 Qwen 2.5 Max의 성능을 나타냅니다

[26:42] 대부분의 경우 GPT-4, Claude,

[26:46] DeepSeek 버전 3 같은 선두 모델들을 앞섭니다

[26:49] 이는 모두 비사고형 모델들입니다

[26:51] 여기서 DeepSeek V3는 화제가 된

[26:54] 사고형 모델 R1이 아닌 일반 모델입니다

[26:57] 대부분의 벤치마크에서

[27:01] 선두 비사고형 모델들과

[27:03] 대등하거나 더 나은 성능을 보입니다

[27:04] 놀라운 점은 지금 바로

[27:06] 무료로 사용해볼 수 있다는 것입니다

[27:09] 이 채팅 인터페이스에서

[27:11] 상단에서 모델을 선택할 수 있고

[27:14] 기본적으로 Qwen 2.5 Max가

[27:16] 선택되어 있는 것을 볼 수 있습니다

[27:18] 웹 검색, 코딩, 이미지 생성에도

[27:22] 사용할 수 있습니다

[27:24] 이러한 기능들에 대해서는

[27:26] 이 영상 후반부에서 다루겠습니다

[27:29] 또 다른 사용 방법으로

[27:31] 특히 코딩을 하고 싶다면

[27:33] akque가 만든 Hugging Face Space에서

[27:35] 무료로 사용해볼 수 있습니다

[27:37] 여기서 다양한 모델을 선택할 수 있는데

[27:40] Qwen Coder를 선택하고

[27:43] 여기서 Qwen 2.5 Max를 선택하면 됩니다

[27:45] 이것이 가장 최신 버전입니다

[27:48] 이건 그냥 날짜입니다. 이게 가장 최신 모델인데

[27:50] 정말 까다로운 프롬프트를 입력해보겠습니다.

[27:52] 구체 안에서 세 개의 노란 공이 튀어다니는 스크립트를 작성하는데

[27:54] 충돌 감지를 적절히 처리하고

[27:57] 구체가 천천히 회전하도록 하며

[27:59] 공들이 구체 안에 머물도록 하겠습니다.

[28:02] p5.js로 구현해보겠습니다.

[28:05] 생성 버튼을 눌러서 어떻게 되는지 살펴보죠.

[28:09] 이 any chat이라는 무료 플랫폼의 멋진 점은

[28:11] 왼쪽 패널에서 코드를 보여줄 뿐만 아니라

[28:13] 오른쪽에서 실시간으로 코드를 실행해서 보여준다는 것입니다.

[28:16] 자, 이제 시작해보죠.

[28:18] 첫 시도에서 완벽하게 성공했네요.

[28:21] 정말 대단하지 않나요?

[28:23] 이것만 봐도 Qwen 2.5 Pro가

[28:26] 코딩 면에서 얼마나 뛰어난지 알 수 있습니다.

[28:28] 이 플랫폼에서 Qwen 2.5 Max를 무료로 사용할 수 있지만

[28:32] 현재는 오픈소스가 아니라는 점에 주목해주세요.

[28:35] 개발자들은 현재 알리바바 클라우드 API를 통해서만

[28:38] 접근할 수 있습니다. 하지만

[28:41] 이번 주에 출시된 다른 Qwen 모델들은

[28:44] 완전히 무료이고 오픈소스입니다.

[28:46] 그리고 다양한 벤치마크 점수에서도 우수한 성능을 보여줍니다.

[28:49] 여기 Qwen 2.5 VL이 있는데

[28:52] 제가 보기에는 이게 Qwen 2.5 Max보다

[28:54] 더 유용할 수 있습니다.

[28:57] 비전 기능이 있기 때문인데요.

[29:00] 다시 말해 이미지와 1시간 길이의 동영상도 분석할 수 있습니다.

[29:03] 몇 가지 예시를 보여드리겠습니다.

[29:06] '이 관광지들의 이름을 중국어와 영어로 알려달라'고 하면

[29:09] 정확하게 모든 것을 맞춥니다.

[29:11] 이것도 보세요. 정말 인상적인데,

[29:14] '이 새들의 이름을

[29:16] 중국어와 영어로 알려달라'고 하면

[29:18] 모든 것을 정확히 맞춥니다.

[29:21] 종 식별은 이전 AI 비전 모델들에게

[29:23] 정말 어려운 과제였는데

[29:25] 이건 정말 인상적입니다.

[29:27] 자동차 식별도 마찬가지로

[29:29] Qwen 2.5 VL이 모든 답을 정확하게 맞춥니다.

[29:31] 유명인 식별도 마찬가지에요.

[29:34] '사진 속 인물들이 누구인지

[29:36] 중국어와 영어로 알려달라'고 하면

[29:39] 100% 정확하게 답변할 수 있습니다.

[29:43] 또 다른 인상적인 예시를 보여드리면,

[29:45] '이미지 속 모든 텍스트를 인식하여

[29:48] 줄 단위로 출력해달라'고 하면

[29:50] 정확하게 텍스트를 감지하고

[29:52] 출력합니다.

[29:55] 또 다른 인상적인 예시로,

[29:57] '이미지의 모든 텍스트를 줄 단위로 감지하여

[29:59] JSON 형식으로 출력해달라'고 하면

[30:02] 여기 영수증에서 보시는 것처럼

[30:04] 모든 것을 감지하고 JSON 형식으로

[30:07] 출력해줍니다.

[30:09] HTML로도 변환할 수 있어서

[30:12] 이 이미지를 입력하고

[30:15] 이미지 캡션이 있는 HTML을 생성해달라고 하면

[30:17] 이런 결과를 얻을 수 있습니다.

[30:19] 이러한 비전 기능 덕분에

[30:21] 이미지와 비디오를 분석할 수 있어서

[30:24] AI 에이전트로도 사용할 수 있습니다.

[30:26] 화면을 해석하고 다음 작업을 결정하는 거죠.

[30:30] 몇 가지 예시를 보여드리겠습니다.

[30:32] 여기서는 사용자가

[30:35] Qwen 2.5 VL로 구동되는 AI 에이전트를 사용해서

[30:37] 충칭에서 베이징까지 가는

[30:40] 편도 티켓을 예매하고 있고

[30:42] 정확히 그대로 수행하고 있습니다.

[30:45] AI 에이전트가 화면을 분석하면서

[30:47] 충칭에서 베이징으로 가는 편도 티켓을

[30:50] 정확하게 예매하고 있는 걸 볼 수 있습니다.

[30:53] 기기의 화면을 분석하고 있으며

[30:56] 다음에 무엇을 검색하고 어디를 클릭할지 결정하고 있습니다.

[30:58] 그리고 이 모델은 다양한 벤치마크에서

[31:00] 다른 주요 비전 모델들을 완전히 압도했습니다.

[31:03] Qwen 2.5 VL은

[31:06] 가장 큰 버전인 720억 파라미터 모델이

[31:10] 모든 벤치마크 점수에서

[31:12] GPT-4V와 Claude 3.5 Sonnet을

[31:15] 크게 앞서는 최고 점수를 기록했습니다.

[31:18] 이는 정말 놀라운 성과입니다.

[31:22] 일부가 아닌 모든 벤치마크에서

[31:24] 압도적인 성능을 보여주었다는 점이

[31:26] 정말 대단합니다.

[31:28] 더욱 좋은 점은

[31:30] 이 모델들이 이미 출시되었고

[31:33] 완전히 무료이며

[31:35] 오픈소스라는 것입니다.

[31:37] 지금 바로 다운로드해서 컴퓨터에서 오프라인으로 실행할 수 있습니다.

[31:40] 세 가지 비전 모델이 출시되었는데,

[31:42] 하나는 30억 파라미터,

[31:45] 다른 하나는 70억 파라미터,

[31:48] 마지막으로 가장 성능이 뛰어난 것이

[31:50] 720억 파라미터 모델입니다.

[31:53] 또한 허깅페이스 스페이스에서

[31:55] 온라인으로 무료로 시험해 볼 수 있습니다.

[31:57] 메인 발표 페이지 링크는

[32:00] 설명란에 올려두겠습니다.

[32:01] Qwen 2.5 VL이 오픈소스이기 때문에

[32:06] 많은 사용자들이 이미

[32:08] 자신들의 특정 목적에 맞게

[32:10] 파인튜닝을 하고 있습니다.

[32:13] 이 프로젝트가 바로 그런 경우인데, Caracal이라고 하며

[32:16] Qwen VL 7B를 기본 모델로 사용합니다.

[32:20] 이는 손글씨를 인식하는

[32:23] 무료 도구이며

[32:25] 특히 역사적 문서 분석에

[32:27] 탁월한 성능을 보입니다.

[32:30] 이 손글씨 이미지를 업로드하고

[32:34] 제출을 클릭해보겠습니다.

[32:36] 개체명 인식 기능도

[32:38] 곧 보여드리겠습니다.

[32:42] 정말 놀랍지 않나요?

[32:45] 이 손글씨 메모에서 텍스트를

[32:47] 정확하게 인식했습니다.

[32:50] 이제 개체명 인식

[32:52] 기능을 켜보겠습니다.

[32:54] 이 기능은 다양한 개체들을

[32:57] 라벨링할 수 있게 해줍니다.

[32:59] 기본값으로 사람, 조직, 위치, 날짜, 이벤트가 있는데

[33:02] 사람과 위치, 날짜만 라벨링하고 싶다면

[33:05] 조직과 이벤트를 제거하고

[33:07] 제출을 클릭해보겠습니다.

[33:10] 어떤 결과가 나오는지 보겠습니다.

[33:13] 정말 멋지지 않나요?

[33:15] 이 기능을 켜면

[33:18] 모든 개체들이 라벨링됩니다.

[33:20] 예를 들어, Pittsburgh를

[33:22] 위치로 인식했고, 여기는 날짜,

[33:25] 여기는 사람, 여기는 위치로 인식했습니다.

[33:28] 정말 유용한 기능이죠,

[33:30] 특히 손글씨나

[33:32] 역사적 문서를

[33:34] 분석할 때 좋습니다.

[33:36] 허깅페이스 스페이스 링크는

[33:38] 설명란에 올려두겠습니다.

[33:40] Qwen에 대한 이야기가 끝난 줄 아셨나요?

[33:42] 이번 주에 또 다른 무료

[33:45] 오픈소스 모델을 출시했습니다.

[33:47] 바로 Qwen

[33:49] 2.5 1M인데, 이름에서 알 수 있듯이

[33:52] 100만 토큰이라는 거대한

[33:54] 컨텍스트 윈도우를 가지고 있습니다.

[33:57] 이는 한 번에 입력할 수 있는

[33:59] 정보의 양을 의미하는데

[34:02] 참고로 GPT-4나

[34:04] 곧 이야기할 O3-mini 또는

[34:06] DeepSeek나 Claude 3.5 같은 최고의 모델들도

[34:09] 컨텍스트 윈도우가 200,000이나

[34:12] 128K 토큰에 불과한데

[34:16] 이 무료 오픈소스 모델이 1백만

[34:18] 토큰을 지원한다는 것은 정말 놀랍습니다.

[34:22] 70만 단어 이상 또는

[34:25] 3만 줄 이상의 코드를 처리할 수 있죠.

[34:29] 전체 코드베이스를 AI에 입력하거나

[34:30] 처리하고 싶을 때 특히 유용합니다.

[34:33] 또는 대량의 기술 문서를

[34:36] 한 번에 처리할 때도 좋죠. 이들은

[34:38] 두 가지 버전을 출시했는데, 하나는 140억

[34:41] 파라미터이고 다른 하나는 70억

[34:44] 파라미터입니다. 효율성이나 품질 중

[34:45] 어느 것을 중시하느냐에 따라 선택할 수 있죠.

[34:49] 두 모델 모두 듀얼 청크 어텐션이라는

[34:51] 기술을 사용해 긴 시퀀스를

[34:54] 효율적으로 처리합니다. 이

[34:56] 긴 문맥 이해도 벤치마크를

[34:59] 보시면 굵게 표시되거나

[35:01] 밑줄 친 값이 최고 성능을

[35:03] 나타내는데, 전반적으로

[35:05] Qwen 모델이 가장 높은 점수를

[35:08] 기록했고 심지어 GPT-4와 O3-mini도

[35:12] 이겼습니다. 또 LLaMA 3.1도 앞섰는데,

[35:15] 알리바바의 Qwen이 이룬 놀라운

[35:18] 성과입니다. 더 놀라운 건

[35:20] 이 모델들을 무료로 오픈소스화한다는 겁니다.

[35:22] 허깅페이스에 가시면

[35:25] 모든 모델을 다운로드해서

[35:26] 오프라인으로 사용할 수 있습니다.

[35:28] 모든 링크는 상단에 있고

[35:30] 메인 페이지 링크는

[35:32] 아래 설명란에 남겨두겠습니다.

[35:34] 중국 모델 이야기가 끝났다고요?

[35:37] 아닙니다. 또 다른 중국 모델이

[35:38] 출시됐는데, 이것도 최고의

[35:41] 모델들을 능가합니다. 마침 이번 주가

[35:44] 중국 설이었는데, 아마도

[35:46] 그래서 그런지

[35:48] 이렇게 많은 놀라운 모델들을

[35:50] 최근에 출시하나 봅니다. 새해를

[35:52] 강하게 시작하려는 것 같네요. 이번에는

[35:55] 바이트댄스가 만든 건데, 이것도

[35:58] 전문가 혼합 아키텍처를 사용하고

[36:01] 멀티모달 기능을 갖추고 있어서

[36:03] 텍스트, 이미지, 오디오 입력이 가능합니다.

[36:06] 많은 벤치마크 점수에서

[36:08] GPT-4나 Claude 3.5 같은 선두 모델들을

[36:11] 능가하는 성능을 보여줍니다. 아쉽게도

[36:15] 이건 오픈소스가 아니라서

[36:17] 그들의 볼케이노 엔진 플랫폼을

[36:19] 통해서만 접근할 수 있지만, 바이트댄스도

[36:21] 최첨단 모델을 보유하게 됐다는 점에서

[36:24] 의미가 있습니다. AI 발전 속도가

[36:27] 가속화되는 걸 느끼시나요?

[36:29] 아마도 이런 최첨단 중국

[36:31] 모델들의 압박 때문인지, 어제 OpenAI가

[36:34] 지금까지 최고의 모델을 공개했습니다.

[36:37] O3-mini라고 부르는데, 이는

[36:39] O3라는 더 뛰어난 모델의

[36:41] 축소 버전입니다. 하지만 그래도

[36:45] 매우 우수한 성능을 보입니다.

[36:46] 특히 수학, 코딩, 과학 분야에서

[36:49] DeepSeek R1처럼 이것도

[36:52] 깊은 사고가 가능한 모델이라

[36:54] 문제 해결을 위한 추론과

[36:56] 사고 과정이 뛰어납니다.

[36:58] 좋은 소식은 무료 사용자도

[37:01] 지금 바로 O3-mini를 시험해볼 수 있다는 겁니다.

[37:04] 자, 이런 프롬프트를 입력해볼까요?

[37:06] 이 상황에서 어떤 일이 일어날까요?

[37:08] 9살 소년이 7일 동안 기침, 열, 그리고

[37:11] 울혈 증상이 있고 종아리에 심한 통증이 있으며

[37:13] 눈에 띄게 절뚝거리며 걷고 있습니다.

[37:15] 이제 이 추론 버튼을 켜면

[37:17] 기본적으로 O3 mini를 사용하여

[37:20] 응답을 분석하게 됩니다. 그럼

[37:22] 생성 버튼을 눌러 결과를 확인해보겠습니다.

[37:24] 솔직히 말씀드리면, DeepSeek와 비교했을 때

[37:27] 성능이 많이 부족합니다.

[37:29] 여기 전체 사고 과정을 보면

[37:32] 기침, 열, 종아리 통증이 있는 소년의 정보를 수집하고

[37:34] 양성 급성 소아 근염일 수 있는지

[37:37] 확인한 다음, 맞다고 판단하고

[37:39] 주요 포인트들을 나열했습니다.

[37:42] 하지만 같은 프롬프트를

[37:44] DeepSeek와 비교해보면, DeepSeek가

[37:47] 훨씬 더 철저하게 분석하는 것을 볼 수 있습니다.

[37:49] 예를 들어, DeepSeek는

[37:51] 가능한 원인으로 바이러스 후 근염을 제시하고

[37:54] 그 이유를 설명합니다.

[37:56] 또 다른 가능성으로 근육 손상을 언급하며

[37:59] 근염이 심각할 경우 발생할 수 있다고 설명합니다.

[38:01] 가능성은 낮지만

[38:03] 다른 증상들도 고려해야 한다고 하고

[38:06] 여기에 잘 맞지 않을 수 있지만

[38:08] 고려할 만한 가치가 있는 것들도 포함시켰습니다.

[38:11] 또한 다른 징후들이 필요할 수 있는

[38:13] 국소적인 발적이나 부종 같은 증상들도 언급하고

[38:16] 라임병일 수도 있다는 가능성까지 제시합니다.

[38:19] 이처럼 모든 가능성을 검토하고

[38:22] 각각의 확률을 비교 분석한 후에

[38:24] 최종적으로 급성 바이러스성 근염이라고 결론을 내립니다.

[38:26] 반면에 O3의 응답은 매우 짧고

[38:29] 깊이 있는 분석이 부족해 보입니다.

[38:32] 진지하게 노력하지 않는 것 같은 인상을 줍니다.

[38:35] 하지만 무료 사용자도

[38:37] 이제 이 추론 버튼을 켜서

[38:40] O3 mini를 사용할 수 있다는 점을 기억하세요.

[38:43] 실제로 그들이 출시한

[38:46] O3 mini 모델은 세 가지 버전이 있는데

[38:48] high 버전이 가장 성능이 좋습니다.

[38:51] 경쟁적 수학 분야에서

[38:53] O3 mini는 O1보다도 더 나은 성능을 보입니다.

[38:55] PhD 수준의 질문에서도 마찬가지로

[39:00] O3 Mini high 모델이 가장 높은 점수를 받았습니다.

[39:03] 경쟁적 코딩과 소프트웨어 엔지니어링에서도

[39:06] 우수한 성능을 보여주었습니다.

[39:08] 무료 사용자는 O3 mini를 제한적으로만

[39:10] 사용할 수 있으며, 이것이 low 버전인지

[39:14] medium 버전인지는 명시되지 않았습니다.

[39:16] 유료 사용자는

[39:17] 모델 선택기에서 O3 mini high를

[39:20] 선택할 수 있는 옵션이 제공됩니다.

[39:22] 이것이 가장 성능이 좋은 모델이며

[39:24] 월 200달러를 지불하는 Pro 사용자는

[39:27] O3 mini와 O3 mini high 모두

[39:29] 무제한으로 사용할 수 있습니다.

[39:32] O3 mini는 이전 버전인 O1 mini보다

[39:35] 성능이 더 뛰어날 뿐만 아니라

[39:38] API 사용 비용도 훨씬 저렴하고

[39:40] 응답 속도도 더 빠릅니다.

[39:43] O1 mini보다 24% 더 빠르다고 주장합니다.

[39:46] 아쉽게도 이 보고서에서는

[39:49] O3 mini와 O1만 비교했는데

[39:51] DeepSeek R1과의 비교 결과도

[39:54] 보고 싶습니다.

[39:56] 흥미롭게도 독립 평가기관인 Artificial Analysis의

[39:59] 리더보드를 보면

[40:01] 품질 지수 순위에서

[40:03] O3 mini가 DeepSeek R1과 동점이고

[40:06] O1보다는 1점 뒤쳐져 있습니다.

[40:08] 실제로 DeepSeek R1과 비슷한 수준이며

[40:11] O1보다는 약간 뒤처져 있는 상황입니다.

[40:15] 이 모델이 훨씬 저렴하다는 점을 주목하세요.

[40:17] 어제 막 출시되었는데

[40:19] 이 모델에 대해 자세한 분석을 할 예정입니다.

[40:22] 인상적인 기능들을

[40:24] 보여드릴 테니 기대해 주세요.

[40:26] 다음으로 구글이 새로운 기능을

[40:28] '데일리 리슨'이라는 서비스를 점진적으로 출시하고 있습니다.

[40:31] 관심 있는 주제에 대해 매일 업데이트를 제공하는

[40:34] 짧은 일일 팟캐스트입니다.

[40:37] 매일

[40:38] 안녕하세요, 데일리 리슨에 오신 것을 환영합니다.

[40:41] 구글의 새로운 실험적 오디오 쇼입니다.

[40:44] 저희는 AI로 구동되는 진행자이며

[40:47] 매일 빠른 업데이트를 제공하고

[40:48] 여러분을 위해 독점적으로 제작됩니다.

[40:51] 개인의 관심사에 맞춰 제작되어

[40:53] 여러분이 팔로우하는 주제와

[40:55] 자주 검색하는 내용을 다루므로

[40:57] 수고롭게 찾아볼 필요 없이

[40:59] 현재 시범 서비스가 진행 중이며

[41:01] 아직 모든 사용자가 이용할 수는 없습니다.

[41:03] 하지만 대기자 명단에 등록하실 수 있고

[41:05] 여러분만의 쇼가 준비되면

[41:06] 알려드리도록 하겠습니다.

[41:08] 이건 정말 흥미로운 아이디어라고 생각합니다.

[41:10] 이 기술이 결국에는 뉴스나

[41:13] 팟캐스트를 대체할 수도 있을 것 같습니다.

[41:16] 가까운 미래에는

[41:18] 우리가 보고 싶은 콘텐츠를

[41:20] AI가 매일 큐레이션하고 생성할 것입니다.

[41:23] 현재는 일부 사용자에게만 제공되며

[41:26] 점진적으로 출시되고 있어서

[41:28] 아직 모든 사람이 이용할 수는 없습니다.

[41:31] 저도 아직 다운로드 옵션을 볼 수 없지만

[41:33] 이 페이지 링크를

[41:35] 아래 설명란에 넣어두겠습니다.

[41:37] 여러분이 접근 권한이 있는지 확인해보세요.

[41:39] 마지막으로 이번 주에

[41:41] 또 다른 오픈소스 모델이 출시되었는데

[41:44] GPT 4.0과 DeepSeek 버전 3만큼 우수합니다.

[41:47] 이번에는 미국 기업인

[41:50] Allen Institute for AI에서

[41:53] Tulu 3라는 모델을

[41:55] 출시했습니다. 이는 진정한 오픈소스로

[41:59] 모델 가중치뿐만 아니라

[42:00] 학습 데이터와 코드도 함께 공개했습니다.

[42:03] 여기 다른 최신

[42:06] 비사고형 모델들과

[42:08] DeepSeek V3, GPT 4.0와의 성능 비교가 있습니다.

[42:11] SFT, DPO, RLvR이 무엇을 의미하는지

[42:14] 곧 설명해드리겠습니다.

[42:17] 굵은 글씨는 해당 벤치마크에서

[42:19] 가장 높은 점수를 나타냅니다.

[42:22] 다른 모델들과 비교했을 때

[42:24] 특별히 뛰어난 성능을 보이지는 않았고

[42:27] 일부 벤치마크에서만

[42:30] 최고 점수를 받았지만

[42:31] 그래도 인상적입니다. Meta의 Llama 2 40B 기본 모델을

[42:35] 기반으로 했으며

[42:37] 학습 방식이 DeepSeek가

[42:39] R1 모델을 학습한 방식과 매우 유사합니다.

[42:42] 간단히 설명하자면

[42:44] 팀이 먼저 데이터셋을 신중하게 선별하고

[42:46] 문제 해결과 같은 핵심 기술에 집중했습니다.

[42:49] 이후 모델은 이 큐레이션된

[42:51] 데이터셋으로 학습되었고

[42:54] 특정 프롬프트와 그에 대한

[42:56] 답변을 학습했습니다. 이 과정을

[42:58] 지도 학습 미세조정이라고 하며

[43:01] 위에서 본 SFT입니다.

[43:03] 그 다음 직접 선호도

[43:05] 최적화라는 기술을 사용해

[43:08] 사람들이 선호할 만한

[43:10] 응답을 생성하도록 학습했습니다.

[43:12] 이는 응답의 품질을 향상시킬 것이며

[43:15] 여기서 말하는 DPO가 바로 이것을 의미합니다

[43:17] 마지막으로 그들은

[43:19] 검증 가능한 보상을 통한 강화학습이라는

[43:21] 방법을 사용했는데, 이 접근법에서는

[43:24] 수학 문제와 같이 명확한 해답이 있는

[43:26] 문제에 정확한 답변을 제공할 때

[43:29] 모델에 보상을 주는 방식입니다

[43:31] 이는 딥시크가 R1 모델을 훈련시킨 방식과

[43:34] 매우 유사합니다

[43:36] 그들도 강화학습을 사용했으며

[43:38] 이는 특히 수학과 코딩 능력 향상에

[43:41] 효과적입니다. 어쨌든 여기서 말하는

[43:43] RLVR이 바로 이것을 의미하는데

[43:46] 검증 가능한 보상을 통한

[43:48] 강화학습입니다

[43:50] 제가 말씀드린 대로 이것은 완전히 무료이며 오픈소스로

[43:52] 모든 모델이 이미 허깅페이스에

[43:54] 공개되어 있어 다운로드하고 로컬에서 실행할 수 있습니다

[43:57] 이것으로 이번 주 AI의 모든

[43:59] 하이라이트를 마무리하겠습니다

[44:01] 여러분도 이 발전 속도를 체감하시나요?

[44:03] 특히 지난 2주가 정말

[44:06] 믿을 수 없을 정도로 대단했다고 생각합니다

[44:09] 댓글로 여러분의 생각을 알려주세요

[44:10] 어떤 도구나 모델이 가장 기대되시나요?

[44:13] 저는 앞으로도 계속해서 최신 AI 뉴스와

[44:15] 도구들을 여러분과 공유하도록 하겠습니다

[44:18] 이 영상이 도움이 되셨다면

[44:20] 좋아요, 공유, 구독 부탁드립니다

[44:22] 다음 콘텐츠도 기대해 주세요

[44:25] 매주 AI 분야에서

[44:27] 너무나 많은 일이 일어나고 있어서

[44:29] 유튜브 채널에서 모든 것을 다루기는 어렵습니다

[44:31] 그래서 AI의 모든 최신 소식을

[44:34] 놓치지 않고 따라가시려면

[44:36] 제 무료 주간 뉴스레터를 구독해 주세요

[44:39] 링크는 영상 설명란에

[44:40] 있습니다. 시청해 주셔서 감사합니다

[44:42] 다음 영상에서 만나뵙겠습니다