[00:00]
AI는 쉬지 않고 발전하고 있으며 이번 주는
[00:03]
정말 놀라운 한 주였습니다. 새로운
[00:06]
오픈소스 이미지 생성기 두 개가 나왔고
[00:09]
영상의 조명, 색상, 재질을 감지하고
[00:12]
편집할 수 있는 AI가 등장했습니다
[00:15]
새로운 무료 AI 음악 생성기 두 개도 나왔고
[00:18]
OpenAI가 지금까지 중 가장 성능이 좋은
[00:22]
O3-mini 모델을 공개했습니다
[00:25]
GPT와 Claude를 능가하는 AI 모델이
[00:28]
무려 세 개나 나왔습니다
[00:30]
더 많은 소식들이 있으니 바로 시작해보겠습니다
[00:33]
첫 번째로 소개할 매우 강력한 AI는
[00:36]
엔비디아의 디퓨전 렌더(Diffusion Render)입니다
[00:39]
이 AI는 비디오를 분석해서
[00:42]
물체의 기하학적 구조, 깊이, 재질 특성과
[00:45]
다른 특징들을 추정할 수 있습니다
[00:48]
예를 들어, 이런 입력 영상이 있다면
[00:51]
영상 속 모든 요소의 깊이를 계산할 수 있습니다
[00:54]
또한 노멀(normal)도 계산하는데
[00:57]
이는 영상 속 3D 물체의 표면을
[00:59]
정의하는 것으로, 사실적인 조명과
[01:02]
음영 표현에 매우 중요합니다
[01:04]
또한 알베도(albedo)도 계산하는데
[01:07]
이는 조명이나 음영 효과가 없는
[01:10]
물체의 기본 색상을 의미합니다
[01:12]
여기에 더해 물체의 금속성도 추정하는데
[01:15]
이는 물체의 반사도를 나타냅니다
[01:17]
그리고 물체의 거칠기도 추정합니다
[01:20]
더 많은 예시를 보여드리겠습니다
[01:22]
왼쪽 상단이 입력 영상이고
[01:24]
영상에서 이 모든 속성들을 추정할 수 있습니다
[01:27]
여기 또 다른 예시가 있는데
[01:29]
장면이 매우 복잡하고 물체가 많음에도
[01:31]
아주 잘 처리하는 것을 볼 수 있습니다
[01:33]
또 다른 예시를 보여드리겠습니다
[01:35]
이렇게 모든 특성을 이해하고
[01:38]
추정할 수 있기 때문에
[01:40]
정말 놀라운 작업들이 가능합니다
[01:42]
예를 들어 비디오 속 물체의 색상,
[01:45]
조명, 반사도를 조작할 수 있죠
[01:47]
실제로 작동하는 모습을 보여드리겠습니다
[01:50]
정말 놀랍지 않나요?
[01:52]
여기 조명 조정의 예시가 더 있습니다
[01:55]
왼쪽이 입력 영상이고
[01:57]
원하는 대로 조명을 조정할 수 있습니다
[02:00]
4개의 영상에서 조명과 그림자가
[02:03]
각각 다르게 적용된 것을 보세요
[02:05]
기존의 조명 수정 방식과 비교하면
[02:07]
이 새로운 도구가
[02:09]
훨씬 더 정확하고 일관성 있습니다
[02:11]
게다가 이미지나 비디오의
[02:13]
거칠기나 반사 특성도 변경할 수 있습니다
[02:15]
상단 행에서
[02:17]
공과 말의 거칠기와 반사도가
[02:20]
변화하는 것을 보세요
[02:23]
하단 행의 물체들도 마찬가지입니다
[02:26]
장면의 기하학적 구조와
[02:27]
조명을 이해하기 때문에
[02:30]
어떤 물체든 영상에 삽입할 수 있고
[02:33]
기존 조명과 자연스럽게 어울립니다
[02:36]
예를 들어 여기에
[02:38]
싱크대를 넣으면 이렇게 되고
[02:41]
테이블을 넣으면
[02:43]
장면에 매우 자연스럽게 통합되는 것을
[02:46]
볼 수 있습니다
[02:48]
작동 방식을 설명드리자면
[02:51]
먼저 입력 영상을 받아
[02:53]
디퓨전 모델을 통과시킵니다
[02:56]
역렌더링 단계에서는
[02:58]
영상을 분석하여
[03:01]
물체의 색상, 깊이 등
[03:03]
각 속성을 하나씩 추정하고
[03:06]
그 다음 단계로 넘어갑니다
[03:09]
그리고 이 정보들을
[03:11]
다음 단계로 전달합니다
[03:13]
이것은 순방향 렌더링 단계로 넘어가는데
[03:16]
이 단계에서는 추정된 값들을 받아
[03:18]
다양한 조명 조건에서 새로운 프레임을 생성하고
[03:20]
여러분이 지정한 속성들에 따라
[03:22]
변화를 주어 최종적으로
[03:25]
출력 비디오를 만들어냅니다. 이 AI의 특별한 점은
[03:27]
이 모든 과정을 수행할 때
[03:29]
명시적인 3D나 조명 데이터가 필요하지 않다는 것입니다
[03:31]
기존의 방식과는 달리
[03:34]
입력 비디오만으로 이 모든 것을
[03:36]
추정하고 편집할 수 있습니다. 자세한 내용은
[03:39]
아래 설명란에 프로젝트 페이지
[03:40]
링크를 걸어두었으니 참고하시기 바랍니다
[03:42]
다음으로 새로운 무료 오픈소스
[03:45]
이미지 생성기인 루미나 이미지 2.0을 소개합니다
[03:48]
이 모델은 크기 대비 정말 뛰어난 품질을 보여주는데
[03:52]
단 20억 개의 매개변수만을 사용합니다
[03:54]
반면에 Flux는 120억 개의 매개변수를 사용하여
[03:57]
6배나 더 큰 규모를 가지고 있죠
[04:00]
루미나 이미지 2는 1024 해상도까지 지원하며
[04:02]
텍스트 인코더로 Gemma 2를 사용하고
[04:06]
VAE로는 Flux를 사용합니다
[04:09]
여기 몇 가지 예시를 보여드리겠습니다
[04:12]
보시다시피 실제와 같은 장면을
[04:14]
어려움 없이 생성해내고 있습니다
[04:17]
또한 이미지 내 텍스트 생성도 매우 뛰어나며
[04:20]
여기서 보실 수 있듯이
[04:23]
다양한 언어로 프롬프트를 입력할 수 있습니다
[04:25]
게다가 사실적인 이미지뿐만 아니라
[04:28]
이처럼 다양한 예술적 스타일도
[04:31]
생성할 수 있습니다
[04:34]
여기 정말 멋진 기능이 있는데요
[04:36]
하나의 이미지 안에 여러 이미지를
[04:39]
생성할 수 있습니다. 예를 들어
[04:41]
두 개의 패널로 구성된 이미지를 생성하는데
[04:43]
아래쪽은 캐니 엣지 맵을 보여주고
[04:46]
위쪽은 원본 이미지를 유지하여
[04:47]
직접적인 시각 비교가 가능하도록
[04:49]
할 수 있습니다. 이게 그 결과입니다
[04:52]
또 다른 예시를 보여드리면
[04:54]
두 개의 패널로 인물 얼굴을 표현하는데
[04:56]
왼쪽은 러프한 스케치에서
[04:58]
오른쪽은 초현실적인 포트레이트로
[05:01]
변환되는 모습을 보여줍니다
[05:03]
허깅 페이스에서 루미나를
[05:05]
무료로 온라인에서 사용할 수 있는
[05:08]
여러 공간들이 있어서 프롬프트만 입력하면 되고
[05:10]
고급 설정도 있습니다
[05:12]
루미나 이미지의 또 다른 강점은
[05:15]
시스템 프롬프트라는 것을 추가할 수 있다는 것입니다
[05:17]
이것은 AI의 규칙이나
[05:20]
역할을 설명하는 상위 프롬프트와 같은 것입니다
[05:21]
예를 들어, 이렇게 하는 대신
[05:24]
'당신은 전문 사진작가입니다'라고
[05:27]
설정할 수 있습니다
[05:30]
그러면 모든 출력물이
[05:32]
실제 전문가의 사진처럼 생성됩니다
[05:35]
그리고 여기에는
[05:37]
네거티브 프롬프트를 입력하는데
[05:38]
이미지에서 제외하고 싶은
[05:40]
모든 것들을 지정할 수 있고, 여기서는
[05:42]
너비와 높이를 조정할 수 있습니다
[05:45]
이미지 생성 경험이 있다면
[05:47]
익숙할 다른 설정들도 있습니다
[05:49]
자, 간단한 프롬프트를 시도해보겠습니다
[05:52]
'도시에 있는 여성의 초상화'라고 입력해보죠
[05:56]
실행해보면... 자, 이렇게 결과가 나왔네요
[05:59]
실제로 도시의 여성 초상화가 생성되었습니다
[06:01]
이번에는 시스템 프롬프트를
[06:03]
'당신은 전문 사진작가입니다' 대신
[06:05]
'당신은 인상파 화가입니다'라고 바꿔서
[06:08]
실행해보고 어떤 결과가 나오는지
[06:12]
확인해보겠습니다. 여기 결과가 나왔네요
[06:14]
보시다시피 스타일이 완전히 달라졌습니다
[06:18]
이 새로운 시스템 프롬프트 기능이 얼마나
[06:20]
유용한지 알 수 있습니다. 이제 이 새로운 Lumina Image를
[06:23]
SDXL이나 Stable Diffusion 3와 같은
[06:26]
비슷한 크기의 모델들, 심지어 Dalle 3나 Omni-gen, NVIDIA의
[06:30]
SAM과 비교해보면
[06:34]
대부분의 벤치마크에서
[06:36]
Lumina Image가 가장 높은 점수를 받았습니다
[06:38]
작은 크기임에도 정말 인상적인
[06:41]
이미지 생성기라고 할 수 있죠
[06:44]
모델들은 이미 Hugging Face에 공개되어 있어서
[06:46]
다운로드할 수 있고, 앞서 말씀드린 대로
[06:48]
완전히 무료이며 오픈소스입니다
[06:50]
자세한 내용은 GitHub 페이지 링크를
[06:53]
아래 설명란에 첨부해두었습니다
[06:55]
다음으로는 새로운 3D 모델
[06:58]
생성기인 DiffSplat을 소개합니다. 이것은
[07:01]
텍스트나 이미지만으로 3D 모델을
[07:04]
생성할 수 있고, 이 모델은
[07:07]
가우시안 스플랫이라고 불리는 형태를 사용합니다
[07:09]
간단히 말하면 이것은
[07:11]
3D 공간에 있는 작은 컬러 포인트들의 집합입니다
[07:13]
그리고 이 시스템은 엄청나게 빠른데
[07:16]
모델 생성에 1-2초
[07:18]
정도밖에 걸리지 않습니다. 여기 보시는 것이
[07:21]
텍스트 설명을 3D 모델로 변환한
[07:23]
다양한 예시들인데, 앞서 말씀드린 대로
[07:25]
이미지를 업로드해서 3D 모델을
[07:28]
생성할 수도 있습니다
[07:30]
다양한 예시를 보면, 업로드한 캐릭터가
[07:33]
매우 상세하고 복잡하더라도
[07:36]
잘 처리할 수 있으며
[07:38]
캐릭터의 뒷모습도
[07:39]
정확하게 추정할 수 있습니다
[07:42]
간단히 작동 방식을 설명하자면
[07:44]
텍스트 설명이나 이미지를
[07:46]
입력받아서
[07:49]
디퓨전 모델에 넣습니다
[07:51]
이것은 기본적으로 Stable Diffusion이나 Flux와 같은
[07:53]
이미지 생성기입니다
[07:56]
좋은 점은 여기에
[07:58]
다른 이미지 생성기를 연결할 수 있다는 것입니다
[08:00]
예를 들어 SDXL이나 Pixart,
[08:03]
Stable Diffusion 3 등을 사용할 수 있죠
[08:06]
그 다음에는 잠재 디코더를 통해
[08:08]
3D 모델을 생성하고
[08:10]
3D 렌더링 손실 컴포넌트가
[08:13]
다양한 시점에서의 일관성을 제공하여
[08:15]
3D 모델이 다른 각도에서도
[08:18]
일관되게 유지되도록 합니다
[08:20]
또한 매우 다재다능해서, 원본 객체를 가져와
[08:23]
그 객체의 노멀 맵을 추정할 수 있는데
[08:26]
이는 객체의 표면을 추정하는 것이고
[08:28]
여기에 새로운 텍스트 설명을
[08:30]
추가하면, 예를 들어 스팀펑크 로봇이라고 하면
[08:32]
이 노멀 맵을 기반으로
[08:35]
새로운 객체를 생성합니다
[08:38]
또는 표면을 추정하는 대신
[08:41]
객체의 깊이 맵을
[08:43]
추출할 수도 있고
[08:45]
이를 사용해 다른
[08:47]
텍스트 설명을 기반으로 새로운 3D 모델을
[08:50]
생성할 수 있습니다. 깊이 맵 대신
[08:52]
원본 객체의 엣지를 추출해서
[08:55]
다시 한 번 다른
[08:57]
텍스트 프롬프트를 사용해
[08:59]
추출된 엣지에 맞는
[09:01]
새로운 객체를 생성할 수 있습니다. 정말 강력하고
[09:03]
다재다능한 도구죠. 위쪽에
[09:06]
GitHub 저장소가 이미 있어서
[09:08]
설치 방법과 로컬에서 실행하는
[09:10]
모든 지침이 포함되어 있습니다
[09:13]
자세한 내용은 메인 페이지 링크를
[09:15]
아래 설명란에서 확인하실 수 있습니다
[09:16]
다음으로는 드디어 괜찮은
[09:20]
오픈소스 음악 생성기가 있는데요, 이름은
[09:23]
YuE라고 합니다. 프롬프트만으로 전체 노래를
[09:25]
만들 수 있어요. 가사를 입력하고
[09:28]
장르를 지정하기만 하면 됩니다. 마치
[09:31]
Udio나 Sunno처럼 말이죠. 그러면
[09:33]
마법처럼 전체 노래를 생성해
[09:36]
줍니다. 몇 분 정도의 노래를 만드는데요
[09:38]
몇 가지 예시를 보여드리겠습니다.
[09:40]
장르로 '영감을 주는 여성 보컬의
[09:43]
밝은 팝, 공기같이 가벼운 일렉트로닉'
[09:45]
이렇게 입력했고, 여기 가사가 있습니다.
[09:48]
한 가지 생성 예시를 들려드리겠습니다.
[09:52]
자,
[09:53]
하늘을 물들이는 석양을 바라보며
[09:59]
당신은 계속 부정하지만
[10:02]
난 알아요, 당신이 나를 실망시켰지만
[10:07]
내가 여기 있어요, 내 마음을 지키려
[10:10]
깨지지 않은 채로, 당신이 하는 모든 말에도
[10:16]
모든 꿈 뒤에서 당신을 쫓고 있어요
[10:20]
삶이 허락하는 한 당신에게 닿으려 해요
[10:23]
이제 물러서지 않을 거예요, 당신도 알잖아요
[10:27]
이제는 부정할 수 없다는 걸
[10:32]
자, 이건 첫 번째 생성이었고
[10:35]
모든 설정을 그대로 두고
[10:37]
다시 한 번 생성해보면
[10:39]
[음악]
[10:44]
또 다른 변주가 나옵니다
[10:47]
하늘을 이겨내려
[10:49]
당신은 계속 부정하려 하지만, 난 알아요
[10:54]
실수를 저질렀다는 걸
[10:56]
하지만 난 여기 있어요, 그 마음을
[11:00]
깨뜨리지 않은 채로, 당신이 하는 모든 말에도 난
[11:07]
당신의 눈을
[11:10]
[음악]
[11:20]
이렇게 팝송 예시였고,
[11:22]
이번엔 랩은 어떤지 들어보겠습니다.
[11:25]
장르를 '피아노가 있는 랩, 거친 스트릿,
[11:28]
날카로운 보컬, 힙합 신디사이저, 선명한
[11:31]
남성 보컬'로 설정했는데요
[11:34]
랩처럼 들리긴 하지만
[11:35]
가사를 많이 뛰어넘고
[11:37]
이리저리 건너뛰는 게
[11:39]
보입니다. 어쨌든
[11:41]
이 부분을 들려드리고
[11:43]
입력한 가사를 보여드리겠습니다
[11:46]
이건 내 여정이고 난 이 경주를 뛰고 있어
[11:48]
그들은 내가 할 수 없다고 했어
[11:50]
절대 성공 못할 거라 했지만 이제 난 높이 날아
[11:53]
하늘을 향해 뻗어가, 배운 교훈들이
[11:55]
나를 만들었어, 이제 당당하게 서서
[11:57]
신경 쓰지 않아, 골목길의 메아리
[12:00]
음악은 나에게 필요해 봐
[12:03]
날 봐, 날 따라해
[12:08]
미국과 한국이 모두 함께
[12:12]
확신해, 세상으로부터
[12:16]
도전하고 승리할 거야
[12:20]
이 바보 같은 상황에서, 내 날개로
[12:24]
후렴 전 마지막 부분에서는
[12:27]
프롬프트에 없던 무작위 가사를
[12:29]
흘러나오기 시작합니다
[12:32]
하지만 실제로 굉장히 흥미로운 건
[12:34]
지시 없이도 계속 랩을 이어간다는
[12:36]
점이에요
[12:37]
마치 프리스타일 랩처럼요
[12:40]
마지막으로 재즈 예시를 들려드리겠습니다
[12:43]
장르는 '여성 블루스, 공기같은 보컬, 밝은 보컬'
[12:46]
피아노, 슬픈 로맨틱한 기타로 설정했습니다
[12:50]
[음악]
[12:53]
재즈가 흘러나와요
[12:56]
떨어지는 밤
[13:00]
메아리치는
[13:02]
복도를 따라, 고요 속에서 부드러운
[13:07]
목소리가 나를 다시
[13:10]
집으로 이끌어, 내 마음을
[13:13]
기쁘게 해요, 이 순간을 놓치지 말아요
[13:17]
나를 꼭 안아주세요
[13:19]
당신 곁에 있으면 주변의
[13:24]
모든 것들이 희미해져요
[13:29]
놓치고 싶지 않아요, 영원히 함께해요
[13:34]
난
[13:37]
정말 멋지네요. 헤비메탈도 할 수 있는데
[13:40]
극단적인 스타일도 가능합니다.
[13:43]
주의하세요, 볼륨을 좀
[13:44]
이 부분에서는 스피커 볼륨을 좀 낮추시는 게 좋겠습니다.
[13:47]
모든 밤을 싸움 없이
[13:51]
SC없이도 첫 번째 싸움에서 일어나
[13:55]
너의 손을 들어, 가벼워져라
[13:59]
뒤로 물러서, 내가 F를 억제하고 있으니
[14:04]
이런 식으로 진행되는데,
[14:09]
스크리밍과 같은 극단적인 보컬도
[14:12]
헤비메탈 스타일도 문제없이 소화합니다.
[14:14]
또한 다양한 언어로도
[14:17]
노래할 수 있는데, 예를 들어
[14:20]
일본어와 영어가 포함된
[14:22]
이 가사와 아래의 한국어 가사를 입력해보면
[14:27]
어떻게 나오는지 한번 들어보겠습니다.
[14:31]
[음악]
[14:40]
내가 아는
[14:42]
유일한 사람
[14:47]
only
[14:50]
[음악]
[14:52]
사랑해
[14:59]
날 원하니
[15:01]
난 네 첫번째가 되고 싶어, 조금 더
[15:05]
가까이
[15:09]
[음악]
[15:11]
더 가까이
[15:12]
[음악]
[15:23]
마지막 부분에서 보시다시피
[15:26]
오토튠과 신스 보이스 이펙트도
[15:28]
적용했는데, 정말 대단하지 않나요?
[15:31]
이 모든 것이 무료로
[15:33]
오픈소스 AI로 바로 사용할 수 있다는 게
[15:35]
놀랍죠. 말씀드린 대로
[15:38]
장르와 가사만 지정하면
[15:40]
마법처럼 verse와 가사를 포함한
[15:42]
완전한 노래를 만들어줍니다.
[15:44]
GitHub 링크 상단에
[15:46]
다운로드와 사용 방법에 대한
[15:48]
모든 설명이 있습니다.
[15:51]
현재로서는 상당한 GPU 메모리가 필요한데,
[15:53]
24GB나 최소 16GB 정도의
[15:56]
GPU 메모리가 필요합니다.
[16:00]
꽤 많은 컴퓨팅 파워가 필요하지만,
[16:02]
다만 완전히 오픈소스이고
[16:04]
Apache 2 라이선스 하에
[16:07]
배포되어 있어서
[16:08]
상업적 용도를 포함해
[16:11]
원하는 대로 사용할 수 있습니다.
[16:12]
게다가 오픈소스이기 때문에
[16:14]
다른 사용자들이 곧
[16:17]
더 낮은 VRAM으로도
[16:19]
실행할 수 있는 양자화 버전을
[16:22]
출시할 것이라 확신합니다.
[16:24]
예시에서 보여드린 것처럼
[16:27]
퀄리티가 아직은 완벽하지 않고
[16:30]
Udio나 Sunno만큼 좋지는 않지만
[16:32]
완전히 무료인 오픈소스라는 점이
[16:35]
큰 장점입니다.
[16:37]
설치 튜토리얼을 원하시는지
[16:39]
댓글로 알려주세요.
[16:41]
메인 페이지 링크는
[16:43]
설명란에 남겨두겠습니다.
[16:46]
YuE 외에도 또 다른 무료 AI 음악 생성기가
[16:50]
있는데, 이건 정말 훌륭합니다.
[16:52]
Riffusion에서 만든 'Fuzz'라고 하는데,
[16:55]
Riffusion은 AI 음악 생성 분야에서
[16:57]
오랫동안 활동해왔습니다.
[16:59]
제가 2년 전에 처음 출시됐을 때
[17:01]
다뤘었는데, 이번 주에
[17:03]
Fuzz라는 새로운 모델을 출시했습니다.
[17:06]
Fuzz의 샘플을 한번 들어보시죠.
[17:12]
[음악]
[17:14]
당신의 얼굴을 바라보며
[17:17]
모든 이가 새로운 것을 가져오네
[17:25]
[음악]
[17:38]
정말 멋진 점은
[17:40]
GPU 자원이 허용하는 한
[17:43]
웹사이트에서 무제한으로
[17:46]
무료로 사용할 수 있다는 겁니다.
[17:47]
설명란에 링크를 남겨둘
[17:50]
riffusion.com에 가시면
[17:52]
프롬프트를 입력하고
[17:53]
이 작곡 섹션에서 생성하실 수 있습니다.
[17:56]
여기서는 더 세밀한 제어가 가능합니다
[17:58]
가사를 입력할 수 있고
[18:00]
원하는 사운드도 지정할 수 있습니다
[18:03]
지금부터 인기 있는 몇 가지를 들려드리겠습니다
[18:05]
정말 좋은 소리가 납니다
[18:07]
[음악]
[18:13]
순식간에 지나가는 순간을 되돌아보며
[18:17]
당신의 삶이 나를 무모하게 만들어
[18:21]
내 목걸이에 흔적을 남기고
[18:23]
베이스가 떨어지고 군중이 멈춘 후에
[18:27]
군중이 멈추면
[18:31]
베이비 네가 원하는 게 뭔지 말해줘
[18:34]
[음악]
[18:37]
또 다른
[18:39]
[음악]
[18:42]
도시라고 말해봐
[18:45]
[음악]
[18:47]
YuE와 비교해서 얼마나 더 깔끔하고 입체적인 사운드인지 들으셨죠
[18:51]
이 새로운 Riffusion 모델은
[18:54]
정말 놀랍도록 좋습니다
[18:57]
다른 예시를 들려드리겠습니다
[19:00]
[음악]
[19:13]
내가 밑바닥에 있을 때
[19:16]
뒷골목에서
[19:20]
비처럼 쏟아지는 블루스처럼 내가 절망에 빠졌을 때
[19:24]
비가 내리는 것처럼 우울했을 때
[19:29]
하지만 달링 당신이 왔죠
[19:31]
달콤한 사탕수수처럼
[19:35]
나를 더 높이
[19:38]
[음악]
[19:41]
베이비 진실로 나를 더 높이 데려가 줘
[19:48]
계속해서 나를 높이 데려가 줘
[19:53]
기타 사운드가 얼마나 실감나는지 보세요
[19:56]
목소리도 매우 고품질이고 다이나믹합니다
[19:59]
정말 아름답죠
[20:01]
Riffusion의 또 다른 멋진 기능은
[20:04]
어떤 기존 곡이든 가져와서
[20:06]
전체 곡을 다운로드할 수 있을 뿐만 아니라
[20:08]
각각의 개별 스템도
[20:10]
다운로드해서 직접 리믹스할 수 있다는 겁니다
[20:13]
정말 멋진 도구죠
[20:15]
다음으로, DeepSeek 이야기가 여기서 끝났다고 생각하셨나요?
[20:18]
이번 주에 또 다른 대단한 것을 공개했습니다
[20:20]
이번에는 멀티모달 AI 모델인데요
[20:23]
이미지를 생성할 수 있는 모델입니다
[20:25]
Janus Pro라고 불립니다
[20:28]
Janice인지 Janus인지, J-anus라서 좀 헷갈리네요
[20:31]
어쨌든 DeepSeek R1처럼
[20:35]
이 모델도 무료이고 오픈소스입니다
[20:37]
하지만 Flux나 Stable Diffusion 같은
[20:41]
일반적인 디퓨전 모델과는 다릅니다
[20:43]
이것은 텍스트와 이미지를 모두 처리할 수 있는
[20:45]
멀티모달 AI 모델입니다
[20:47]
그들은 서로 다른 파라미터 크기를 가진
[20:50]
4가지 모델을 출시했는데
[20:53]
당연히 가장 큰 모델이 최고의 품질을 보여주고
[20:55]
가장 작은 모델이 가장 빠르고
[20:57]
컴퓨팅 자원을 적게 사용합니다
[20:59]
간단히 Janus의 생성 예시를
[21:02]
보여드리겠습니다
[21:04]
다양한 스타일을 생성할 수 있는데
[21:07]
사실적인 것부터
[21:09]
수채화, 유화, 애니메이션 스타일까지 가능합니다
[21:12]
매크로 사진이나 풍경 사진도 생성할 수 있고
[21:15]
정말 훌륭한 퀄리티를 보여줍니다
[21:18]
더 많은 예시를 보여드리면
[21:20]
픽셀 아트 스타일도 가능하고
[21:23]
2.5D 디지털 아트 타입의 이미지도
[21:26]
생성할 수 있습니다
[21:28]
단순한 이미지 생성기가 아니라
[21:31]
텍스트도 이해할 수 있어서
[21:33]
왼쪽의 벤치마크를 보시면
[21:35]
여러 멀티모달 이해 벤치마크와
[21:38]
비교했을 때 Janus Pro가
[21:41]
비슷한 파라미터 크기의
[21:43]
다른 모든 모델들을 능가합니다
[21:46]
오른쪽은 이미지 생성에 대한
[21:48]
지시 따르기 벤치마크의
[21:50]
성능을 보여주는데
[21:53]
Stable Diffusion 3 Medium이나
[21:55]
DALL-E 3, SDXL과 비교했을 때
[21:59]
Janice Pro가 현재로서는 최고의 모델이라고
[22:02]
할 수 있습니다. 생성 품질은 Flux만큼
[22:05]
좋지는 않지만, 이 모델이 단 70억 개의
[22:07]
파라미터만 사용한다는 점을 고려해야 합니다.
[22:10]
Flux는 120억 개의 파라미터를 사용하죠.
[22:12]
게다가 이건 단순한 디퓨전 모델이 아니라
[22:14]
이미지 생성뿐만 아니라 일반적인
[22:16]
텍스트와 채팅 기능도 갖추고 있습니다.
[22:19]
이렇게 작은 모델에
[22:21]
모든 기능을 담았다는 것과
[22:23]
다중 모달 이해와 이미지 생성
[22:25]
측면에서 다른 모델들을 능가한다는 점이
[22:28]
정말 놀랍습니다.
[22:30]
Deep Seek 팀에게 정말 박수를 보내고 싶습니다.
[22:33]
그들이 최근에 발표하는 것들이
[22:35]
정말 대단하거든요. 말씀드렸듯이 이것은
[22:38]
완전히 무료이고 오픈소스입니다.
[22:40]
로컬에서 실행할 수 있도록 모델을
[22:42]
이미 공개했고, 게다가
[22:44]
Hugging Face에서 온라인으로
[22:47]
무료로 사용해볼 수도 있습니다.
[22:49]
이번 주 AI 분야에는 정말 흥미로운
[22:52]
업데이트들이 있었는데요.
[22:54]
제가 전에 소개했던 제가 가장 좋아하는
[22:56]
AI 비디오 생성기 중 하나인 Hailuo Minimax가
[22:58]
새로운 디렉터 모델을 출시했습니다.
[23:01]
이를 통해 생성된 영상의
[23:03]
카메라 움직임을 제어할 수 있어서
[23:05]
이런 멋진 영화적인 장면들을 만들 수 있죠.
[23:08]
Hailuo에 로그인하고
[23:10]
생성 버튼을 클릭하면 텍스트-비디오 탭에서
[23:13]
찾을 수 있고, 아래쪽에서
[23:15]
이 새로운 디렉터 모델을 선택할 수 있습니다.
[23:17]
예를 들어, '햇살 가득한 초원에서
[23:19]
이젤에 그림을 그리는 외로운 화가'라고
[23:21]
프롬프트를 입력하고, 여기
[23:23]
카메라 아이콘을 클릭하면
[23:26]
장면의 카메라 움직임을 지정할 수 있습니다.
[23:29]
카메라를 좌우로 슬라이딩하거나
[23:30]
좌우로 패닝하거나
[23:32]
줌인, 줌아웃, 위아래로 틸팅 등
[23:34]
다양한 옵션이 있어서
[23:37]
장면의 카메라 움직임을 완벽하게
[23:40]
제어할 수 있습니다.
[23:42]
우리는 왼쪽으로 원형 회전을 선택해보죠.
[23:44]
이건 기본적으로 궤도 샷인데요.
[23:46]
이걸 클릭하면 프롬프트에
[23:49]
이런 키워드들이 추가된 것을 볼 수 있죠.
[23:52]
자, 이제 생성해보겠습니다.
[23:53]
여기 결과가 나왔네요.
[23:55]
실제로 카메라가 왼쪽으로 돌아가는 것을
[23:58]
볼 수 있습니다. 정말 인상적이죠.
[24:00]
이에 대한 전체 리뷰 영상을 준비 중이니
[24:02]
기대해 주세요. 다른 AI 비디오 소식으로는
[24:06]
알리바바가 최신 비디오 생성기를
[24:09]
출시했는데요.
[24:11]
Wanx라고 하는데 발음이 맞나요?
[24:14]
어쨌든 이 모델의 생성 결과가
[24:16]
정말 뛰어나서 일부 유료 최상위 모델들보다도
[24:18]
더 좋은 성능을 보여줍니다.
[24:20]
현재 Qwen chat이라는 인터페이스에서
[24:23]
무료로 사용해볼 수 있는데요.
[24:25]
여기에 프롬프트를 입력하고
[24:27]
비디오 생성을 클릭하면 됩니다.
[24:29]
여기서 화면 비율을 선택하고
[24:31]
생성 버튼을 누르면 되죠.
[24:33]
무료로 제공되는 동안 꼭 사용해보세요.
[24:36]
이미 이 모델에 대한 전체 리뷰 영상을
[24:39]
만들어서 Wanx와 다른 최상위
[24:42]
비디오 모델들을 비교했으니
[24:44]
아직 보지 않으셨다면
[24:46]
꼭 확인해보세요. AI Portrait의
[24:48]
스폰서쉽에 감사드립니다.
[24:50]
LinkedIn이나 비즈니스 프로필에 전문적인
[24:52]
프로필 사진 하나가 큰 차이를 만듭니다
[24:55]
직접 찍거나 친구에게 부탁할 수도 있지만
[24:57]
대부분의 사람들은 전문적인 사진을
[24:59]
잘 찍지 못합니다
[25:01]
전문 사진 촬영을 의뢰할 수도 있지만
[25:03]
평균적으로 200달러 이상의 비용이 들고
[25:06]
촬영 일정을 잡고 몇 시간 동안
[25:09]
어색하게 카메라 앞에서 포즈를 취해야 합니다
[25:11]
이런 상황에서 AI Portrait가 도움이 됩니다
[25:13]
AI Portrait를 사용하면
[25:16]
몇 분 만에 전문적이고 고품질의 사진
[25:18]
포트폴리오를 생성할 수 있습니다
[25:21]
사진 한 장을 업로드하고 성별을 선택하면
[25:24]
다양한 배경에서 찍은 50장의
[25:27]
전문적인 헤드샷을
[25:29]
몇 분 안에 생성해냅니다
[25:31]
만약 실제 촬영의 번거로움 없이
[25:33]
고품질의 전문적인 사진이 필요하다면
[25:35]
AI Portrait가 최선의 선택이 될 것입니다
[25:38]
아래 설명란의 링크를 통해 확인해보세요
[25:40]
이번 주 AI 뉴스를 살펴보셨다면
[25:43]
DeepSeek에 대해 들어보셨을 겁니다
[25:45]
이는 인터넷을 휩쓸고 있는
[25:47]
중국의 AI 모델입니다
[25:50]
OpenAI만큼 뛰어나면서도
[25:52]
완전히 오픈소스이고 무료로 사용할 수 있습니다
[25:56]
이미 DeepSeek에 대한 여러 영상을 만들었기에
[25:58]
여기서는 반복하지 않겠습니다
[26:01]
아직 보지 않으셨다면 그 영상을 확인해보세요
[26:03]
하지만 DeepSeek 외에도
[26:05]
최첨단 수준의 AI 모델들이
[26:07]
몇 가지 더 있습니다
[26:09]
알리바바가 최근에 출시한
[26:12]
Qwen 2.5 Max는 그들의 가장 진보된 AI 모델입니다
[26:15]
이는 전문가 혼합 모델로
[26:18]
전문화된 AI들의 팀이
[26:20]
함께 작업하는 것으로 생각하면 됩니다
[26:23]
문제 해결을 돕기 위해
[26:25]
예를 들어, 코딩에 특화된 AI가 있고
[26:27]
수학에 특화된 AI가 있으며
[26:29]
글쓰기에 특화된 AI가 있는 식입니다
[26:31]
이렇게 AI 에이전트들을
[26:33]
팀으로 구성하면
[26:36]
더 높은 성능을 발휘할 수 있습니다
[26:38]
벤치마크 점수를 보면
[26:40]
빨간색 막대가 Qwen 2.5 Max의 성능을 나타냅니다
[26:42]
대부분의 경우 GPT-4, Claude,
[26:46]
DeepSeek 버전 3 같은 선두 모델들을 앞섭니다
[26:49]
이는 모두 비사고형 모델들입니다
[26:51]
여기서 DeepSeek V3는 화제가 된
[26:54]
사고형 모델 R1이 아닌 일반 모델입니다
[26:57]
대부분의 벤치마크에서
[27:01]
선두 비사고형 모델들과
[27:03]
대등하거나 더 나은 성능을 보입니다
[27:04]
놀라운 점은 지금 바로
[27:06]
무료로 사용해볼 수 있다는 것입니다
[27:09]
이 채팅 인터페이스에서
[27:11]
상단에서 모델을 선택할 수 있고
[27:14]
기본적으로 Qwen 2.5 Max가
[27:16]
선택되어 있는 것을 볼 수 있습니다
[27:18]
웹 검색, 코딩, 이미지 생성에도
[27:22]
사용할 수 있습니다
[27:24]
이러한 기능들에 대해서는
[27:26]
이 영상 후반부에서 다루겠습니다
[27:29]
또 다른 사용 방법으로
[27:31]
특히 코딩을 하고 싶다면
[27:33]
akque가 만든 Hugging Face Space에서
[27:35]
무료로 사용해볼 수 있습니다
[27:37]
여기서 다양한 모델을 선택할 수 있는데
[27:40]
Qwen Coder를 선택하고
[27:43]
여기서 Qwen 2.5 Max를 선택하면 됩니다
[27:45]
이것이 가장 최신 버전입니다
[27:48]
이건 그냥 날짜입니다. 이게 가장 최신 모델인데
[27:50]
정말 까다로운 프롬프트를 입력해보겠습니다.
[27:52]
구체 안에서 세 개의 노란 공이 튀어다니는 스크립트를 작성하는데
[27:54]
충돌 감지를 적절히 처리하고
[27:57]
구체가 천천히 회전하도록 하며
[27:59]
공들이 구체 안에 머물도록 하겠습니다.
[28:02]
p5.js로 구현해보겠습니다.
[28:05]
생성 버튼을 눌러서 어떻게 되는지 살펴보죠.
[28:09]
이 any chat이라는 무료 플랫폼의 멋진 점은
[28:11]
왼쪽 패널에서 코드를 보여줄 뿐만 아니라
[28:13]
오른쪽에서 실시간으로 코드를 실행해서 보여준다는 것입니다.
[28:16]
자, 이제 시작해보죠.
[28:18]
첫 시도에서 완벽하게 성공했네요.
[28:21]
정말 대단하지 않나요?
[28:23]
이것만 봐도 Qwen 2.5 Pro가
[28:26]
코딩 면에서 얼마나 뛰어난지 알 수 있습니다.
[28:28]
이 플랫폼에서 Qwen 2.5 Max를 무료로 사용할 수 있지만
[28:32]
현재는 오픈소스가 아니라는 점에 주목해주세요.
[28:35]
개발자들은 현재 알리바바 클라우드 API를 통해서만
[28:38]
접근할 수 있습니다. 하지만
[28:41]
이번 주에 출시된 다른 Qwen 모델들은
[28:44]
완전히 무료이고 오픈소스입니다.
[28:46]
그리고 다양한 벤치마크 점수에서도 우수한 성능을 보여줍니다.
[28:49]
여기 Qwen 2.5 VL이 있는데
[28:52]
제가 보기에는 이게 Qwen 2.5 Max보다
[28:54]
더 유용할 수 있습니다.
[28:57]
비전 기능이 있기 때문인데요.
[29:00]
다시 말해 이미지와 1시간 길이의 동영상도 분석할 수 있습니다.
[29:03]
몇 가지 예시를 보여드리겠습니다.
[29:06]
'이 관광지들의 이름을 중국어와 영어로 알려달라'고 하면
[29:09]
정확하게 모든 것을 맞춥니다.
[29:11]
이것도 보세요. 정말 인상적인데,
[29:14]
'이 새들의 이름을
[29:16]
중국어와 영어로 알려달라'고 하면
[29:18]
모든 것을 정확히 맞춥니다.
[29:21]
종 식별은 이전 AI 비전 모델들에게
[29:23]
정말 어려운 과제였는데
[29:25]
이건 정말 인상적입니다.
[29:27]
자동차 식별도 마찬가지로
[29:29]
Qwen 2.5 VL이 모든 답을 정확하게 맞춥니다.
[29:31]
유명인 식별도 마찬가지에요.
[29:34]
'사진 속 인물들이 누구인지
[29:36]
중국어와 영어로 알려달라'고 하면
[29:39]
100% 정확하게 답변할 수 있습니다.
[29:43]
또 다른 인상적인 예시를 보여드리면,
[29:45]
'이미지 속 모든 텍스트를 인식하여
[29:48]
줄 단위로 출력해달라'고 하면
[29:50]
정확하게 텍스트를 감지하고
[29:52]
출력합니다.
[29:55]
또 다른 인상적인 예시로,
[29:57]
'이미지의 모든 텍스트를 줄 단위로 감지하여
[29:59]
JSON 형식으로 출력해달라'고 하면
[30:02]
여기 영수증에서 보시는 것처럼
[30:04]
모든 것을 감지하고 JSON 형식으로
[30:07]
출력해줍니다.
[30:09]
HTML로도 변환할 수 있어서
[30:12]
이 이미지를 입력하고
[30:15]
이미지 캡션이 있는 HTML을 생성해달라고 하면
[30:17]
이런 결과를 얻을 수 있습니다.
[30:19]
이러한 비전 기능 덕분에
[30:21]
이미지와 비디오를 분석할 수 있어서
[30:24]
AI 에이전트로도 사용할 수 있습니다.
[30:26]
화면을 해석하고 다음 작업을 결정하는 거죠.
[30:30]
몇 가지 예시를 보여드리겠습니다.
[30:32]
여기서는 사용자가
[30:35]
Qwen 2.5 VL로 구동되는 AI 에이전트를 사용해서
[30:37]
충칭에서 베이징까지 가는
[30:40]
편도 티켓을 예매하고 있고
[30:42]
정확히 그대로 수행하고 있습니다.
[30:45]
AI 에이전트가 화면을 분석하면서
[30:47]
충칭에서 베이징으로 가는 편도 티켓을
[30:50]
정확하게 예매하고 있는 걸 볼 수 있습니다.
[30:53]
기기의 화면을 분석하고 있으며
[30:56]
다음에 무엇을 검색하고 어디를 클릭할지 결정하고 있습니다.
[30:58]
그리고 이 모델은 다양한 벤치마크에서
[31:00]
다른 주요 비전 모델들을 완전히 압도했습니다.
[31:03]
Qwen 2.5 VL은
[31:06]
가장 큰 버전인 720억 파라미터 모델이
[31:10]
모든 벤치마크 점수에서
[31:12]
GPT-4V와 Claude 3.5 Sonnet을
[31:15]
크게 앞서는 최고 점수를 기록했습니다.
[31:18]
이는 정말 놀라운 성과입니다.
[31:22]
일부가 아닌 모든 벤치마크에서
[31:24]
압도적인 성능을 보여주었다는 점이
[31:26]
정말 대단합니다.
[31:28]
더욱 좋은 점은
[31:30]
이 모델들이 이미 출시되었고
[31:33]
완전히 무료이며
[31:35]
오픈소스라는 것입니다.
[31:37]
지금 바로 다운로드해서 컴퓨터에서 오프라인으로 실행할 수 있습니다.
[31:40]
세 가지 비전 모델이 출시되었는데,
[31:42]
하나는 30억 파라미터,
[31:45]
다른 하나는 70억 파라미터,
[31:48]
마지막으로 가장 성능이 뛰어난 것이
[31:50]
720억 파라미터 모델입니다.
[31:53]
또한 허깅페이스 스페이스에서
[31:55]
온라인으로 무료로 시험해 볼 수 있습니다.
[31:57]
메인 발표 페이지 링크는
[32:00]
설명란에 올려두겠습니다.
[32:01]
Qwen 2.5 VL이 오픈소스이기 때문에
[32:06]
많은 사용자들이 이미
[32:08]
자신들의 특정 목적에 맞게
[32:10]
파인튜닝을 하고 있습니다.
[32:13]
이 프로젝트가 바로 그런 경우인데, Caracal이라고 하며
[32:16]
Qwen VL 7B를 기본 모델로 사용합니다.
[32:20]
이는 손글씨를 인식하는
[32:23]
무료 도구이며
[32:25]
특히 역사적 문서 분석에
[32:27]
탁월한 성능을 보입니다.
[32:30]
이 손글씨 이미지를 업로드하고
[32:34]
제출을 클릭해보겠습니다.
[32:36]
개체명 인식 기능도
[32:38]
곧 보여드리겠습니다.
[32:42]
정말 놀랍지 않나요?
[32:45]
이 손글씨 메모에서 텍스트를
[32:47]
정확하게 인식했습니다.
[32:50]
이제 개체명 인식
[32:52]
기능을 켜보겠습니다.
[32:54]
이 기능은 다양한 개체들을
[32:57]
라벨링할 수 있게 해줍니다.
[32:59]
기본값으로 사람, 조직, 위치, 날짜, 이벤트가 있는데
[33:02]
사람과 위치, 날짜만 라벨링하고 싶다면
[33:05]
조직과 이벤트를 제거하고
[33:07]
제출을 클릭해보겠습니다.
[33:10]
어떤 결과가 나오는지 보겠습니다.
[33:13]
정말 멋지지 않나요?
[33:15]
이 기능을 켜면
[33:18]
모든 개체들이 라벨링됩니다.
[33:20]
예를 들어, Pittsburgh를
[33:22]
위치로 인식했고, 여기는 날짜,
[33:25]
여기는 사람, 여기는 위치로 인식했습니다.
[33:28]
정말 유용한 기능이죠,
[33:30]
특히 손글씨나
[33:32]
역사적 문서를
[33:34]
분석할 때 좋습니다.
[33:36]
허깅페이스 스페이스 링크는
[33:38]
설명란에 올려두겠습니다.
[33:40]
Qwen에 대한 이야기가 끝난 줄 아셨나요?
[33:42]
이번 주에 또 다른 무료
[33:45]
오픈소스 모델을 출시했습니다.
[33:47]
바로 Qwen
[33:49]
2.5 1M인데, 이름에서 알 수 있듯이
[33:52]
100만 토큰이라는 거대한
[33:54]
컨텍스트 윈도우를 가지고 있습니다.
[33:57]
이는 한 번에 입력할 수 있는
[33:59]
정보의 양을 의미하는데
[34:02]
참고로 GPT-4나
[34:04]
곧 이야기할 O3-mini 또는
[34:06]
DeepSeek나 Claude 3.5 같은 최고의 모델들도
[34:09]
컨텍스트 윈도우가 200,000이나
[34:12]
128K 토큰에 불과한데
[34:16]
이 무료 오픈소스 모델이 1백만
[34:18]
토큰을 지원한다는 것은 정말 놀랍습니다.
[34:22]
70만 단어 이상 또는
[34:25]
3만 줄 이상의 코드를 처리할 수 있죠.
[34:29]
전체 코드베이스를 AI에 입력하거나
[34:30]
처리하고 싶을 때 특히 유용합니다.
[34:33]
또는 대량의 기술 문서를
[34:36]
한 번에 처리할 때도 좋죠. 이들은
[34:38]
두 가지 버전을 출시했는데, 하나는 140억
[34:41]
파라미터이고 다른 하나는 70억
[34:44]
파라미터입니다. 효율성이나 품질 중
[34:45]
어느 것을 중시하느냐에 따라 선택할 수 있죠.
[34:49]
두 모델 모두 듀얼 청크 어텐션이라는
[34:51]
기술을 사용해 긴 시퀀스를
[34:54]
효율적으로 처리합니다. 이
[34:56]
긴 문맥 이해도 벤치마크를
[34:59]
보시면 굵게 표시되거나
[35:01]
밑줄 친 값이 최고 성능을
[35:03]
나타내는데, 전반적으로
[35:05]
Qwen 모델이 가장 높은 점수를
[35:08]
기록했고 심지어 GPT-4와 O3-mini도
[35:12]
이겼습니다. 또 LLaMA 3.1도 앞섰는데,
[35:15]
알리바바의 Qwen이 이룬 놀라운
[35:18]
성과입니다. 더 놀라운 건
[35:20]
이 모델들을 무료로 오픈소스화한다는 겁니다.
[35:22]
허깅페이스에 가시면
[35:25]
모든 모델을 다운로드해서
[35:26]
오프라인으로 사용할 수 있습니다.
[35:28]
모든 링크는 상단에 있고
[35:30]
메인 페이지 링크는
[35:32]
아래 설명란에 남겨두겠습니다.
[35:34]
중국 모델 이야기가 끝났다고요?
[35:37]
아닙니다. 또 다른 중국 모델이
[35:38]
출시됐는데, 이것도 최고의
[35:41]
모델들을 능가합니다. 마침 이번 주가
[35:44]
중국 설이었는데, 아마도
[35:46]
그래서 그런지
[35:48]
이렇게 많은 놀라운 모델들을
[35:50]
최근에 출시하나 봅니다. 새해를
[35:52]
강하게 시작하려는 것 같네요. 이번에는
[35:55]
바이트댄스가 만든 건데, 이것도
[35:58]
전문가 혼합 아키텍처를 사용하고
[36:01]
멀티모달 기능을 갖추고 있어서
[36:03]
텍스트, 이미지, 오디오 입력이 가능합니다.
[36:06]
많은 벤치마크 점수에서
[36:08]
GPT-4나 Claude 3.5 같은 선두 모델들을
[36:11]
능가하는 성능을 보여줍니다. 아쉽게도
[36:15]
이건 오픈소스가 아니라서
[36:17]
그들의 볼케이노 엔진 플랫폼을
[36:19]
통해서만 접근할 수 있지만, 바이트댄스도
[36:21]
최첨단 모델을 보유하게 됐다는 점에서
[36:24]
의미가 있습니다. AI 발전 속도가
[36:27]
가속화되는 걸 느끼시나요?
[36:29]
아마도 이런 최첨단 중국
[36:31]
모델들의 압박 때문인지, 어제 OpenAI가
[36:34]
지금까지 최고의 모델을 공개했습니다.
[36:37]
O3-mini라고 부르는데, 이는
[36:39]
O3라는 더 뛰어난 모델의
[36:41]
축소 버전입니다. 하지만 그래도
[36:45]
매우 우수한 성능을 보입니다.
[36:46]
특히 수학, 코딩, 과학 분야에서
[36:49]
DeepSeek R1처럼 이것도
[36:52]
깊은 사고가 가능한 모델이라
[36:54]
문제 해결을 위한 추론과
[36:56]
사고 과정이 뛰어납니다.
[36:58]
좋은 소식은 무료 사용자도
[37:01]
지금 바로 O3-mini를 시험해볼 수 있다는 겁니다.
[37:04]
자, 이런 프롬프트를 입력해볼까요?
[37:06]
이 상황에서 어떤 일이 일어날까요?
[37:08]
9살 소년이 7일 동안 기침, 열, 그리고
[37:11]
울혈 증상이 있고 종아리에 심한 통증이 있으며
[37:13]
눈에 띄게 절뚝거리며 걷고 있습니다.
[37:15]
이제 이 추론 버튼을 켜면
[37:17]
기본적으로 O3 mini를 사용하여
[37:20]
응답을 분석하게 됩니다. 그럼
[37:22]
생성 버튼을 눌러 결과를 확인해보겠습니다.
[37:24]
솔직히 말씀드리면, DeepSeek와 비교했을 때
[37:27]
성능이 많이 부족합니다.
[37:29]
여기 전체 사고 과정을 보면
[37:32]
기침, 열, 종아리 통증이 있는 소년의 정보를 수집하고
[37:34]
양성 급성 소아 근염일 수 있는지
[37:37]
확인한 다음, 맞다고 판단하고
[37:39]
주요 포인트들을 나열했습니다.
[37:42]
하지만 같은 프롬프트를
[37:44]
DeepSeek와 비교해보면, DeepSeek가
[37:47]
훨씬 더 철저하게 분석하는 것을 볼 수 있습니다.
[37:49]
예를 들어, DeepSeek는
[37:51]
가능한 원인으로 바이러스 후 근염을 제시하고
[37:54]
그 이유를 설명합니다.
[37:56]
또 다른 가능성으로 근육 손상을 언급하며
[37:59]
근염이 심각할 경우 발생할 수 있다고 설명합니다.
[38:01]
가능성은 낮지만
[38:03]
다른 증상들도 고려해야 한다고 하고
[38:06]
여기에 잘 맞지 않을 수 있지만
[38:08]
고려할 만한 가치가 있는 것들도 포함시켰습니다.
[38:11]
또한 다른 징후들이 필요할 수 있는
[38:13]
국소적인 발적이나 부종 같은 증상들도 언급하고
[38:16]
라임병일 수도 있다는 가능성까지 제시합니다.
[38:19]
이처럼 모든 가능성을 검토하고
[38:22]
각각의 확률을 비교 분석한 후에
[38:24]
최종적으로 급성 바이러스성 근염이라고 결론을 내립니다.
[38:26]
반면에 O3의 응답은 매우 짧고
[38:29]
깊이 있는 분석이 부족해 보입니다.
[38:32]
진지하게 노력하지 않는 것 같은 인상을 줍니다.
[38:35]
하지만 무료 사용자도
[38:37]
이제 이 추론 버튼을 켜서
[38:40]
O3 mini를 사용할 수 있다는 점을 기억하세요.
[38:43]
실제로 그들이 출시한
[38:46]
O3 mini 모델은 세 가지 버전이 있는데
[38:48]
high 버전이 가장 성능이 좋습니다.
[38:51]
경쟁적 수학 분야에서
[38:53]
O3 mini는 O1보다도 더 나은 성능을 보입니다.
[38:55]
PhD 수준의 질문에서도 마찬가지로
[39:00]
O3 Mini high 모델이 가장 높은 점수를 받았습니다.
[39:03]
경쟁적 코딩과 소프트웨어 엔지니어링에서도
[39:06]
우수한 성능을 보여주었습니다.
[39:08]
무료 사용자는 O3 mini를 제한적으로만
[39:10]
사용할 수 있으며, 이것이 low 버전인지
[39:14]
medium 버전인지는 명시되지 않았습니다.
[39:16]
유료 사용자는
[39:17]
모델 선택기에서 O3 mini high를
[39:20]
선택할 수 있는 옵션이 제공됩니다.
[39:22]
이것이 가장 성능이 좋은 모델이며
[39:24]
월 200달러를 지불하는 Pro 사용자는
[39:27]
O3 mini와 O3 mini high 모두
[39:29]
무제한으로 사용할 수 있습니다.
[39:32]
O3 mini는 이전 버전인 O1 mini보다
[39:35]
성능이 더 뛰어날 뿐만 아니라
[39:38]
API 사용 비용도 훨씬 저렴하고
[39:40]
응답 속도도 더 빠릅니다.
[39:43]
O1 mini보다 24% 더 빠르다고 주장합니다.
[39:46]
아쉽게도 이 보고서에서는
[39:49]
O3 mini와 O1만 비교했는데
[39:51]
DeepSeek R1과의 비교 결과도
[39:54]
보고 싶습니다.
[39:56]
흥미롭게도 독립 평가기관인 Artificial Analysis의
[39:59]
리더보드를 보면
[40:01]
품질 지수 순위에서
[40:03]
O3 mini가 DeepSeek R1과 동점이고
[40:06]
O1보다는 1점 뒤쳐져 있습니다.
[40:08]
실제로 DeepSeek R1과 비슷한 수준이며
[40:11]
O1보다는 약간 뒤처져 있는 상황입니다.
[40:15]
이 모델이 훨씬 저렴하다는 점을 주목하세요.
[40:17]
어제 막 출시되었는데
[40:19]
이 모델에 대해 자세한 분석을 할 예정입니다.
[40:22]
인상적인 기능들을
[40:24]
보여드릴 테니 기대해 주세요.
[40:26]
다음으로 구글이 새로운 기능을
[40:28]
'데일리 리슨'이라는 서비스를 점진적으로 출시하고 있습니다.
[40:31]
관심 있는 주제에 대해 매일 업데이트를 제공하는
[40:34]
짧은 일일 팟캐스트입니다.
[40:37]
매일
[40:38]
안녕하세요, 데일리 리슨에 오신 것을 환영합니다.
[40:41]
구글의 새로운 실험적 오디오 쇼입니다.
[40:44]
저희는 AI로 구동되는 진행자이며
[40:47]
매일 빠른 업데이트를 제공하고
[40:48]
여러분을 위해 독점적으로 제작됩니다.
[40:51]
개인의 관심사에 맞춰 제작되어
[40:53]
여러분이 팔로우하는 주제와
[40:55]
자주 검색하는 내용을 다루므로
[40:57]
수고롭게 찾아볼 필요 없이
[40:59]
현재 시범 서비스가 진행 중이며
[41:01]
아직 모든 사용자가 이용할 수는 없습니다.
[41:03]
하지만 대기자 명단에 등록하실 수 있고
[41:05]
여러분만의 쇼가 준비되면
[41:06]
알려드리도록 하겠습니다.
[41:08]
이건 정말 흥미로운 아이디어라고 생각합니다.
[41:10]
이 기술이 결국에는 뉴스나
[41:13]
팟캐스트를 대체할 수도 있을 것 같습니다.
[41:16]
가까운 미래에는
[41:18]
우리가 보고 싶은 콘텐츠를
[41:20]
AI가 매일 큐레이션하고 생성할 것입니다.
[41:23]
현재는 일부 사용자에게만 제공되며
[41:26]
점진적으로 출시되고 있어서
[41:28]
아직 모든 사람이 이용할 수는 없습니다.
[41:31]
저도 아직 다운로드 옵션을 볼 수 없지만
[41:33]
이 페이지 링크를
[41:35]
아래 설명란에 넣어두겠습니다.
[41:37]
여러분이 접근 권한이 있는지 확인해보세요.
[41:39]
마지막으로 이번 주에
[41:41]
또 다른 오픈소스 모델이 출시되었는데
[41:44]
GPT 4.0과 DeepSeek 버전 3만큼 우수합니다.
[41:47]
이번에는 미국 기업인
[41:50]
Allen Institute for AI에서
[41:53]
Tulu 3라는 모델을
[41:55]
출시했습니다. 이는 진정한 오픈소스로
[41:59]
모델 가중치뿐만 아니라
[42:00]
학습 데이터와 코드도 함께 공개했습니다.
[42:03]
여기 다른 최신
[42:06]
비사고형 모델들과
[42:08]
DeepSeek V3, GPT 4.0와의 성능 비교가 있습니다.
[42:11]
SFT, DPO, RLvR이 무엇을 의미하는지
[42:14]
곧 설명해드리겠습니다.
[42:17]
굵은 글씨는 해당 벤치마크에서
[42:19]
가장 높은 점수를 나타냅니다.
[42:22]
다른 모델들과 비교했을 때
[42:24]
특별히 뛰어난 성능을 보이지는 않았고
[42:27]
일부 벤치마크에서만
[42:30]
최고 점수를 받았지만
[42:31]
그래도 인상적입니다. Meta의 Llama 2 40B 기본 모델을
[42:35]
기반으로 했으며
[42:37]
학습 방식이 DeepSeek가
[42:39]
R1 모델을 학습한 방식과 매우 유사합니다.
[42:42]
간단히 설명하자면
[42:44]
팀이 먼저 데이터셋을 신중하게 선별하고
[42:46]
문제 해결과 같은 핵심 기술에 집중했습니다.
[42:49]
이후 모델은 이 큐레이션된
[42:51]
데이터셋으로 학습되었고
[42:54]
특정 프롬프트와 그에 대한
[42:56]
답변을 학습했습니다. 이 과정을
[42:58]
지도 학습 미세조정이라고 하며
[43:01]
위에서 본 SFT입니다.
[43:03]
그 다음 직접 선호도
[43:05]
최적화라는 기술을 사용해
[43:08]
사람들이 선호할 만한
[43:10]
응답을 생성하도록 학습했습니다.
[43:12]
이는 응답의 품질을 향상시킬 것이며
[43:15]
여기서 말하는 DPO가 바로 이것을 의미합니다
[43:17]
마지막으로 그들은
[43:19]
검증 가능한 보상을 통한 강화학습이라는
[43:21]
방법을 사용했는데, 이 접근법에서는
[43:24]
수학 문제와 같이 명확한 해답이 있는
[43:26]
문제에 정확한 답변을 제공할 때
[43:29]
모델에 보상을 주는 방식입니다
[43:31]
이는 딥시크가 R1 모델을 훈련시킨 방식과
[43:34]
매우 유사합니다
[43:36]
그들도 강화학습을 사용했으며
[43:38]
이는 특히 수학과 코딩 능력 향상에
[43:41]
효과적입니다. 어쨌든 여기서 말하는
[43:43]
RLVR이 바로 이것을 의미하는데
[43:46]
검증 가능한 보상을 통한
[43:48]
강화학습입니다
[43:50]
제가 말씀드린 대로 이것은 완전히 무료이며 오픈소스로
[43:52]
모든 모델이 이미 허깅페이스에
[43:54]
공개되어 있어 다운로드하고 로컬에서 실행할 수 있습니다
[43:57]
이것으로 이번 주 AI의 모든
[43:59]
하이라이트를 마무리하겠습니다
[44:01]
여러분도 이 발전 속도를 체감하시나요?
[44:03]
특히 지난 2주가 정말
[44:06]
믿을 수 없을 정도로 대단했다고 생각합니다
[44:09]
댓글로 여러분의 생각을 알려주세요
[44:10]
어떤 도구나 모델이 가장 기대되시나요?
[44:13]
저는 앞으로도 계속해서 최신 AI 뉴스와
[44:15]
도구들을 여러분과 공유하도록 하겠습니다
[44:18]
이 영상이 도움이 되셨다면
[44:20]
좋아요, 공유, 구독 부탁드립니다
[44:22]
다음 콘텐츠도 기대해 주세요
[44:25]
매주 AI 분야에서
[44:27]
너무나 많은 일이 일어나고 있어서
[44:29]
유튜브 채널에서 모든 것을 다루기는 어렵습니다
[44:31]
그래서 AI의 모든 최신 소식을
[44:34]
놓치지 않고 따라가시려면
[44:36]
제 무료 주간 뉴스레터를 구독해 주세요
[44:39]
링크는 영상 설명란에
[44:40]
있습니다. 시청해 주셔서 감사합니다
[44:42]
다음 영상에서 만나뵙겠습니다