[00:00]
지난 주에 정말 많은 뉴스가 있었습니다.
[00:02]
모든 내용을 살펴보겠습니다. 먼저 Mistral에서
[00:04]
첫 번째 추론 모델을 출시했고
[00:07]
그 중 작은 버전을 오픈소스로 공개했습니다.
[00:09]
그런데 여기서 중요한 건,
[00:11]
제가 지금까지 사용해본 추론 모델 중
[00:14]
단연코 가장 빠른 모델입니다.
[00:16]
Gemini 2.5 Pro가 빠르다고 생각했는데, 이건 그것을 완전히 압도합니다.
[00:19]
자, 알아두셔야 할 것은
[00:21]
이 모델을 두 가지 버전으로 출시한다는 것입니다.
[00:22]
Magistral Small은 240억 매개변수의 오픈소스 버전입니다.
[00:24]
Magistral Medium은 더 강력한 엔터프라이즈 버전입니다.
[00:26]
이는 지금 당장
[00:28]
여러분의 컴퓨터에 다운로드해서 실행할 수 있습니다.
[00:30]
240억 매개변수는 상대적으로 작은 크기이고,
[00:32]
더 작은 크기로 양자화되면
[00:34]
대부분의 일반 컴퓨터에서도 실행할 수 있을 것입니다.
[00:37]
더 작은 크기로 양자화되면
[00:39]
대부분의 소비자용 컴퓨터에서 실행할 수 있을 것입니다.
[00:41]
Magistral Medium은 AMI 2024에서 73.6%를 기록했고
[00:43]
64번 시도에서 다수결 투표로 90%를 달성했습니다.
[00:48]
Magistral Small은 70%를 기록해
[00:51]
Magistral Medium과 거의 비슷했고, 각각 83%를 달성했습니다.
[00:55]
Magistral의 사고 과정은
[00:58]
전 세계 언어와 문자에서 작동하며
[01:00]
대부분의 경쟁 모델보다
[01:02]
10배 빠른 속도로 실행됩니다.
[01:05]
얼마나 빠른지 보여드리기 위해
[01:08]
왼쪽은 Magistral이고
[01:09]
오른쪽은 OpenAI의 모델 중 하나입니다.
[01:12]
정확히 어떤 모델인지는 명확하지 않지만
[01:13]
얼마나 빠른지 보세요.
[01:16]
[01:20]
보세요. 출력 속도를 보세요.
[01:22]
게다가 사고 과정에서 더 많은 세부사항을 얻을 수 있습니다.
[01:24]
5.3초 동안 생각했고
[01:26]
OpenAI 모델은 17초 동안 생각했고
[01:28]
아직도 최종 답변을 출력하고 있습니다.
[01:30]
한번 시도해보세요.
[01:32]
다운로드하거나 Mistral Le Chat 앱에서 사용하세요.
[01:34]
무료입니다. 여러분 생각을 알려주세요.
[01:37]
다음으로, 11 Labs에서
[01:39]
텍스트 음성 변환 모델의 V3 알파를 출시했습니다.
[01:42]
이는 11 Labs 역사상 가장 표현력이 풍부하고
[01:44]
감정적인 음성 모델입니다.
[01:47]
들어보세요. '안녕 제시카,
[01:49]
새로운 11 V3 시도해봤어? 방금 받았는데
[01:53]
선명도가 놀라워. 이제 속삭임도 할 수 있어.
[01:55]
이렇게 말이야. 오, 멋지네.
[01:59]
이것 좀 봐.
[02:00]
이제 완전한 셰익스피어도 할 수 있어.
[02:03]
'사느냐 죽느냐, 그것이 문제로다.' 좋네.
[02:06]
하지만 나는 웃음 업그레이드가 더 기대돼.
[02:08]
이것 들어봐.'
[02:12]
좋아요, 그 엄청나게 소름끼치는 웃음을 제외하고는
[02:14]
다른 모든 것이 정말 좋게 들렸습니다.
[02:17]
이런 음성 모델들이 믿을 수 없을 정도로 현실적이 되고 있어요.
[02:19]
거의 너무 인간 같습니다.
[02:21]
실제로 OpenAI는 방금
[02:23]
음성 모드 업그레이드를 출시했는데
[02:25]
정말 너무 인간 같게 들립니다.
[02:27]
음, 더듬거림, 실수가 너무 많아서
[02:29]
사실 조금 더 AI 같게 들리는 것을 선호하겠지만
[02:32]
이 비디오 후반에 그에 대해 이야기하겠습니다.
[02:34]
그래서 이제
[02:36]
음성과 대화가 어떻게 들리는지에 대해
[02:37]
훨씬 더 많은 제어권을 갖게 되었습니다.
[02:39]
흥미롭게, 끼어들기는
[02:42]
방해한다는 뜻이고, 놀라움, 겹침,
[02:44]
조심스럽게 등이 있습니다.
[02:47]
이런 작은 태그들을 추가할 수 있어서 정말 멋져요.
[02:50]
확인해보세요.
[02:52]
11 Labs의 새로운 V3 알파입니다.
[02:55]
다시 음성에 대해 말하자면, OpenAI가
[02:58]
새로운 음성 모드를 출시했고
[03:00]
제가 테스트해본 결과 정말 좋습니다.
[03:03]
무섭도록 현실적입니다. 예시를 들어보겠습니다.
[03:05]
어떤 소리인지 예시를 들어보겠습니다.
[03:08]
반도체 산업에 대해 알려주세요.
[03:09]
반도체 산업은 기본적으로 현대
[03:11]
전자제품의 근간입니다. 이 산업은
[03:12]
반도체 장치의 설계와 제조를 포함하며
[03:15]
스마트폰부터 자동차, 산업용 기계까지
[03:17]
모든 것에 필수적인 구성 요소입니다.
[03:19]
음, 이 산업은 지속적인 혁신과
[03:21]
경쟁으로 매우 역동적이며
[03:24]
미국, 한국, 대만, 유럽의 주요 업체들과 함께
[03:26]
정말 글로벌한 산업입니다.
[03:28]
좋습니다. 정말 놀라울 정도로 좋네요.
[03:30]
들으셨는지 모르겠지만
[03:32]
몇 번의 '음'이 있었어요.
[03:33]
현실적으로 들리는 특정한 멈춤이 있었죠.
[03:35]
그녀가 목록을 나열할 때도
[03:37]
목록 소리가... 제 말은, 지금 제가
[03:39]
어떻게 말하고 있는지 생각해보니
[03:42]
그 소리가 제가 말하는 방식과 너무 비슷했어요.
[03:44]
현실적으로 들린다고 생각해주셔서 기쁩니다.
[03:45]
그런 피드백을 듣는 것은 항상 흥미롭죠.
[03:48]
제가 말하는 방식을 조정하거나
[03:49]
선호하는 특정 스타일이 있다면 알려주세요.
[03:51]
좋아요. 좋아요. 조용히 해주세요.
[03:52]
네. 그녀는 여전히 듣고 있었지만
[03:54]
어, 네, 정말 정말 좋네요.
[03:56]
그리고 저는 운전할 때
[03:58]
그냥 그녀와 대화를 시작해서
[04:01]
여러 가지를 가르쳐 달라고 하는 습관이 생겼어요.
[04:03]
여러분도 그렇게 하시는지 알려주세요.
[04:05]
좋습니다. 다음으로 넘어가죠.
[04:06]
이것은 일주일도 안 되어 나왔지만
[04:08]
이미 오래된 뉴스처럼 보입니다.
[04:10]
Gemini 2.5 Pro에 완전히 새로운 버전이 나왔습니다.
[04:13]
이 버전은 다양한 벤치마크에서
[04:16]
훨씬 더 뛰어난 성능을 보여줍니다.
[04:19]
확실히 지금까지 최고의 Gemini 2.5 Pro
[04:22]
모델입니다. Alam Marina에서 24포인트 ELO 상승으로
[04:25]
1470점으로 1위를 유지하고 있고
[04:27]
WebDev Arena에서는 35포인트 ELO 상승으로 1443점으로 선두를 달리고 있습니다.
[04:31]
코딩 분야에서 계속 뛰어난 성능을 보이며
[04:34]
Ader Polyglot과 같은 어려운 코딩 벤치마크에서
[04:36]
선두를 유지하고 있습니다.
[04:38]
아직까지도 Gemini 2.5 Pro는
[04:41]
제가 가장 좋아하는 코딩 모델입니다.
[04:44]
적어도 직접 접근해서
[04:46]
루빅 큐브 테스트 같은 것들을
[04:48]
해결해 달라고 요청할 때 말이죠.
[04:50]
새로운 모델을 확인해보세요.
[04:52]
Google의 AI Studio에서 무료로 사용할 수 있습니다.
[04:54]
다음으로, 또 다른 Google 업데이트입니다.
[04:58]
Google의 매우 인기 있는 텍스트-투-비디오 AI 모델인 Veo에
[05:02]
새로운 빠른 버전이 나왔습니다.
[05:04]
이 새로운 fast 옵션은 V3 가격의 1/5이며
[05:08]
속도도 훨씬 빠릅니다.
[05:10]
이름 그대로 말이죠. 저는 Veo 비디오로
[05:13]
놀기를 좋아해서 분명히
[05:15]
이것도 시도해볼 예정입니다.
[05:17]
그리고 이 영상의 스폰서인
[05:19]
Outskill에 감사드립니다.
[05:22]
Outskill은 전문가, 창업자, 그리고
[05:25]
임원들을 위한 2일간의 라이브 AI 교육
[05:27]
프로그램입니다. 이 2일간의 라이브
[05:28]
프로그램을 통해 여러분은
[05:31]
생성형 AI 기초, 자동화, AI 에이전트 구축,
[05:34]
이미지 및 비디오 생성, 완전한
[05:36]
웹사이트 생성 등을 포함한
[05:39]
AI 기술을 마스터하게 됩니다.
[05:41]
2일간의 교육은 토요일과 일요일
[05:43]
동부 시간 오전 11시부터 오후 7시까지 진행됩니다.
[05:45]
그리고 금요일 오전 10시에 초기 킥오프가 있습니다.
[05:49]
2일, 16시간, 5세션. 정말 많은 것을 배우게 될 것입니다.
[05:53]
지난 6개월 동안 이미 5만 명의
[05:54]
전문가들이 이 세션에 참여했습니다.
[05:56]
그리고 그들은 컨설팅 일자리를 얻었고,
[05:58]
AI 제품을 만들거나 기존 직무에서
[06:01]
자신의 실력을 향상시켰습니다. 그들은
[06:03]
또한 멘토와의 라이브 Q&A 세션도
[06:05]
제공해서 궁금한 점을 질문하고
[06:07]
혹시 있을 의문점을 해결할 수 있고
[06:08]
헷갈릴 수 있는 주제들을
[06:10]
명확히 할 수 있습니다. 그러니 Outskll을
[06:12]
확인해보세요. 아래 링크를 달아두겠습니다.
[06:14]
처음 가입하는 1,000명에게는 무료입니다.
[06:16]
다시 한번 Outskll에 감사드립니다.
[06:18]
이제 영상으로 돌아가겠습니다. 좋습니다.
[06:20]
그리고 이번 주 대형 뉴스는 Meta가
[06:24]
Scale AI에 대규모 투자를 했고
[06:27]
AI 팀을 대폭 개편하고 있다는 것입니다.
[06:30]
Meta가 Scale AI CEO 알렉스 왕이 이끄는
[06:34]
새로운 AI 연구소를 설립한다는 보도가 나왔고
[06:36]
네, 이 보도는 정확한 것 같습니다.
[06:39]
저커버그는 Meta가 AI 경쟁에서
[06:42]
뒤처지고 있다고 느껴서 Scale AI에
[06:46]
140억 달러를 투자하여 회사의 49%를 확보했고
[06:50]
CEO를 영입했습니다. 그 CEO는
[06:52]
더 이상 Scale AI의 CEO가 아닙니다.
[06:55]
그는 이제 새로 설립된
[06:57]
초지능 팀을 이끌고 있으며
[07:00]
이 팀은 저커버그가 직접
[07:03]
선발하고 있다고 합니다. 저커버그는
[07:06]
업계 최고의 AI 인재 50명을 찾아
[07:09]
초지능을 구축하려고 합니다. 아마도
[07:13]
얀 르쿤이 저커버그의 기대에
[07:16]
부응하지 못하고 있는 것 같습니다.
[07:18]
49% 지분 확보가 이상하게 들리시나요?
[07:20]
왜 회사 전체를 인수하지 않았을까요?
[07:22]
음, 아마도 실제 인수를 위한
[07:25]
규제 허들을 피하고 싶었던 것 같습니다.
[07:28]
그래서 이렇게 우회적으로
[07:30]
소수 지분이지만 소수 지분 중에서는 다수인
[07:33]
49%를 확보하는 방식이 그런 규제를
[07:35]
우회하는 방법인 것 같습니다. 구글도
[07:37]
그렇게 했고, 마이크로소프트도 OpenAI와
[07:39]
그런 식으로 했습니다. 이게 회사 인수의
[07:41]
트렌드인 것 같습니다. Scale AI가
[07:44]
무엇인지 잘 모르신다면, 그들은
[07:46]
기본적으로 AI 회사들을 위한
[07:49]
데이터 라벨링과 주석 작업을 위한
[07:51]
전체 엔진을 구축했습니다. 정말 강력하고
[07:54]
좋은, 고품질의 풍부한 데이터입니다.
[07:57]
그리고 이제 Meta가 그 모든 것을 얻었습니다.
[08:00]
그리고 네, 저커버그는 AI 업계의
[08:03]
최고 인재들을 확보하기 위해 전력을 다하고 있습니다.
[08:05]
이건 DD에 따른 것이고 전혀 검증되지 않았지만
[08:06]
사실인 것 같습니다. 초지능 팀을 위한
[08:08]
Meta의 제안은 정말 미친 수준입니다.
[08:11]
저커버그가 직접 나서서 연간 1천만 달러
[08:13]
이상을 현금으로 제안하고 있습니다.
[08:14]
이런 건 본 적이 없습니다.
[08:16]
그래서 모든 주요 AI 회사들이
[08:19]
같은 한정된 인재풀을 두고 경쟁하고 있고
[08:22]
이는 완전히 치열한 경쟁입니다.
[08:25]
다음으로 Arc 브라우저를 만드는
[08:27]
회사에서 이제 DIA 브라우저라는
[08:29]
AI 네이티브 브라우저를 출시했습니다.
[08:32]
이는 자체 브라우저 코메트를 곧 출시할
[08:34]
Perplexity보다 한발 앞선 것입니다.
[08:37]
이 브라우저는 탭과 '채팅'할 수 있다는
[08:39]
점을 강조하고 있습니다. 기본적으로
[08:41]
여러 탭을 열어두고 AI를 사용해서
[08:43]
그 탭들을 가로질러 채팅할 수 있습니다.
[08:46]
개인적으로는 그게 뭐가 그렇게
[08:47]
특별한지 모르겠지만, 아직 써보지 않았으니
[08:49]
일단 의심의 여지를 두고
[08:51]
테스트해보고 싶습니다.
[08:53]
알려드리겠습니다. 여기 예시가 있습니다.
[08:55]
인라인 복사 편집기입니다. 일부분을 하이라이트하면
[08:58]
Gmail 이메일의 일부를 하이라이트하고
[09:01]
더 자신감 있게 들리도록 만들어달라고 하면 짜잔.
[09:03]
Gmail에서 이미 이런 기능을 제공합니다.
[09:04]
그래서 뭐가 그렇게 특별한지 모르겠어요.
[09:06]
여기서 내가 바보처럼 들리지 않게 해달라고 하면
[09:08]
오타나 문법 오류를 체크해줍니다.
[09:10]
다시 말하지만, 이런 기능들은 모두 Google Docs에 기본으로 내장되어 있어요.
[09:14]
여기 노션처럼 보이는 것이 있네요.
[09:16]
슬랙용 요약 기능입니다.
[09:19]
음, 요약 기능이군요.
[09:21]
다시 말하지만, 노션에서 이미 다 되는 기능이에요.
[09:22]
그래서 이런 모든 것들이 이미 기본 도구들에서 제공되고 있는데
[09:24]
하지만 한 곳에서 모든 걸 할 수 있다는 점이 좋을 수도 있겠네요.
[09:26]
아직은 잘 모르겠어요.
[09:28]
시도해보고 싶으시면 대기자 명단에 등록해보세요.
[09:30]
다음으로, Artificial Analysis에 따르면 Flux One
[09:32]
Context Max 모델이 세계 최고의
[09:36]
텍스트-이미지 모델 중 하나라고 합니다.
[09:38]
뿐만 아니라 오픈소스이기도 하죠.
[09:40]
인상적인 이미지 편집 모델일 뿐만 아니라
[09:42]
최고의 텍스트-이미지 모델 중 하나이기도 합니다
[09:43]
Google의 Imagen 4와 경쟁할 정도로
[09:45]
Artificial Analysis 이미지 아레나에서 말이죠.
[09:48]
이건 Black Forest Labs에서 개발한 것으로
[09:50]
약 일주일 전에 출시되었습니다.
[09:52]
Max와 Pro 버전은 오픈 웨이트가 아니니까
[09:55]
이 점 참고하세요.
[09:57]
이들은 API나 다른 파트너 제공업체를 통해서만
[10:00]
이용할 수 있습니다.
[10:02]
Black Forest Labs는 또한 Flux One Context Dev를 개발하고 있는데
[10:04]
120억 매개변수 확산 이미지
[10:06]
편집 모델로 곧 오픈 웨이트로
[10:07]
만들 계획이라고 합니다.
[10:09]
현재는 비공개 베타 출시 상태입니다.
[10:13]
OpenAI GPT-4o가 여전히 1위를 차지하고 있고요
[10:15]
그 다음에 Midjourney, Recraft V3, Imagen 4 Ultra와
[10:18]
Preview가 있습니다.
[10:21]
그리고 Flux One Context Max가 그 뒤를 따르고 있죠.
[10:24]
정말 근소한 차이로, 아주 좋은 모델입니다.
[10:26]
이 새로운 모델의 예시 이미지들을 보시죠.
[10:29]
남극 연구 기지가 떠 있는 모습입니다.
[10:32]
여기가 Flux One Context Max, Flux 1.1 Pro Ultra입니다.
[10:35]
여기는 GPT-4o와 Midjourney 3.0이고요.
[10:38]
모두 정말 훌륭합니다.
[10:41]
이건 좀 더 일러스트 같지만
[10:42]
네, 모두 정말 좋네요.
[10:44]
다른 예시도 보시죠.
[10:46]
애니메이션 군중들로 북적이는 도쿄의 네온사인 골목이
[10:49]
비 오는 하늘 아래 애니메이션 스타일로 그려진 모습입니다.
[10:51]
이게 Flux One Context Max이고, Flux 1.1 Pro Ultra, GPT-4o, Midjourney입니다.
[10:55]
다시 말하지만 네 개 모두 정말 좋아 보입니다.
[10:58]
이 중에서는 이게 아마 제일 좋은 것 같아요
[11:00]
가장 디테일이 많거든요.
[11:01]
Flux 1.1 Pro지만, 모두 다시 한번 말하지만
[11:04]
정말, 정말 좋습니다.
[11:05]
또 다른 예시입니다.
[11:07]
젊은 만화 해적 모험가가
[11:09]
망망대해에서 항해를 시작하는 모습이에요.
[11:12]
Flux One Context Max로 만든 이 이미지는 아주 좋지만
[11:14]
눈 위의 안대가 좀 이상하게 그려졌네요.
[11:17]
여기는 1.1 Pro Ultra인데 아주 좋습니다.
[11:19]
여기서 보이는 유일한 실수는 물이
[11:21]
배에서 나오는 것처럼 보인다는 거예요.
[11:23]
여기는 GPT-4o입니다. 해적의 다리가
[11:26]
배와 겹쳐 보이네요.
[11:28]
그리고 Midjourney 3.0입니다.
[11:31]
이건 별다른 실수가 안 보이네요.
[11:33]
오늘의 뉴스는 여기까지입니다.
[11:34]
이 영상이 도움이 되셨다면
[11:36]
좋아요와 구독을 눌러주시고, 다음 영상에서 만나요