[00:00]
[음악]
[00:03]
[박수]
[00:04]
안녕하세요, 또 다른 영상에 오신 것을 환영합니다.
[00:08]
Minimax에서 새로운 모델을 출시했는데
[00:11]
많은 분들이 댓글로
[00:14]
테스트해달라고 요청하셔서
[00:16]
이에 대해 얘기해보고자 합니다.
[00:19]
이번에 출시한 새로운 모델은
[00:22]
Minimax M2라고 불리며,
[00:25]
이전 버전인
[00:27]
Minimax M1의 업그레이드 버전입니다.
[00:30]
가중치는 Hugging Face에서도
[00:32]
이용할 수 있습니다. 이전 모델도
[00:35]
오픈소스였기 때문에 이번 모델도
[00:37]
오픈소스일 것으로 예상됩니다. 그렇다면 정말 좋겠네요.
[00:42]
어쨌든, 현재 이 모델은
[00:44]
Artificial Analysis에서 벤치마크되었고
[00:47]
OpenRouter와 그들의 API 플랫폼에서
[00:49]
무료로 사용할 수 있습니다. 따라서
[00:53]
킬로 클로드 코드 같은 도구들과 함께
[00:55]
무료로 사용할 수 있습니다. 자체 API는
[01:00]
OpenRouter보다 더 나은 속도 제한을
[01:02]
제공할 수도 있습니다. 직접 시도해보지는 않았지만
[01:05]
확인해보실 수 있습니다. 거의 모든 종류의
[01:08]
코더들과 그런 도구들에서
[01:10]
원하는 만큼 사용할 수 있습니다.
[01:13]
그들은 Minimax M2가 컴팩트하고
[01:17]
고효율의 대형 언어 모델이며
[01:20]
엔드투엔드 코딩과 에이전틱 워크플로우에
[01:23]
최적화되어 있다고 말합니다.
[01:25]
100억 개의 활성화된 파라미터와
[01:28]
총 2,300억 개의 파라미터를 가지고 있으며
[01:31]
일반 추론, 도구 사용, 그리고 다단계 작업
[01:34]
실행에서 최고 수준의 지능을 제공하면서도
[01:38]
낮은 지연시간과
[01:41]
배포 효율성을 유지합니다.
[01:44]
이것은 꽤 작은 모델입니다.
[01:47]
약 100억 개의 활성화된 파라미터를 가진
[01:50]
2,300억 개의 파라미터만을 가지고 있습니다.
[01:54]
이는 GLM 김미보다도 작은 모델이며
[01:57]
다른 모델들보다 작으면서도
[02:00]
GLM 4.5 air보다 1,100억 개 파라미터가 작습니다.
[02:03]
따라서 이것은 꽤 좋은 크기이며
[02:06]
AI 애호가라면 로컬 클러스터에서
[02:09]
배포할 수 있습니다.
[02:11]
Artificial Analysis의
[02:13]
벤치마크를 살펴보면, 그런데
[02:15]
저는 이런 벤치마크들이 속도나
[02:18]
제공자 편차 벤치마크를 제외하고는
[02:20]
전혀 유용하지 않다고 생각합니다.
[02:22]
왜냐하면 주로 이미 매우
[02:24]
포화된 공개 벤치마크를 사용하고
[02:26]
많은 모델들이 그것들을 그대로 학습에 사용하기 때문입니다.
[02:29]
하지만 살펴보면
[02:32]
Minimax M2는 Claude 4.5 Sonnet보다
[02:35]
약간 낮은 점수를 받았습니다.
[02:39]
속도도 꽤 괜찮고
[02:41]
가격은 단지 0.5달러와
[02:44]
백만 토큰당 2.2달러로 나쁘지 않습니다.
[02:48]
컨텍스트 윈도우는 약 205,000 토큰입니다.
[02:51]
이전 모델은 약 100만 토큰이었는데
[02:55]
이번 모델은 그렇지 않습니다. 이는
[02:58]
흥미로운 선택이며
[03:00]
왜 이전 설정에서 후퇴했는지
[03:02]
궁금하게 만듭니다. 코딩 인덱스에서는
[03:05]
Sonnet보다 2포인트 낮게 나왔습니다.
[03:08]
이런 벤치마크가 어떻게 작동하는지 모르겠지만
[03:11]
Grog 4 fast는 좋은 코딩 모델이 아닙니다.
[03:14]
제가 확실히 말씀드릴 수 있습니다.
[03:17]
그런데도 더 높은 점수를 받았네요.
[03:21]
또한, 이것은 추론 모델이고
[03:24]
항상 추론을 수행합니다. 그래서
[03:28]
도구 호출에도 꽤 뛰어납니다.
[03:31]
어쨌든, 순수한 기존 벤치마크에 대해서는
[03:34]
이 정도입니다.
[03:36]
이제 저는 당연히 제 자체
[03:39]
벤치마크로 테스트해봤는데, 평면도
[03:41]
질문에서 평면도를 만들기는 하지만
[03:44]
전혀 말이 되지 않습니다. 별로
[03:47]
좋지만 동작은 합니다. 그래서 그에 맞게 점수를 매겼어요.
[03:50]
그다음 햄버거를 들고 있는 판다는 꽤 괜찮습니다.
[03:53]
제미니 3의 체크포인트만큼은 아니지만
[03:56]
오픈 모델 중에서는 최고 수준 중 하나죠.
[04:00]
정말 멋진 성과입니다.
[04:02]
그다음 3JS로 만든 포켓볼인데
[04:06]
별로 좋지 않습니다. 포켓볼보다는
[04:09]
프리미어볼에 더 가까워 보이네요.
[04:12]
그래서 별로 좋지 않습니다.
[04:14]
체스판도 올바르게 배치되긴 했지만
[04:17]
작동하지는 않습니다.
[04:20]
이 모델은 GPT5 출력으로
[04:22]
많이 훈련된 것 같아요. 이런 종류의
[04:25]
UI는 일반적으로 GPT5와 매우 비슷하거든요.
[04:30]
그래서 분명히 그걸로 훈련했을 겁니다.
[04:33]
마인크래프트 게임도 작동하지 않습니다.
[04:36]
정원에서 날아다니는 나비는
[04:38]
그럭저럭 괜찮습니다. 저에게는
[04:40]
벌레처럼 보이지만 여전히 작동합니다.
[04:44]
그래서 이것도 괜찮습니다. 러스트의 CLI 도구와
[04:48]
블렌더 스크립트도 괜찮지만
[04:51]
훌륭하지는 않습니다. 수학 문제에서는
[04:54]
하나를 통과했고 수수께끼 문제도
[04:57]
통과했습니다.
[04:59]
이로써 제 리더보드에서
[05:01]
12위에 올랐는데, 클로드
[05:04]
소네트, GLM, 딥시크 터미누스보다는 낮지만
[05:07]
나쁘지 않습니다.
[05:10]
GLM과 롱캣과 함께 상위 15위 안에서
[05:13]
이렇게 좋은 성능을 보이는
[05:16]
유일한 모델들입니다. 또한
[05:19]
GLM이나 딥시크에 비해
[05:21]
엄청나게 작은 모델이라는 점도 고려해야 합니다.
[05:25]
정말 대단한 성과입니다. 이제
[05:29]
에이전트 테스트를 보면
[05:31]
더욱 놀라워집니다. 이건 진정한
[05:34]
에이전트 모델입니다. 저는 킬로로
[05:37]
모든 에이전트 테스트를 했어요. 거기서
[05:40]
미니맥스 m2 API나
[05:42]
오픈 라우터를 통해서도 쉽게 설정할 수 있습니다.
[05:47]
저는 오픈 라우터 API를 사용했어요.
[05:51]
정말 잘 작동합니다. 제가 본
[05:54]
첫 번째 오픈 모델 중에서
[05:56]
편집 실패가 전혀 없었습니다.
[05:59]
에이전트 작업에 정말 뛰어납니다.
[06:02]
첫 번째 작업은 영화 트래커 앱이었는데
[06:04]
정말 훌륭했습니다. 슬라이딩 패널이 있고
[06:07]
내부 페이지도 열 수 있습니다.
[06:09]
여기서 타이틀 바가
[06:11]
제거되지 않은 점은 약간 아쉽지만
[06:14]
여전히 정말 훌륭합니다.
[06:16]
또 다른 점은 이 모델의
[06:18]
코드 품질이 엄청나다는 것입니다.
[06:20]
소네트처럼 API 키를
[06:22]
코드에 하드코딩하는 식의
[06:25]
실수를 하지 않고 아주 좋은 코드를 작성합니다.
[06:28]
심지어 더 나은 관리를 위해
[06:31]
코드를 여러 파일로
[06:33]
분할하기도 합니다. 정말 훌륭해요.
[06:37]
마찬가지로 GOI 계산기 앱도
[06:41]
꽤 훌륭합니다. 정말 잘
[06:44]
작동하는 것을 볼 수 있습니다. 또한 킬로 코드의
[06:47]
모든 도구를 정말 잘 사용했습니다.
[06:50]
검색과 교체를 하고 터미널
[06:53]
명령어도 실행합니다. 정말 놀라워요.
[06:57]
그다음 고도 게임으로 가보면 고도에서는
[07:00]
별로 좋지 않습니다. 언어를
[07:02]
모르고 작동할 수 없어요. 하지만 이 모델이
[07:06]
상대적으로 얼마나 작고 저렴한지
[07:08]
생각하면 불만을 갖지는 않겠습니다.
[07:11]
나쁘지 않아요. 여전히 꽤 좋습니다.
[07:15]
오픈 코드 저장소 문제는
[07:17]
Go 언어라서 여전히 해결되지 않았습니다.
[07:20]
파일을 올바르게 탐색할 수는
[07:22]
있었는데 그 자체만으로도 도전적인 일이지만
[07:26]
여전히 훌륭하지는 않고 그래서
[07:28]
그래도 Sonnet조차 이걸 제대로 못하죠. 그다음
[07:32]
맞춤법 문제가 있는데, 이 부분은
[07:35]
괜찮은 편이에요. 어느 정도는
[07:38]
쓸 만한 수준까지 도달하긴 합니다. 이런
[07:40]
질문들은 장기 작업용이고
[07:43]
그런 부분에서도 꽤 좋습니다. 그래서 그건
[07:46]
문제가 되지 않아요. 여전히
[07:49]
GLM4.6보다는
[07:51]
낫죠. 이런 경우들에서 GLM은
[07:54]
장기 실행 작업에서 무너지기 시작하는데, 이 모델은
[07:57]
그렇지 않거든요. 그래서 정말 훌륭합니다.
[08:01]
코딩은 별로 못해서
[08:04]
그런 질문에는 좋지 않아요. Rust도
[08:07]
강점이 아니고요. 이런 이유로
[08:10]
리더보드에서 5위를
[08:11]
차지하게 됩니다. 그리고 이건
[08:14]
에이전트 작업에 정말 뛰어난 모델이에요.
[08:17]
여전히 GLM4.6보다는 조금 아래지만
[08:21]
일반적인 사용 사례에서는 GLM보다
[08:24]
이 모델을 더 높게 평가할 거예요. 이 모델이
[08:27]
장기 실행 작업에서 정말 뛰어나거든요.
[08:30]
GPT-5처럼 몇 시간이고 계속 돌릴 수 있고
[08:34]
그게 정말 대단한 점입니다.
[08:37]
아마 이걸로 바꿔서
[08:39]
GLM은 그만둘 것 같아요. 하지만 GLM은 여전히
[08:43]
코딩 플랜이 있어서 좋은 거래죠.
[08:46]
하지만 이 모델의 초저가
[08:49]
API와 효율성을 고려하면
[08:53]
정말 훌륭한 거래인 것 같아요.
[08:55]
훌륭한 모델입니다. 더 살펴보고
[08:58]
아마 하루 이틀 후에
[09:00]
이 모델에 대한 다른 영상을 만들어서
[09:03]
제가 발견한 세부사항들에 대해 이야기하겠습니다.
[09:05]
전체적으로 정말 멋지네요. 어쨌든 아래에
[09:09]
생각을 남겨주시고 채널을
[09:11]
구독해 주세요. Super Thanks로
[09:13]
후원하실 수도 있고 채널에
[09:15]
가입하셔서 특전도 받으실 수 있어요.
[09:17]
다음 영상에서 뵙겠습니다. 안녕히 계세요.
[09:19]
[음악]