Minimax M2 (완전 테스트 완료): 이걸로 갈아탑니다. Claude와 GLM-4.6보다 장기 작업에 더 강하다

AICodeKing 구독자 71,200명

요약

Minimax M2는 10억 활성 파라미터, 총 230억 파라미터로 구성된 소형·고효율 LLM이며, Hugging Face를 통해 오픈소스로 배포됩니다. ArtificialAnalysis 벤치마크에서 Claude 4.5 Sonnet과 근접한 성능을 보이면서도 $0.5/백만 토큰이라는 저렴한 가격과 205K 토큰의 실용적 컨텍스트 윈도우를 제공합니다. 개인 코딩·추론 테스트에서 상위권 성적을 기록했고, KiloCode 연동 시 에디트 실패 없이 에이전트 작업을 완벽 수행하는 등 장기 실행(task) 안정성에서도 뛰어납니다. 이러한 장점을 바탕으로 GLM-4.6을 제치고 향후 주력 모델로 전환할 계획입니다.

주요 키워드

Minimax M2 활성 파라미터 컨텍스트 윈도우 에이전틱 태스크 OpenRouter KiloCode ArtificialAnalysis GLM-4.6 장기 실행

하이라이트

🔑 공개 및 접근성: Hugging Face에 가중치가 업로드되어 오픈소스로 이용 가능하며, OpenRouter와 자체 API로 무료 사용이 지원된다.
🌟 모델 사양: 10억 활성 파라미터, 총 230억 파라미터로 컴팩트하면서도 배포·지연시간 효율성이 뛰어나다.
⚡️ 벤치마크 성능: ArtificialAnalysis에서 Claude 4.5 Sonnet에 근접한 점수를 기록하고, 속도와 가격 면에서 경쟁력을 갖췄다.
💰 저렴한 비용: 1밀리언 토큰당 $2.2, 요청당 $0.5의 API 비용으로 경제적 부담이 적다.
📊 개인 테스트 결과: 다양한 코딩 과제(floor plan, 3JS, Blender 스크립트 등)에서 상위권 성능을 보여 모델 크기 대비 효율이 우수하다.
🚀 에이전트 작업 특화: KiloCode와 결합 시 에디트 실패 없이 영화 추적기·계산기 앱 등 에이전트 태스크를 완벽히 수행한다.
🕒 장기 실행 안정성: GPT-5 수준으로 수 시간에 걸친 멀티스텝 작업을 유지하며 GLM-4.6보다 안정적으로 작동한다.
📈 전환 고려: GLM의 강력한 코딩 플랜과 비교해도, 저비용·고효율·에이전트 성능 덕분에 Minimax M2로 전환할 가치가 충분하다.

용어 설명

활성 파라미터(Activated parameters)

추론 과정에서 실제로 사용되는 모델의 가중치 수를 의미하며, 전체 파라미터 대비 효율성과 속도를 결정한다.

컨텍스트 윈도우(Context window)

모델이 한 번에 처리할 수 있는 최대 토큰 수로, 긴 대화나 문서 처리 시 중요하다.

에이전틱 태스크(Agentic tasks)

모델이 도구나 코드 자동화 툴을 활용해 자율적으로 멀티스텝 작업을 수행하는 과제를 말한다.

OpenRouter

여러 AI 모델을 무료로 연결해주는 오픈 API 플랫폼으로, 다양한 모델을 손쉽게 호출할 수 있다.

KiloCode

코드 생성·수정·실행 등 에이전트 테스트에 특화된 자동화 툴킷이다.

ArtificialAnalysis

LLM 성능을 평가하는 벤치마크 스위트로, 추론·코딩·툴 사용 등 다양한 항목을 측정한다.

GLM-4.6

GLM 시리즈의 버전 4.6에 해당하는 대형 언어 모델로, 코딩 및 추론 능력을 갖추고 있다.

Claude 4.5 Sonnet

Anthropic의 Claude 모델 중 4.5 버전의 서브모델로, 일반 추론과 코드 생성에 강점을 보인다.

Minimax M2 공개 소식과 Hugging Face 오픈소스 배포 여부, OpenRouter 및 자체 API를 통해 무료로 사용 가능한 점을 소개한다.

[00:25] Minimax M2의 기본 정보: M1의 업그레이드 버전, Hugging Face에서 이용 가능, 오픈소스 예상

[00:42] 사용 가능성: OpenRouter와 API 플랫폼에서 무료 제공, 다양한 도구와 호환

10억 활성 파라미터·총 230억 파라미터 구성, компакт 디자인, 낮은 지연시간과 배포 효율성을 강조하고 로컬 클러스터 배포 가능성을 언급한다.

[01:13] 모델 사양: 컴팩트하고 고효율, 100억 활성화 파라미터와 2300억 총 파라미터, 엔드투엔드 코딩과 에이전틱 워크플로우 최적화

[01:44] 모델 크기 비교: GLM 모델들보다 작은 크기로 로컬 클러스터 배포 가능

ArtificialAnalysis에서 Claude 4.5 Sonnet에 근접한 점수를 기록했으며, 속도·가격($0.5/요청, $2.2/백만 토큰)·컨텍스트 윈도우(약 205K 토큰) 면에서 실용적 이점을 설명한다.

[02:13] 벤치마크 분석 및 한계점: 기존 벤치마크의 유용성에 대한 의문 제기, 공개 벤치마크의 포화 상태와 학습 데이터 문제

[02:32] 성능 및 가격 정보: Claude 4.5 Sonnet보다 약간 낮은 성능, 합리적인 가격과 속도, 205,000 토큰 컨텍스트 윈도우

[03:05] 코딩 성능과 추론 기능: Sonnet보다 2포인트 낮은 코딩 점수, 항상 추론을 수행하는 모델의 특징

floor plan, 팬더 버거, 3JS Pokeball, 체스보드, Minecraft, Blender 스크립트 등 다양한 코딩 과제에 대한 결과를 공유하고, 오픈 모델 중 상위권 성능을 평가한다.

[03:36] 실제 테스트 결과 미리보기: 자체 벤치마크 테스트에서 평면도 생성 테스트 결과

[03:47] 미니맥스 M2가 벤치마크 테스트에서 보인 성능을 평가합니다. 햄버거를 든 판다 이미지 생성은 괜찮았지만, 3JS 포켓볼과 체스판은 제대로 작동하지 않았습니다.

[04:22] 이 모델이 GPT5 출력으로 훈련된 것으로 추정된다고 분석합니다. UI 스타일이 GPT5와 매우 유사하기 때문입니다.

[04:36] 마인크래프트 게임은 작동하지 않았고, 나비 애니메이션은 벌레 같아 보였지만 동작했습니다. 러스트 CLI 도구와 블렌더 스크립트, 수학 문제와 수수께끼는 통과했습니다.

[04:59] 리더보드에서 12위를 차지했는데, 클로드 소네트, GLM, 딥시크 터미누스보다는 낮지만 작은 모델 크기를 고려하면 대단한 성과입니다.

수학 문제·수수께끼 테스트 결과를 기반으로 개인 리더보드에서 12위 기록, GLM·Claude·DeepSeek Terminus 등 주요 모델과의 상대적 위치를 분석한다.

타임라인 정보가 없습니다.

KiloCode를 활용한 에이전틱 테스트를 설명하며, Minimax M2가 최초로 에디트 실패 없이 작업을 수행하는 점을 강조한다.

[05:31] 에이전트 테스트에서 진정한 성능을 보여줍니다. 킬로 도구와 함께 사용했을 때 편집 실패 없이 완벽하게 작동하는 첫 번째 오픈 모델이었습니다.

영화 추적기 앱, 수익률 계산기, Godot 게임, 오픈 코드 리포 내비게이션, SpELT 과제, 장기 실행 태스크 등 다양한 에이전틱 시나리오에서의 성능을 상세 평가한다.

[06:02] 영화 트래커 앱 제작에서 슬라이딩 패널과 내부 페이지 기능을 구현했습니다. 타이틀 바 제거는 아쉽지만 전체적으로 우수한 결과를 보였습니다.

[06:18] 코드 품질이 뛰어나다고 평가합니다. API 키 하드코딩 같은 실수를 하지 않고, 관리하기 쉽게 코드를 여러 파일로 분할하는 등 전문적인 코딩을 보여줍니다.

[06:37] GOI 계산기 앱에서도 우수한 성능을 보였고, 킬로 코드의 모든 도구(검색, 교체, 터미널 명령)를 효과적으로 활용했습니다.

[06:57] 고도 게임에서는 언어를 몰라 제대로 작동하지 않았지만, 작고 저렴한 모델임을 고려하면 충분히 용인할 수 있는 수준입니다.

[07:15] Go 언어로 된 오픈 코드 저장소 문제는 해결하지 못했지만, 파일 탐색 자체는 올바르게 수행했습니다. 이것만으로도 도전적인 작업이었습니다.

[07:28] Minimax M2 모델의 맞춤법 및 기본 성능 평가. Sonnet도 못하는 작업을 어느 정도 수행할 수 있으며, 장기 작업에서 GLM4.6보다 안정적인 성능을 보여줍니다.

장기 멀티스텝 작업 안정성과 경제성을 토대로 GLM-4.6 대비 우위를 재확인하고, Minimax M2를 주력 모델로 전환할 것임을 예고한다.

[08:01] 코딩과 Rust 프로그래밍에서는 약점을 보이지만, 리더보드 5위를 기록했고 에이전트 작업에서 뛰어난 성능을 발휘합니다.

[08:17] GLM4.6와 비교했을 때 일반 사용 사례에서는 Minimax M2가 더 우수하며, 특히 장기 실행 작업에서 GPT-5처럼 몇 시간이고 지속할 수 있는 능력이 돋보입니다.

[00:00] [음악]

[00:03] [박수]

[00:04] 안녕하세요, 또 다른 영상에 오신 것을 환영합니다.

[00:08] Minimax에서 새로운 모델을 출시했는데

[00:11] 많은 분들이 댓글로

[00:14] 테스트해달라고 요청하셔서

[00:16] 이에 대해 얘기해보고자 합니다.

[00:19] 이번에 출시한 새로운 모델은

[00:22] Minimax M2라고 불리며,

[00:25] 이전 버전인

[00:27] Minimax M1의 업그레이드 버전입니다.

[00:30] 가중치는 Hugging Face에서도

[00:32] 이용할 수 있습니다. 이전 모델도

[00:35] 오픈소스였기 때문에 이번 모델도

[00:37] 오픈소스일 것으로 예상됩니다. 그렇다면 정말 좋겠네요.

[00:42] 어쨌든, 현재 이 모델은

[00:44] Artificial Analysis에서 벤치마크되었고

[00:47] OpenRouter와 그들의 API 플랫폼에서

[00:49] 무료로 사용할 수 있습니다. 따라서

[00:53] 킬로 클로드 코드 같은 도구들과 함께

[00:55] 무료로 사용할 수 있습니다. 자체 API는

[01:00] OpenRouter보다 더 나은 속도 제한을

[01:02] 제공할 수도 있습니다. 직접 시도해보지는 않았지만

[01:05] 확인해보실 수 있습니다. 거의 모든 종류의

[01:08] 코더들과 그런 도구들에서

[01:10] 원하는 만큼 사용할 수 있습니다.

[01:13] 그들은 Minimax M2가 컴팩트하고

[01:17] 고효율의 대형 언어 모델이며

[01:20] 엔드투엔드 코딩과 에이전틱 워크플로우에

[01:23] 최적화되어 있다고 말합니다.

[01:25] 100억 개의 활성화된 파라미터와

[01:28] 총 2,300억 개의 파라미터를 가지고 있으며

[01:31] 일반 추론, 도구 사용, 그리고 다단계 작업

[01:34] 실행에서 최고 수준의 지능을 제공하면서도

[01:38] 낮은 지연시간과

[01:41] 배포 효율성을 유지합니다.

[01:44] 이것은 꽤 작은 모델입니다.

[01:47] 약 100억 개의 활성화된 파라미터를 가진

[01:50] 2,300억 개의 파라미터만을 가지고 있습니다.

[01:54] 이는 GLM 김미보다도 작은 모델이며

[01:57] 다른 모델들보다 작으면서도

[02:00] GLM 4.5 air보다 1,100억 개 파라미터가 작습니다.

[02:03] 따라서 이것은 꽤 좋은 크기이며

[02:06] AI 애호가라면 로컬 클러스터에서

[02:09] 배포할 수 있습니다.

[02:11] Artificial Analysis의

[02:13] 벤치마크를 살펴보면, 그런데

[02:15] 저는 이런 벤치마크들이 속도나

[02:18] 제공자 편차 벤치마크를 제외하고는

[02:20] 전혀 유용하지 않다고 생각합니다.

[02:22] 왜냐하면 주로 이미 매우

[02:24] 포화된 공개 벤치마크를 사용하고

[02:26] 많은 모델들이 그것들을 그대로 학습에 사용하기 때문입니다.

[02:29] 하지만 살펴보면

[02:32] Minimax M2는 Claude 4.5 Sonnet보다

[02:35] 약간 낮은 점수를 받았습니다.

[02:39] 속도도 꽤 괜찮고

[02:41] 가격은 단지 0.5달러와

[02:44] 백만 토큰당 2.2달러로 나쁘지 않습니다.

[02:48] 컨텍스트 윈도우는 약 205,000 토큰입니다.

[02:51] 이전 모델은 약 100만 토큰이었는데

[02:55] 이번 모델은 그렇지 않습니다. 이는

[02:58] 흥미로운 선택이며

[03:00] 왜 이전 설정에서 후퇴했는지

[03:02] 궁금하게 만듭니다. 코딩 인덱스에서는

[03:05] Sonnet보다 2포인트 낮게 나왔습니다.

[03:08] 이런 벤치마크가 어떻게 작동하는지 모르겠지만

[03:11] Grog 4 fast는 좋은 코딩 모델이 아닙니다.

[03:14] 제가 확실히 말씀드릴 수 있습니다.

[03:17] 그런데도 더 높은 점수를 받았네요.

[03:21] 또한, 이것은 추론 모델이고

[03:24] 항상 추론을 수행합니다. 그래서

[03:28] 도구 호출에도 꽤 뛰어납니다.

[03:31] 어쨌든, 순수한 기존 벤치마크에 대해서는

[03:34] 이 정도입니다.

[03:36] 이제 저는 당연히 제 자체

[03:39] 벤치마크로 테스트해봤는데, 평면도

[03:41] 질문에서 평면도를 만들기는 하지만

[03:44] 전혀 말이 되지 않습니다. 별로

[03:47] 좋지만 동작은 합니다. 그래서 그에 맞게 점수를 매겼어요.

[03:50] 그다음 햄버거를 들고 있는 판다는 꽤 괜찮습니다.

[03:53] 제미니 3의 체크포인트만큼은 아니지만

[03:56] 오픈 모델 중에서는 최고 수준 중 하나죠.

[04:00] 정말 멋진 성과입니다.

[04:02] 그다음 3JS로 만든 포켓볼인데

[04:06] 별로 좋지 않습니다. 포켓볼보다는

[04:09] 프리미어볼에 더 가까워 보이네요.

[04:12] 그래서 별로 좋지 않습니다.

[04:14] 체스판도 올바르게 배치되긴 했지만

[04:17] 작동하지는 않습니다.

[04:20] 이 모델은 GPT5 출력으로

[04:22] 많이 훈련된 것 같아요. 이런 종류의

[04:25] UI는 일반적으로 GPT5와 매우 비슷하거든요.

[04:30] 그래서 분명히 그걸로 훈련했을 겁니다.

[04:33] 마인크래프트 게임도 작동하지 않습니다.

[04:36] 정원에서 날아다니는 나비는

[04:38] 그럭저럭 괜찮습니다. 저에게는

[04:40] 벌레처럼 보이지만 여전히 작동합니다.

[04:44] 그래서 이것도 괜찮습니다. 러스트의 CLI 도구와

[04:48] 블렌더 스크립트도 괜찮지만

[04:51] 훌륭하지는 않습니다. 수학 문제에서는

[04:54] 하나를 통과했고 수수께끼 문제도

[04:57] 통과했습니다.

[04:59] 이로써 제 리더보드에서

[05:01] 12위에 올랐는데, 클로드

[05:04] 소네트, GLM, 딥시크 터미누스보다는 낮지만

[05:07] 나쁘지 않습니다.

[05:10] GLM과 롱캣과 함께 상위 15위 안에서

[05:13] 이렇게 좋은 성능을 보이는

[05:16] 유일한 모델들입니다. 또한

[05:19] GLM이나 딥시크에 비해

[05:21] 엄청나게 작은 모델이라는 점도 고려해야 합니다.

[05:25] 정말 대단한 성과입니다. 이제

[05:29] 에이전트 테스트를 보면

[05:31] 더욱 놀라워집니다. 이건 진정한

[05:34] 에이전트 모델입니다. 저는 킬로로

[05:37] 모든 에이전트 테스트를 했어요. 거기서

[05:40] 미니맥스 m2 API나

[05:42] 오픈 라우터를 통해서도 쉽게 설정할 수 있습니다.

[05:47] 저는 오픈 라우터 API를 사용했어요.

[05:51] 정말 잘 작동합니다. 제가 본

[05:54] 첫 번째 오픈 모델 중에서

[05:56] 편집 실패가 전혀 없었습니다.

[05:59] 에이전트 작업에 정말 뛰어납니다.

[06:02] 첫 번째 작업은 영화 트래커 앱이었는데

[06:04] 정말 훌륭했습니다. 슬라이딩 패널이 있고

[06:07] 내부 페이지도 열 수 있습니다.

[06:09] 여기서 타이틀 바가

[06:11] 제거되지 않은 점은 약간 아쉽지만

[06:14] 여전히 정말 훌륭합니다.

[06:16] 또 다른 점은 이 모델의

[06:18] 코드 품질이 엄청나다는 것입니다.

[06:20] 소네트처럼 API 키를

[06:22] 코드에 하드코딩하는 식의

[06:25] 실수를 하지 않고 아주 좋은 코드를 작성합니다.

[06:28] 심지어 더 나은 관리를 위해

[06:31] 코드를 여러 파일로

[06:33] 분할하기도 합니다. 정말 훌륭해요.

[06:37] 마찬가지로 GOI 계산기 앱도

[06:41] 꽤 훌륭합니다. 정말 잘

[06:44] 작동하는 것을 볼 수 있습니다. 또한 킬로 코드의

[06:47] 모든 도구를 정말 잘 사용했습니다.

[06:50] 검색과 교체를 하고 터미널

[06:53] 명령어도 실행합니다. 정말 놀라워요.

[06:57] 그다음 고도 게임으로 가보면 고도에서는

[07:00] 별로 좋지 않습니다. 언어를

[07:02] 모르고 작동할 수 없어요. 하지만 이 모델이

[07:06] 상대적으로 얼마나 작고 저렴한지

[07:08] 생각하면 불만을 갖지는 않겠습니다.

[07:11] 나쁘지 않아요. 여전히 꽤 좋습니다.

[07:15] 오픈 코드 저장소 문제는

[07:17] Go 언어라서 여전히 해결되지 않았습니다.

[07:20] 파일을 올바르게 탐색할 수는

[07:22] 있었는데 그 자체만으로도 도전적인 일이지만

[07:26] 여전히 훌륭하지는 않고 그래서

[07:28] 그래도 Sonnet조차 이걸 제대로 못하죠. 그다음

[07:32] 맞춤법 문제가 있는데, 이 부분은

[07:35] 괜찮은 편이에요. 어느 정도는

[07:38] 쓸 만한 수준까지 도달하긴 합니다. 이런

[07:40] 질문들은 장기 작업용이고

[07:43] 그런 부분에서도 꽤 좋습니다. 그래서 그건

[07:46] 문제가 되지 않아요. 여전히

[07:49] GLM4.6보다는

[07:51] 낫죠. 이런 경우들에서 GLM은

[07:54] 장기 실행 작업에서 무너지기 시작하는데, 이 모델은

[07:57] 그렇지 않거든요. 그래서 정말 훌륭합니다.

[08:01] 코딩은 별로 못해서

[08:04] 그런 질문에는 좋지 않아요. Rust도

[08:07] 강점이 아니고요. 이런 이유로

[08:10] 리더보드에서 5위를

[08:11] 차지하게 됩니다. 그리고 이건

[08:14] 에이전트 작업에 정말 뛰어난 모델이에요.

[08:17] 여전히 GLM4.6보다는 조금 아래지만

[08:21] 일반적인 사용 사례에서는 GLM보다

[08:24] 이 모델을 더 높게 평가할 거예요. 이 모델이

[08:27] 장기 실행 작업에서 정말 뛰어나거든요.

[08:30] GPT-5처럼 몇 시간이고 계속 돌릴 수 있고

[08:34] 그게 정말 대단한 점입니다.

[08:37] 아마 이걸로 바꿔서

[08:39] GLM은 그만둘 것 같아요. 하지만 GLM은 여전히

[08:43] 코딩 플랜이 있어서 좋은 거래죠.

[08:46] 하지만 이 모델의 초저가

[08:49] API와 효율성을 고려하면

[08:53] 정말 훌륭한 거래인 것 같아요.

[08:55] 훌륭한 모델입니다. 더 살펴보고

[08:58] 아마 하루 이틀 후에

[09:00] 이 모델에 대한 다른 영상을 만들어서

[09:03] 제가 발견한 세부사항들에 대해 이야기하겠습니다.

[09:05] 전체적으로 정말 멋지네요. 어쨌든 아래에

[09:09] 생각을 남겨주시고 채널을

[09:11] 구독해 주세요. Super Thanks로

[09:13] 후원하실 수도 있고 채널에

[09:15] 가입하셔서 특전도 받으실 수 있어요.

[09:17] 다음 영상에서 뵙겠습니다. 안녕히 계세요.

[09:19] [음악]