Kimi K1.5 (긴 사고) : 이 완전 무료 AI 모델이 DeepSeek R1을 이길 수 있는가?

채널 아이콘
AICodeKing 구독자 71,200명

요약

영상은 Kim K1.5라는 AI 모델을 직접 테스트하며 그 성능과 기능을 소개합니다. 리뷰어는 이 모델이 단기 및 장기 사고(Chain-of-Thought) 능력과 멀티모달 처리에서 뛰어난 성능을 보이지만, 코딩 관련 작업에서는 DeepSeek R1보다 뒤처진다는 점을 강조합니다. 다양한 수학 및 논리 문제와 코딩 과제를 통해 모델의 강점과 약점을 실제 사례와 함께 설명합니다. 전체적으로, 비록 기술적 연구는 인상적이나 실용적인 면에서는 개선의 여지가 있다는 결론을 내립니다.

주요 키워드

Kim K1.5 DeepSeek R1 멀티모달 Chain-of-Thought 강화학습 벤치마크 코딩 테스트 오픈소스

하이라이트

  • 🔑 영상은 Kim K1.5 모델의 다양한 능력을 평가하며, 특히 단기와 장기 사고 능력을 상세히 비교합니다.
  • ⚡️ 모델은 멀티모달 기능을 갖추어 이미지와 텍스트를 함께 처리할 수 있어, R1 모델보다 유리한 점이 있습니다.
  • 🌟 테스트에서는 13개의 질문과 과제를 통해 전반적인 성능을 검증, 대부분의 문제에서 정답을 도출했습니다.
  • 📌 코딩 테스트에서는 신디사이저 키보드와 SVG 생성 같은 과제에서 실패 사례가 있었음을 보여줍니다.
  • 🚀 리뷰어는 모델의 강화학습(RL) 및 긴 컨텍스트 스케일링 기법에 대해 긍정적으로 평가합니다.
  • 🔍 비록 기술적 연구 보고서에는 인상적인 요소들이 발견되었으나, 모델 자체는 오픈소스가 아니고 실용성 측면에서 한계가 있다고 지적합니다.

용어 설명

멀티모달 (Multimodal)

텍스트와 이미지를 비롯한 여러 종류의 데이터를 동시에 처리할 수 있는 AI 모델의 능력을 의미합니다.

Chain-of-Thought (사고의 연쇄)

문제 해결 시 여러 단계의 논리적 추론 과정을 순차적으로 수행하는 방식을 가리킵니다.

강화학습 (Reinforcement Learning, RL)

환경과의 상호작용을 통해 보상을 최대화하는 학습 방법으로, 모델의 정책을 개선하는 기법입니다.

긴 컨텍스트 스케일링 (Long Context Scaling)

모델이 더 긴 입력 데이터를 처리할 수 있도록 학습 과정에서 문맥 길이를 증가시키는 방법을 뜻합니다.

[00:00:05] 소개 및 인트로

영상은 인사와 함께 시작하며 Kim K1.5 모델 테스트에 대한 기대감을 전달합니다. 간단한 음악과 박수 소리로 분위기를 띄웁니다.

새로운 AI 모델 Kimi K 1.5에 대한 소개와 테스트 계획 안내
[00:00:21] 모델 개요 및 기술적 세부 사항

Kim K1.5의 기능과 기술적 특징, 즉 멀티모달 처리, 단기 및 장기 Chain-of-Thought 능력, 그리고 강화학습 방법론이 소개됩니다. 기술 보고서를 기반으로 성능 비교가 이루어집니다.

Kimi K 1.5의 기본 특징 소개 - 무료 사용 가능하며 R1과 같은 날 출시된 멀티모달 모델
모델의 성능 소개 - GPT 4.0과 Claude를 능가하는 Chain of Thought 성능과 다양한 분야에서의 우수성
훈련 방법론 설명 - 긴 컨텍스트 스케일링과 개선된 정책 최적화 적용
멀티모달 특성과 플랫폼 사용 방식 설명 - 텍스트와 비전 데이터 통합 처리 가능
[00:02:48] 벤치마크 및 문제 풀이 테스트

총 13개의 다양한 질문과 코딩 과제를 통해 모델의 실제 성능을 평가합니다. 수학 문제, 언어 퍼즐, 웹 코드 생성 테스트 등 다양한 영역에서의 결과가 전달됩니다.

실제 테스트 시작 - 첫 번째 문제부터 시작하여 모델의 성능 검증
라틴어 어원의 영어 형용사 'transparent'의 특성에 대한 문제를 풀이했습니다.
48명이라는 수치가 20% 과대 계상되었을 때의 실제 인원수를 계산하는 문제를 해결했습니다.
사과와 파이에 관한 간단한 산수 문제를 풀이했습니다.
Sally와 그녀의 형제자매 관계에 대한 논리 문제를 해결했습니다.
정육각형의 대각선 길이를 계산하는 기하학 문제를 풀이했습니다.
HTML, CSS, JS를 활용한 인터랙티브 웹 요소 구현 문제들을 시도했습니다.
모델의 성능을 분석하고 DeepSeek R1과 비교하여 장단점을 평가했습니다.
[00:07:10] 최종 평가 및 결론

테스트 결과를 종합, Kim K1.5가 일반적인 질의응답에는 우수하나 코딩 능력에서는 한계를 보인다고 결론내립니다. DeepSeek R1과의 비교를 통해 모델의 장단점을 명확히 제시합니다.

타임라인 정보가 없습니다.

[음악]
[박수]
안녕하세요, 오늘도 새로운 영상으로 찾아왔습니다. 매일
제 댓글창에서 Kimi K
1.5라는 새로운 모델을 테스트해달라는
요청을 받았는데, 오늘은 그걸 해보려고 합니다.
자, Kimi K
1.5가 무엇이냐면, 이것은 모델인데
오픈소스는 아니지만
기술 보고서와 관련 자료를 공개했고
그들의 사이트에서 무료로
속도 제한 없이 사용할 수 있습니다.
실제로 출시된 시기는
R1과
같은 날이었습니다. K 1.5는 O1 수준의
멀티모달 모델이라고 합니다. 즉, 첫째로
이것이 멀티모달 모델이라는 점에서
R1보다 우수한데, R1은
이미지 등을 처리할 수 없기 때문입니다.
짧은 체인 오브 소트 성능에서는
GPT 4.0과 Claude를 능가하며
AIM Math 500과 Live Code Bench에서 큰 차이로 앞섭니다.
또한 긴 체인 오브 소트 성능도 있어
O1과 대등한 수준의
성능을 보여주며, 수학, 비전,
AMI, 코드포스 등 여러 분야에서
우수한 성능을 보입니다.
이는 추론 모델이며
R1처럼 강화학습으로 훈련되었고
여기 벤치마크를 보시면
O1보다는 작은 차이로
앞서고 있으며, Claude도 능가하는 것을
확인할 수 있어 매우 고무적입니다.
훈련 과정에서는
긴 컨텍스트 스케일링을 사용했는데
이는 기본적으로 강화학습 과정에서
컨텍스트 제한을
128k까지 늘린 것을 의미하며, 이는 더 나은 훈련 결과로
이어졌습니다. 또한 개선된
정책 최적화를 통해
긴 체인 오브 소트와
강화학습을 결합하고
온라인 미러 디센트의 변형을 사용하여
강력한 정책 최적화를 실현했습니다.
또한 멀티모달 모델로서
텍스트와 비전 데이터에 대해
공동 훈련되어 두 가지 양식에 대해
통합적인 추론이 가능합니다.
이 모델은 오픈소스가 아니지만
그들의 플랫폼에서 시도해볼 수 있고
속도 제한 없이 무료입니다.
플랫폼에는 두 가지 모델이 있는데
하나는 체인 오브 소트가 없는
기본 Kimi 모델이고
다른 하나는
롱 싱킹 모드입니다.
이는 모델이 깊이 있게
생각하도록 만드는 모드입니다. 오늘은 롱 싱크
모드를 테스트해보겠습니다.
여기 13개의 테스트 질문이 있습니다.
첫 번째 질문은
'이름이 -lia로 끝나는 나라 이름과
그 나라의 수도를 말해보세요'
입니다.
자,
정답은 'Australia와 Canberra'
같은 것이 되어야 합니다. 한번 보내볼까요?
자, 여기 답변이 왔고 정답입니다.
이것을 통과로 표시하겠습니다.
다음 질문은 '키가 큰 식물을
설명하는 단어와 운이 맞는
숫자는 무엇인가요?' 정답은
'three'가 되어야 합니다. 보내볼까요?
자, 여기 답변이 왔고 완벽히 정답입니다.
이것도 통과입니다. 다음 문제는
'각 단어의 두 번째 글자를 모으면
'simple'이 되는 하이쿠를 작성하세요'입니다.
보내볼까요? 자, 여기 답변이 왔고
이것도 정답입니다.
통과입니다. 다음 문제로 넘어가겠습니다.
'name'이라는 단어가 라틴어 어원의 영어 형용사인데,
같은 글자로 시작하고 끝나며,
총 11개의 글자로 이루어져 있고
모든 모음이 알파벳 순으로
배열되어 있다면?
답은 아마도
이런 것일 수 있겠죠.
'transparent'입니다. 확인해 볼까요?
여기 답이 나왔네요. 이것도
정답입니다. 통과로 표시하겠습니다.
다음 문제입니다. Courtney가 48명이라고 했는데
Kelly는 Courtney가 말한 숫자가
20% 과대 계상되었다고 했습니다.
Kelly가 맞다면 실제 인원은
몇 명일까요?
답은 40명이어야 합니다. 확인해볼까요?
여기 답이 나왔고 정답입니다.
통과로 표시하겠습니다. 다음은
사과 2개가 있는데 2개를 더 삽니다.
그리고 사과 2개로 파이를 만들었어요.
파이의 절반을 먹은 후에
남은 사과는 몇 개일까요? 답은
2개여야 합니다. 확인해보죠.
여기 답이 나왔고 정답입니다.
통과입니다.
이제 다음 문제입니다. Sally는 여자아이입니다.
그녀에게는 3명의 형제가 있고,
각 형제는 같은 2명의 자매가 있습니다.
Sally에게는 몇 명의 자매가 있을까요?
답은 1명이어야 합니다. 확인해볼까요?
여기 답이 나왔고
정답입니다. 이것도 통과로
표시하겠습니다. 다음은 정육각형의
짧은 대각선이 64라면
긴 대각선의 길이는 얼마일까요? 답은
73.9입니다.
확인해보죠. 여기
답이 나왔고 이것도 정답입니다.
적절히 표시하겠습니다. 이제
다음 문제입니다. 클릭하면 색종이가
터지는 버튼이 있는 HTML 페이지를
만들어보세요. CSS와 JS도 사용 가능합니다.
확인해보죠. 여기 코드가 있고
실행해보면 잘 작동하네요.
통과입니다.
다음 문제는 HTML, CSS, JS를 사용해서
연주 가능한 신디사이저 키보드를 만드는 것입니다.
확인해보죠. 여기 답이 나왔고
실행해보면 이건
작동하지 않네요. 실패입니다. 다음
문제는 나비 모양의 SVG 코드를
생성하는 것입니다. 확인해볼까요?
여기 답이 나왔고 미리보기를 하면
보기 좋지 않네요. 그래서
실패로 표시하겠습니다. 다음은 HTML, CSS,
JS를 사용해서 3D 원을 만들어
3D 공간에서 끊임없이 움직이도록 하는 것입니다.
확인해보죠. 여기 답이 나왔고
잘 작동하네요. 이건
통과로 하겠습니다. 이제
마지막 문제는 터미널에서 작동하는
라이프 게임을 파이썬으로 작성하는 것입니다.
확인해보죠. 여기 코드가 나왔습니다.
복사해서 실행해보면 잘 작동하네요.
통과로 하겠습니다. 이제 이것이
최종 차트입니다. 꽤 좋았지만
코딩은 DeepSeek R1과 달리
강점이 아닙니다. R1은 코딩에
정말 뛰어나거든요. 하지만
일반적인 질문에는 여전히 좋습니다.
다만 토큰을 반복하는 경향이 있죠.
가장 어려운 두 문제는
3-4번의 생성이 필요했고
한 경우에는 오류 없이 정답을 냈습니다.
좋지만 DeepSeek R1보다
나은 점은
없습니다. R1이 여전히 더 낫고
가중치도 공개되어 있어서 더 좋습니다.
원한다면 사용해도 좋지만
모델이 오픈소스였으면 했는데
그렇지 않고 현재는 API도
사용할 수 없다는 게 아쉽습니다.
좋은 모델이지만 새로운 것이
없어서 사용 목적을
찾기 어렵고, 현재로서는
사용하기 어려운 상태입니다.
연구 논문은 꽤 좋고
인상적인 요소들이 있어서
그건 좋았습니다. 전반적으로
꽤 괜찮습니다. 여러분의 생각을
댓글로 남겨주시고 구독해주세요.
수퍼 땡스로 후원도 가능하고
채널 멤버가 되어 특전을 받을 수도 있습니다.
다음 영상에서 만나요. 안녕히 계세요.
[음악]