나는 가장 미친 5가지 AI 모델로 코딩했다

채널 아이콘
ForrestKnight 구독자 637,000명

요약

영상은 최신 AI 코딩 도구들을 실제 코드베이스에 통합해 사용하는 경험을 생생하게 공유하며, 각 모델의 강점과 단점을 면밀히 비교 분석합니다. 특히 Claw 3.5 Sonnet, Claw 3.7 Sonnet, 03 Mini Medium Reasoning, Gemini 2.5 Pro, 그리고 GPT-4.0의 특징을 살펴봅니다. 게임 개발 테스트와 Rust 리팩토링 사례를 통해 실제 작업 환경에서의 성능을 평가하며, 용도와 코드베이스 규모에 따른 선택 기준을 제시합니다.

주요 키워드

AI 모델 코딩 통합개발환경 Refactoring One-shot 컨텍스트 윈도우 Rust MicroCenter 게임 개발

하이라이트

  • 🔑 영상은 다양한 AI 코딩 모델을 통합개발환경에 적용해 실제 코딩 작업에서의 효용을 검증하는 과정을 보여줍니다.
  • ⚡️ Claw 3.5 Sonnet은 높은 정밀도와 폭넓은 컨텍스트 인식 능력을 통해 안정적인 코드 생성을 강조합니다.
  • 🌟 스폰서 MicroCenter를 통해 최신 컴퓨터 부품과 장비 정보를 제공하며, 하드웨어 할인 소식을 전합니다.
  • 📌 Claw 3.7 Sonnet은 빠른 실행력과 추가적인 코드 수정 제안을 하면서도 때때로 과도하게 코드에 개입하는 한계를 보입니다.
  • 🚀 Gemini 2.5 Pro는 코드 품질과 컨텍스트 유지 측면에서 가장 균형 잡힌 성능을 나타내며, 실무에 적합한 도구로 추천됩니다.
  • 💡 03 Mini Medium Reasoning은 대부분의 코드를 한 번에 생성하지만, 일부 수동 수정이 필요해 세밀한 조율이 요구됩니다.
  • 🌈 GPT-4.0은 빠른 처리 속도를 장점으로 하나, 코드의 중복과 오류 발생으로 인해 실전 코딩에는 적합하지 않은 면을 보입니다.
  • 📌 Rust 리팩토링 비교를 통해 각 모델이 코드 최적화와 메모리 효율성을 어떻게 개선하는지 분석합니다.

용어 설명

One-shot

단 한 번의 프롬프트로 전체 코드를 생성하는 AI 모델의 작동 방식.

Integrated development environment (IDE)

코드 작성, 디버깅, 테스트 등 다양한 개발 작업을 하나의 환경에서 수행할 수 있도록 지원하는 통합 개발 도구.

Refactoring

기존 코드의 기능은 그대로 유지하면서 구조와 효율성을 개선하는 재구성 작업.

Context window

AI 모델이 이전 대화나 코드 맥락을 기억하여 전체 상황을 이해하는 범위.

Panics / Unwrap

Rust 프로그래밍 언어에서 오류 발생 시 프로그램 중단을 유발하는 방식과, 이를 안전하게 처리하기 위한 방법을 지칭함.

[00:00:00] 인트로 및 개발 환경 설정

영상은 새로운 AI 모델들을 통합개발환경에 접목하여 코딩하는 방법을 소개합니다. 실제 코드베이스에 어떻게 AI를 활용하는지 전반적인 개요를 제공합니다.

새로운 AI 모델로 코딩을 시도하고, 실제 개발 환경에서 통합하여 사용하는 방식으로 테스트해보려 합니다.
오늘날 가장 인기 있는 5개의 코딩용 AI 모델을 실제 코드베이스에서 테스트하고, 리팩토링과 P5JS 게임 제작을 시도할 예정입니다.
[00:01:03] Claw 3.5 Sonnet 리뷰

3.5 Sonnet 모델의 정밀한 코드 생성 능력과 전체 컨텍스트를 파악하는 기능을 평가합니다. 개발자가 원하는 작업을 정확히 수행하는 장점을 강조합니다.

Claude 3.5 Sonnet은 첫 AI 코딩 경험으로, 정확하고 맥락을 잘 이해하며 불필요한 설명 없이 정확한 실행을 보여줍니다.
[00:02:07] MicroCenter 스폰서 및 광고

영상은 Windsurf나 AI 모델이 아닌 MicroCenter의 스폰서십을 밝히며 최신 하드웨어 제품 정보를 소개합니다. 할인 판매와 매장 방문 유도를 통해 제품 정보를 전달합니다.

MicroCenter는 다양한 컴퓨터 관련 제품을 판매하며, 현재 최신 Apple 제품들이 할인 중입니다.
마이크로센터 매장 소개와 직원들의 전문적인 도움에 대해 설명합니다. 특히 Nix OS 설치와 KVM 스위치 설정에 대한 실제 경험을 공유합니다.
[00:03:24] Claw 3.7 Sonnet 평가

3.7 Sonnet은 3.5에 비해 더 강력한 성능을 보이나, 과도하게 코드를 탐색하여 불필요한 수정 제안을 하는 한계가 있습니다. 이러한 지나친 개입이 때론 혼란을 야기하는 점을 지적합니다.

AI 모델의 코드 분석 방식을 비교 설명합니다. 3.5 모델은 안전하게 접근하지만 개선 기회를 놓치는 반면, Claude 3.7은 과도하게 적극적인 접근으로 인한 문제점이 있습니다.
확장된 사고 모드의 한계점과 Gemini 2.5 Pro의 장점을 설명합니다. 2.5 Pro는 3.5와 3.7의 장점을 결합하여 더 효율적인 코드 분석과 개선을 제공합니다.
Gemini 2.5 Pro의 넓은 컨텍스트 윈도우 덕분에 코드 수정 시 전체 맥락을 잘 기억하고 실수도 적습니다.
대규모 코드베이스나 복잡한 리팩토링 작업에는 Gemini 2.5 Pro가 최적이며, 3.5 Sonnet보다 더 나은 코드 품질을 보여줍니다.
[00:06:23] 03 Mini Medium Reasoning 리뷰

03 Mini 모델은 대부분의 코드를 한 번에 생성하지만, 일부 세부 수정은 수동으로 보완해야 합니다. 간결한 코드 작성을 지향하나, 일부 미세 조정의 필요성이 드러납니다.

Claude 3 Mini는 3.7 Sonnet과 달리 최소한의 코드만 수정하며, 수동 반복 작업이 많이 필요한 특징이 있습니다.
Claude 3 Mini의 비효율적인 작업 방식과 반복적인 '변경사항 적용' 메시지로 인한 좋지 않은 사용자 경험을 설명합니다.
GPT-4.0 모델은 코딩 AI 중 최고로 알려져 있으나, 3월 26일 업데이트 이후 실제 성능은 기대에 미치지 못했습니다. 특히 Claude 3.5와 비교했을 때 정확도가 떨어지고 환각 현상이 더 많이 발생했습니다.
[00:08:15] GPT-4.0 코딩 AI 모델 분석

GPT-4.0은 빠른 처리 속도를 자랑하지만, 코드의 중복과 과도한 수정으로 인해 정확성이 떨어집니다. 채팅형 AI로서의 매력은 있으나, 복잡한 코딩에는 부적합함을 보여줍니다.

GPT-4.0은 속도만 빠를 뿐, 코드의 정확성이 떨어져 코딩용으로는 부적합하다는 결론을 내렸습니다. 대신 친근한 대화 파트너로서는 우수한 성능을 보여줍니다.
Claude 3.7 Sonnet을 테스트했는데, 게임 개발 프롬프트를 실행했을 때 기본적인 기능은 구현되었으나 화면 추적과 물리 엔진에 문제가 발생했습니다.
[00:09:42] 게임 프로토타입 테스트

각 AI 모델을 활용해 p5.js 기반의 중독성 있는 게임을 개발하는 테스트를 진행합니다. 프롬프트에 따른 코드 생성과 오류 수정 과정을 통해 실제 적용 가능성을 평가합니다.

마지막으로 Gemini 2.5 Pro를 테스트했는데, 초기 에러와 충돌 감지 문제가 있었지만 추가 프롬프트로 해결되어 가장 좋은 결과를 보여주었습니다.
[00:13:00] Rust 리팩토링 비교

Rust 코드 리팩토링을 통해 각 AI 모델이 효율적이고 읽기 좋은 코드를 생성하는 방법을 비교합니다. 메모리 사용과 코드 가독성 측면에서 리팩토링 기법을 분석합니다.

타임라인 정보가 없습니다.

[00:14:44] 결론 및 최종 추천

여러 AI 모델의 강점과 약점을 종합적으로 비교하며, 용도와 코드베이스 규모에 따른 선택 기준을 제시합니다. 최종적으로 Gemini 2.5 Pro가 가장 균형 잡힌 성능을 보여준다고 결론짓습니다.

타임라인 정보가 없습니다.

새로운 AI 모델이 나올 때마다
저는 그걸로 코딩을 해봅니다. 재미있는
원샷이나 쓰리샷, 또는 필요한 만큼
시도해보죠. 하지만 실제 소프트웨어
엔지니어처럼 실무에서 사용해봅니다.
Windsurf나 Cursor 같은 도구를 통해
개발 환경에 통합된 방식으로
사용해보는 거죠.
누군가 '통합 개발 환경'이라는
용어를 만들었어야 했는데,
꽤 그럴듯하게 들리네요.
그래서 오늘날 가장 인기 있는
5개의 코딩용 AI 모델로
이 모든 것을 시도해보려고 합니다.
실제 코드베이스에서 이 모델들을
사용해본 모든 경험을 공유하고,
브라우저 인터페이스에서
간단한 코드를 리팩토링하고,
P5JS 게임을 원샷으로 만들어볼 겁니다.
각 모델의 장점과
약점을 발견하고, 어떤 작업에
어떤 모델이 더 적합한지 알아볼 거예요.
여러분이 보게 될 것은 본질적인
코딩 경험입니다. Tab Tab Tab을
좋아하긴 하지만, 그건 여기서 선택한 모델을
사용하지 않고 Windsurf의
내장 기능을 사용하죠. 그래서
모델들을 실제로 테스트하려면
여기서 프롬프트를 입력하고
코드베이스와의 통합을 봐야 합니다.
먼저 Claude 3.5 Sonnet으로 시작해보죠.
솔직히 이건 제가 처음 시도한 AI 코딩
도구였는데 정말 대단했습니다.
믿을 수 없을 정도로 정확하고,
제가 요청한 것을 최소한의 불필요한
설명 없이 정확하게 실행합니다.
제 경험상 거의 불필요한 내용이 없었고,
필요한 모든 맥락도 이해합니다.
특정 코드 파일에서 뭔가를
요청하면, 그 파일이 다른 파일들과
어떻게 연결되어 있는지 파악하고
거기에 있는 파일들도 분석해서
전체 맥락을 이해한 다음
최상의 코드를 작성합니다.
또한 맥락을 잘 유지하여
다른 모델들처럼
5개 메시지 전에 언급했던 내용을
다시 설명할 필요가 없습니다.
왜냐하면 모델이
기억하고 있기 때문이죠.
속도는 좀 느린 편이지만,
빠르지만 디버깅에 많은 시간을
쓰는 것보다 느리더라도
정확한 게 낫습니다.
이 모델이 오래되었지만
여전히 최고의 모델 중 하나입니다.
매우 정밀하고 신중한 작업이
필요할 때 이상적인
모델이라고 할 수 있죠.
한 가지 분명히 말씀드리자면,
이 영상은 Windsurf나
다른 AI 모델들의 후원을 받지 않았고,
MicroCenter의 후원을 받았습니다.
아시다시피 그들은
상상할 수 있는 모든 모니터와
키보드, 마우스, 조립PC,
컴퓨터 부품, 케이블, 스위치 등
모든 것을 취급합니다.
그리고 만약 Apple 제품을
구매하고 싶으시다면 지금이 적기입니다.
Mac Studio부터 Mac Mini,
MacBook Air, MacBook Pro까지
모든 제품이 현재 MicroCenter에서
할인 중입니다. 그리고 말씀드리고 싶은데
이것들은 최신 제품이지
구형 제품이 아닙니다.
매장에서 구매하려고 하시는 거라면
이것들은 2024년 말에서 2025년 초의 새로운 제품들입니다
만약 여러분이 새로운 Apple M4 칩을 가지고 있고
마이크로센터가 근처에 있는 운 좋은 분이라면
꼭 매장을 방문해보세요
매장에는 매우 도움이 되는 직원들이 많이 있습니다
제가 얼마 전에 Nix OS를 설치하기 위해
미니 PC를 사러 갔을 때
콘텐츠 제작용 PC와
코딩용 PC를 어떻게 설정할지
KVM 스위치와 함께 어떻게 구성할지
KVM 스위치 관련해서 잘 몰랐는데
직원분들이 정말 큰 도움이 되었습니다
근처에 매장이 없다면
아래 설명란의 링크를 클릭하시면
모든 세일 정보를 확인하실 수 있고
원하시는 모든 것을 검색하실 수 있습니다
그리고 캘리포니아 산타클라라에 사시는 분들은
곧 마이크로센터 매장이
들어설 예정이니
꼭 확인해보세요. 자, 영상으로 돌아가서
하지만 이 모델은 약간 안전하게 접근하는 경향이 있어서
관련된 모든 파일을 분석하긴 하지만
문제가 있거나 개선이 필요한 파일들은
리팩토링하지 않습니다
이는 좋은 점이면서도
나쁜 점이기도 합니다
작업에 충실하다는 점에서는 좋지만
개선이 필요한 부분을 놓친다는 점에서는 아쉽죠
Claude 3.7 Sonnet의 경우는
너무 야심적이라고 할 수 있습니다
특정 파일에 필요한 것보다
더 많은 것을 읽어들이고
읽은 모든 파일에 대해
'이건 리팩토링이 필요하고
이 함수는 삭제해야 하고
여기도 저기도 수정이 필요해'라며
모든 곳에 관여하려고 합니다
결국 5-6개의 변경사항을
검토해야 하는 상황이 되는데
원래는 하나만 요청했었죠
3.5보다 성능이 좋다고 할 수 있지만
집중력이 떨어지는 편입니다
이런 야심 때문에 종종 과도하게 확장되어
어떤 함수를 삭제하고는
다른 것으로 교체해야 하는 것을
잊어버리거나
보다 보면
'왜 이 함수를 삭제했지?
저 파일에
이 함수가 필요한데'라는 생각이 들죠
확장된 사고 모드에 대해서는
제가 좋아하지 않습니다. 환각이 너무 많고
시간도 오래 걸리고 비용도 많이 들며
불필요하게 복잡하게 만들려고 합니다
그래서 이 사고 모드는
제게는 선택지가 아니에요
3.7 자체도
추천하지 않을 것 같습니다
새로운 Gemini 2.5 Pro의 열등한 버전처럼 느껴지거든요
Gemini 2.5 Pro는 3.5의 장점과
3.7의 장점을 모두 결합한 것 같습니다
3.5만큼 정확하거나 더 정확하며
3.7처럼 넓은 시야를 가지고 있지만
불필요한 코드는 건드리지 않습니다
앞서 말씀드린 것처럼
3.5는 모든 파일을 분석하지만
요청받은 부분에 대해서만 코드를 작성하고
약간의 탐색만 하는 반면
2.5 Pro는 별도로 지정하지 않는 한
실제로 수정사항을 추천하고
리팩토링도 제안합니다
이런 식으로요
또한 매우 큰 컨텍스트 윈도우를 가지고 있어서
컨텍스트 윈도우가 매우 크기 때문에
함수를 삭제할 때도 다른 부분을 잊어버리지 않고
대체해야 할 부분을 정확히 기억합니다.
3.7 버전은 이전에 요청받은 모든 내용과
보았던 모든 것을 기억하며
큰 컨텍스트 윈도우 덕분에
발생하는 실수도
다른 모델들보다 훨씬 더 사소한 수준입니다.
때로는 AI 모델이
지시하지 않은 코드를 건드리지 않길 원하지만
만약 그렇게 할 수 있고
제대로 처리할 수 있는 모델이 있다면
그것이 바로 Gemini 2.5 Pro입니다.
대규모 코드베이스가 있고
처리해야 할 작업이 많거나
대규모 리팩토링이 필요하거나
복잡하고 중요한 작업이 있다면
이 모델을 추천합니다.
그리고 한 가지 더 말씀드리자면
Gemini 2.5 Pro가 현재 제가 가장 선호하는 모델입니다.
3.5 Sonnet보다도 더 선호하는데
범위가 좀 더 넓음에도 불구하고
전반적인 코드 품질이 더 우수하기 때문입니다.
그 다음으로는
3.7 Sonnet과 정반대 성향을 가진
Claude 3 Opus Mini를 소개하겠습니다.
3.7 Sonnet이 모든 곳에 접근하고
모든 코드를 건드리려 하는 반면
Claude 3 Mini는 전혀 그렇지 않습니다.
요청한 코드조차도
완전히 작성하지 않으려 합니다.
대부분을 작성한 후에
수동으로 반복 작업을 해야 합니다.
'이것을 추가해야 해요'라고 하면
그 한 줄만 추가하고
또 다른 것을 추가해야 하면
한두 줄 더 추가하는 식으로 진행됩니다.
정확하고 정밀한 코드를 얻을 수 있지만
여러 번의 수동 반복 작업이 필요합니다.
또한 전체 코드베이스의 맥락을
거의 분석하지 않기 때문에
주변 코드에 대한 이해가 부족합니다.
따라서 더 많은 통제력과
정밀성을 원한다면
3.5보다는 정확히 무슨 일이 일어나는지
알 수 있는 Claude 3 Mini가 좋은 선택일 수 있습니다.
하지만 그 정도라면 차라리
코드 파일 안에서 탭 자동완성을
사용하는 게 낫습니다. 마치
탭 자동완성의 불편한 버전 같아요.
프롬프트를 작성해야 하고...
영상에서 보셨겠지만
이게 가장 이상했는데
코드를 작성한 후에
'업데이트했으니 버튼을 테스트해보세요'라고 했어요.
잘 작동한다고 하니 데이터를 저장하자고 했고
'업데이트하겠습니다'라고 했죠.
변경사항을 적용하자고 했더니
'지금 업데이트하겠습니다'라고만 하고
이전 변경사항을 적용하지 않았어요.
코드 변경을 요청했더니
계속 '변경사항을 적용하겠습니다'만 반복하고
현재 상태에서
실제 프롬프트를 하려는데
'변경사항을 적용하겠습니다'라고만 하더니
'네, 진행하겠습니다'라고 했을 때
코드를 diff 형태로만 보여주고 실제로 적용하지는 않았어요.
코드베이스에 추가해달라고 하니
또다시 '한 번에 적용하겠습니다'라고만 하고...
이게 Claude 3 Mini의 Windsurf 버전인데
Cursor에서는 어떤지 모르겠지만
제가 경험해본 바로는
최악의 사용자 경험이었습니다.
마지막으로 GPT-4.0을 살펴보겠습니다.
이것은 코딩 AI 모델 중에서
가장 뛰어난 것 중 하나로 알려져 있죠.
이 벤치마크에 따르면, 3월 26일에
새로운 업데이트가 있었는데요.
지브리 스튜디오 스타일의
이미지 생성 기능이 포함된
그 업데이트와 함께
코딩 능력도 향상되었다고 합니다.
그런데 느낌상으로는
Claude 3.5를 따라하려 하지만 그만큼 좋지는 않아요.
정확도도 떨어지고 환각 현상도 더 많이 발생하며
특히 이상한 점은
어떤 이유에서인지
동일한 코드를 반복해서 덮어쓰는 경향이 있습니다.
3.5보다 나은 점은
속도가 더 빠르다는 것뿐인데
뭔가가 더 빠르지만
훨씬 더 많은 오류가 있다면
차라리 시간이 더 걸리더라도
정확한 것을 선호합니다.
코딩할 때는 4.0을 쓰지 말고
채팅용으로 사용하세요. 아이디어를
주고받을 때는 정말 좋은
대화 상대가 되어줍니다.
"형, 진짜 잘하고 있어요. 진짜
대박이에요." 이런 식으로요.
요즘 유행하는 말투는 잘 모르지만
그런 식으로 친근하게 대화하려고 해요.
하지만 이건 코딩과는 무관하죠.
이제 어떤 것이 가장 좋은지
알아보도록 하겠습니다. 아쉽게도
Claude는 3.5 Sonnet에 대해 요금을 부과하지만
3.7 Sonnet은 무료로 사용할 수 있어서
3.5는 건너뛰고 3.7을 살펴보겠습니다.
이론적으로 제가 이전에 해봤던
다른 테스트들을 보면
3.7이 원샷 시도에서 더 나은 결과를 보여줬는데
스포일러를 하자면 최고는 아니에요.
어떻게 작동하는지 봅시다.
이런 프롬프트를 입력했어요.
"Kitten Cannon 같은 중독성 있는 발사 게임을 만들어줘.
p5.js만 사용하고 HTML은 제외해. 화면에 설명을 표시하고
픽셀화된 동물들과 재미있는
물리 효과, 그리고 날아가게 하거나
멈추게 하는 랜덤 장애물을 넣어줘"
약 1분 40초 후에
이런 결과가 나왔습니다.
p5.js 웹 에디터를 열어서 실행해보겠습니다.
음... 예상과는 좀 달랐네요.
하지만 쉽게 고칠 수 있을 것 같아요.
에러는 없지만
발사 후 화면이 캐릭터를
따라가지 않는다고 설명하고
궤도 조정을 위해 위아래로
조준할 수 있어야 한다고 했더니
그게 해결됐지만
이제는 장애물들이
뭐라고 설명해야 할지도 모르게
떠다니고 있네요.
물론 고칠 수는 있겠지만...
장애물들이 이상하게
위아래로 움직이고 있어요.
제자리에 있어야 하는데...
아니네요, 이건 안 되겠어요.
잠깐, 뒤로 가고 있나요?
다음으로 넘어가죠.
Gemini 2.5 Pro로 해봤는데, 처음에는 에러가 났어요.
수정 후에는 게임이 작동했지만
충돌 감지 에러가 발생했고
추가 프롬프트로 해결했더니
꽤 괜찮은 게임이 완성됐습니다.
모든 코드를 직접 작성했고
몇 가지 오류만 수정하면 됐는데
진정한 바이브 코딩 방식으로
스스로 해결했죠. 확실히 3.7보다 낫네요.
GPT-4.0은... 맨 처음 녹화를 시작하는 걸
깜빡했지만, 동일한 프롬프트를
모두 같은 방식으로 테스트했어요
실제로 첫 시도에서 작동은 했는데
물론 '작동'의 기준에 따라 다르겠죠
제가 발견한 문제점은 너무 많은 오류가 있었다는 거예요
충전 기능도 없고, 조준도 안 되고
카메라도 제대로 작동하지 않았어요
발사 거리도 충분하지 않았고
픽셀들이 지면 위에 떠있는데
움직이지도 않았어요
GPT-3.7보다는 나았지만...
솔직히 말해서 다른 모델들만큼
여러 번 시도해보지는 않았어요
그럴 가치가 없다고 봤거든요. Claude-3 Opus도
시도해봤는데, 제가 깜빡한 게
이전 대화 기록이 남아있었다는 거예요
그래서 GPT-4.0과 비슷한 결과가
나온 것 같아요. 흥미로운 발사 시스템은 있는데
그다지 강력하지는 않았죠
다시 한번 시도해볼 필요가 있어요
오, 이게 훨씬 더 멀리 날아가네요
처음엔 파워가 약한 줄 알았는데
드래그하는 거리에 따라
발사 거리가 달라지는 것 같아요
특정 지점 이후에는 장애물이
없네요. 흥미롭네요
무한히 진행되지는 않고, 빨간 장애물은
속도를 늦추고 초록색은 가속시켜요
실제로 꽤 멋진 메커니즘이에요
하지만 이건 프롬프트와는
다르게 구현된 거예요
제가 '무작위 장애물이 날려보내거나 완전히 멈추게 한다'고 했는데
초록색은 날려보내는 게 아니라
부스트만 주고
빨간색도 완전히 멈추는 게 아니라
속도만 늦추죠
독특하고 좋긴 하지만
프롬프트를 정확히
따르지는 않았어요. 결과적으로 Gemini 2.5 Pro가
세 번의 반복이 필요했고
대부분의 코드를 처음에 작성하고
두 개의 오류만 수정하면 됐는데
프롬프트에 가장 충실한 최고의 게임을 만들었어요
Claude-3 Opus가 2위인데
프롬프트를 정확히 따르진 않았지만
200줄의 코드를 한 번에 작성했고
꽤 멋진 메커니즘을 구현했어요
나름대로 독특한 게임을 만들려고
시도했고 잘 작동했죠
반면에 GPT-3.7과 4.0은
3,4위를 매길 가치도 없어요
완전히 형편없었거든요
이제 Rust 리팩토링 결과를 보면
네 개의 AI 모두 올바르게 처리한 건
Vec<input>을 슬라이스로 변경한 거예요
불필요한 클로닝을 피할 수 있죠
그리고 windows_2_next를 windows_2_all로 변경했는데
이게 더 효율적이고 읽기 쉽고
관용적인 표현이에요
Claude, GPT-4.0, Claude-3 Opus는
unwrap 대신 expect를 사용했는데
메시지는 더 좋지만
여전히 패닉이 발생해요. 반면 Gemini 2.5 Pro는
Result, ? 연산자와 match 로직을 사용해서
잘못된 라인을 로깅하고
계속 진행하도록 했어요
모두 작동은 하지만 2.5 Pro가
확실히 더 나은 것 같네요. 다른 세 개는
전체 벡터를 복제해서 제거했는데
이건 비효율적이에요. Gemini는
filter_map이나 슬라이싱을 사용해
특정 인덱스를 건너뛰면서 새 벡터를 만들어요
더 효율적이고 메모리 사용도 적죠
흥미로운 점은 Gemini와
Claude가 'report_late_less_than_2'를 true로 반환했는데
이건 논리적으로 맞는 거예요
하지만 OpenAI 모델들은
false를 반환했고
이건 기술적으로 틀렸죠. Claude와 Claude-3 Opus는
map과 sum을 함께 사용했는데, 이건 좋아요
완벽하게 작동하고 오류 처리도
제한적이에요. GPT-4.0과 Gemini는
이 부분에 for 루프를 사용했는데
우아하진 않지만 더 나은 오류 처리가 가능하고
더 많은 제어가 필요할 때
유용하죠. 하지만 이 경우에
그게 필요한지는 여러분이
판단하시면 될 것 같아요
결론적으로 2.5 Pro가
훨씬 더 나은 것 같고, GPT-3.7이
2위를 차지할 것 같아요
2.5 Pro와 비슷한 부분이 있었고
조금 더 나은 면이 있었거든요
Claude-3 Opus와 GPT-4.0은 매우 비슷했는데
Claude-3 Opus가 약간 더 나았지만
그래도 그저 그랬어요
이게 제가 발견한 거예요
다시 요약할 필요는 없을 것 같아요
영상 전체에서 각각의 장단점과
어떤 상황에 추천하는지
다 설명했거든요. 이건 새로운 프레임워크나
인기 없는 언어를 사용할 때
달라질 수 있고
코드베이스의 크기나
다른 여러 변수들에 따라
어떤 게 더 나은지가 달라질 수 있어요
하지만 이 영상에서는
최대한 광범위하게 테스트해봤어요
도움이 되었길 바랍니다