GPT-5 Codex 성능 테스트: 로컬 전사 앱 직접 만들어보기

채널 아이콘
Prompt Engineering 구독자 190,000명

요약

이 영상에서는 OpenAI의 최신 에이전틱(Agentic) 코딩 도구인 GPT-5 Codex CLI를 활용해, 일상적으로 쓰는 로컬 전사 앱을 재구성하며 성능을 검증합니다. Python 백엔드와 Whisper Small MLX 모델을 Apple Silicon 환경에서 구동해 실시간 전사 기능을 구현하고, 메뉴바 모델 표시 및 전사용 통계를 추가해 기능을 완성합니다. 전반적인 개발 과정과 시간 측정, 문서 접근 제한 문제 해결 등을 담아 GPT-5 Codex의 실제 활용 가능성과 효율성을 보여줍니다.

주요 키워드

GPT-5 Codex 실시간 전사 Whisper Small MLX 프레임워크 에이전틱 코딩 핫키 토큰 동적 할당 Python 백엔드 Apple Silicon Codex CLI

하이라이트

  • 🌟 GPT-5 Codex CLI를 이용해 일상적으로 쓰는 로컬 전사 앱을 재구성해 성능을 테스트함.
  • ⏱️ 최초 구현에 약 9분, 전체적으로 30분 안에 완전 기능을 갖춘 앱을 만들어내 매우 빠른 생산성을 확인함.
  • 💡 Whisper Small MLX 모델 기반으로 실시간 전사를 지원하며, Apple Silicon(M2 Max)에서 빠르게 동작함.
  • ⚠️ Codex CLI 환경은 기본적으로 인터넷 접근이 차단돼 문서 조회가 불가해, 패키지 로더 경로를 직접 수정해야 했음.
  • 🔑 핫키 오류를 반복 수정해 음성 피드백과 전사 기능을 성공적으로 트리거함.
  • 📊 메뉴바에 사용 중인 모델과 전사 통계(단어 수, 키스트로크 절약량, 소요 시간)를 추가해 편의성을 높였음.
  • 🚀 GPT-5 Codex high 설정은 에이전틱 코딩 도구로서 자체적으로 7시간 이상 대규모 작업을 처리하고, 동적 토큰 할당 기능을 활용함.
  • 👍 30분 이내에 완전한 로컬 전사 앱을 완성하며 GPT-5 Codex의 뛰어난 코드 생성 능력을 입증함.

용어 설명

GPT-5 Codex

코드 생성에 특화된 OpenAI의 최신 대형 언어 모델

CLI

Command Line Interface(명령줄 인터페이스)의 약어로, 텍스트 명령어로 시스템에 접근하는 방식

PRD (Product Requirements Document)

제품 요구사항 문서로, 구현할 기능과 제약사항을 체계적으로 정리한 자료

Whisper

OpenAI의 음성 인식(Automatic Speech Recognition) 모델 시리즈 중 하나로, 음성을 텍스트로 변환하는 데 사용됨

MLX 프레임워크

머신러닝 모델을 경량화된 방식으로 로드하고 관리하기 위한 프레임워크

Agentic coding tool

스스로 계획·수행·반복하며 코드를 생성하는 자율적인 코딩 에이전트 도구

핫키

특정 기능을 빠르게 실행하기 위해 지정한 키보드 단축키

[00:00:00] 앱 소개 및 데모

로컬 전사 앱 개념 설명: 클릭한 텍스트 박스에 음성을 전사하고, 핫키로 기록 시작·종료 시 오디오 피드백을 제공하는 방식을 시연합니다.

Codeex CLI를 테스트하기 위해 개발자가 일상적으로 사용하는 로컬 음성 변환 앱을 재현하는 프로젝트를 시작합니다. 이 앱은 클릭한 텍스트 박스에 음성을 실시간으로 변환해서 입력해주는 기능을 제공합니다.
[00:00:32] GPT-5 Codex CLI 설정 및 초기 준비

PRDMD 문서를 기반으로 GPT-5 Codex high 설정 선택, VS Code 통합, Python 백엔드와 Apple Silicon 환경 구성을 안내하고 MLX 프레임워크 도입을 설명합니다.

실제 데모를 통해 앱의 작동 방식을 보여줍니다. 단축키를 누르면 오디오 피드백이 들리고, 음성을 입력한 후 다시 단축키를 누르면 텍스트가 자동으로 입력되는 구조입니다.
새로운 GPT-5 CEX 하이 버전을 사용하여 프로젝트를 진행할 것이라고 설명하며, 개발 소요 시간을 측정하기 위해 스톱워치를 시작합니다. 이 버전은 코딩에 특화되어 최적화된 모델입니다.
[00:01:08] 코드 생성 시작 및 파일 분석

Codex CLI가 프로젝트 파일을 읽고 요구사항을 정리 후, 모듈 레이아웃 설계와 작업 목록을 생성해 초기 코드 스켈레톤을 자동 생성합니다.

구축할 시스템의 기술 스펙을 설명합니다. Python 백엔드를 사용한 독립 실행형 애플리케이션으로, Apple Silicon에서 MLX 프레임워크를 통해 음성-텍스트 변환과 LLM을 활용한 문법 교정 기능을 제공할 예정입니다.
프로젝트를 오픈소스로 공개할 계획이라고 밝히며, 관심 있는 사용자들을 위한 이메일 업데이트 시스템을 소개합니다. 또한 LLM과 추가 기능이 포함된 더 고급 버전도 개발 중이라고 언급합니다.
실제 개발 과정이 시작되면서 Codex CLI가 파일을 읽고 접근 방식을 계획하며 폴더 구조를 검사하는 모습을 보여줍니다. 작업 목록이 생성되고 첫 번째 단계로 요구사항과 설계 이해가 시작됩니다.
GPT-5 코덱스가 Verbby 앱의 기본 구조를 완성했습니다. 모듈 레이아웃, 전사 녹화 기능, 단축키, 메뉴바 등을 구현하고 보조 에셋까지 추가했습니다.
새로운 GPT-5 코덱스 모델의 핵심 특징을 설명합니다. 7시간 이상 독립적으로 작업하며, 작업 복잡도에 따라 토큰 생성량을 동적으로 조절하는 능력을 가지고 있습니다.
토큰 생성의 적응형 특성을 구체적으로 설명합니다. 간단한 작업에서는 90% 적은 토큰을, 복잡한 작업에서는 최대 100% 더 많은 토큰을 생성할 수 있습니다.
첫 번째 구현이 완료되기까지 9분이 소요되었습니다. 이제 실제 테스트 단계로 넘어가며, 플러스 계정의 사용량 한도에 대한 우려도 표현합니다.
[00:04:50] 첫 번째 구현 완료 및 테스트

약 9분 만에 첫 번째 버전 구현 완료. 가상환경 생성·의존성 설치 후 실행하나, 핫키가 작동하지 않는 오류를 확인합니다.

개발 환경을 설정하고 앱을 테스트하기 시작합니다. Python 3.10으로 가상 환경을 만들고 필요한 패키지들을 설치합니다.
[00:05:34] 핫키 오류 파악 및 수정 시도

스톱워치를 재시작해 1분 45초 만에 코드를 업데이트. 인터넷 차단으로 문서 조회 실패 원인을 발견하고, 패키지 로더 경로를 수동으로 조정합니다.

첫 번째 테스트에서 전사 기능은 작동하지만 단축키는 제대로 동작하지 않는 문제를 발견했습니다. 에러가 발생해 문서 참조가 필요한 상황입니다.
코드를 수정하는 데 1분 45초가 걸렸습니다. 코딩 에이전트가 패키지 버전을 고정하는 일반적인 문제점을 언급하며, 단축키 기능을 다시 테스트해봅니다.
새로운 전사 모델로 두 번째 테스트를 진행했지만 여전히 같은 문제가 발생했습니다. GPT-5 코덱스의 첫 번째 실제 구현 테스트에서 몇 가지 기술적 문제들을 확인했습니다.
코드엑스의 문서 접근 제한으로 인한 문제를 설명하고, 패키지 고정 버전 사용의 어려움을 언급합니다.
핫키 기능이 작동하지 않아 수동으로 전사 기능을 테스트하며, 모델 다운로드가 성공적으로 진행됨을 확인합니다.
[00:07:31] 핫키 작동 및 오디오 피드백 성공

명령어 조정 후 핫키가 정상 작동해 녹음 시작·종료 시 오디오 피드백을 확인. 20분 내에 기본 전사 시스템을 완성합니다.

전사 기능은 작동하지만 핫키 문제가 지속되어 메뉴에서 수동 실행이 필요한 상황을 설명합니다.
핫키 수정 후 녹음이 성공적으로 시작되고 오디오 피드백까지 받으며, 20분 만에 사용 가능한 로컬 전사 시스템을 구축했다고 평가합니다.
메뉴 바에서 사용 중인 모델을 표시하는 기능을 추가 요청하고, Whisper Small MLX 모델이 M2 Max에서 빠르게 작동함을 확인합니다.
전사된 단어 수, 절약된 키 입력, 총 절약 시간 등의 통계를 세션 간에 지속적으로 보여주는 기능 추가를 요청합니다.
[00:09:46] 메뉴바 모델 표시 기능 추가

Whisper Small MLX 모델 정보와 실행 환경(M2 Max, 96GB 통합 메모리)을 메뉴바에 표시하는 기능을 구현해 사용자 편의성을 높입니다.

타임라인 정보가 없습니다.

[00:10:01] 통계 기능 구현 및 세션 유지

전사 단어 수, 절약된 키스트로크, 총 소요 시간 통계를 세션 간에 저장해 보여주는 기능을 추가해 생산성 지표를 제공합니다.

새로운 기능 구현 완료 후 앱을 테스트하여 음성 인식 통계가 정확히 표시되는지 확인하고, 모델 로딩/언로딩 과정을 점검한다.
23개 단어, 141개 키 등 음성 인식 결과가 정확하게 나타나며, 계속해서 기능을 개선해 나갈 예정이라고 설명한다.
[00:11:01] 총평 및 향후 계획

GPT-5 Codex high 설정의 에이전틱 코딩 도구로서의 우수성을 확인하고, 향후 LLM 통합 및 독립 실행형 앱 개발 계획을 예고합니다.

GPT-5 코덱스 고급 설정이 매우 인상적인 에이전틱 코딩 도구라고 평가하며 강력히 추천하고, 다른 코딩 에이전트들과 비교했을 때도 우수한 성능을 보인다고 언급한다.
약 30분 만에 완전히 작동하는 음성 인식 앱을 구현했다며, 다음 단계로 LLM 부분 추가와 독립 실행형 버전 제작을 계획한다고 밝힌다.
Codeex CLI를 테스트해보겠습니다.
제가 매일 사용하는 앱을 재현해서 말이죠.
로컬 음성 변환 앱을 만들었는데
음성을 텍스트로 변환해주는
앱입니다.
클릭한 텍스트 박스에 바로 입력됩니다.
작동 방식은 단축키를 누르면
오디오 피드백이 들리고
음성을 입력할 수 있습니다.
다시 단축키를 누르면
텍스트가 입력되는 구조입니다.
간단히 데모를 보여드리겠습니다.
로컬 음성 변환 앱을 만들어주세요.
제 음성을
어떤 텍스트 박스에든 변환해서 입력하는 앱입니다.
제가 제공할 PRD를 따라서
모든 기능을 구현해주세요.
초기 버전에 말입니다.
실시간 변환입니다.
위스퍼 베이스 모델을 사용하고 있어서
상대적으로 작은 모델이지만
정확도는 꽤 높습니다.
이제 새로운
GPT-5 CEX 하이를 선택해보겠습니다.
소요 시간도 보여드리겠습니다.
스톱워치를 시작하겠습니다.
먼저 사용할 PRD를
보여드리고 싶습니다.
사용법과 PRD.MD를 입력하면 됩니다.
최신 GPT-5의 하이 설정을 사용하고 있습니다.
이 버전은
GPT-5의
코딩에 특화된
최적화 버전입니다.
Codex CLI에서 말이죠.
VS Code와 통합해서 사용하고 있습니다.
어떻게 작동하는지 보겠습니다.
만들려는 시스템의 이름은
임시 제목입니다. 변경될 수도 있지만
아이디어는
독립 실행형 애플리케이션으로
Python 백엔드를 사용해서
Apple Silicon에서 실행됩니다.
MLX 프레임워크를 사용해서
음성을 텍스트로 변환하는 모델과
나중에는 LLM도 로드해서
문법 오류를
수정할 예정입니다. 상세한 PRD와
코드 스니펫도 제공했습니다.
쉽게 만들기 위해 작동하는 코드를 작성했고
이제 새로운
GPT-5 코덱스 모델이 얼마나 좋은지 보겠습니다.
이 프로젝트를 오픈소스로 공개할 예정입니다.
관심이 있으시면
알려주세요. 이메일을 입력하는
박스가 있어서
프로젝트 업데이트를 받을 수 있습니다.
더 고급 버전도
작업 중인데
LLM과 다른 멋진 기능들이 들어갈 예정입니다.
이제 시작해보겠습니다.
그 전에 스톱워치를 시작하겠습니다.
소요 시간과 발생할 수 있는
문제들을 확인하고 싶습니다.
이것이 바로
실제 애플리케이션의
Codex CLI로 구축할 수 있는 예시입니다.
실제로는 IDE에 통합된
코덱스를 사용하고 있습니다.
현재 파일을 읽고 있습니다.
파일을 읽고
접근 방식을 계획하고 있습니다.
폴더 구조를 검사하고 있네요.
폴더에는 PRD 파일만 있습니다.
완성되면 다시 돌아오겠습니다.
작업 목록이 추가되었습니다.
첫 번째는
Verbby용 모듈 레이아웃을 구현했습니다.
그 다음에는 전사 녹화 단축키와 메뉴바를 추가하고
마지막으로 보조 에셋을 추가했습니다.
꽤 깔끔하게 나왔고 실제로 작동하는 것도 확인할 수 있어요.
폴더를 생성하고 초기 코드까지 만들어줬습니다.
제가 제공한 코드 스니펫을 기반으로 한 것 같네요.
이렇게 작동하는 동안
새로운 GPT-5 코덱스 모델은 원래
대규모 복합 작업에서 한 번에 7시간 이상
독립적으로 작업할 수 있다고 합니다.
구현을 반복하고 테스트 실패를 수정하는 등
다양한 작업을 수행하죠.
정말 놀라운 기능이에요.
특히 생성할 수 있는 토큰 수가
작업의 복잡도에 따라 동적으로
선택된다는 점이 흥미로워요.
예를 들어 GPT-5 기준으로
매우 간단한 작업을 제공하면
가장 쉬운 작업의 하위 10%에 해당하는 경우
약 90% 적은 토큰을 생성한다고 해요.
하지만 복잡도 측면에서
상위 10%에 해당하는 작업들의 경우
최대 100% 더 많이, 즉
GPT-5 모델이 생성하는 토큰의 두 배까지 생성할 수 있다고 합니다.
그래서 저도 이 앱을 만드는 데
실제로 얼마나 걸리는지 시간을 재보고 싶어요.
벌써 5분이 지났는데
아직 구현 단계에 있네요.
지금 제가 걱정하는 건
앱을 만드는 동안 플러스 계정의
사용량 한도에 걸리지 않을까 하는 거예요.
첫 번째 반복 작업, 즉
첫 번째 구현이 방금 완료되었고
총 9분 정도 걸렸습니다.
이제 테스트해서 제대로 작동하는지
확인해볼 시간이에요.
먼저 새로운 가상 환경을 만들어보겠습니다.
코덱스 워드 v라고 이름을 지었고
Python 3.10을 사용하겠습니다.
다음으로 모든 요구사항을 설치해보겠습니다.
실제로 만들어졌는지 확인해볼게요.
네, 여기 있네요.
이제 작동하는지 확인해볼 시간입니다.
실행해보겠습니다.
아직 아무것도 보이지 않네요.
모델을 다운로드하고 있는 것 같아요.
시작된 것을 확인할 수 있습니다.
전사 기능이 작동하는지 테스트하는 빠른 녹화입니다.
단축키는 확실히 작동하지 않습니다.
녹화를 멈추고 무슨 일이 일어났는지 봅시다.
문제가 발생했네요.
이걸 복사할 수 있는지 모르겠지만
문서를 찾아봐야 할 것 같아요.
첫 번째 시도에서는 그렇게 하지 않은 것 같습니다.
자, 이렇게 해보겠습니다.
스톱워치를 다시 시작하고
얼마나 걸리는지 봅시다.
약 1분 45초가 걸렸네요.
코드를 업데이트한 것 같습니다.
제가 발견한 일반적인 문제 중 하나는
보통 이런 코딩 에이전트를 사용하면
다양한 패키지 버전을 고정해서
문제가 발생할 수 있다는 점이에요.
먼저 단축키가 작동하는지 봅시다.
실제로 여기서 뭔가 작동하는 것 같네요.
실행해보겠습니다.
이것은 새로운 전사 모델의 전사 기능에 대한 빠른 테스트입니다.
또 같은 문제가 발생했네요.
실제로 문서를 찾아보도록 요청해야 할 것 같습니다.
이 부분에서 모델이나 코딩 에이전트와 많은 대화를 주고받게 될 겁니다.
이 경우에는 패키지에 대한 고정 버전을 사용하는 것을 볼 수 없습니다.
코드엑스의 가장 큰 문제 중 하나는
기본적으로 인터넷에 액세스할 수 없다는 것입니다.
즉, 문서를 찾아볼 수 없습니다.
예를 들어, 문서에 직접 접근할 수 없다고 나와 있습니다.
이 환경은 네트워크 액세스가 차단되어 있습니다.
그래서 패키지가 런타임에 노출하는 것을 기반으로
로더 경로를 업데이트했습니다.
한 번 더 시도해보겠습니다.
큰 기대는 하지 않지만, 한번 보겠습니다.
음, 핫키가 작동하지 않는 것 같습니다.
괜찮습니다. 직접 실행해보겠습니다.
이것은 전사 기능의 빠른 테스트입니다.
이제 중지해보겠습니다.
좋습니다. 이번에는 실제로 모델을 다운로드하고 있네요.
좋은 소식입니다. 완벽하게 작동했습니다.
다른 테스트를 해보겠습니다.
하지만 문제는 여기서 직접 실행해야 한다는 것입니다.
전사는 작동하는 것 같습니다.
하지만 문제는 메뉴 바로 가서
시작과 중지를 클릭해서 실행해야 한다는 것입니다.
핫키가 실제 전사 파이프라인을
실행시키지 못하는 것 같습니다.
네, 작동했습니다.
이것을 보내서 코드엑스가
해결책을 찾을 수 있는지 봅시다.
그런데, 초기 9분에 더해서
6-7분 정도 더 진행한 것 같습니다.
계속 진행해보겠습니다.
수정 사항을 구현한 것 같은데, 이번에는
핫키를 변경했네요.
이제 Command와 Shift가 되었습니다.
봅시다.
녹음이 실제로 시작된 것 같고
오디오 피드백도 들렸습니다. 정말 멋지네요.
훌륭합니다. 정말 멋지지 않나요?
20분 내에 로컬 전사에 사용할 수 있는
시스템을 구축했다고 생각합니다.
지금까지 훌륭한 진전입니다.
이제 하고 싶은 것은 메뉴 바에서
어떤 모델이 사용되고 있는지 볼 수 있는
기능을 추가하는 것입니다.
전사에 어떤 모델이 사용되고 있는지도 보여줄 수 있나요?
이번에 전사를 실행했을 때는
초기 오디오는 들리지 않았지만
전사는 할 수 있었습니다.
지금 Whisper Small MLX를 사용하고 있는데, 꽤 괜찮은 모델입니다.
96GB 통합 메모리가 있는 M2 Max에서 실행하고 있지만,
여전히 정말 빠릅니다.
다시 재시작해보겠습니다.
여기서 사용되고 있는 모델을
실제로 볼 수 있습니다. 정말 좋네요.
통계도 추가할 수 있나요?
그리고 이것은 다른 세션에서도
유지되어야 합니다.
얼마나 많은 단어가 전사되었는지,
얼마나 많은 키 입력이 절약되었는지,
그리고 전사 과정에서 절약된 총 시간을 보고 싶습니다.
이것이 맞는 것 같습니다.
계속 진행해보겠습니다.
좋습니다.
새로운 기능이 구현된 것 같네요.
이걸 다시 지우고 다시 실행해서
어떻게 되는지 보겠습니다.
실제로
여기에 통계가 표시되고 있네요.
이제 이걸 실행해보겠습니다. 모든 음성 인식
이후에
모델을 언로딩하고
다음 음성 인식을 위해
모델을 다시 로딩하고 있는 것 같은데
실제로 그런 건가요? 음성 인식이 정확하네요.
이제 다시 돌아가면 23개의
단어가
141개 키로 나타나네요. 정확해 보입니다.
하지만 실제로 그런지 확인해보겠습니다.
계속 작업할 예정이지만
솔직히 꽤
인상적이라고 말하고 싶습니다. 고급 설정의 GPT-5 코덱스는
정말 좋은 에이전틱 코딩 도구이고
테스트해보시길 강력히 추천합니다.
계속 테스트해서
문제점을 찾아보거나
파악해보겠습니다. 여러 다른 코딩 에이전트로
같은 앱을 복제해 본 경험이 있는데
다양한 성공률로
구현할 수 있었습니다. 하지만
정말 인상적인 게
거의 30분 안에
완전히 작동하는 앱을, 최소한
음성 인식 기능은 만들어냈다는 것입니다. 이제
LLM 부분을 추가하고
이것의 독립 실행형 버전을 만들어보겠습니다.
관심 있으시면 그 영상도
기대해주시고
음성 인식 앱에 관심이 있으시면
알림 설정도 해주세요.
어쨌든, 이 영상이 유용했기를 바랍니다.
시청해 주셔서 감사하고
언제나 그렇듯이, 다음 영상에서 뵙겠습니다.