[00:00]
Codeex CLI를 테스트해보겠습니다.
[00:03]
제가 매일 사용하는 앱을 재현해서 말이죠.
[00:05]
로컬 음성 변환 앱을 만들었는데
[00:09]
음성을 텍스트로 변환해주는
[00:12]
앱입니다.
[00:14]
클릭한 텍스트 박스에 바로 입력됩니다.
[00:17]
작동 방식은 단축키를 누르면
[00:19]
오디오 피드백이 들리고
[00:22]
음성을 입력할 수 있습니다.
[00:24]
다시 단축키를 누르면
[00:27]
텍스트가 입력되는 구조입니다.
[00:29]
간단히 데모를 보여드리겠습니다.
[00:32]
로컬 음성 변환 앱을 만들어주세요.
[00:34]
제 음성을
[00:36]
어떤 텍스트 박스에든 변환해서 입력하는 앱입니다.
[00:40]
제가 제공할 PRD를 따라서
[00:44]
모든 기능을 구현해주세요.
[00:46]
초기 버전에 말입니다.
[00:48]
실시간 변환입니다.
[00:50]
위스퍼 베이스 모델을 사용하고 있어서
[00:53]
상대적으로 작은 모델이지만
[00:55]
정확도는 꽤 높습니다.
[00:57]
이제 새로운
[00:59]
GPT-5 CEX 하이를 선택해보겠습니다.
[01:02]
소요 시간도 보여드리겠습니다.
[01:05]
스톱워치를 시작하겠습니다.
[01:08]
먼저 사용할 PRD를
[01:10]
보여드리고 싶습니다.
[01:14]
사용법과 PRD.MD를 입력하면 됩니다.
[01:17]
최신 GPT-5의 하이 설정을 사용하고 있습니다.
[01:20]
이 버전은
[01:22]
GPT-5의
[01:26]
코딩에 특화된
[01:28]
최적화 버전입니다.
[01:31]
Codex CLI에서 말이죠.
[01:34]
VS Code와 통합해서 사용하고 있습니다.
[01:38]
어떻게 작동하는지 보겠습니다.
[01:40]
만들려는 시스템의 이름은
[01:42]
임시 제목입니다. 변경될 수도 있지만
[01:45]
아이디어는
[01:47]
독립 실행형 애플리케이션으로
[01:49]
Python 백엔드를 사용해서
[01:52]
Apple Silicon에서 실행됩니다.
[01:54]
MLX 프레임워크를 사용해서
[01:57]
음성을 텍스트로 변환하는 모델과
[02:01]
나중에는 LLM도 로드해서
[02:04]
문법 오류를
[02:06]
수정할 예정입니다. 상세한 PRD와
[02:10]
코드 스니펫도 제공했습니다.
[02:13]
쉽게 만들기 위해 작동하는 코드를 작성했고
[02:17]
이제 새로운
[02:19]
GPT-5 코덱스 모델이 얼마나 좋은지 보겠습니다.
[02:24]
이 프로젝트를 오픈소스로 공개할 예정입니다.
[02:28]
관심이 있으시면
[02:30]
알려주세요. 이메일을 입력하는
[02:33]
박스가 있어서
[02:35]
프로젝트 업데이트를 받을 수 있습니다.
[02:38]
더 고급 버전도
[02:40]
작업 중인데
[02:42]
LLM과 다른 멋진 기능들이 들어갈 예정입니다.
[02:45]
이제 시작해보겠습니다.
[02:48]
그 전에 스톱워치를 시작하겠습니다.
[02:51]
소요 시간과 발생할 수 있는
[02:54]
문제들을 확인하고 싶습니다.
[02:56]
이것이 바로
[02:58]
실제 애플리케이션의
[03:00]
Codex CLI로 구축할 수 있는 예시입니다.
[03:04]
실제로는 IDE에 통합된
[03:06]
코덱스를 사용하고 있습니다.
[03:09]
현재 파일을 읽고 있습니다.
[03:12]
파일을 읽고
[03:14]
접근 방식을 계획하고 있습니다.
[03:17]
폴더 구조를 검사하고 있네요.
[03:20]
폴더에는 PRD 파일만 있습니다.
[03:23]
완성되면 다시 돌아오겠습니다.
[03:26]
작업 목록이 추가되었습니다.
[03:28]
첫 번째는
[03:30]
Verbby용 모듈 레이아웃을 구현했습니다.
[03:32]
그 다음에는 전사 녹화 단축키와 메뉴바를 추가하고
[03:35]
마지막으로 보조 에셋을 추가했습니다.
[03:38]
꽤 깔끔하게 나왔고 실제로 작동하는 것도 확인할 수 있어요.
[03:40]
폴더를 생성하고 초기 코드까지 만들어줬습니다.
[03:43]
제가 제공한 코드 스니펫을 기반으로 한 것 같네요.
[03:46]
이렇게 작동하는 동안
[03:48]
새로운 GPT-5 코덱스 모델은 원래
[03:51]
대규모 복합 작업에서 한 번에 7시간 이상
[03:55]
독립적으로 작업할 수 있다고 합니다.
[03:58]
구현을 반복하고 테스트 실패를 수정하는 등
[04:03]
다양한 작업을 수행하죠.
[04:05]
정말 놀라운 기능이에요.
[04:07]
특히 생성할 수 있는 토큰 수가
[04:09]
작업의 복잡도에 따라 동적으로
[04:12]
선택된다는 점이 흥미로워요.
[04:14]
예를 들어 GPT-5 기준으로
[04:17]
매우 간단한 작업을 제공하면
[04:20]
가장 쉬운 작업의 하위 10%에 해당하는 경우
[04:24]
약 90% 적은 토큰을 생성한다고 해요.
[04:27]
하지만 복잡도 측면에서
[04:30]
상위 10%에 해당하는 작업들의 경우
[04:33]
최대 100% 더 많이, 즉
[04:35]
GPT-5 모델이 생성하는 토큰의 두 배까지 생성할 수 있다고 합니다.
[04:39]
그래서 저도 이 앱을 만드는 데
[04:42]
실제로 얼마나 걸리는지 시간을 재보고 싶어요.
[04:45]
벌써 5분이 지났는데
[04:47]
아직 구현 단계에 있네요.
[04:50]
지금 제가 걱정하는 건
[04:53]
앱을 만드는 동안 플러스 계정의
[04:56]
사용량 한도에 걸리지 않을까 하는 거예요.
[04:58]
첫 번째 반복 작업, 즉
[05:01]
첫 번째 구현이 방금 완료되었고
[05:04]
총 9분 정도 걸렸습니다.
[05:07]
이제 테스트해서 제대로 작동하는지
[05:11]
확인해볼 시간이에요.
[05:13]
먼저 새로운 가상 환경을 만들어보겠습니다.
[05:15]
코덱스 워드 v라고 이름을 지었고
[05:17]
Python 3.10을 사용하겠습니다.
[05:19]
[05:24]
[05:25]
다음으로 모든 요구사항을 설치해보겠습니다.
[05:27]
실제로 만들어졌는지 확인해볼게요.
[05:30]
네, 여기 있네요.
[05:32]
이제 작동하는지 확인해볼 시간입니다.
[05:34]
실행해보겠습니다.
[05:36]
아직 아무것도 보이지 않네요.
[05:38]
모델을 다운로드하고 있는 것 같아요.
[05:41]
시작된 것을 확인할 수 있습니다.
[05:43]
전사 기능이 작동하는지 테스트하는 빠른 녹화입니다.
[05:46]
[05:48]
단축키는 확실히 작동하지 않습니다.
[05:52]
녹화를 멈추고 무슨 일이 일어났는지 봅시다.
[05:55]
문제가 발생했네요.
[05:59]
이걸 복사할 수 있는지 모르겠지만
[06:02]
문서를 찾아봐야 할 것 같아요.
[06:04]
첫 번째 시도에서는 그렇게 하지 않은 것 같습니다.
[06:06]
자, 이렇게 해보겠습니다.
[06:08]
스톱워치를 다시 시작하고
[06:10]
얼마나 걸리는지 봅시다.
[06:12]
약 1분 45초가 걸렸네요.
[06:15]
코드를 업데이트한 것 같습니다.
[06:18]
제가 발견한 일반적인 문제 중 하나는
[06:21]
보통 이런 코딩 에이전트를 사용하면
[06:23]
다양한 패키지 버전을 고정해서
[06:25]
문제가 발생할 수 있다는 점이에요.
[06:30]
먼저 단축키가 작동하는지 봅시다.
[06:32]
실제로 여기서 뭔가 작동하는 것 같네요.
[06:36]
실행해보겠습니다.
[06:38]
이것은 새로운 전사 모델의 전사 기능에 대한 빠른 테스트입니다.
[06:42]
[06:43]
[06:46]
또 같은 문제가 발생했네요.
[06:50]
실제로 문서를 찾아보도록 요청해야 할 것 같습니다.
[06:52]
이 부분에서 모델이나 코딩 에이전트와 많은 대화를 주고받게 될 겁니다.
[06:55]
이 경우에는 패키지에 대한 고정 버전을 사용하는 것을 볼 수 없습니다.
[06:57]
코드엑스의 가장 큰 문제 중 하나는
[06:58]
기본적으로 인터넷에 액세스할 수 없다는 것입니다.
[07:00]
즉, 문서를 찾아볼 수 없습니다.
[07:03]
예를 들어, 문서에 직접 접근할 수 없다고 나와 있습니다.
[07:05]
이 환경은 네트워크 액세스가 차단되어 있습니다.
[07:08]
그래서 패키지가 런타임에 노출하는 것을 기반으로
[07:10]
로더 경로를 업데이트했습니다.
[07:13]
한 번 더 시도해보겠습니다.
[07:15]
큰 기대는 하지 않지만, 한번 보겠습니다.
[07:18]
음, 핫키가 작동하지 않는 것 같습니다.
[07:22]
괜찮습니다. 직접 실행해보겠습니다.
[07:24]
이것은 전사 기능의 빠른 테스트입니다.
[07:27]
이제 중지해보겠습니다.
[07:29]
좋습니다. 이번에는 실제로 모델을 다운로드하고 있네요.
[07:31]
좋은 소식입니다. 완벽하게 작동했습니다.
[07:35]
다른 테스트를 해보겠습니다.
[07:38]
하지만 문제는 여기서 직접 실행해야 한다는 것입니다.
[07:40]
전사는 작동하는 것 같습니다.
[07:42]
하지만 문제는 메뉴 바로 가서
[07:43]
시작과 중지를 클릭해서 실행해야 한다는 것입니다.
[07:46]
핫키가 실제 전사 파이프라인을
[07:48]
실행시키지 못하는 것 같습니다.
[07:50]
네, 작동했습니다.
[07:53]
이것을 보내서 코드엑스가
[07:56]
해결책을 찾을 수 있는지 봅시다.
[07:58]
그런데, 초기 9분에 더해서
[08:00]
6-7분 정도 더 진행한 것 같습니다.
[08:02]
계속 진행해보겠습니다.
[08:05]
수정 사항을 구현한 것 같은데, 이번에는
[08:07]
핫키를 변경했네요.
[08:10]
이제 Command와 Shift가 되었습니다.
[08:14]
봅시다.
[08:17]
녹음이 실제로 시작된 것 같고
[08:19]
오디오 피드백도 들렸습니다. 정말 멋지네요.
[08:23]
훌륭합니다. 정말 멋지지 않나요?
[08:25]
20분 내에 로컬 전사에 사용할 수 있는
[08:28]
시스템을 구축했다고 생각합니다.
[08:31]
지금까지 훌륭한 진전입니다.
[08:34]
이제 하고 싶은 것은 메뉴 바에서
[08:37]
어떤 모델이 사용되고 있는지 볼 수 있는
[08:40]
기능을 추가하는 것입니다.
[08:42]
전사에 어떤 모델이 사용되고 있는지도 보여줄 수 있나요?
[08:46]
이번에 전사를 실행했을 때는
[08:49]
초기 오디오는 들리지 않았지만
[08:52]
전사는 할 수 있었습니다.
[08:55]
지금 Whisper Small MLX를 사용하고 있는데, 꽤 괜찮은 모델입니다.
[09:00]
96GB 통합 메모리가 있는 M2 Max에서 실행하고 있지만,
[09:02]
여전히 정말 빠릅니다.
[09:05]
다시 재시작해보겠습니다.
[09:08]
여기서 사용되고 있는 모델을
[09:10]
실제로 볼 수 있습니다. 정말 좋네요.
[09:14]
통계도 추가할 수 있나요?
[09:17]
그리고 이것은 다른 세션에서도
[09:20]
유지되어야 합니다.
[09:22]
얼마나 많은 단어가 전사되었는지,
[09:25]
얼마나 많은 키 입력이 절약되었는지,
[09:27]
그리고 전사 과정에서 절약된 총 시간을 보고 싶습니다.
[09:31]
이것이 맞는 것 같습니다.
[09:33]
계속 진행해보겠습니다.
[09:36]
좋습니다.
[10:20]
새로운 기능이 구현된 것 같네요.
[10:21]
이걸 다시 지우고 다시 실행해서
[10:24]
어떻게 되는지 보겠습니다.
[10:27]
실제로
[10:29]
여기에 통계가 표시되고 있네요.
[10:31]
이제 이걸 실행해보겠습니다. 모든 음성 인식
[10:34]
이후에
[10:36]
모델을 언로딩하고
[10:37]
다음 음성 인식을 위해
[10:39]
모델을 다시 로딩하고 있는 것 같은데
[10:42]
실제로 그런 건가요? 음성 인식이 정확하네요.
[10:45]
이제 다시 돌아가면 23개의
[10:50]
단어가
[10:52]
141개 키로 나타나네요. 정확해 보입니다.
[10:55]
하지만 실제로 그런지 확인해보겠습니다.
[10:58]
계속 작업할 예정이지만
[11:01]
솔직히 꽤
[11:03]
인상적이라고 말하고 싶습니다. 고급 설정의 GPT-5 코덱스는
[11:07]
정말 좋은 에이전틱 코딩 도구이고
[11:10]
테스트해보시길 강력히 추천합니다.
[11:13]
계속 테스트해서
[11:15]
문제점을 찾아보거나
[11:17]
파악해보겠습니다. 여러 다른 코딩 에이전트로
[11:20]
같은 앱을 복제해 본 경험이 있는데
[11:23]
다양한 성공률로
[11:26]
구현할 수 있었습니다. 하지만
[11:29]
정말 인상적인 게
[11:31]
거의 30분 안에
[11:34]
완전히 작동하는 앱을, 최소한
[11:38]
음성 인식 기능은 만들어냈다는 것입니다. 이제
[11:40]
LLM 부분을 추가하고
[11:42]
이것의 독립 실행형 버전을 만들어보겠습니다.
[11:45]
관심 있으시면 그 영상도
[11:47]
기대해주시고
[11:49]
음성 인식 앱에 관심이 있으시면
[11:52]
알림 설정도 해주세요.
[11:55]
어쨌든, 이 영상이 유용했기를 바랍니다.
[11:57]
시청해 주셔서 감사하고
[12:00]
언제나 그렇듯이, 다음 영상에서 뵙겠습니다.