NVIDIA, Parakeet v2로 Whisper를 뛰어넘다

채널 아이콘
Sam Witteveen 구독자 81,400명

요약

이 영상에서는 NVIDIA가 최근 공개한 Parakeet v2 모델을 소개합니다. 600M~6B 파라미터 규모로 Whisper보다 낮은 단어 오류율(WER)과 정확한 단어 단위 타임스탬프, 구두점·대문자 예측 기능을 구현합니다. 오픈 소스로 공개되어 상업용으로 활용 가능하며, Hugging Face Spaces에서 바로 테스트할 수 있고 MLX 버전을 통해 Apple Silicon Mac에서도 로컬로 빠르게 실행할 수 있습니다. 다만 현재 영어 전용이고 발화자 분리(diarization) 기능은 없으나 외부 모델이나 멀티모달 LLM으로 보완할 수 있습니다.

주요 키워드

Parakeet v2 Whisper ASR WER Nemo Toolkit ASR Collections MLX Word-level Timestamp Diarization Quantization LLM

하이라이트

  • 🔑 NVIDIA Parakeet v2는 600M~6B 파라미터로 Whisper보다 낮은 단어 오류율(WER)을 달성하며 정확도를 높였습니다.
  • ⚡️ 단어 단위 타임스탬프, 구두점·대문자 예측 기능을 포함해 ASR 결과의 가독성을 크게 개선했습니다.
  • 🌟 공개 라이선스로 상업적 활용이 가능하며 Hugging Face Spaces에서 즉시 체험할 수 있습니다.
  • 📌 현재 영어 전용 모델이므로 다국어 전사가 필요할 때는 Whisper를 사용하는 것이 유리합니다.
  • 🚀 NVIDIA Nemo Toolkit ASR Collections를 이용하면 Colab에서 몇 줄만으로 모델을 로드해 사용할 수 있습니다.
  • ⚡️ 26분 분량의 오디오를 약 25초 만에 전사할 정도로 빠른 처리 속도를 자랑합니다.
  • 🔍 발화자 분리(diarization) 기능이 없지만 외부 diariation 모델 또는 멀티모달 LLM을 통해 보완할 수 있습니다.
  • 🚀 Apple Silicon Mac용 MLX 버전으로 로컬 실행이 가능하며, 향후 양자화(quantization) 버전 출시도 기대됩니다.

용어 설명

ASR(Automatic Speech Recognition, 음성인식)

음성을 텍스트로 변환하는 기술

WER(Word Error Rate, 단어 오류율)

전사 정확도를 평가하는 지표로, 실제 단어 대비 오류 비율

Word-level Timestamp

단어 단위로 음성 시작·종료 시간을 표시하는 기능

Nemo Toolkit ASR Collections

NVIDIA의 음성 인식 모델 및 도구 모음 라이브러리

MLX

로컬 환경에서 머신러닝 모델을 실행할 수 있게 해 주는 경량화 프레임워크

Diarization(화자 분리)

녹취에서 누가 언제 말했는지 화자를 구분하는 기술

Quantization(양자화)

모델 크기를 줄이고 연산 속도를 높이기 위해 수치 정밀도를 낮추는 작업

LLM(Large Language Model, 대규모 언어 모델)

방대한 텍스트 데이터를 학습해 자연어 처리에 활용하는 모델

[00:00:00] Whisper 모델 현황과 ASR 표준 자리매김

OpenAI가 2년 반 전 공개한 Whisper는 높은 정확도로 ASR(Automatic Speech Recognition) 분야의 사실상 표준이 됐습니다. Hugging Face나 MLX를 통해 로컬 실행이 가능하며 다양한 버전이 쓰이고 있습니다. 하지만 최신 버전은 공개되지 않아 사용자들이 새 모델 출시에 대해 기다리고 있었습니다.

OpenAI가 음성-텍스트 변환 모델인 Whisper를 출시한 지 2년 반이 넘었습니다. 이 모델은 뛰어났고 가중치가 공개된 마지막 주요 모델이었지만, 지난 2년간 몇 번 업데이트만 있었고 최신 버전은 공개되지 않았습니다.
Whisper는 ASR(자동 음성 인식)의 표준이 되었고 많은 사람들이 사용해 왔습니다. 대부분 OpenAI 원본보다는 Hugging Face의 Distil-Whisper나 MLX 버전 같은 대안을 사용해왔습니다.
NVIDIA가 최근 Parakeet이라는 모델의 가중치를 조용히 공개했습니다. 원래 버전은 작년에 출시됐지만 큰 규모였고 Whisper를 능가하지 못했습니다. 이번에 출시된 Parakeet 버전 2는 훨씬 작은 모델입니다.
[00:00:57] NVIDIA Parakeet v2 출시

NVIDIA가 Parakeet의 두 번째 버전(v2) 가중치를 공개했습니다. 모델 크기를 600M~6B 파라미터로 줄이면서도 WER을 Whisper보다 낮추는 성능 개선이 특징입니다. 단어 단위 타임스탬프, 구두점 및 대문자 예측 기능도 지원합니다.

Parakeet 버전 2는 60억 또는 6억 개의 파라미터만 가지고 있으며, 완전 자동 음성 인식뿐만 아니라 정확한 단어 수준 타임스탬프, 구두점, 대문자화 등 다양한 기능을 제공합니다. 단어 오류율은 Whisper보다 더 좋습니다.
[00:01:41] 영어 전용 한계와 활용 제안

현재 공개된 Parakeet v2는 영어 전용 모델로, 다국어 지원이 필요한 경우 Whisper가 더 적합합니다. Hugging Face Spaces에서 직접 체험 가능하며 상업용 라이선스도 제공됩니다. 이를 통해 다양한 서비스에 빠르게 적용할 수 있습니다.

Parakeet의 유일한 단점은 영어만 지원한다는 것입니다. 다국어가 필요하면 Whisper가 여전히 좋은 선택이지만, 영어 녹음을 빠르게 전사하고 싶다면 Parakeet을 확인해 보세요.
Parakeet은 이미 Hugging Face에 올라와 있으며 상업적 사용이 가능한 라이선스로 제공됩니다. NVIDIA는 또한 Hugging Face Spaces를 통해 모델을 직접 사용해볼 수 있는 데모를 제공합니다.
놀랍게도 이 중요한 출시에 대한 블로그 포스트나 자세한 정보가 많지 않습니다. 많은 사람들이 이 모델을 전사 등에 활용할 것으로 예상됩니다.
이와 관련된 두 개의 논문이 있지만 꽤 오래된 것들입니다. 이번 출시는 원래 Parakeet 모델의 새로운 튜닝이나 아키텍처 개선인 것으로 보입니다.
모델 카드에 따르면 이 모델은 약 12만 시간의 영어 음성 데이터로 학습되었으며, 이는 최근 성공을 거둔 소규모 오픈소스 TTS보다 훨씬 많은 양입니다. 이것은 텍스트 음성 변환이 아닌 음성 텍스트 변환이라는 점이 다릅니다.
모델은 긴 오디오 파일도 처리할 수 있으며, 특히 흥미로운 점은 MLX 버전도 출시되어 완전히 로컬에서 실행할 수 있다는 것입니다. 이제 Colab 버전과 MLX 버전을 살펴보겠습니다.
[00:03:58] Nemo Toolkit으로 모델 로드

NVIDIA의 Nemo ASR Collections를 설치한 뒤, Hugging Face Transformers와 유사한 방식으로 간단히 Parakeet v2를 로드할 수 있습니다. Collab 환경에서 오디오 전처리와 모델 초기화를 자동으로 처리합니다. 이 과정만으로도 즉시 전사가 가능합니다.

이 모델을 사용하려면 Nemo collections ASR을 설치해야 합니다. 설치 후에는 Hugging Face의 transformers와 유사하게 모델을 로드하여 바로 사용할 수 있습니다.
기본 제공된 작은 웹 파일은 잘 작동하지만, 몇 분 이상 긴 파일을 처리할 때는 오류가 발생합니다. 26분 길이의 강연 MP3 파일을 실행하면 모델에 비해 형태가 너무 길다는 오류가 표시됩니다.
이 문제를 해결하기 위해 파일을 분할하는 코드를 구현했습니다. 이 코드는 트랜스크라이버를 초기화하고, 세그먼트를 자동으로 조정하여 처리하며, 모델도 자동으로 로드합니다.
놀랍게도 25-26분 분량의 오디오가 25초 만에 전사되며, CSV 파일로 저장됩니다. 또한 전사 내용과 발화 시간을 시각화하는 기능도 제공합니다.
[00:05:50] 긴 오디오 파일 처리 및 속도 테스트

26분 분량의 강연 오디오를 약 25초 만에 전사하는 등 빠른 처리 속도를 보여줍니다. 오디오를 자동으로 분할해 모델 입력에 맞게 조정하고, CSV 파일로 저장해 구간별 결과를 시각화할 수 있습니다. 대용량 파일도 손쉽게 다룰 수 있습니다.

영상 데모 실행: 사용자가 오디오 트랜스크립터를 인스턴스화하고 처음 500초를 재생하면서 트랜스크립션 품질을 확인합니다.
트랜스크립션 품질 평가: 이름과 대문자 표시 등을 잘 인식하고 타임스탬프도 포함된 정확한 트랜스크립션을 CSV 파일로 저장합니다.
모델 한계 설명: 영어만 지원하는 한계가 있으며, 다국어가 필요한 경우 Whisper를 계속 사용하는 것이 좋습니다.
로컬 실행 방법: Apple 실리콘 맥에서 MLX 버전으로 빠르게 실행 가능하며, Python API 예제가 제공됩니다.
실용적 사용 사례: 팟캐스트 등 대량 트랜스크립션을 통해 LLM에 전달할 컨텍스트 생성에 유용하지만, 화자 구분(diarization) 기능은 없습니다.
화자 구분 대안: 외부 화자 구분 모델이나 Gemini와 같은 멀티모달 LLM을 사용하여 화자를 식별할 수 있습니다.
[00:08:19] 한계 및 대안 제시

현재 발화자 분리(diarization) 기능은 제공되지 않으나, 외부 diariation 모델이나 multimodal LLM을 활용해 보완할 수 있습니다. Apple Silicon Mac용 MLX 버전으로 로컬 실행이 가능하며, 양자화(quantization) 버전 출시도 기대됩니다. 이를 통해 클라우드 없이 실시간 전사 시스템을 구축할 수 있습니다.

미래 전망: 실시간 트랜스크립션과 LLM 어시스턴트, TTS 응답 연동 가능성이 있으며, 양자화된 버전 출시 기대됩니다.
좋습니다. OpenAI가 Whisper를 출시한 지 2년 반이 넘었는데요
이후로
OpenAI가 음성-텍스트 변환 모델인 Whisper를 소개했습니다. 이 모델은
훌륭했고, 가중치가 공개된 마지막 주요 모델이었습니다
정말 뛰어났고 일종의
가중치가 공개된 마지막 주요 모델이었습니다
지난 2년 동안 몇 차례 업데이트했지만
지난 2년간 몇 번 업데이트했지만
최신 버전의 음성-텍스트 모델이나
음성-텍스트 변환 또는
텍스트-음성 변환 등의 최신 버전은 공개하지 않았습니다. 그래서
이것이 확실히 ASR(자동 음성 인식)의 표준이 되었고
많은 사람들이 사용해 왔습니다. 그리고
대부분의 사람들이 아마도
OpenAI가 출시한 정확한 버전을 사용하지는 않았지만
사람들은 Hugging Face의 Distil-Whisper를 사용하거나
Hugging Face의 Distil-Whisper를 사용하거나
심지어 저 같은 경우는
MLX 버전의 모델을 사용해서
맥에서 완전히 로컬로 실행할 수 있게 했습니다. 자,
우리가 OpenAI의 새로운 무언가를 기다리는 동안
전혀 예상치 못하게
NVIDIA가 조용히 Parakeet이라는 모델의
가중치를 공개했습니다. 사실
Parakeet 모델은 새로운 것이 아닙니다
원래 버전은 작년에 나왔지만
여전히 상당히 큰 규모였고
아마도 모든 사람들이 기대했던
Whisper를 능가하는 모델은 아니었습니다
지난주에 그들은 Parakeet 버전 2를 출시했습니다
이제 이것은 훨씬 작은 모델입니다. 단지 60억 또는
훨씬 작은 모델로, 60억 또는
6억 개의 파라미터만 가지고 있습니다. 그리고
완전 자동 음성 인식을 할 수 있을 뿐만 아니라
정확한 단어 수준의 타임스탬프 같은 것도
정확한 단어 수준의 타임스탬프를 제공하고
구두점, 대문자화 등 다양한 기능을 예측할 수 있습니다
구두점, 대문자화, 다양한 기능을 갖추고 있습니다
그리고 단어 오류율이 실제로
Whisper보다 더 좋은 것으로 밝혀졌습니다. 그런데
유일한 단점은 영어만 지원한다는 것입니다
최소한 현재 출시된 버전은
다국어 버전이 아닙니다. 그래서
다국어가 필요하다면
다국어가 필요하다면
Whisper가 여전히 좋은 선택일 겁니다
하지만 영어 녹음을 정말 빠르게 전사하고 싶다면
영어 녹음을 빠르게 전사하고 싶다면
Parakeet을 꼭 확인해 보세요
이미 Hugging Face에 올라와 있습니다. 잠시 후에
코드를 살펴보겠습니다. 이 모델은
상업적 사용까지 허용하는 라이선스로
상업적 사용이 가능한 라이선스로 제공되며
Hugging Face에 실제 모델을 올린 것 외에도
Hugging Face에 모델을 올린 것 외에도
NVIDIA는 또한 Hugging Face Spaces를 출시했는데
여기서 직접 사용해 볼 수 있습니다
그냥 샘플 중 하나를 선택해서
제공된 샘플 중 하나를 선택하고
전사할 수 있습니다
놀랍게도, 이에 대한 블로그 포스트나
출시에 대한 자세한 정보가 없는 것 같습니다
특히 이것이 실제로
NVIDIA의 상당히 중요한 출시인 것 같은데
NVIDIA에서 나온 상당히 중요한 출시인 것 같고
많은 사람들이 실제로 이를 좋아할 것 같고
많은 사람들이 이것을 사용하여
전사 등에 사용할 수 있어 좋아할 것 같습니다
논문을 살펴보면
이와 관련된 두 개의 논문이 있는데
실제로 꽤 오래된 논문들입니다. 그래서
이것은 원래 Parakeet 모델의
새로운 튜닝이나 아키텍처 개선인 것 같습니다
원래 Parakeet 모델의 아키텍처 개선인 것 같습니다
원래 Parakeet 모델의 아키텍처 개선인 것 같습니다
모델 카드를 살펴보면
모델 카드를 살펴보면,
약 12만 시간의 영어 음성 데이터로
학습되었음을 알 수 있습니다. 확실히 최근에
성공을 거둔 소규모 오픈소스 TTS보다
훨씬 더 많은 데이터를 사용했습니다.
최근에 성공을 거두고 있죠.
물론 이것은 텍스트 음성 변환이 아닌
음성 텍스트 변환이라는 점이 다르지만,
또한 그들이 여기에 올린 내용에서
추론을 수행하는 방법에 대한 링크도
잘 제공해 두었습니다.
실제로 긴 오디오 파일도 처리할 수 있습니다.
저 개인적으로는 이것이 정말
흥미로운 이유 중 하나는
우리가 이 모델을 정상적으로 실행할 수 있다는 것뿐만 아니라,
곧 Colab에서 살펴볼 텐데,
이미 MLX 버전도 나오고 있다는 점입니다.
이를 통해 완전히 로컬에서
이 모델을 실행할 수 있습니다.
코드로 들어가 보겠습니다.
Colab 버전을 먼저 살펴보고
MLX에서 이미 사용 가능한 것과
곧 출시될 내용도 살펴보겠습니다.
좋습니다, 코드로 넘어가서
이것을 작동시키기 위해서는
Nemo collections ASR을 사용해야 합니다.
위에서 이미 설치한 것을 볼 수 있습니다.
Nemo 툴킷을 모두 설치할 수도 있습니다.
오디오 처리를 위한 유틸리티도
몇 가지 설치했습니다.
일단 설치가 완료되면, Hugging Face의
transformers와 매우 유사합니다.
기본적으로 모델을 로드하기만 하면
바로 사용할 수 있습니다.
여기 예제를 보면,
기본적으로 작은 웹 파일을 제공하여
전사를 시연하고 있습니다. 그 파일을 사용하면
잘 작동합니다. 유일한 문제는
몇 분보다 긴 파일을 사용하려고 할 때
문제가 발생한다는 것입니다.
여기서 제가 가져온
MP3 파일은 강연 녹음인데,
제 기억으로는 약 26분 정도 됩니다.
이것을 실행하면 오류가 발생합니다.
그냥 실행하면 오류가 발생하는데,
볼 수 있듯이 이런 종류의 오류는
모델에 비해 형태가
너무 길다는 것을 보여줍니다.
그래서 파일을 분할하는 방법이 필요합니다.
제가 여기에 구현한 것이 바로 그것입니다.
모든 것을 처리해서 트랜스크라이버를 초기화하고,
오디오 경로를 가져오면
세그먼트를 자동으로 조정하여
처리합니다. 이 버전을 사용하면
상단에서 모델을 직접 로드할 필요가 없습니다.
이 코드가 모델을 자동으로 로드해줍니다.
모델이 로드되면 오디오의
지속 시간이 몇 초인지 확인할 수 있고,
스테레오를 모노로 변환하고,
오디오를 16kHz로 변환하는 등의
작업을, 여기에서 긴 전사를 수행하기 위한
설정을 적용하는 것까지 처리합니다.
놀랍게도 전사 작업이
매우 빠르게 이루어집니다.
여기서 볼 수 있듯이 25-26분 분량의 오디오가
25초 만에 전사되었습니다.
그 다음 CSV 파일로 저장하여
확인할 수 있습니다. 또한
전사 내용을 시각화하고
각 발화 시간 등을 시각화할 수 있게 해줍니다.
이를 CSV 파일로 저장해 볼 수 있고,
또한 전사 내용을 시각화하고
각 내용이 언제 말해졌는지 등의
다양한 시간을 시각화할 수 있습니다.
등의 정보를 시각화할 수 있습니다.
그래서 여기서 뭔가를 재생하고 싶으시면
제가 다시 가져왔는데요,
오디오 트랜스크립터를 인스턴스화했습니다.
처음 500초를 재생하고 있습니다. 자, 보시면
여기에 들어가서 시작하면
제 이름은 패티입니다. 저는 팀 세쿼이아의 멤버 중 한 명이고
파트너인 소니아와 콘스탄틴과 함께 있습니다. 이들이 오늘의 MC를 맡을 것이며
세쿼이아의 모든 파트너들과 함께
AI 어센드에 오신 것을 환영합니다.
보시다시피 트랜스크립션이 정말 좋죠?
이름 같은 것들을 아주 잘 인식하고 있습니다.
대문자로 표시해야 할 부분도 잘 인식하고
옆에 타임스탬프도 있습니다.
이것은 기본적으로 모든 내용을 CSV 파일로 저장합니다.
이제 스크립트를 작성해서
일반적인 마크다운 형식이나
원하는 다른 형식으로 변환할 수 있습니다.
그렇게 하는 것은 어렵지 않을 겁니다.
보시다시피 전체를 다 트랜스크립션했네요.
파일의 끝부분까지 완료했습니다.
1600초가 넘는 분량이에요.
만약 여러분이 오디오를
빠르게 트랜스크립션할 수 있는 도구를 찾고 계시고
그 오디오가 영어라면 이 도구가 좋을 겁니다.
이것이 영어만 지원한다는 점은
이상적이지 않다는 것을 잘 알고 있습니다.
만약 다국어 사용 사례가 있다면
위스퍼를 계속 사용하는 것이
아마도 더 나을 겁니다.
엔비디아가 언젠가 이 모델의
다국어 버전을 출시하길 바랍니다.
이제 로컬에서 실행하고 싶고
애플 실리콘 칩이 있는 맥을 가지고 있다면
MLX 버전으로 실행할 수 있습니다.
맥에서 꽤 빠르게 실행됩니다.
프로젝트를 설정하고 실행하기만 하면 됩니다.
Python API를 사용하는 방법에 대한
예제들이 여기 있습니다.
제가 위스퍼 대신 이것을 정말 좋은 대체재로 발견했는데
팟캐스트나 그런 것들의 대량 트랜스크립션을 할 때
기본적으로 LLM 모델에 전달할
컨텍스트를 생성하는 용도로 사용하고 있습니다.
그래서 매우 fancy한 것이 필요하지 않고
타임스탬프가 있으면 모델이 쉽게 처리할 수 있습니다.
이 모델에서 부족한 점은
화자 구분(diarization)이 없다는 것입니다.
누가 언제 말하고 있는지 알 수 없죠.
제가 여기서 보여드린 것처럼
매우 정확한 트랜스크립션을 얻었지만
실제로 말하는 사람이 누구인지
알 수 있는 시스템이 없습니다.
외부 화자 구분 모델을 사용할 수 있습니다.
제가 위스퍼와 함께 사용하던 방법입니다.
다른 옵션은 제가 오디오 비디오용 Gemini로
보여드린 것처럼 멀티모달 LLM을 사용하는 것입니다.
기본적으로 화자들을 입력하면
목소리 차이를 듣는 것뿐만 아니라
한 사람이 다른 사람의 이름을 언급할 때 알아듣고
화자 목록을 함께 전달하면
실제 화자가 누구인지 파악할 수 있습니다.
더 고급 기능이 필요하다면 그것도 옵션입니다.
개인적으로 이것은 매우 흥미로운 모델입니다.
앞으로 이런 모델의 다양한 버전을 보게 될 것 같습니다.
실시간 트랜스크립션이 가능해서
LLM 어시스턴트에 자동으로 전달하고
아마도 카코라(Kakora)와 같은 실시간 TTS 응답을 받을 수 있을 겁니다.
어쨌든 한번 사용해 보세요.
저는 다양한 용도로 테스트하고 있고
나중에 이런 TTS와 ASR 시스템을
결합하는 방법에 대한 더 많은 영상을 만들 수도 있습니다.
자신의 기기에서 실시간 트랜스크립션을 수행하는 방법을 보여드리고
클라우드로 아무것도 보내지 않아도 되는 방법을 알려드리겠습니다.
항상 그렇듯이 댓글로 여러분의 생각을 알려주세요.
사람들이 이것을 사용하고 있는지 매우 궁금합니다.
제가 이 영상을 녹화하는 시점에는
MLX 버전 외에는 많은 버전을 보지 못했습니다.
다른 버전이 있다면 알려주세요.
제 예상으로는 이것이 양자화될 것이고
양자화된 버전이 나오면 더 빨라질 것이며
정확도는 크게 손실되지 않을 것 같습니다.
항상 그렇듯이 이 영상이 유용했다면
좋아요와 구독 부탁드립니다.
다음 영상에서 다시 만나요.
이만 안녕히 계세요.