Parakeet es un modelo de NVIDIA de voz a texto que convierte audio en inglés en texto con gran precisión. Admite puntuación y mayúsculas, y puede procesar hasta 24 minutos de audio en una sola pasada.
Reconocimiento de voz
Basado en la arquitectura FastConformer, Parakeet se centra en una transcripción rápida sin perder detalles del habla. Está diseñado para manejar grabaciones largas y audio con ruido, y puede usarse en tareas como subtítulos, asistentes de voz y análisis de llamadas.
Entre sus capacidades principales se incluyen:
Transcripción de hasta 60 minutos de audio en aproximadamente 1 segundo
Puntuación y mayúsculas en la salida
Marcas de tiempo a nivel de palabra
Mayor robustez frente al ruido de fondo
Compatibilidad con audio de formato largo (hasta 24 minutos por pasada)
Compatibilidad con Python y PyTorch
Procesamiento por lotes para varios archivos de audio
Integración con el kit de herramientas NVIDIA NeMo
Parakeet aparece en la clasificación de Hugging Face Open ASR Leaderboard con una tasa de error de palabras del 6,05 %.
Cómo usar Parakeet
Parakeet está disponible a través de Hugging Face como demostración web y como modelo que puedes ejecutar localmente con NVIDIA NeMo. Usa audio WAV o FLAC a 16.000 Hz. El acceso en Hugging Face es gratis con límites de procesamiento; el uso local también es gratis, pero requiere una GPU de NVIDIA. Solo inglés.

