Abrir menú de navegación
AIDive
ES
Iniciar sesión
Parakeet

Parakeet

Modelo de NVIDIA de voz a texto para una transcripción rápida y precisa en inglés

0

Descripción

Parakeet es un modelo de NVIDIA de voz a texto que convierte audio en inglés en texto con gran precisión. Admite puntuación y mayúsculas, y puede procesar hasta 24 minutos de audio en una sola pasada.

Reconocimiento de voz

Basado en la arquitectura FastConformer, Parakeet se centra en una transcripción rápida sin perder detalles del habla. Está diseñado para manejar grabaciones largas y audio con ruido, y puede usarse en tareas como subtítulos, asistentes de voz y análisis de llamadas.

Entre sus capacidades principales se incluyen:

Transcripción de hasta 60 minutos de audio en aproximadamente 1 segundo

Puntuación y mayúsculas en la salida

Marcas de tiempo a nivel de palabra

Mayor robustez frente al ruido de fondo

Compatibilidad con audio de formato largo (hasta 24 minutos por pasada)

Compatibilidad con Python y PyTorch

Procesamiento por lotes para varios archivos de audio

Integración con el kit de herramientas NVIDIA NeMo

Parakeet aparece en la clasificación de Hugging Face Open ASR Leaderboard con una tasa de error de palabras del 6,05 %.

Cómo usar Parakeet

Parakeet está disponible a través de Hugging Face como demostración web y como modelo que puedes ejecutar localmente con NVIDIA NeMo. Usa audio WAV o FLAC a 16.000 Hz. El acceso en Hugging Face es gratis con límites de procesamiento; el uso local también es gratis, pero requiere una GPU de NVIDIA. Solo inglés.

0
0 comentarios

Boletín

Recibe avisos cuando se añadan nuevas herramientas de IA

Únete a la comunidad.