Scribe es un modelo de conversión de voz a texto de ElevenLabs diseñado para transcribir con precisión audio y video grabados.
Qué hace
Scribe está pensado para grabaciones del mundo real, incluyendo varios hablantes y ruido de fondo. Está disponible a través de la interfaz web de ElevenLabs y mediante API, con una opción gratuita para probar la transcripción básica de texto.
Transcribe archivos de audio y video (no audio en vivo)
Compatible con 99 idiomas, incluidos ruso, serbio, cantonés y malayalam
Indica una precisión de reconocimiento de voz superior al 95%
Devuelve JSON estructurado con marcas de tiempo a nivel de palabra
Detección de hablantes y eventos
Scribe incluye funciones pensadas para grabaciones complejas y análisis.
Diarización de hablantes para hasta 32 hablantes por archivo
Etiqueta eventos sin voz como risas, suspiros, aplausos, música y ruido de fondo
Precios y limitaciones
El uso de pago tiene un precio de $0.40 por hora de audio, con un descuento del 50% durante las primeras seis semanas tras el lanzamiento. En el lanzamiento, Scribe funciona solo con archivos pregrabados; ElevenLabs ha anunciado una versión de baja latencia para la transcripción en tiempo real. En Rusia, el servicio puede verse afectado por restricciones regionales.

