SaluteSpeech es la red neuronal de Sber para reconocimiento de voz y síntesis de voz. Convierte audio en texto y texto en audio, ayudando a automatizar las comunicaciones con clientes, la transcripción y la producción de contenido de voz.
Qué puede hacer SaluteSpeech
Reconocimiento de voz en tiempo real
Texto a voz con siete voces
Idiomas: ruso, inglés, kazajo
Detección de emociones: positiva, neutral, negativa
Filtrado de ruido de fondo y blasfemias
Compatibilidad con SSML para controlar la pronunciación, las pausas y la emoción
Diarización de hablantes para grabaciones con varios interlocutores
Generación de texto mediante la API de GigaChat
Cómo usarlo
SaluteSpeech está disponible como aplicación de escritorio para Windows y macOS, como bot de Telegram y mediante la API de SaluteSpeech. Flujo típico:
Instala la aplicación desde el sitio web oficial
Regístrate en la cuenta de Studio
Crea proyectos de SaluteSpeech y GigaChat
Obtén tokens de API para la autorización
Elige un modo: reconocimiento, síntesis o generación
Sube audio o introduce texto
Configura las opciones (idioma, voz, emociones)
Exporta el resultado en el formato necesario
Los precios siguen un modelo freemium para particulares: 100 minutos de reconocimiento y 200 000 caracteres de síntesis al mes gratis. Los planes de pago empiezan desde 600 ₽/mes.

