Abrir menú de navegación
AIDive
ES
Iniciar sesión

Descripción

SaluteSpeech es la red neuronal de Sber para reconocimiento de voz y síntesis de voz. Convierte audio en texto y texto en audio, ayudando a automatizar las comunicaciones con clientes, la transcripción y la producción de contenido de voz.

Qué puede hacer SaluteSpeech

Reconocimiento de voz en tiempo real

Texto a voz con siete voces

Idiomas: ruso, inglés, kazajo

Detección de emociones: positiva, neutral, negativa

Filtrado de ruido de fondo y blasfemias

Compatibilidad con SSML para controlar la pronunciación, las pausas y la emoción

Diarización de hablantes para grabaciones con varios interlocutores

Generación de texto mediante la API de GigaChat

Cómo usarlo

SaluteSpeech está disponible como aplicación de escritorio para Windows y macOS, como bot de Telegram y mediante la API de SaluteSpeech. Flujo típico:

Instala la aplicación desde el sitio web oficial

Regístrate en la cuenta de Studio

Crea proyectos de SaluteSpeech y GigaChat

Obtén tokens de API para la autorización

Elige un modo: reconocimiento, síntesis o generación

Sube audio o introduce texto

Configura las opciones (idioma, voz, emociones)

Exporta el resultado en el formato necesario

Los precios siguen un modelo freemium para particulares: 100 minutos de reconocimiento y 200 000 caracteres de síntesis al mes gratis. Los planes de pago empiezan desde 600 ₽/mes.

0
0 comentarios

Boletín

Recibe avisos cuando se añadan nuevas herramientas de IA

Únete a la comunidad.