Logo
SaluteSpeech Logo

SaluteSpeech

Нейросеть от Сбера для перевода аудио в текст, синтеза речи и анализа эмоций.

Описание

SaluteSpeech — нейросеть для распознавания и синтеза речи, созданная Сбером. Технология преобразует аудио в текст и текст в аудио, упрощая автоматизацию коммуникаций. SaluteSpeech Bot в Телеграм позволяет голосовые сообщения, видеосообщения и аудиофайлы на другие языки.

На чем основан бот SaluteSpeech от Сбера

Сервис решает задачи распознавания речи, синтеза голоса и генерации текстов. Поддерживает сложные сценарии: от создания субтитров до озвучивания подкастов. Уникальные возможности включают анализ эмоций и настройку интонаций.

Нейросеть Sber SaluteSpeech home assistant поддерживает:

  • Распознавание речи в реальном времени.
  • Синтез текста в аудио семью голосами.
  • Поддержка русского, английского, казахского языков.
  • Анализ эмоций: позитив, нейтрал, негатив.
  • Фильтрация фоновых шумов и обсценной лексики.
  • SSML-разметка для настройки интонаций.
  • Генерация текстов через GigaChat API.
  • Разделение спикеров в многоголосых записях.

Технология интегрируется через API, обрабатывая 100 минут аудио или 200 000 символов бесплатно ежемесячно.

SaluteSpeech Синтез

Как пользоваться SaluteSpeech

Сервис доступен через десктопное приложение для Windows и MacOS, а также через Telegram-бот и SaluteSpeech API. Интерфейс на русском упрощает работу без технических навыков. Для перевода аудио или видеоконтента потребуется:

  • Скачать приложение с официального сайта.
  • Зарегистрироваться в личном кабинете Studio.
  • Создать проекты SaluteSpeech и GigaChat.
  • Получить токены API для авторизации.
  • Выбрать функцию: распознавание, синтез, генерация.
  • Загрузить аудио или ввести текст.
  • Настроить параметры: язык, голос, эмоции.
  • Сохранить результат в нужном формате.

Freemium-тариф для физлиц: 100 минут распознавания, 200 000 символов синтеза бесплатно. Платные пакеты начинаются от 600 рублей в месяц. Распознавание: 1 копейка за секунду. Синтез: 186 рублей за миллион символов. Поддерживаемые языки: русский, английский, казахский.

Особенности
  • обработка аудио любых форматов: MP3, WAV, FLAC, OggOpus;
  • семь голосов для синтеза;
  • точность распознавания — WER 0.26;
  • интеграция через HTTP и gRPC;
  • SSML-теги: ударение, пауза, эмоции;
  • Telegram-бот для чатов;
  • генерация текстов с GigaChat;
  • анализ эмоций в речи.

Рассылка

Расскажем о выходе новых нейросетей

Присоединяйтесь к сообществу.