SaluteSpeech — нейросеть для распознавания и синтеза речи, созданная Сбером. Технология преобразует аудио в текст и текст в аудио, упрощая автоматизацию коммуникаций. SaluteSpeech Bot в Телеграм позволяет голосовые сообщения, видеосообщения и аудиофайлы на другие языки.
На чем основан бот SaluteSpeech от Сбера
Сервис решает задачи распознавания речи, синтеза голоса и генерации текстов. Поддерживает сложные сценарии: от создания субтитров до озвучивания подкастов. Уникальные возможности включают анализ эмоций и настройку интонаций.
Нейросеть Sber SaluteSpeech home assistant поддерживает:
- Распознавание речи в реальном времени.
- Синтез текста в аудио семью голосами.
- Поддержка русского, английского, казахского языков.
- Анализ эмоций: позитив, нейтрал, негатив.
- Фильтрация фоновых шумов и обсценной лексики.
- SSML-разметка для настройки интонаций.
- Генерация текстов через GigaChat API.
- Разделение спикеров в многоголосых записях.
Технология интегрируется через API, обрабатывая 100 минут аудио или 200 000 символов бесплатно ежемесячно.
Как пользоваться SaluteSpeech
Сервис доступен через десктопное приложение для Windows и MacOS, а также через Telegram-бот и SaluteSpeech API. Интерфейс на русском упрощает работу без технических навыков. Для перевода аудио или видеоконтента потребуется:
- Скачать приложение с официального сайта.
- Зарегистрироваться в личном кабинете Studio.
- Создать проекты SaluteSpeech и GigaChat.
- Получить токены API для авторизации.
- Выбрать функцию: распознавание, синтез, генерация.
- Загрузить аудио или ввести текст.
- Настроить параметры: язык, голос, эмоции.
- Сохранить результат в нужном формате.
Freemium-тариф для физлиц: 100 минут распознавания, 200 000 символов синтеза бесплатно. Платные пакеты начинаются от 600 рублей в месяц. Распознавание: 1 копейка за секунду. Синтез: 186 рублей за миллион символов. Поддерживаемые языки: русский, английский, казахский.
Особенности
- обработка аудио любых форматов: MP3, WAV, FLAC, OggOpus;
- семь голосов для синтеза;
- точность распознавания — WER 0.26;
- интеграция через HTTP и gRPC;
- SSML-теги: ударение, пауза, эмоции;
- Telegram-бот для чатов;
- генерация текстов с GigaChat;
- анализ эмоций в речи.