Рассылка
Расскажем о выходе новых нейросетей
Присоединяйтесь к сообществу.
Нейросеть транскрибирует 60 минут речи за 1 секунду без ошибок.
Parakeet – нейросеть от NVIDIA преобразует английскую речь в текст с высокой точностью. Обрабатывает аудио до 24 минут за один проход, обеспечивая транскрипцию с пунктуацией и заглавными буквами. Используется для создания субтитров, голосовых ассистентов и анализа звонков.
Нейросеть Parakeet, основанная на архитектуре FastConformer, выделяется скоростью и точностью транскрипции. Обрабатывает длинные аудиофайлы, сохраняя детали речи, и поддерживает работу на слабых устройствах. Среди ключевых возможностей:
Parakeet лидирует на Hugging Face Open ASR Leaderboard с ошибкой слов 6.05%.

Сервис доступен через веб-платформу Hugging Face и как модель для локальной установки с использованием NVIDIA NeMo. Для работы нужен аудиофайл в формате WAV или FLAC с частотой 16000 Гц. Потребуется:
Нейросеть бесплатна на Hugging Face с ограничением по объему обработки. Локальная установка через NeMo также бесплатна, но требует NVIDIA GPU. Работает только с английским языком.
0 комментариев
Пока нет комментариев
Начните обсуждение первым — оно появится здесь сразу после отправки.