Parakeet – нейросеть от NVIDIA преобразует английскую речь в текст с высокой точностью. Обрабатывает аудио до 24 минут за один проход, обеспечивая транскрипцию с пунктуацией и заглавными буквами. Используется для создания субтитров, голосовых ассистентов и анализа звонков.
Распознавание речи
Нейросеть Parakeet, основанная на архитектуре FastConformer, выделяется скоростью и точностью транскрипции. Обрабатывает длинные аудиофайлы, сохраняя детали речи, и поддерживает работу на слабых устройствах. Среди ключевых возможностей:
- Транскрипция 60 минут аудио за 1 секунду.
- Поддержка пунктуации и заглавных букв.
- Точные временные метки для слов.
- Обработка аудио с шумом.
- Работа с длинными записями до 24 минут.
- Совместимость с Python и PyTorch.
- Поддержка пакетной обработки аудиофайлов.
- Интеграция с NVIDIA NeMo toolkit.
Parakeet лидирует на Hugging Face Open ASR Leaderboard с ошибкой слов 6.05%.
Как пользоваться Parakeet
Сервис доступен через веб-платформу Hugging Face и как модель для локальной установки с использованием NVIDIA NeMo. Для работы нужен аудиофайл в формате WAV или FLAC с частотой 16000 Гц. Потребуется:
- Загрузить аудиофайл на Hugging Face.
- Выбрать модель Parakeet-TDT-0.6b-v2.
- Нажать кнопку обработки аудио.
- Скачать результат в CSV или SRT.
- Установить NeMo для локальной работы.
- Загрузить модель через Python-скрипт.
- Указать путь к аудиофайлу.
- Запустить транскрипцию командой.
Нейросеть бесплатна на Hugging Face с ограничением по объему обработки. Локальная установка через NeMo также бесплатна, но требует NVIDIA GPU. Работает только с английским языком.
Особенности
- 600 миллионов параметров модели;
- обучена на 120000 часов аудио;
- поддерживает коммерческое использование;
- оптимизирована для NVIDIA GPU;
- минимальные требования: 2 ГБ ОЗУ;
- устойчивость к фоновому шуму;
- транскрипция с временными метками;
- нейросеть доступна бесплатно.