Parakeet NVIDIA – нейросеть для точной транскрипции речи

Parakeet – нейросеть от NVIDIA преобразует английскую речь в текст с высокой точностью. Обрабатывает аудио до 24 минут за один проход, обеспечивая транскрипцию с пунктуацией и заглавными буквами. Используется для создания субтитров, голосовых ассистентов и анализа звонков.

Распознавание речи

Нейросеть Parakeet, основанная на архитектуре FastConformer, выделяется скоростью и точностью транскрипции. Обрабатывает длинные аудиофайлы, сохраняя детали речи, и поддерживает работу на слабых устройствах. Среди ключевых возможностей:

Транскрипция 60 минут аудио за 1 секунду.
Поддержка пунктуации и заглавных букв.
Точные временные метки для слов.
Обработка аудио с шумом.
Работа с длинными записями до 24 минут.
Совместимость с Python и PyTorch.
Поддержка пакетной обработки аудиофайлов.
Интеграция с NVIDIA NeMo toolkit.

Parakeet лидирует на Hugging Face Open ASR Leaderboard с ошибкой слов 6.05%.

Parakeet Начало

Как пользоваться Parakeet

Сервис доступен через веб-платформу Hugging Face и как модель для локальной установки с использованием NVIDIA NeMo. Для работы нужен аудиофайл в формате WAV или FLAC с частотой 16000 Гц. Потребуется:

Загрузить аудиофайл на Hugging Face.
Выбрать модель Parakeet-TDT-0.6b-v2.
Нажать кнопку обработки аудио.
Скачать результат в CSV или SRT.
Установить NeMo для локальной работы.
Загрузить модель через Python-скрипт.
Указать путь к аудиофайлу.
Запустить транскрипцию командой.

Нейросеть бесплатна на Hugging Face с ограничением по объему обработки. Локальная установка через NeMo также бесплатна, но требует NVIDIA GPU. Работает только с английским языком.

Особенности

600 миллионов параметров модели;
обучена на 120000 часов аудио;
поддерживает коммерческое использование;
оптимизирована для NVIDIA GPU;
минимальные требования: 2 ГБ ОЗУ;
устойчивость к фоновому шуму;
транскрипция с временными метками;
нейросеть доступна бесплатно.

Parakeet

Описание

Распознавание речи

Как пользоваться Parakeet

Особенности

Сводка

Категории

Теги

Mini Telegram

Может быть интересно

Rev

TurboScribe

Google Cloud Speech to Text

Parakeet

Описание

Распознавание речи

Как пользоваться Parakeet

Особенности

Сводка

Категории

Теги

Mini Telegram

Может быть интересно

Rev

TurboScribe

Google Cloud Speech to Text

Рассылка

Расскажем о выходе новых нейросетей