Scribe
Модель распознавания речи от ElevenLabs идентифицирует спикеров, распознаёт неречевые звуки и форматирует диалоги. Поддерживает 99 языков, включая русский.
Описание
Scribe — нейросеть для распознавания речи, разработанная компанией ElevenLabs. Представляет собой инструмент с высокой точностью транскрибации, превосходящий такие известные решения, как Google Gemini 2.0 Flash, OpenAI Whisper Large v3 и Deepgram Nova-3.
Транскрибация аудио и видео
Нейросеть Scribe ориентирована на обработку аудио и видео, включая сложные реальные условия с несколькими спикерами и фоновыми шумами. Доступна через веб-интерфейс ElevenLabs и API, а также предлагается бесплатная версия для начального использования.
Модель ИИ работает с 99 языками, включая русский, сербский, кантонский и малаялам. Точность распознавания речи составляет выше 95%. В тестах на стандартных наборах данных FLEURS и Common Voice Scribe демонстрирует меньшую частоту ошибок по сравнению с конкурентами.
Scribe поддерживает диаризацию до 32 спикеров в одном аудиофайле, точно определяя, кто говорит, даже в сложных условиях. Распознаёт и маркирует неречевые элементы, такие как смех, вздохи, аплодисменты, музыка и фоновый шум, добавляя соответствующие теги в транскрипцию.
Выходные данные структурированы в формате JSON с временными метками на уровне слов, что упрощает интеграцию и дальнейшую обработку.
Сравнение с конкурентами
Scribe позиционируется как прямой конкурент Gemini 2.0 Flash и OpenAI Whisper v3. По заявлениям ElevenLabs, нейросеть показывает лучшие результаты в тестах на многоязычных наборах данных, особенно для языков с традиционно низкой точностью распознавания, таких как сербский или кантонский.
В отличие от Whisper v3, Scribe предлагает встроенную диаризацию и тегирование неречевых событий для анализа сложных аудиозаписей.
Текущая версия уступает конкурентам в отсутствии поддержки транскрибации в реальном времени, что ограничивает её применение для живых встреч или заметок.
Как работает
Нейросеть Scribe бесплатно позволяет протестировать базовые функции, в то время как платный доступ стоит 40 центов за час аудио с 50% скидкой в течение первых шести недель после релиза.
На момент запуска Scribe работает только с заранее записанными аудио и видеофайлами, но ElevenLabs анонсировала скорый выпуск версии с низкой задержкой для транскрибации в реальном времени.
Примеры использования включают транскрибацию интервью, встреч, фильмов и даже песен с сохранением структуры диалогов. В России нейросеть работает с региональными ограничениями. Несмотря на это, Scribe на русском распознает речь в аудио и видео не хуже, чем на других языках.
Особенности
- Scribe v1 запущена 26 февраля 2025 года;
- стоимость транскрибации – 40 центов за час;
- доступ через сайт ElevenLabs и API для разработчиков;
- пока поддерживаются только предварительно записанные файлы;
- поддержка 99 языков;
- базовые функции в текстовом режиме доступны бесплатно.
