Scribe

Scribe

Модель распознавания речи от ElevenLabs идентифицирует спикеров, распознаёт неречевые звуки и форматирует диалоги. Поддерживает 99 языков, включая русский.

Попробовать ➤

Описание

Scribe — нейросеть для распознавания речи, разработанная компанией ElevenLabs. Представляет собой инструмент с высокой точностью транскрибации, превосходящий такие известные решения, как Google Gemini 2.0 Flash, OpenAI Whisper Large v3 и Deepgram Nova-3.

Транскрибация аудио и видео

Нейросеть Scribe ориентирована на обработку аудио и видео, включая сложные реальные условия с несколькими спикерами и фоновыми шумами. Доступна через веб-интерфейс ElevenLabs и API, а также предлагается бесплатная версия для начального использования.

Модель ИИ работает с 99 языками, включая русский, сербский, кантонский и малаялам. Точность распознавания речи составляет выше 95%. В тестах на стандартных наборах данных FLEURS и Common Voice Scribe демонстрирует меньшую частоту ошибок по сравнению с конкурентами.

Scribe поддерживает диаризацию до 32 спикеров в одном аудиофайле, точно определяя, кто говорит, даже в сложных условиях. Распознаёт и маркирует неречевые элементы, такие как смех, вздохи, аплодисменты, музыка и фоновый шум, добавляя соответствующие теги в транскрипцию.

Выходные данные структурированы в формате JSON с временными метками на уровне слов, что упрощает интеграцию и дальнейшую обработку.

Сравнение с конкурентами

Scribe позиционируется как прямой конкурент Gemini 2.0 Flash и OpenAI Whisper v3. По заявлениям ElevenLabs, нейросеть показывает лучшие результаты в тестах на многоязычных наборах данных, особенно для языков с традиционно низкой точностью распознавания, таких как сербский или кантонский.

В отличие от Whisper v3, Scribe предлагает встроенную диаризацию и тегирование неречевых событий для анализа сложных аудиозаписей.

Текущая версия уступает конкурентам в отсутствии поддержки транскрибации в реальном времени, что ограничивает её применение для живых встреч или заметок.

Как работает

Нейросеть Scribe бесплатно позволяет протестировать базовые функции, в то время как платный доступ стоит 40 центов за час аудио с 50% скидкой в течение первых шести недель после релиза.

На момент запуска Scribe работает только с заранее записанными аудио и видеофайлами, но ElevenLabs анонсировала скорый выпуск версии с низкой задержкой для транскрибации в реальном времени.

Примеры использования включают транскрибацию интервью, встреч, фильмов и даже песен с сохранением структуры диалогов. В России нейросеть работает с региональными ограничениями. Несмотря на это, Scribe на русском распознает речь в аудио и видео не хуже, чем на других языках.

Особенности

  • Scribe v1 запущена 26 февраля 2025 года;
  • стоимость транскрибации – 40 центов за час;
  • доступ через сайт ElevenLabs и API для разработчиков;
  • пока поддерживаются только предварительно записанные файлы;
  • поддержка 99 языков;
  • базовые функции в текстовом режиме доступны бесплатно.
Scribe
Александр
Автор

Профиль автора
Мини-приложения в Telegram