Whisper vs Deepgram vs ElevenLabs Scribe для транскрибации

22 мая 2026 г. 19K

Я делаю расшифровки подкастов и интервью для своего блога и для пары клиентов. За последние два года прогнала тысячи минут аудио через все три популярных движка. Сравнение получилось не «по бенчмарку», а из реальной работы — что нравится, что бесит, и где какой выбирать.

Условия теста

Я использую один и тот же материал: 10 интервью по 30–60 минут, разные дикторы, разное качество записи. Часть — студия, часть — мобильный диктофон в кафе с фоновым шумом. Языки — русский (60%), английский (30%), грузинский (10%). Тематика — техническая, поэтому много терминов на английском.

OpenAI Whisper

Я использую через API (whisper-1 и новые turbo-модели), и локально через faster-whisper.

Сила: универсальность. Whisper понимает 99 языков, переключается между ними без явного указания, умеет в timestamps, предложения и слова отдельно. Для русского — звук на звук, читаемо.

Слабость: пунктуация. Whisper иногда ставит запятые там, где не нужно, и наоборот. На разговорной речи (паузы, заминки) делает «лишние» точки. На больших файлах (>25 МБ) API режет, и нужно делить вручную или через VAD.

Локальный faster-whisper на RTX 4090 даёт скорость 50–60x от реального времени для модели large-v3. То есть час аудио — за минуту. Это меняет workflow.

Цена: API — 0.006$/минута. На моём объёме (50 часов в месяц) ~18$. Локально — бесплатно за электричество.

Deepgram Nova-3

Это API-провайдер, специализирующийся именно на STT. Без локального запуска.

Сила: пунктуация и форматирование. Из коробки расставляет пунктуацию заметно лучше Whisper. Diarization (определение говорящих) — лучшая в тройке: на интервью «два собеседника» определяет правильно почти всегда.

Слабость: русский всё ещё слабее английского. На моих интервью на английском Nova-3 опережает Whisper, на русском — Whisper выигрывает на 10–15% точности. Зависит от диктора и качества звука.

Цена: 0.0043$/минута на batch, дороже на streaming. На больших объёмах ощутимо дешевле OpenAI.

Ещё особенность: Deepgram даёт хорошие word-level timestamps и confidence scores. Если ты делаешь автоматическую обработку (например, режешь подкаст на куски по содержанию), это полезно.

ElevenLabs Scribe

ElevenLabs более известны своим TTS, но в 2024 запустили Scribe — собственный STT-движок. Молодой продукт, но быстро развивается.

Сила: качество транскрипции по моим тестам — самое высокое на «сложном» аудио (фон, акценты, плохой микрофон). На тех же интервью, где Whisper делает 12 ошибок и Deepgram — 8, Scribe делает 5–6. Diarization на 30+ говорящих работает, в отличие от Whisper.

Слабость: цена. Scribe дороже всех. Лимит на длину файла. Streaming — пока в beta.

Цена: ~0.40$/минута на character-pricing (зависит от длины транскрипта). На моих интервью получалось 0.30–0.50$ за минуту, что в десятки раз дороже Whisper API.

Реальные числа на моих интервью

Чистая студийная запись 30 мин на русском. Whisper: 8 ошибок. Deepgram: 12 ошибок (хуже на русском). Scribe: 6 ошибок.
Шумное кафе, два говорящих, английский. Whisper: 35 ошибок (путал говорящих). Deepgram: 18 ошибок (хорошо разделил). Scribe: 14 ошибок (лучшая diarization).
Технический подкаст с английскими терминами в русской речи (наш типичный кейс). Whisper: 22 ошибки в терминах. Deepgram: 14. Scribe: 11.

«Ошибка» — это слово, которое мне пришлось править на постпродакшене.

Кому какой

Если тебе нужен дешёвый универсал, который ты можешь запустить локально — Whisper. Для большинства задач его достаточно.
Если тебе важна пунктуация, diarization, и аудио в основном английское — Deepgram. На больших объёмах окупится.
Если тебе нужно максимальное качество на сложном аудио, и цена не первостепенна — ElevenLabs Scribe.

Workflow

У меня сейчас гибрид. Большую часть гоняю через локальный Whisper на RTX 4090 — бесплатно, быстро. Когда вижу, что качество просело (шумная запись, мало знакомый акцент) — пропускаю через Scribe и сравниваю. На английских интервью с двумя гостями — Deepgram.

На постпродакшене у меня скрипт, который сравнивает результаты двух движков и выводит «спорные места» — слова с низким confidence от Deepgram или сильным расхождением между Whisper и Deepgram. Я смотрю только эти, не всю расшифровку.

Что не работает

Точная транскрибация музыки и пения — все три плохо.
Сильный фоновый шум (стройка, ветер) ломает все три.
Шепот — только Scribe относительно справляется.
Перебивающие друг друга говорящие — никакая diarization не вытянет.

Что в итоге

В 2026 году нет одного «лучшего» STT. Whisper — мой повседневный workhorse за бесплатно или копейки. Deepgram — лучший на английском с diarization. Scribe — лучший на сложном аудио, если можешь себе позволить. Тестируй на своих записях — то, что хорошо у меня, может быть наоборот у тебя из-за акцентов, тематики, качества звука. И не бойся комбинировать: одна транскрипция не обязана быть от одного движка.