Whisper vs Deepgram vs ElevenLabs Scribe для транскрибации
Я делаю расшифровки подкастов и интервью для своего блога и для пары клиентов. За последние два года прогнала тысячи минут аудио через все три популярных движка. Сравнение получилось не «по бенчмарку», а из реальной работы — что нравится, что бесит, и где какой выбирать.
Условия теста
Я использую один и тот же материал: 10 интервью по 30–60 минут, разные дикторы, разное качество записи. Часть — студия, часть — мобильный диктофон в кафе с фоновым шумом. Языки — русский (60%), английский (30%), грузинский (10%). Тематика — техническая, поэтому много терминов на английском.
OpenAI Whisper
Я использую через API (whisper-1 и новые turbo-модели), и локально через faster-whisper.
Сила: универсальность. Whisper понимает 99 языков, переключается между ними без явного указания, умеет в timestamps, предложения и слова отдельно. Для русского — звук на звук, читаемо.
Слабость: пунктуация. Whisper иногда ставит запятые там, где не нужно, и наоборот. На разговорной речи (паузы, заминки) делает «лишние» точки. На больших файлах (>25 МБ) API режет, и нужно делить вручную или через VAD.
Локальный faster-whisper на RTX 4090 даёт скорость 50–60x от реального времени для модели large-v3. То есть час аудио — за минуту. Это меняет workflow.
Цена: API — 0.006$/минута. На моём объёме (50 часов в месяц) ~18$. Локально — бесплатно за электричество.
Deepgram Nova-3
Это API-провайдер, специализирующийся именно на STT. Без локального запуска.
Сила: пунктуация и форматирование. Из коробки расставляет пунктуацию заметно лучше Whisper. Diarization (определение говорящих) — лучшая в тройке: на интервью «два собеседника» определяет правильно почти всегда.
Слабость: русский всё ещё слабее английского. На моих интервью на английском Nova-3 опережает Whisper, на русском — Whisper выигрывает на 10–15% точности. Зависит от диктора и качества звука.
Цена: 0.0043$/минута на batch, дороже на streaming. На больших объёмах ощутимо дешевле OpenAI.
Ещё особенность: Deepgram даёт хорошие word-level timestamps и confidence scores. Если ты делаешь автоматическую обработку (например, режешь подкаст на куски по содержанию), это полезно.
ElevenLabs Scribe
ElevenLabs более известны своим TTS, но в 2024 запустили Scribe — собственный STT-движок. Молодой продукт, но быстро развивается.
Сила: качество транскрипции по моим тестам — самое высокое на «сложном» аудио (фон, акценты, плохой микрофон). На тех же интервью, где Whisper делает 12 ошибок и Deepgram — 8, Scribe делает 5–6. Diarization на 30+ говорящих работает, в отличие от Whisper.
Слабость: цена. Scribe дороже всех. Лимит на длину файла. Streaming — пока в beta.
Цена: ~0.40$/минута на character-pricing (зависит от длины транскрипта). На моих интервью получалось 0.30–0.50$ за минуту, что в десятки раз дороже Whisper API.
Реальные числа на моих интервью
- Чистая студийная запись 30 мин на русском. Whisper: 8 ошибок. Deepgram: 12 ошибок (хуже на русском). Scribe: 6 ошибок.
- Шумное кафе, два говорящих, английский. Whisper: 35 ошибок (путал говорящих). Deepgram: 18 ошибок (хорошо разделил). Scribe: 14 ошибок (лучшая diarization).
- Технический подкаст с английскими терминами в русской речи (наш типичный кейс). Whisper: 22 ошибки в терминах. Deepgram: 14. Scribe: 11.
«Ошибка» — это слово, которое мне пришлось править на постпродакшене.
Кому какой
- Если тебе нужен дешёвый универсал, который ты можешь запустить локально — Whisper. Для большинства задач его достаточно.
- Если тебе важна пунктуация, diarization, и аудио в основном английское — Deepgram. На больших объёмах окупится.
- Если тебе нужно максимальное качество на сложном аудио, и цена не первостепенна — ElevenLabs Scribe.
Workflow
У меня сейчас гибрид. Большую часть гоняю через локальный Whisper на RTX 4090 — бесплатно, быстро. Когда вижу, что качество просело (шумная запись, мало знакомый акцент) — пропускаю через Scribe и сравниваю. На английских интервью с двумя гостями — Deepgram.
На постпродакшене у меня скрипт, который сравнивает результаты двух движков и выводит «спорные места» — слова с низким confidence от Deepgram или сильным расхождением между Whisper и Deepgram. Я смотрю только эти, не всю расшифровку.
Что не работает
- Точная транскрибация музыки и пения — все три плохо.
- Сильный фоновый шум (стройка, ветер) ломает все три.
- Шепот — только Scribe относительно справляется.
- Перебивающие друг друга говорящие — никакая diarization не вытянет.
Что в итоге
В 2026 году нет одного «лучшего» STT. Whisper — мой повседневный workhorse за бесплатно или копейки. Deepgram — лучший на английском с diarization. Scribe — лучший на сложном аудио, если можешь себе позволить. Тестируй на своих записях — то, что хорошо у меня, может быть наоборот у тебя из-за акцентов, тематики, качества звука. И не бойся комбинировать: одна транскрипция не обязана быть от одного движка.