ElevenLabs vs OpenAI TTS vs Yandex SpeechKit: что брать в 2026
За последний год я сделал три проекта с TTS: озвучку аудиокниг для микро-издательства, голосового бота для сервиса доставки, и кучу подкастных нарезок для друзей. Перепробовал ElevenLabs, OpenAI TTS и Yandex SpeechKit на боевых задачах. Расскажу, чем они отличаются, где дороже-дешевле, и под какие задачи я что выбираю.
Коротко: для кого что
ElevenLabs — лучший по качеству, особенно на эмоциях и многоголосых сценариях. Любой европейский язык, кириллица в порядке. Дорогой.
OpenAI TTS — отличное качество, простой API, дёшево. Голосов мало, эмоций контроль слабее, но для большинства задач хватает с головой.
Yandex SpeechKit — единственный из тройки, кто идеально умеет в русский с локальной фонетикой и интонацией. Ударения, имена, числительные — всё по-русски. Цена средняя.
Если у тебя весь контент на русском — серьёзно рассмотри Yandex. Если на английском — OpenAI или ElevenLabs. Если ты делаешь аудиокниги или подкасты с эмоцией — ElevenLabs, других вариантов нет.
Качество звучания
Сравнивал я на одном и том же тексте на четырёх языках: русский технический абзац, русский художественный, английский деловой, английский художественный.
На русском художественном тексте Yandex SpeechKit с голосом Yulia или Ermil звучит наиболее естественно. Ударения везде правильные, интонация в вопросительных предложениях живая, длинные перечисления держатся в одном дыхании. У ElevenLabs русский тоже хороший, но у меня на отдельных русских словах он иногда сбивается на акцент — звучит как иностранец, который очень хорошо учил русский, но это слышно. У OpenAI русский нормальный, но интонация плосковатая — ровный диктор, без живости.
На русском техническом тексте — обратная картина: Yandex и OpenAI читают "useEffect" нормально, ElevenLabs может прочитать "усеффект" как одно слово на английский манер. Это лечится через явные пометки типа "yoo-eff-ekt", но в потоке мне такое раздражает.
На английском художественном ElevenLabs сильно впереди. Эмоция, пауза, чтение со "вздохами" — это его территория. Особенно с моделью Eleven Multilingual v3 и стилем "natural".
На английском деловом — ничья. Любой из трёх делает ровный, нейтральный голос диктора, разница ощущается только если очень вслушиваться.
API: насколько просто прикрутить
OpenAI TTS
Самый простой из трёх. Один эндпоинт, один параметр голоса, один параметр модели.
import OpenAI from "openai";
import fs from "node:fs";
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
const res = await openai.audio.speech.create({
model: "tts-1-hd",
voice: "nova",
input: "Привет, это тест синтеза речи на OpenAI.",
response_format: "mp3",
});
const buffer = Buffer.from(await res.arrayBuffer());
fs.writeFileSync("out.mp3", buffer);Голоса: alloy, echo, fable, nova, onyx, shimmer (плюс пара новых, доступны в gpt-4o-audio-preview). На начало 2026 цена — около $15 за миллион символов на tts-1-hd, обычная tts-1 заметно дешевле и качество всё ещё отличное.
ElevenLabs
Чуть сложнее, но богаче. Есть стиль, similarity boost, голосовые ID из библиотеки или твоего клона.
const res = await fetch(
`https://api.elevenlabs.io/v1/text-to-speech/${voiceId}`,
{
method: "POST",
headers: {
"xi-api-key": process.env.ELEVENLABS_API_KEY!,
"Content-Type": "application/json",
},
body: JSON.stringify({
text: "Привет, это тест.",
model_id: "eleven_multilingual_v2",
voice_settings: {
stability: 0.5,
similarity_boost: 0.75,
style: 0.3,
use_speaker_boost: true,
},
}),
},
);
const buffer = Buffer.from(await res.arrayBuffer());
fs.writeFileSync("out.mp3", buffer);Цены посерьёзнее: стартовый план $5/мес даёт 30 тыс. символов, дальше — $11 за 100 тыс. на Creator, на Pro/Scale — заметно дешевле за единицу. Клонирование голоса доступно с Creator — это ключевая фича для подкастов и аудиокниг.
Yandex SpeechKit
Чуть больше церемоний из-за Yandex Cloud, но сам API простой:
const folderId = process.env.YC_FOLDER_ID!;
const apiKey = process.env.YC_API_KEY!;
const params = new URLSearchParams({
text: "Привет, это тест синтеза речи на Yandex SpeechKit.",
lang: "ru-RU",
voice: "ermil",
emotion: "good",
format: "oggopus",
folderId,
});
const res = await fetch(
"https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize",
{
method: "POST",
headers: {
Authorization: `Api-Key ${apiKey}`,
"Content-Type": "application/x-www-form-urlencoded",
},
body: params.toString(),
},
);
const buffer = Buffer.from(await res.arrayBuffer());
fs.writeFileSync("out.ogg", buffer);Голоса: alena, jane, omazh, zahar, ermil, filipp, madirus, kuznetsov. У некоторых есть эмоции (good, evil, neutral). Цена — около 250 рублей за 1 млн символов на v3 модели, заметно меньше OpenAI и в разы меньше ElevenLabs.
SSML и контроль
Когда речь о реальной озвучке, ты не просто хочешь "прочитай текст". Ты хочешь паузы между предложениями, ударения, интонацию.
Yandex поддерживает SSML — стандартный способ управлять синтезом. Можно поставить <break time="700ms"/>, написать ударение через <p>ло+го</p>, заменить произношение через <sub alias="">. Для имён, аббревиатур и сложных слов — спасение.
OpenAI SSML не принимает. Он делает свою магию по тексту, и ты влияешь на результат только пунктуацией: точка — пауза, точка с запятой — короткая, многоточие — задумчивая. Для большинства бытовых озвучек этого хватает, но контроль — никакой.
ElevenLabs ввёл свой синтаксис скобок для эмоций: [laughs], [sighs], [whispers]. На v3 модели работает удивительно хорошо. Для аудиокниг и игр — сильное преимущество.
Когда что выбирать
Голосовой бот / IVR
Yandex SpeechKit. Поддерживает русский с правильными окончаниями и числительными ("1247 рублей" прочитает корректно), есть streaming, низкая задержка. Цена адекватная для масштабов call-центра. Латентность важнее качества, и тут Yandex делает за 200–300 мс.
Озвучка статей и подкастов
Зависит от языка. Русский — Yandex, более естественно. Английский — OpenAI tts-1-hd, дешево и хорошо. Если бюджет позволяет и нужна эмоция — ElevenLabs.
Аудиокниги
Только ElevenLabs. У него есть длинные форматы, контроль над паузами, эмоциональный диапазон, клонирование голоса. На длинных текстах остальные "плоские" — слушать 4 часа не хочется.
Игры и интерактивное
ElevenLabs Turbo / Flash для коротких реплик с задержкой 200–300 мс. Многоязычно, эмоции на месте. Цена не маленькая, но альтернативы такого качества нет.
Тренировочные ролики, обучение, маркетинг
OpenAI TTS. Простой API, отличное качество, разумная цена. Если нужен русский — Yandex.
Деньги: какие реальные счета
На моём прошлом проекте — приложение, которое озвучивает короткие новости. 200 пользователей в день, в среднем 2 ролика по 800 символов. Это около 32 000 символов в день, или ~960 000 в месяц.
- OpenAI tts-1: около $14 в месяц.
- OpenAI tts-1-hd: около $14, но качество заметно выше (раньше hd был дороже, в 2026 цены сравнялись).
- Yandex SpeechKit: около 250 рублей в месяц.
- ElevenLabs Creator: $22, но 100 тыс. в комплекте, остальное по доплате — суммарно $100+.
Для русскоязычной озвучки разница в 30+ раз. Это причина, по которой бытовые сервисы для русского рынка обычно сидят на Yandex.
Что я выбрал и почему
В моих текущих проектах — комбинация. Бот доставки на Yandex (русский, низкая задержка, цена). Подкастные нарезки на английском — OpenAI tts-1-hd. Аудиокниги — ElevenLabs с клонированным голосом автора (это самая дорогая, но и самая качественная история).
Универсального ответа нет. Универсальный совет — попробуй три API на твоём конкретном тексте, послушай результат в наушниках, и выбери по слуху, а не по сравнениям бенчмарков. У каждого голоса свой характер, и под твой контент подойдёт не тот, что в чужом ролике звучал "круто".