Claude vs ChatGPT vs Gemini в 2026: реальное сравнение из прода

1 мая 2026 г. 14K

Я последние полтора года держу в проде LLM-фичи в SaaS-продукте: суммаризация писем, классификация тикетов, ассистент в админке. За это время через нас прошли все три больших API — Anthropic, OpenAI и Google. И сейчас, в мае 2026-го, расклад уже не «возьми любую, разница маленькая», как было в 2024-м.

Сравнения в духе «по бенчмарку MMLU модель X на 1.8% лучше» в проде ничего не значат. Я лучше расскажу, что я реально вижу по логам, инцидентам и счетам.

Где я их держу

Мой стек простой: Node 22, Hono, Postgres, очередь на BullMQ. Запросы к моделям идут через Vercel AI SDK, а где нужно тонко — напрямую через Anthropic SDK или OpenAI SDK. Раньше у меня всё было на одном провайдере, потом я разнёс: фоновые задачи на одной модели, синхронные на другой, а тяжёлые tool-use сценарии на третьей. Так и работаю.

Claude Sonnet 4.5 / Opus 4.5

Это моя рабочая лошадка для tool use и для всего, что связано с разбором длинных JSON-ответов от внутренних API. Ничего не путает поля, не «придумывает» названия методов, на длинном контексте не теряет нить.

Что я реально замечаю в логах: Claude почти не галлюцинирует на структурированных данных. Если в JSON нет поля customerId, он не выдумает его, а напишет «в данных это поле отсутствует». Для прода это бесценно — у меня меньше всего инцидентов «модель сказала клиенту неправду» именно на Claude.

Минусы: дороже базового GPT по входным токенам, и иногда уходит в длинные рассуждения, когда хочется коротко. Лечится system-промптом и max_tokens, но факт.

GPT-5 / GPT-5 mini

Самая ровная модель по «общему ощущению». Рассуждает быстро, отвечает коротко, неплохо держит русский (тут Claude всё ещё чуть сильнее, но разница уже на уровне стилистики). На простых классификациях, где нужно ответить одним словом из набора, GPT-5 mini обходит и Sonnet, и Flash по цене и латенси.

Где у меня болело: tool use. На сложных цепочках с 4+ инструментами и условной логикой GPT иногда «ленится» и пытается ответить пользователю напрямую вместо вызова инструмента. Чинится явной инструкцией и temperature 0, но я давно не борюсь с этим — критичные tool-use сценарии у меня на Claude.

Gemini 2.5 Pro / Flash

Тут у меня двоякое впечатление. Gemini Pro в задачах с очень длинным контекстом (под 500k токенов) — единственная, кто реально даёт нормальный ответ, а не «суммаризацию суммаризации». Flash — когда нужна почти бесплатная классификация, и не критично, если 1–2% запросов будут странными.

Минусы: SDK от Google всё ещё ощущается чужим. Структура ответа отличается от OpenAI-совместимых API, error-коды иные, стриминг через Server-Sent Events с другим форматом. Если у тебя весь стек заточен под OpenAI/Anthropic, добавление Gemini требует адаптера.

Цена в реальных задачах

Если брать одну и ту же задачу — суммаризация письма в 2k токенов на выходе в 200 — у меня по итогам апреля получилось примерно так в пересчёте на тысячу запросов:

Gemini 2.5 Flash — дешевле всех, разница со следующим — почти двухкратная.
GPT-5 mini — следующая по цене, и при этом качество для классификации почти не отличается.
Claude Haiku — чуть дороже mini, но лучше держит русский и сложные инструкции.
Sonnet и GPT-5 — уже отдельная категория, использую только там, где нужно.
Opus 4.5 / GPT-5 Pro — для самых тяжёлых tool use, единичные запросы.

Промпт-кэширование

Главное, что изменилось в проде за 2025 год — все три провайдера сделали кэширование промптов рабочим. Раньше это была фича только Anthropic, теперь и у OpenAI, и у Google.

// Anthropic, кэшируем большой system-промпт
const response = await anthropic.messages.create({
  model: 'claude-sonnet-4-5',
  system: [
    {
      type: 'text',
      text: BIG_SYSTEM_PROMPT,
      cache_control: { type: 'ephemeral' }
    }
  ],
  messages,
  max_tokens: 1024
});

У меня system-промпт на 12k токенов, который кэшируется на 5 минут. Экономия — порядка 60% от исходного счёта. На GPT-5 это работает иначе (автоматически, без явного флага), но эффект сравнимый.

Что я держу в голове, когда выбираю

Простое правило: чем дороже ошибка модели для бизнеса, тем скорее я беру Claude. Чем больше запросов в секунду и проще задача — тем скорее Gemini Flash или GPT-5 mini. На GPT-5 я держу всё, что должно «звучать» по-человечески: автогенерация текстов писем, ответы клиентам.

Если бы у меня был один провайдер и я только начинал — взял бы Anthropic. Меньше всего сюрпризов в проде, сильный SDK, читаемые ошибки, и Tool Use, на который реально можно положиться.

Что почитать дальше

В следующих статьях я разберу, как у меня устроено кэширование промптов под Claude API, как я делаю tool use на нём же и как считаю стоимость запросов, чтобы счёт в конце месяца не был сюрпризом. Эти штуки — повседневная инженерия, а не магия. Если у тебя в голове всё ещё «LLM — это как Бог из машины», начни с того, что несколько недель смотришь в логи: какие промпты, какие ответы, какие токены. После этого выбор между Claude, GPT и Gemini становится не вопросом веры, а вопросом числа.