Какую видеокарту брать под локальные LLM в 2026

9 апреля 2026 г. 17K

Полгода назад я собирал домашний рабочий ПК специально под локальные LLM. Бюджет — 200к рублей, потолок гибкий. Перерыл форумы, бенчмарки, сравнил три варианта на руках. В этой статье — что я понял про железо, и как выбрать GPU под локальный запуск моделей в 2026.

Что важно для LLM

Видеокарту для LLM выбирают по двум основным параметрам:

Объём VRAM. Это потолок размера модели, которую ты сможешь запустить в комфортной квантизации.
Memory bandwidth. Это пропускная способность памяти. Скорость генерации (tokens per second) почти линейно от неё зависит.

FP16 TFLOPS, тензорные ядра, CUDA-совместимость — всё это вторично. На инференсе LLM узким местом почти всегда становится memory bandwidth.

VRAM — сколько нужно

В реальной жизни с квантизацией Q4_K_M (примерно 4-битная):

Модель 7B — нужно ~5 ГБ VRAM (плюс контекст).
Модель 13B — ~9 ГБ.
Модель 32B — ~22 ГБ.
Модель 70B — ~45 ГБ.
Модель 110B+ — нужны две карты или серверное железо.

К этим цифрам прибавляй 10–20% на KV-cache (контекст модели). На 32k контекста KV-cache у 13B модели — 4–5 ГБ. На 128k — 15+ ГБ.

Карты, которые имеет смысл рассматривать

RTX 5090 — 32 ГБ GDDR7, ~1700 GB/s. Лучшая потребительская карта на 2026. Берёт 32B без проблем, 70B — впритык. Цена в России — около 250к рублей.

RTX 4090 — 24 ГБ GDDR6X, ~1000 GB/s. Прошлый флагман, всё ещё актуален. Берёт 32B, 70B — нет, разве что в Q3 квантизации с большой потерей. Цена — 180–220к рублей в зависимости от ситуации с поставками.

RTX 5080 — 16 ГБ GDDR7, ~960 GB/s. Хорошая для моделей до 13B, для 32B уже впритык в Q4. Цена ~120к.

RTX 4080 Super — 16 ГБ GDDR6X, ~736 GB/s. Старшее предыдущее поколение, цена снизилась. Около 90к.

RTX 5070 Ti / 4070 Ti Super — 16 ГБ. Подходящие для базы. Около 80к.

RTX 3090 — 24 ГБ GDDR6X, ~936 GB/s. Б/у на вторичке за 60–80к. По соотношению цена/VRAM — лучший вариант, если готов брать с рук.

2x RTX 3090 — 48 ГБ суммарно. Ставится через NVLink или просто двумя картами через llama.cpp split. 70B-модели тянет нормально, цена — 130–160к.

AMD и Apple — стоит ли

AMD GPU технически работают через ROCm, но поддержка в LLM-стеке (llama.cpp, vllm, ExLlama) идёт с задержкой. Производительность чуть хуже NVIDIA при равной памяти. Берёшь AMD только если у тебя сильная скидка или принципиальная позиция.

Apple Silicon — отдельная история. M3 Max / M4 Max с 64–128 ГБ unified memory дают тебе мощную интегрированную «видеокарту» с очень большой памятью. На моделях 70B M4 Max обходит RTX 4090 по комфорту использования (ту 70B приходится квантизовать жёстче и часть кидать в RAM). Но скорость генерации на 32B и меньше у RTX выше в 1.5–2 раза.

Если ты живёшь в macOS-экосистеме и хочешь LLM локально без отдельного PC — Mac Studio M4 Max 64GB за ~350к рублей даст приличный baseline. Если у тебя уже есть PC и нужен прирост — RTX 5090 или 4090 + ноутбук в дополнение.

Реальная сборка под 200к

Что я взял у себя в итоге:

GPU: RTX 4090 24GB — 195к.
CPU: AMD Ryzen 7 7700X — 28к.
RAM: 64 ГБ DDR5-6000 — 22к.
SSD: NVMe 2 ТБ Gen4 — 18к.
Корпус, БП 1000W, материнка — 35к.

Бюджет 300к, помещается в средний рабочий ПК. На 4090 я гоняю Qwen 2.5 32B Q4 на полной скорости (~30 t/s), 70B Q3 в 12 t/s, и на этом мне комфортно.

Если только присматриваешься

Не вкладывайся сразу в топ. Возьми RTX 4070 Ti Super 16GB или подержанную 3090 24GB и поработай год. Поймёшь, нужны ли тебе более тяжёлые модели, или базовых 13B хватает. Я лично год сидел на 3060 12GB и думал, что мне «вроде хватает». Когда поработал на 4090 — понял, что без 24+ ГБ всерьёз не разогнаться.

Подвохи

Блок питания. RTX 4090 ест до 450W, 5090 — до 575W. На 1000W БП с одним GPU — норма, на 850W — впритык.
Охлаждение. Под нагрузкой топ-карта греется. Корпус с хорошим продувом обязателен. У меня 4090 в Fractal Torrent — без проблем, в маленьком корпусе вертушки могут шуметь как взлетающий самолёт.
Шум. На full-load под LLM-инференс кулеры карты крутятся ощутимо. Если рабочее место рядом — берёшь карту с тихим охлаждением (Asus TUF, Gigabyte Aero) или гонишь подальше.

Что в итоге

В 2026 году под локальные LLM имеет смысл смотреть в сторону RTX 4090, RTX 5090 или подержанной 3090, по бюджету. Apple Silicon — рабочая альтернатива для тех, кто на Mac. Главное — не гонись за «самой новой» картой, а ориентируйся на VRAM (минимум 16 ГБ для серьёзной работы, 24 ГБ — комфорт) и memory bandwidth. Остальное вторично.