Суверенный AI-компьют · NVIDIA Blackwell · Hopper · L40S

Ваш AI работает в Казахстане

Мы не арендуем кусочек чужого облака. AI Router управляет собственным GPU-флотом в казахстанских дата-центрах: Blackwell для frontier-моделей, Hopper для продакшена, L40S для высоконагруженного инференса 7–32B. Каждому корпоративному клиенту выделяется изолированный набор GPU — данные и веса никогда не смешиваются.

GPU-тиры

3 поколения

Архитектуры NVIDIA

Blackwell · Hopper · Ada

Data residency

Казахстан

Дата-центры внутри страны

Прод, DR, логи, бэкапы, биллинг — каждый байт физически в Казахстане. Без трансграничной передачи, без зарубежных реплик.

Основной

Алматы

Казахстан

Tier III

Power: 2N питание · N+1 охлаждение
Network: Dual-uplink 100 GbE · BGP multi-homed
Compliance: Сертификат Uptime Institute · Закон об ИИ РК

DR / резервный

Астана

Казахстан

Tier III+

Power: 2N+1 питание · чиллеры freecooling
Network: Dark fiber · < 25 мс до Алматы
Compliance: Репликация в реальном времени · ежедневные бэкапы

Три тира инференса. Один API.

От моделей с триллионом параметров до эффективного флота 8B — мы запускаем весь стек внутри страны. Вы выбираете тир, который подходит вашей задержке, объёму и SLA.

Флагман

NVIDIA Blackwell

B200 · GB200 NVL72

Инференс моделей с триллионом параметров

Флагман 2026 года. Двухдайная архитектура, 192 ГБ HBM3e, нативный FP4 и второй Transformer Engine. До 4× быстрее H100 на LLM-инференсе и 30× на трлн-параметровых моделях в NVL72-стойке. Жидкостное охлаждение, одно NVLink-домено на 72 GPU.

Ключевые характеристики

192 ГБ HBM3e · 8 ТБ/с
20 PFLOPS FP4 · 10 PFLOPS FP8
NVLink 5 · 1.8 ТБ/с
TEE-I/O · confidential compute

Типичные нагрузки

GPT-OSS 120B · Llama 4 Behemoth
DeepSeek V3.2 685B · Qwen 3 235B
Кастомные модели 400B+ в FP4

Развёртывание

Выделенный 8-GPU-узел или доля NVL72-стойки · жидкостное охлаждение

Продакшн

NVIDIA Hopper

H200 NVL · H100

Продакшн-рабочая лошадка

Проверенная в бою Hopper-платформа: 141 ГБ HBM3e, 4.8 ТБ/с пропускной способности, до 2× инференса на Llama-class моделях относительно H100. Воздушное охлаждение — разворачивается в любой стойке. Оптимальная цена за производительность для 30–120B моделей.

Ключевые характеристики

141 ГБ HBM3e · 4.8 ТБ/с
3.96 PFLOPS FP8
NVLink 4 · 900 ГБ/с
Transformer Engine FP8

Типичные нагрузки

Llama 4 Maverick · Mistral Large 3
Claude-class · GPT-class 30–120B
Long-context RAG · агенты

Развёртывание

Выделенный 4-GPU или 8-GPU-узел с NVLink · воздушное охлаждение

Экономичный

NVIDIA Ada Lovelace

L40S

Высокая пропускная способность для компактных моделей

Самый эффективный тир по цене за токен для моделей 7–32B. 48 ГБ памяти, 4-го поколения Tensor Cores с FP8 через Transformer Engine. Идеален для high-QPS чат-флотов, пайплайнов эмбеддингов и мультимодальных пре-процессоров.

Ключевые характеристики

48 ГБ GDDR6 · 864 ГБ/с
1.47 PFLOPS FP8
Transformer Engine FP8
Воздушное охлаждение · 350 Вт

Типичные нагрузки

Llama 4 Scout · Qwen 3 8B/32B
Gemma 3 12B/27B · Phi-5
Эмбеддинги · реранкинг · чаты

Развёртывание

2-GPU и 4-GPU-узлы · PCIe Gen4 · стандартная стойка

Сравнение тиров

Цифры ниже — устойчивое состояние на выделенных 8-GPU-узлах с типичным продакшн-батчингом. Ваши числа зависят от модели, длины контекста и размера батча — мы всегда бенчмаркаем именно вашу нагрузку до коммита.

Параметр	Blackwell B200	Hopper H200	Ada L40S
Память GPU	192 ГБ HBM3e	141 ГБ HBM3e	48 ГБ GDDR6
Пропускная способность памяти	8.0 ТБ/с	4.8 ТБ/с	864 ГБ/с
Пиковый FP8	10 PFLOPS	3.96 PFLOPS	1.47 PFLOPS
Пиковый FP4	20 PFLOPS	—	—
Interconnect	NVLink 5 · 1.8 ТБ/с	NVLink 4 · 900 ГБ/с	PCIe Gen4 · 64 ГБ/с
TDP / охлаждение	1000 Вт · жидкостное	700 Вт · воздушное	350 Вт · воздушное
Оптимальный размер модели	70B–1T+	30B–120B	7B–32B
Токены/с · 70B FP4/FP8	~8 000 (FP4)	~2 000 (FP8)	—
Токены/с · 13B FP8	~24 000	~9 000	~3 200
Конкурентные потоки · 70B	64–128	32–48	—
RPS чата (p95 < 500 мс)	40–80	20–30	30–60
Задержка первого токена (70B, p50)	~180 мс	~240 мс	—
Confidential compute (TEE-I/O)	Да	—	—
Цена инференса · 70B класс	от $0.12 / $0.36 за 1M	от $0.20 / $0.60 за 1M	—
Цена инференса · 8–13B класс	—	от $0.10 / $0.30 за 1M	от $0.05 / $0.15 за 1M

Цены указаны в формате input/output за 1M токенов для резервированной выделенной ёмкости. Проксированные модели от внешних провайдеров тарифицируются по их прайс-листу без нашей наценки — см. страницу цен.

Выделенное железо. Без мультитенантности.

Корпоративные клиенты получают физически изолированный пул GPU — не долю общего API. Ваши веса, KV-кеш, логи и метрики живут только на том железе, которое назначено именно вашему тенанту.

Железо

Физическая изоляция GPU

Именованные GPU и узлы привязаны к вашему тенанту. Никаких общих очередей инференса. Никаких скачков задержки от «шумных соседей».

Безопасность

TEE-I/O на Blackwell

Trusted Execution Environment I/O шифрует веса и промпты с почти нулевой потерей производительности. Для регулируемых нагрузок — финансы, медицина, госсектор.

Данные

Веса остаются на вашем узле

Ваши fine-tune, LoRA-адаптеры и KV-кеш никогда не покидают назначенные GPU. Нет кросс-тенантного пулинга кеша.

Сеть

Per-tenant VLAN · приватные эндпоинты

Опциональная VLAN-изоляция на тенант, приватные эндпоинты, IP allowlist. Трафик не пересекает границы тенантов внутри стойки.

Ключи

Tenant KMS envelope

Ключи шифрования дисков, session tokens и API-ключевой материал упакованы envelope-шифрованием per-tenant в HSM-бэкнутом KMS.

Аудит

Per-tenant audit trail

Неизменяемые логи на каждого тенанта. Экспорт в SIEM через webhook или S3. Политика хранения настраивается под вашего регулятора.

Суверенитет данных от начала до конца

Ваши данные не покидают Казахстан. Ни для обучения, ни для логирования, ни для сверки биллинга.

Вся инфраструктура внутри страны

Прод, DR, логи, метрики, бэкапы, API-шлюз — каждый байт физически в казахстанских ЦОДах.

Соответствие Закону об ИИ РК

Метки регуляторного контекста per-request. Именованный data-controller в РК. DPA со всеми корпоративными клиентами.

Биллинг в локальной валюте

Учёт в микродолларах с инвойсами в KZT. Банковский перевод, НДС-совместимые счета, без трансграничных платёжных потоков.

Поддержка в вашем часовом поясе

Именованный SRE на дежурстве в Алматы. 15-минутный отклик на P1. Поддержка на русском, казахском и английском.

Зарезервируйте выделенные GPU под свою нагрузку

Мы бенчмаркаем вашу модель и паттерн трафика на каждом тире — и резервируем правильный микс под ваш SLA и бюджет.

Связаться с инфраструктурной командой Читать про безопасность