Ваш AI работает в Казахстане
Мы не арендуем кусочек чужого облака. AI Router управляет собственным GPU-флотом в казахстанских дата-центрах: Blackwell для frontier-моделей, Hopper для продакшена, L40S для высоконагруженного инференса 7–32B. Каждому корпоративному клиенту выделяется изолированный набор GPU — данные и веса никогда не смешиваются.
GPU-тиры
3 поколения
Архитектуры NVIDIA
Blackwell · Hopper · Ada
Data residency
Казахстан
Дата-центры внутри страны
Прод, DR, логи, бэкапы, биллинг — каждый байт физически в Казахстане. Без трансграничной передачи, без зарубежных реплик.
Алматы
Казахстан
- Power
- 2N питание · N+1 охлаждение
- Network
- Dual-uplink 100 GbE · BGP multi-homed
- Compliance
- Сертификат Uptime Institute · Закон об ИИ РК
Астана
Казахстан
- Power
- 2N+1 питание · чиллеры freecooling
- Network
- Dark fiber · < 25 мс до Алматы
- Compliance
- Репликация в реальном времени · ежедневные бэкапы
Три тира инференса. Один API.
От моделей с триллионом параметров до эффективного флота 8B — мы запускаем весь стек внутри страны. Вы выбираете тир, который подходит вашей задержке, объёму и SLA.
NVIDIA Blackwell
B200 · GB200 NVL72
Инференс моделей с триллионом параметров
Флагман 2026 года. Двухдайная архитектура, 192 ГБ HBM3e, нативный FP4 и второй Transformer Engine. До 4× быстрее H100 на LLM-инференсе и 30× на трлн-параметровых моделях в NVL72-стойке. Жидкостное охлаждение, одно NVLink-домено на 72 GPU.
Ключевые характеристики
- 192 ГБ HBM3e · 8 ТБ/с
- 20 PFLOPS FP4 · 10 PFLOPS FP8
- NVLink 5 · 1.8 ТБ/с
- TEE-I/O · confidential compute
Типичные нагрузки
- GPT-OSS 120B · Llama 4 Behemoth
- DeepSeek V3.2 685B · Qwen 3 235B
- Кастомные модели 400B+ в FP4
Развёртывание
Выделенный 8-GPU-узел или доля NVL72-стойки · жидкостное охлаждение
NVIDIA Hopper
H200 NVL · H100
Продакшн-рабочая лошадка
Проверенная в бою Hopper-платформа: 141 ГБ HBM3e, 4.8 ТБ/с пропускной способности, до 2× инференса на Llama-class моделях относительно H100. Воздушное охлаждение — разворачивается в любой стойке. Оптимальная цена за производительность для 30–120B моделей.
Ключевые характеристики
- 141 ГБ HBM3e · 4.8 ТБ/с
- 3.96 PFLOPS FP8
- NVLink 4 · 900 ГБ/с
- Transformer Engine FP8
Типичные нагрузки
- Llama 4 Maverick · Mistral Large 3
- Claude-class · GPT-class 30–120B
- Long-context RAG · агенты
Развёртывание
Выделенный 4-GPU или 8-GPU-узел с NVLink · воздушное охлаждение
NVIDIA Ada Lovelace
L40S
Высокая пропускная способность для компактных моделей
Самый эффективный тир по цене за токен для моделей 7–32B. 48 ГБ памяти, 4-го поколения Tensor Cores с FP8 через Transformer Engine. Идеален для high-QPS чат-флотов, пайплайнов эмбеддингов и мультимодальных пре-процессоров.
Ключевые характеристики
- 48 ГБ GDDR6 · 864 ГБ/с
- 1.47 PFLOPS FP8
- Transformer Engine FP8
- Воздушное охлаждение · 350 Вт
Типичные нагрузки
- Llama 4 Scout · Qwen 3 8B/32B
- Gemma 3 12B/27B · Phi-5
- Эмбеддинги · реранкинг · чаты
Развёртывание
2-GPU и 4-GPU-узлы · PCIe Gen4 · стандартная стойка
Сравнение тиров
Цифры ниже — устойчивое состояние на выделенных 8-GPU-узлах с типичным продакшн-батчингом. Ваши числа зависят от модели, длины контекста и размера батча — мы всегда бенчмаркаем именно вашу нагрузку до коммита.
| Параметр | Blackwell B200 | Hopper H200 | Ada L40S |
|---|---|---|---|
| Память GPU | 192 ГБ HBM3e | 141 ГБ HBM3e | 48 ГБ GDDR6 |
| Пропускная способность памяти | 8.0 ТБ/с | 4.8 ТБ/с | 864 ГБ/с |
| Пиковый FP8 | 10 PFLOPS | 3.96 PFLOPS | 1.47 PFLOPS |
| Пиковый FP4 | 20 PFLOPS | — | — |
| Interconnect | NVLink 5 · 1.8 ТБ/с | NVLink 4 · 900 ГБ/с | PCIe Gen4 · 64 ГБ/с |
| TDP / охлаждение | 1000 Вт · жидкостное | 700 Вт · воздушное | 350 Вт · воздушное |
| Оптимальный размер модели | 70B–1T+ | 30B–120B | 7B–32B |
| Токены/с · 70B FP4/FP8 | ~8 000 (FP4) | ~2 000 (FP8) | — |
| Токены/с · 13B FP8 | ~24 000 | ~9 000 | ~3 200 |
| Конкурентные потоки · 70B | 64–128 | 32–48 | — |
| RPS чата (p95 < 500 мс) | 40–80 | 20–30 | 30–60 |
| Задержка первого токена (70B, p50) | ~180 мс | ~240 мс | — |
| Confidential compute (TEE-I/O) | Да | — | — |
| Цена инференса · 70B класс | от $0.12 / $0.36 за 1M | от $0.20 / $0.60 за 1M | — |
| Цена инференса · 8–13B класс | — | от $0.10 / $0.30 за 1M | от $0.05 / $0.15 за 1M |
Цены указаны в формате input/output за 1M токенов для резервированной выделенной ёмкости. Проксированные модели от внешних провайдеров тарифицируются по их прайс-листу без нашей наценки — см. страницу цен.
Выделенное железо. Без мультитенантности.
Корпоративные клиенты получают физически изолированный пул GPU — не долю общего API. Ваши веса, KV-кеш, логи и метрики живут только на том железе, которое назначено именно вашему тенанту.
Физическая изоляция GPU
Именованные GPU и узлы привязаны к вашему тенанту. Никаких общих очередей инференса. Никаких скачков задержки от «шумных соседей».
TEE-I/O на Blackwell
Trusted Execution Environment I/O шифрует веса и промпты с почти нулевой потерей производительности. Для регулируемых нагрузок — финансы, медицина, госсектор.
Веса остаются на вашем узле
Ваши fine-tune, LoRA-адаптеры и KV-кеш никогда не покидают назначенные GPU. Нет кросс-тенантного пулинга кеша.
Per-tenant VLAN · приватные эндпоинты
Опциональная VLAN-изоляция на тенант, приватные эндпоинты, IP allowlist. Трафик не пересекает границы тенантов внутри стойки.
Tenant KMS envelope
Ключи шифрования дисков, session tokens и API-ключевой материал упакованы envelope-шифрованием per-tenant в HSM-бэкнутом KMS.
Per-tenant audit trail
Неизменяемые логи на каждого тенанта. Экспорт в SIEM через webhook или S3. Политика хранения настраивается под вашего регулятора.
Суверенитет данных от начала до конца
Ваши данные не покидают Казахстан. Ни для обучения, ни для логирования, ни для сверки биллинга.
Вся инфраструктура внутри страны
Прод, DR, логи, метрики, бэкапы, API-шлюз — каждый байт физически в казахстанских ЦОДах.
Соответствие Закону об ИИ РК
Метки регуляторного контекста per-request. Именованный data-controller в РК. DPA со всеми корпоративными клиентами.
Биллинг в локальной валюте
Учёт в микродолларах с инвойсами в KZT. Банковский перевод, НДС-совместимые счета, без трансграничных платёжных потоков.
Поддержка в вашем часовом поясе
Именованный SRE на дежурстве в Алматы. 15-минутный отклик на P1. Поддержка на русском, казахском и английском.
Зарезервируйте выделенные GPU под свою нагрузку
Мы бенчмаркаем вашу модель и паттерн трафика на каждом тире — и резервируем правильный микс под ваш SLA и бюджет.