Перейти к содержимому
Суверенный AI-компьют · NVIDIA Blackwell · Hopper · L40S

Ваш AI работает в Казахстане

Мы не арендуем кусочек чужого облака. AI Router управляет собственным GPU-флотом в казахстанских дата-центрах: Blackwell для frontier-моделей, Hopper для продакшена, L40S для высоконагруженного инференса 7–32B. Каждому корпоративному клиенту выделяется изолированный набор GPU — данные и веса никогда не смешиваются.

GPU-тиры

3 поколения

Архитектуры NVIDIA

Blackwell · Hopper · Ada

Data residency

Казахстан

Дата-центры внутри страны

Прод, DR, логи, бэкапы, биллинг — каждый байт физически в Казахстане. Без трансграничной передачи, без зарубежных реплик.

Основной

Алматы

Казахстан

Tier III
Power
2N питание · N+1 охлаждение
Network
Dual-uplink 100 GbE · BGP multi-homed
Compliance
Сертификат Uptime Institute · Закон об ИИ РК
DR / резервный

Астана

Казахстан

Tier III+
Power
2N+1 питание · чиллеры freecooling
Network
Dark fiber · < 25 мс до Алматы
Compliance
Репликация в реальном времени · ежедневные бэкапы

Три тира инференса. Один API.

От моделей с триллионом параметров до эффективного флота 8B — мы запускаем весь стек внутри страны. Вы выбираете тир, который подходит вашей задержке, объёму и SLA.

Флагман

NVIDIA Blackwell

B200 · GB200 NVL72

Инференс моделей с триллионом параметров

Флагман 2026 года. Двухдайная архитектура, 192 ГБ HBM3e, нативный FP4 и второй Transformer Engine. До 4× быстрее H100 на LLM-инференсе и 30× на трлн-параметровых моделях в NVL72-стойке. Жидкостное охлаждение, одно NVLink-домено на 72 GPU.

Ключевые характеристики

  • 192 ГБ HBM3e · 8 ТБ/с
  • 20 PFLOPS FP4 · 10 PFLOPS FP8
  • NVLink 5 · 1.8 ТБ/с
  • TEE-I/O · confidential compute

Типичные нагрузки

  • GPT-OSS 120B · Llama 4 Behemoth
  • DeepSeek V3.2 685B · Qwen 3 235B
  • Кастомные модели 400B+ в FP4

Развёртывание

Выделенный 8-GPU-узел или доля NVL72-стойки · жидкостное охлаждение

Продакшн

NVIDIA Hopper

H200 NVL · H100

Продакшн-рабочая лошадка

Проверенная в бою Hopper-платформа: 141 ГБ HBM3e, 4.8 ТБ/с пропускной способности, до 2× инференса на Llama-class моделях относительно H100. Воздушное охлаждение — разворачивается в любой стойке. Оптимальная цена за производительность для 30–120B моделей.

Ключевые характеристики

  • 141 ГБ HBM3e · 4.8 ТБ/с
  • 3.96 PFLOPS FP8
  • NVLink 4 · 900 ГБ/с
  • Transformer Engine FP8

Типичные нагрузки

  • Llama 4 Maverick · Mistral Large 3
  • Claude-class · GPT-class 30–120B
  • Long-context RAG · агенты

Развёртывание

Выделенный 4-GPU или 8-GPU-узел с NVLink · воздушное охлаждение

Экономичный

NVIDIA Ada Lovelace

L40S

Высокая пропускная способность для компактных моделей

Самый эффективный тир по цене за токен для моделей 7–32B. 48 ГБ памяти, 4-го поколения Tensor Cores с FP8 через Transformer Engine. Идеален для high-QPS чат-флотов, пайплайнов эмбеддингов и мультимодальных пре-процессоров.

Ключевые характеристики

  • 48 ГБ GDDR6 · 864 ГБ/с
  • 1.47 PFLOPS FP8
  • Transformer Engine FP8
  • Воздушное охлаждение · 350 Вт

Типичные нагрузки

  • Llama 4 Scout · Qwen 3 8B/32B
  • Gemma 3 12B/27B · Phi-5
  • Эмбеддинги · реранкинг · чаты

Развёртывание

2-GPU и 4-GPU-узлы · PCIe Gen4 · стандартная стойка

Сравнение тиров

Цифры ниже — устойчивое состояние на выделенных 8-GPU-узлах с типичным продакшн-батчингом. Ваши числа зависят от модели, длины контекста и размера батча — мы всегда бенчмаркаем именно вашу нагрузку до коммита.

ПараметрBlackwell B200Hopper H200Ada L40S
Память GPU192 ГБ HBM3e141 ГБ HBM3e48 ГБ GDDR6
Пропускная способность памяти8.0 ТБ/с4.8 ТБ/с864 ГБ/с
Пиковый FP810 PFLOPS3.96 PFLOPS1.47 PFLOPS
Пиковый FP420 PFLOPS
InterconnectNVLink 5 · 1.8 ТБ/сNVLink 4 · 900 ГБ/сPCIe Gen4 · 64 ГБ/с
TDP / охлаждение1000 Вт · жидкостное700 Вт · воздушное350 Вт · воздушное
Оптимальный размер модели70B–1T+30B–120B7B–32B
Токены/с · 70B FP4/FP8~8 000 (FP4)~2 000 (FP8)
Токены/с · 13B FP8~24 000~9 000~3 200
Конкурентные потоки · 70B64–12832–48
RPS чата (p95 < 500 мс)40–8020–3030–60
Задержка первого токена (70B, p50)~180 мс~240 мс
Confidential compute (TEE-I/O)Да
Цена инференса · 70B классот $0.12 / $0.36 за 1Mот $0.20 / $0.60 за 1M
Цена инференса · 8–13B классот $0.10 / $0.30 за 1Mот $0.05 / $0.15 за 1M

Цены указаны в формате input/output за 1M токенов для резервированной выделенной ёмкости. Проксированные модели от внешних провайдеров тарифицируются по их прайс-листу без нашей наценки — см. страницу цен.

Выделенное железо. Без мультитенантности.

Корпоративные клиенты получают физически изолированный пул GPU — не долю общего API. Ваши веса, KV-кеш, логи и метрики живут только на том железе, которое назначено именно вашему тенанту.

Железо

Физическая изоляция GPU

Именованные GPU и узлы привязаны к вашему тенанту. Никаких общих очередей инференса. Никаких скачков задержки от «шумных соседей».

Безопасность

TEE-I/O на Blackwell

Trusted Execution Environment I/O шифрует веса и промпты с почти нулевой потерей производительности. Для регулируемых нагрузок — финансы, медицина, госсектор.

Данные

Веса остаются на вашем узле

Ваши fine-tune, LoRA-адаптеры и KV-кеш никогда не покидают назначенные GPU. Нет кросс-тенантного пулинга кеша.

Сеть

Per-tenant VLAN · приватные эндпоинты

Опциональная VLAN-изоляция на тенант, приватные эндпоинты, IP allowlist. Трафик не пересекает границы тенантов внутри стойки.

Ключи

Tenant KMS envelope

Ключи шифрования дисков, session tokens и API-ключевой материал упакованы envelope-шифрованием per-tenant в HSM-бэкнутом KMS.

Аудит

Per-tenant audit trail

Неизменяемые логи на каждого тенанта. Экспорт в SIEM через webhook или S3. Политика хранения настраивается под вашего регулятора.

Суверенитет данных от начала до конца

Ваши данные не покидают Казахстан. Ни для обучения, ни для логирования, ни для сверки биллинга.

01

Вся инфраструктура внутри страны

Прод, DR, логи, метрики, бэкапы, API-шлюз — каждый байт физически в казахстанских ЦОДах.

02

Соответствие Закону об ИИ РК

Метки регуляторного контекста per-request. Именованный data-controller в РК. DPA со всеми корпоративными клиентами.

03

Биллинг в локальной валюте

Учёт в микродолларах с инвойсами в KZT. Банковский перевод, НДС-совместимые счета, без трансграничных платёжных потоков.

04

Поддержка в вашем часовом поясе

Именованный SRE на дежурстве в Алматы. 15-минутный отклик на P1. Поддержка на русском, казахском и английском.

Зарезервируйте выделенные GPU под свою нагрузку

Мы бенчмаркаем вашу модель и паттерн трафика на каждом тире — и резервируем правильный микс под ваш SLA и бюджет.