Сіздің AI-ыңыз жұмыс істейді Қазақстанда
Біз біреудің бұлтының бөлігін жалға алмаймыз. AI Router қазақстандық дата-орталықтарда өз GPU-флотын басқарады: frontier-модельдерге Blackwell, өндіріске Hopper, 7–32B инференсінің жоғары өткізгіштігіне L40S. Әр корпоративтік клиентке оқшауланған GPU пулы бөлінеді — сіздің деректеріңіз бен салмақтарыңыз ешкіммен араласпайды.
GPU тирлері
3 ұрпақ
NVIDIA архитектуралары
Blackwell · Hopper · Ada
Data residency
Қазақстан
Ел ішіндегі дата-орталықтар
Өндіріс, DR, логтар, сақтық көшірмелер, биллинг — әр байт физикалық Қазақстанда. Шекарадан тыс беру жоқ, шетелдік репликалар жоқ.
Алматы
Қазақстан
- Power
- 2N қуат · N+1 салқындату
- Network
- Dual-uplink 100 GbE · BGP multi-homed
- Compliance
- Uptime Institute сертификаты · ҚР ЖИ туралы заң
Астана
Қазақстан
- Power
- 2N+1 қуат · free-cooling чиллерлері
- Network
- Dark fiber · Алматыға < 25 мс
- Compliance
- Нақты уақытты репликация · күн сайынғы бэкаптар
Үш инференс тирі. Бір API.
Триллион параметрлі frontier-модельдерден 8B тиімді флотқа дейін — біз бүкіл стекті ел ішінде жұмыс істетеміз. Кідіріс, көлем және SLA-ға сәйкес тирді өзіңіз таңдайсыз.
NVIDIA Blackwell
B200 · GB200 NVL72
Триллион параметрлі модельдер үшін инференс
2026 жылдың флагманы. Екі дайлы архитектура, 192 ГБ HBM3e, нативті FP4 және екінші буын Transformer Engine. H100-ден LLM-инференсінде 4×-ға дейін жылдамырақ, NVL72 сөреде триллион параметрлі модельдерде 30×. Сұйықтықпен салқындату, бір 72-GPU NVLink доменінде.
Негізгі сипаттамалар
- 192 ГБ HBM3e · 8 ТБ/с
- 20 PFLOPS FP4 · 10 PFLOPS FP8
- NVLink 5 · 1.8 ТБ/с
- TEE-I/O · confidential compute
Әдеттегі жүктемелер
- GPT-OSS 120B · Llama 4 Behemoth
- DeepSeek V3.2 685B · Qwen 3 235B
- FP4-дегі кастомдық 400B+ модельдер
Орналастыру
Бөлек 8-GPU түйіні немесе NVL72 сөренің бөлігі · сұйықтықпен салқындатылған
NVIDIA Hopper
H200 NVL · H100
Өндіріс жұмысшы аты
Шайқаста сыналған Hopper платформасы: 141 ГБ HBM3e, 4.8 ТБ/с өткізгіштік, Llama-класс модельдерде H100-ден 2× инференс. Ауамен салқындатылған — кез келген сөреде орналасады. 30–120B модельдер үшін баға/өнімділіктің тиімді нүктесі.
Негізгі сипаттамалар
- 141 ГБ HBM3e · 4.8 ТБ/с
- 3.96 PFLOPS FP8
- NVLink 4 · 900 ГБ/с
- Transformer Engine FP8
Әдеттегі жүктемелер
- Llama 4 Maverick · Mistral Large 3
- Claude-класс · GPT-класс 30–120B
- Ұзын контекстті RAG · агенттер
Орналастыру
NVLink-пен бөлек 4-GPU немесе 8-GPU түйіні · ауамен салқындатылған
NVIDIA Ada Lovelace
L40S
Шағын модельдер үшін жоғары өткізгіштік
7–32B модельдеріне арналған токен үшін ең тиімді тир. 48 ГБ жады, Transformer Engine арқылы FP8 бар 4-ұрпақ Tensor Cores. Жоғары QPS чат-флоттары, эмбеддинг құбырлары және мультимодалды пре-процессорлар үшін идеалды.
Негізгі сипаттамалар
- 48 ГБ GDDR6 · 864 ГБ/с
- 1.47 PFLOPS FP8
- Transformer Engine FP8
- Ауамен салқындату · 350 Вт
Әдеттегі жүктемелер
- Llama 4 Scout · Qwen 3 8B/32B
- Gemma 3 12B/27B · Phi-5
- Эмбеддингтер · реранкинг · чат
Орналастыру
2-GPU және 4-GPU түйіндері · PCIe Gen4 · стандартты сөре
Тирлер бойынша салыстыру
Төмендегі сандар — әдеттегі өндірістік батчингпен бөлек 8-GPU түйіндеріндегі тұрақты режим. Сіздің сандарыңыз модельге, контекст ұзындығына және батч өлшеміне байланысты — біз міндеттеме алдында дәл сіздің жүктемеңізді бенчмарк жасаймыз.
| Параметр | Blackwell B200 | Hopper H200 | Ada L40S |
|---|---|---|---|
| GPU жады | 192 ГБ HBM3e | 141 ГБ HBM3e | 48 ГБ GDDR6 |
| Жады өткізгіштігі | 8.0 ТБ/с | 4.8 ТБ/с | 864 ГБ/с |
| Шыңды FP8 | 10 PFLOPS | 3.96 PFLOPS | 1.47 PFLOPS |
| Шыңды FP4 | 20 PFLOPS | — | — |
| Interconnect | NVLink 5 · 1.8 ТБ/с | NVLink 4 · 900 ГБ/с | PCIe Gen4 · 64 ГБ/с |
| TDP / салқындату | 1000 Вт · сұйық | 700 Вт · ауа | 350 Вт · ауа |
| Үздік модель өлшемі | 70B–1T+ | 30B–120B | 7B–32B |
| Токен/с · 70B FP4/FP8 | ~8 000 (FP4) | ~2 000 (FP8) | — |
| Токен/с · 13B FP8 | ~24 000 | ~9 000 | ~3 200 |
| Параллель ағындар · 70B | 64–128 | 32–48 | — |
| Чат RPS (p95 < 500 мс) | 40–80 | 20–30 | 30–60 |
| Алғашқы токенге дейінгі уақыт (70B, p50) | ~180 мс | ~240 мс | — |
| Confidential compute (TEE-I/O) | Иә | — | — |
| Инференс құны · 70B класс | $0.12 / $0.36-дан 1M үшін | $0.20 / $0.60-дан 1M үшін | — |
| Инференс құны · 8–13B класс | — | $0.10 / $0.30-дан 1M үшін | $0.05 / $0.15-дан 1M үшін |
Бағалар резервтелген бөлек қуат үшін 1M токенге input/output форматында көрсетілген. Үшінші тарап провайдерлерінен прокси-модельдер біздің үстеме ақымыз жоқ олардың прайс-листі бойынша есептеледі — бағалар бетін қараңыз.
Бөлек жабдық. Ортақ пайдалану жоқ.
Корпоративтік клиенттер физикалық оқшауланған GPU пулын алады — ортақ инференс API-дың бөлігін емес. Сіздің салмақтарыңыз, KV-кеш, логтар мен метрикалар тек сіздің тенантыңызға тағайындалған жабдықта ғана өмір сүреді.
Физикалық GPU оқшаулау
Аталған GPU мен түйіндер сіздің тенантыңызға тағайындалған. Ортақ инференс кезектері жоқ. «Шулы көрші» кідіріс секірулері жоқ.
Blackwell-де TEE-I/O
Trusted Execution Environment I/O салмақтар мен промпттарды өнімділікке әсер етпей шифрлайды. Реттелетін жүктемелер — қаржы, медицина, мемсектор үшін.
Салмақтар сіздің түйініңізде қалады
Сіздің fine-tune, LoRA-адаптерлеріңіз және KV-кешіңіз тағайындалған GPU-ларды ешқашан тастамайды. Тенанттар арасында кеш пулинг жоқ.
Per-tenant VLAN · жеке эндпоинттер
Опциялы тенант бойынша VLAN-оқшаулау, жеке эндпоинттер, IP allowlist. Трафик сөре ішінде тенант шекараларын кесіп өтпейді.
Tenant KMS envelope
Диск шифрлау кілттері, session tokens және API-кілттік материал HSM-негізді KMS-те тенант бойынша envelope-шифрленген.
Per-tenant audit trail
Әр тенант үшін өзгертілмейтін логтар. Webhook немесе S3 арқылы SIEM экспорты. Сақтау саясаты сіздің реттеушіңізге сәйкес бапталады.
Деректер егемендігі — басынан аяғына
Сіздің деректеріңіз Қазақстаннан шықпайды. Оқыту үшін де, логтау үшін де, биллингті салыстыру үшін де.
Бүкіл инфрақұрылым ел ішінде
Өндіріс, DR, логтар, метрикалар, сақтық көшірмелер, API шлюзі — әр байт физикалық қазақстандық ЦОД-да.
ҚР ЖИ туралы заңға сәйкес
Әрбір сұрау үшін реттеуші контекст белгілері. Қазақстандағы аталған data-controller. Әр корпоративтік клиентпен DPA.
Жергілікті валютадағы биллинг
KZT-мен инвойстармен микродоллар есепке алу. Банк аударымы, ҚҚС-сәйкес шот-фактуралар, шекарадан тыс төлем ағындары жоқ.
Сіздің уақыт белдеуіңіздегі қолдау
Алматыда дежурдегі аталған SRE. P1-ге 15 минуттық жауап. Орыс, қазақ және ағылшын тілдеріндегі қолдау.
Жүктемеңізге бөлек GPU-ларды резервтеңіз
Біз әр тирде сіздің дәл моделіңіз бен трафик үлгіңізді бенчмарк жасаймыз — содан кейін SLA мен бюджетіңізге сәйкес микстілігін резервтейміз.