Мазмұнға өту
2025 ж. 29 сәу.·7 мин оқу

LLM-функциялардың шарықтау жүктемесі: өнімді қалай құлатпау керек

LLM-функциялардың шарықтау жүктемесі өнімді құлатпауы керек. Кезекті қашан қосу, жауапты қалай жеңілдету және трафикті жеңіл модельдерге қашан ауыстыру керегін талдаймыз.

LLM-функциялардың шарықтау жүктемесі: өнімді қалай құлатпау керек

Шарықтау сағатында өнімде не болады

Шарықтау сағатында LLM-функцияларда көбіне модельдің өзі ғана бұзылмайды. Көбіне алдымен кіріс контуры сыр береді: API шлюзі, авторизация, лимиттер, кезек, диалог тарихы бар база немесе жеке деректерді маскалау сервисі. Модель әлі жауап беріп тұрады, бірақ пайдаланушы тым ұзақ күтеді.

Мәселе әдетте тізбек бойынша ұлғаяды. Бірнеше сұрау сәл ұзақ ілініп қалады, клиенттер қайталап жібереді, фронтенд жаңа қосылымдар ашады, воркерлер толып қалады, ал логтар мен метрикалар кешігіп келеді. Бірнеше минуттан кейін графикте бір ғана ақау емес, бүкіл жүйедегі кептеліс көрінеді.

Көбіне пик кезінде мына жерлер сыр береді:

  • кіріс API және кілт бойынша rate limit шектеулері
  • тарих сақтау орны, кэш және векторлық іздеу
  • модерация, PII-маскалау және аудит сервистері
  • фронтенд, мобильді қосымша және бэкендтегі таймауттар

Сондықтан ақау көбіне модельден басталмайды. Егер сізде бірнеше провайдерге ортақ шлюз болса, сұрауды тез арада басқа маршрутқа ауыстыруға болады. Бірақ ол да көмектеспейді, егер сұрау кезекте тұрып қалса, лимитке тірелсе немесе тым үлкен контекст сүйреп келсе. Пайдаланушы үшін айырмашылығы жоқ. Өнім жай ғана баяу және сенімсіз болып қалды.

Одан кейін өнім көрсеткіштері сыр бере бастайды. Егер жауап 4 секундта келіп, 15 секундқа созылса, адамдар экранды жиі жабады, сол сұрақты қайта жібереді немесе операторға кетеді. Қайталанған сұраулар трафиктің жаңа серпінін жасап, жүктемені өздері күшейтеді.

Тірі өнімде бұл өте қарапайым көрінеді. Ритейлдегі чат кешкі акция кезінде жеткізу мен қайтару туралы сұрақтардың саны 3 есе өседі. Тек сұраулардың 10-15%-ы ғана баяулай бастаса да, диалогтағы конверсия төмендейді, саппортқа жүктеме артады, ал таймауттар белсенді ағынның дерлік бәрінде көріне бастайды.

Ең жағымсызы — мұндай құлдырау ұзақ уақыт шыдауға болатын сияқты көрінеді. Жүйе әлі де жауап береді, бірақ ақша мен сенімді жоғалта бастайды.

Қандай сигналдар жүктеменің ерте өскенін көрсетеді

Пик сирек ашық қателерден басталады. Алдымен ең баяу сұраулардың кідірісі өседі, содан кейін қайталаулар мен таймауттар жиналады, тек содан кейін ғана өнім пайдаланушы көзінде "құлай" бастайды. Тек 5xx-ке қарап отырсаңыз, мәселені тым кеш көресіз.

Кезек бірден бірнеше жерде өсуі мүмкін. API кірісінде сұраулар бос воркерді күтеді. Маршруттау қабатында провайдерді таңдауды немесе резерв бағытқа ауысуды күту жиналады. Модельдің өзінде first token келгенге дейінгі уақыт өседі, провайдер немесе GPU шегіне жақындағанда. Генерациядан кейін база да баяулауы мүмкін: аудит-логтар, PII маскалау, чат тарихын жазу. Жалпы кідіріс бір, ал себептері әр жолы бөлек.

Егер сұраулар AI Router сияқты OpenAI-үйлесімді бір шлюз арқылы өтсе, метрикаларды бірден қабаттарға бөліп тастаған дұрыс: кіріс API, маршруттау, сыртқы провайдер және өз хранилищелеріңіз. Әйтпесе команда бір ғана кідіріс графигіне қарап, тар жерді қайдан іздеу керек деп таласып, жүктемені жылдам түсіре алмай қалады.

Қателерден бұрын әдетте мына сигналдар іске қосылады:

  • p95 және p99 жауап уақыты өседі, ал орташа көрсеткіш әлі қалыпты көрінеді
  • кезектегі күту уақыты генерацияның өзінен тезірек өседі
  • қайталау саны мен басқа провайдерге ауысу үлесі жоғарылайды
  • time to first token жоғарылап барады, толық жауап әлі нормаға сыйса да
  • пайдаланушылар сұрауды жиірек тоқтатады немесе жауап келгенше экранды жабады

Порогтарды "жалпы" емес, өзіңіздің қалыпты жүктемеңізге қарай қойған дұрыс. Қарапайым жұмыс істейтін нұсқа мынадай: сары деңгей — p95 базалық нормадан 1,5 есе жоғары болып бес минут бойы тұрса; қызғылт сары — кезектегі күту SLA-ның 10-15%-ынан көп бөлігін жеп қойса; қызыл — таймауттар, 429 немесе 5xx бірнеше минут бойы 1-2%-дан жоғары тұрса.

Егер чаттың әдеттегі p95 уақыты 3 секунд болса, 8-10 секундты күтпей-ақ 4,5 секундта әрекет еткен жөн. Интерактивті функциялар үшін көбіне толық жауап уақытына қарағанда алғашқы токенге дейінгі уақыт маңызды. Ұзақ жауапты адамдар бос экраннан жақсырақ көтереді.

Тағы бір жиі қате — бәріне бір шек қою. Білім базасында іздеу, хат генерациялау және құжаттарды пакеттік өңдеу әртүрлі әрекет етеді. Әр сұрау түрінің өз нормасы болуы керек. Әйтпесе сіз трафикті тым ерте кесесіз немесе бірнеше минутқа кешігесіз, ал пик кезінде бұл апатқа жетуге жеткілікті.

Кезекті қашан қосу керек, ал қашан бірден трафикті кесу керек

Кезек әрдайым пайдалы емес. Ол тек пайдаланушы сәл күтіп, бәрібір қалыпты нәтиже алуға дайын болған жерде көмектеседі. Егер жауап бірден керек болса, кезек тек апатты бірнеше секундқа жасырады.

Ереже қарапайым: табиғи ұзақтығы өзі-ақ сезілетін тапсырмаларды кезекке жіберіңіз. Адам онсыз да 10-20 секунд күтіп отырса, қосымша 3-5 секунд көбіне көтерімді. Ал ол бірден жауап күтсе, қысқа кідірістің өзі сценарийді бұзады.

Кезекке әдетте мынадай ұзақ summary-лерді, есеп пен хат генерациясын, карточкалар мен өтініштерді пакеттік өңдеуді, қызметкерлерге арналған ішкі AI-құралдарды және жауап экранда бірден керек емес фондық тапсырмаларды жіберуге болады.

Ал трафикті кесу немесе өңдеуді бірден жеңілдету керек жерлер — кідіріс пайдаланушының әрекетіне тікелей әсер ететін жерлер. Бұл тірі чат, формадағы кеңестер, дауыстық сценарийлер, төлем алдындағы тексеріс, антифрод және басқа қысқа қадамдар. Мұндай жерлерде қысқа әрі ашық бас тарту, жауапты жеңілдету немесе сұрауды жеңіл модельге ауыстыру дұрыс.

Кезек ұзындығын сұрау санымен емес, күту уақытымен өлшеген дұрыс. Егер сервис нақты 40 сұрауды секундына өңдесе, ал 8 секундтан артық күту UX үшін ауыр болса, бұл класта кезек шамамен 320 тапсырмадан жоғары өспеуі керек. Әйтпесе сіз тек қарыз жинайсыз, оны пайдаланушы бәрібір сезеді.

Тағы жақсысы — трафиктің әртүрлі түріне бөлек кезек ұстау, сонда жаппай есеп генерациясы интерактив чаттың жолын жаппайды. Ал күту мәтінін де ұмытпаңыз. "Күте тұрыңыз" деген сөз ашуландырады. "Жауап дайындалып жатыр, бұл 7 секундқа дейін уақыт алады" деген жақсырақ жұмыс істейді, өйткені адам шегін көреді. Егер кідіріс өссе, таңдау беріңіз: күту, қысқа нұсқаны алу немесе кейін қайту.

Бірегей шлюзі бар командалар үшін бұл әсіресе ыңғайлы. Ауыр тапсырмаларды кезекке жіберіп, ал қысқа сұрауларды бірден резерв маршрутқа немесе жеңіл модельге ауыстыруға болады. Сонда шарықтау сағаты таймауттар тізбегі емес, басқарылатын режимге айналады.

Сапаны қалай ретімен төмендетуге болады

Жүктеме артқанда пайдаланушы көбіне 20 секунд күтіп, қате алғаннан гөрі қысқа жауапты оңай қабылдайды. Сондықтан деградацияны қабаттап құрған дұрыс: алдымен артықты алып тастау, сосын ауыр бөліктерді сөндіру, тек содан кейін ғана қатаң шараларға көшу.

Алдымен нені жеңілдету керек

Алдымен жауап пайдалы болып қала беретін барлық нәрсені қысқартыңыз. Әдетте бұлар — ұзақ кіріспелер, артық мысалдар, формулировканы қайталау, үлкен кестелер және тым егжей-тегжейлі форматтау.

Егер ассистент әдетте 700-900 токен жазса, пик кезінде 300-500 токен жеткілікті болып қалады. Чат, саппорт және ішкі көмекшілер үшін бұл айқын әсер береді: кезек тезірек қозғалады, ал жауаптың мәні көп жоғалмайды.

Шығыс ұзындығын команданың көңіл-күйіне қарай емес, сигналға қарап қысқарту керек. Егер күту уақыты өссе, кезек бірнеше минут бойы қысқармаса, ал ұзақ жауаптардың үлесі жоғары болып қалса, жауап көлеміне лимит енгізіңіз. Интерактив сценарийлерде ұзындықты 30-40% қысқарту көбіне қысымның бір бөлігін алып тастайды.

Ауыр функцияларды бір-бірлеп сөндірген дұрыс. Сыртқы дереккөздерден іздеуді желі немесе retrieval елеулі кідіріс қоса бастағанда алып тастаңыз. Файлдармен жұмысты кәдімгі чаттан бұрын өшіріңіз: PDF, суреттер және ұзақ құжаттар уақыт пен токенді тез жұтады. Ұзақ контексті де соңына дейін ұстамаңыз. Егер сұрау он мыңдаған токендік тарихты сүйреп келсе, терезені шектеп, тек соңғы маңызды хабарларды қалдырыңыз.

Қысқа мысал. Егер пайдаланушы "екі келісімшартты салыстырып, тәуекелдерді көрсет" десе, қалыпты режимде жүйе екі файлды толық оқып, кеңейтілген есеп бере алады. Пикте алдымен шығыс көлемін қысқартуға болады, кейін жаңа файл жүктеуге уақытша тыйым салуға, ал одан кейін чатқа пайдаланушы өзі енгізген мәтін бойынша қысқа ғана резюме қалдыруға болады.

Деңгейлерді сюрпризсіз қалай орнату керек

Командаға қарапайым режимдік жоспар керек. Әдетте 3-4 деңгей жеткілікті:

  • 0-деңгей — толық жауап, іздеу, файлдар, ұзақ контекст
  • 1-деңгей — қысқа жауаптар, артық форматтаусыз және ұзақ мысалдарсыз
  • 2-деңгей — іздеусіз және файлдармен жұмыссыз, қысқартылған контекстпен
  • 3-деңгей — тек базалық сценарийлер, шығысқа қатаң лимит

Әр деңгей үшін алдын ала үш нәрсені бекітіңіз: қандай метрика оны қосады, оны кім қоса алады және жүйе қашан қайтадан кері түседі. Бұлай болмаса, деградация тез арада қолмен реттелетін хаосқа айналады: бір команда контекстті қысқартады, екіншісі іздеуді өшіреді, ал үшіншісі шағым неге көбейгенін түсінбейді.

Пик кезінде бар мүмкіндікті қымбатқа түссе де сақтап қалудан гөрі, болжауға болатын тәртіпті ұстаған дұрыс. Аздап қысқалау жауапты пайдаланушылар әдетте кешіреді. Қызметтің құлауы — жоқ.

Сұрауларды жеңіл модельдерге қашан ауыстыру керек

Аудит пен PII бір жерде
Кілттер бойынша аудит жүргізіп, PII-ді бір контурда маскалаңыз

Жеңіл модельге ауысу бәрі бұзылып болғанда емес, одан бұрын қажет. Егер кідіріс өсіп, кезек үлкейіп, ал кейбір сұраулар ақшаға, қауіпсіздікке немесе соңғы шешімге әсер етпесе, оларды арзанырақ әрі жылдамырақ маршрутқа бұрып жіберуге болады.

Жеңіл модельдерге көбіне шикі нәтиже керек, мінсіз тұжырым емес тапсырмалар жақсы өтеді. Бұған мәтіннің қысқа резюмесі, өтінішті классификациялау, тақырыпты анықтау, деректерді қарапайым қалыпқа келтіру, операторға арналған draft жауап, типтік құжаттардан өрістерді шығару жатады. Модель бір сөзде қателессе немесе сәл жұмсақ текст берсе, өнім құлап қалмайды.

Ал қателік бағасы жоғары жерде олай істемеген дұрыс. Келісімшарттарды тексеру, медициналық кеңестер, антифрод, кредиттік сценарийлер, адам тексермей клиентке берілетін жауап, басшылыққа арналған ішкі есептерді күшті модельде қалдырған жөн немесе кемінде қосымша тексеріс қосқан дұрыс.

Трафикті клиент түрі бойынша емес, сұрау маңыздығына қарай бөлу пайдалы. Бір пайдаланушының өзі бірде шұғыл, бірде екінші кезектегі тапсырма жіберуі мүмкін. Практикада үш класс енгізу ыңғайлы: қате қымбатқа түсетін критикалық трафик; сапасы аздап төмендесе де болатын жұмысшы трафик; және summary, тегтер мен draft-тарды шарықтау кезінде бірден жеңіл модельге жіберуге болатын фондық трафик.

Егер AI Router сияқты бір OpenAI-үйлесімді endpoint болса, мұндай ережелерді бір жерде ұстау оңайырақ. Команда сұрауларды тапсырма класы бойынша бағыттап, әр провайдерге арнап кодты қайта жазбайды. Бұл әсіресе пик 20-30 минутқа созылып, жүктемені тез түсіру керек болғанда ыңғайлы.

Ауыр модельге қайта оралу да дежур инженердің көңіл-күйімен емес, ережемен жүруі керек. График төмендеді екен деп бәрін бірден қайтармаңыз. Кемінде 10-15 минут бойы кезек өспей, қателерде секіріс болмай тұрғанын күтіңіз. Содан кейін әуелі трафиктің бір бөлігін қайтарып, кідірісті бақылап, тек содан соң ғана шектеуді толық алыңыз.

Кенеттен ауытқу уақытша сапа төмендеуінен де зиянды. Сәл қарапайым жауапты пайдаланушы тағы қабылдайды. Ал қайталанған таймауттар мен API құлдырауын — жоқ.

Сұрау күрт көбейгенде жасалатын қадамдық жоспар

Трафик күрт өскенде өнімді көбіне модельдің өзі емес, қарапайым ережелердің жоқтығы бұзады: нені кез келген жағдайда ұстап қаламыз, нені баяулатуға болады, ал нені уақытша жеңілдетеміз. Сондықтан жоспарды "жол-жөнекей шешеміз" форматында емес, нақты шектер мен әрекеттер түрінде дайындаған дұрыс.

Алдымен пайдаланушы сценарийлерінен бастаңыз. Клиенттерге қолдау көрсету үшін жылдам қысқа жауап көбіне мінсіз формулировкадан маңыздырақ. Ал есеп генерациясы үшін керісінше: нәтиже мәнін жоғалтпаса, пайдаланушы күте алады. Функцияларды кемінде үш топқа бөліңіз: критикалық, күтуді көтеретін және фондық. Бұл бірден тәртіп орнатады.

  1. Әр топқа шектер қойыңыз. Әдетте үш метрика жеткілікті: p95 кідірісі, кезек ұзындығы және минуттық не сағаттық шығын. Мысалы, егер p95 6 секундтан асса, кезек 200 сұраудан асып кетсе, ал осы сағатқа бөлінген бюджет тым тез жанып жатса, жүйе режимін өзгертуі керек.

  2. Шектерге деградацияның нақты сатыларын байлаңыз. Алдымен ең қымбат бөліктерді өшіріңіз: ұзақ контекст, қайталама генерациялар, күрделі шығару форматтары. Егер мұның өзі жетпесе, критикалық емес функциялар үшін сұрау жиілігін азайтыңыз. Тек содан кейін ғана жүктеменің бір бөлігін қарапайым модельдерге ауыстырыңыз.

  3. Қай жерде кезек керек, ал қай жерде ашық бас тарту жақсы екенін алдын ала шешіңіз. Егер пайдаланушы соңғы құжатты күтіп отырса, кезекке болады. Егер ол нақты уақыттағы диалог жүргізсе, 40 секунд күту көбіне қарапайым модельден алынған қысқа жауаптан да нашар.

  4. Осы ережелерді нагрузкалық тестте өткізіңіз. Тек RPS көтермей, нақты теңсіздіктерді тексеріңіз: ұзақ промпттардың серпіні, бір клиенттен қатар өскен трафик, сыртқы провайдердегі қате секірісі. Тестте шектердің қайсысы тым жұмсақ, қайсысында сапаны қажеттен бұрын кесіп жатқаныңыз тез көрінеді.

  5. Автоматты қайтаруды баптаңыз. Кідіріс пен кезек нормаға келгенде, жүйе үнемдеу режимін өзі өшіруі керек, мысалы 10-15 минут жаңа серпінсіз өткен соң. Әйтпесе уақытша нашарлау оңай тұрақтыға айналады.

Егер сізде AI Router сияқты шлюз болса, мұндай ережелерді модельдердің маршруттауымен, rate limit-термен және кілттер бойынша аудитпен қатар ұстау ыңғайлы. Бірақ принцип құралға тәуелді емес: алдымен жұмыс істеп тұрған өнімді сақтайсыз, содан кейін сапаны қайтарасыз, керісінше емес.

Мысал: бір өнім, жүктеменің төрт түрі

Өз міндеттеріңізде кідірісті азайтыңыз
Төмен кідіріс пен жергілікті сақтау үшін AI Router инфрақұрылымында open-weight модельдерін іске қосыңыз

Бір өнімде әдетте LLM-жүктеменің бір ғана түрі болмайды. Шарықтау кезінде онлайн-чат, тауар карточкалары, ішкі құралдар және фондық тапсырмалар бірдей лимиттер үшін таласа бастайды. Егер бәрін бір ағынға жіберсеңіз, клиентке ең көрінетіні зардап шегеді.

Ірі e-commerce сервисін елестетіңіз. Күндіз адамдар саппортқа жазады, каталогты қарайды және жеткізу туралы сұрақ қояды. Сол уақытта қызметкерлер ішкі көмекшіні ашады, ал түнде жүйе сатылым мен өтініштер бойынша ұзақ есептер дайындайды.

Саппорт чаты үшін логика қарапайым: VIP-диалогтар толық модельде қалады және басымдық алады. Мұнда қате бағасы токен бағасынан жоғары. Егер клиент қымбат тапсырысты қайтару туралы жауап күтсе, әр сұраудан үнемдегеннен гөрі сапаны сақтаған дұрыс.

Тауар каталогы басқаша жұмыс істейді. Пайдаланушы әдетте қысқа әрі дәл жауап қалайды: өлшем бар ма, модель несімен өзгеше, жеткізу қашан болады. Пик кезінде каталог контекстті қысқартып, екінші деңгейлі детальдарды алып тастап, жауапты 2-3 сөйлемге дейін азайта алады. Мұндай сценарийде бұл дерлік байқалмайды, бірақ жүктеме өте тез төмендейді.

Қызметкерлерге арналған ішкі көмекші бірден жауап беруге міндетті емес. Егер оператор немесе менеджер 10-20 секунд күте алса, жүйені клиент трафигінен ресурсты тартып алғаннан гөрі кезекке жіберген дұрыс. Қызметкер бәрібір жауап алады, ал сыртқы контур қателерді шашпайды.

Түнгі есептерді мүлде бір деңгейде ұстаудың қажеті жоқ. Оларды бірден бөлек лимиті мен іске қосу уақыты бар фондық өңдеуге жіберген дұрыс. Күндіз сұрау серпіні келсе, есеп бизнестің айтарлықтай зиянынсыз тыныш кезеңге дейін күте тұрады.

Мұндай тәсіл команда трафикті техникалық түріне емес, құндылығына қарай бөлгенде жақсырақ жұмыс істейді. Сонда өнім "толығымен құлап қалмайды", әр тапсырмаға әртүрлі мінез көрсетеді. Бірегей шлюз арқылы мұны маршруттау, лимиттер және модель таңдау деңгейінде ыңғайлы орнатуға болады, бірақ идея кез келген құралдан кең: алдымен клиент бірден байқайтын нәрсені сақтаңыз, содан кейін қалғанын.

Пикті апатқа айналдыратын қателер

Көбіне өнім трафиктің өсуінен емес, алдын ала қабылданған бірнеше жаман шешімнен құлайды. Жүктеме жүйені сирек бірден бұзады. Алдымен кідіріс өседі, сосын кезек жиналады, сосын пайдаланушылар жауапты тым кеш алады немесе мүлде алмайды.

Бірінші жиі қате — барлық сұрауды бір үлкен модельге жіберу. Трафик тегіс жүргенде бұл ыңғайлы. Бірақ шарықтау кезінде пайдаланушы үшін маңызды жауап та, мәтінді қайта жазу, тегтеу немесе қысқа summary сияқты екінші кезектегі тапсырмалар да бірдей қымбат әрі баяу болып қалады. Бір ортақ маршрут локал мәселені тез арада бүкіл өнімнің ақауына айналдырады.

Егер сізде AI Router сияқты OpenAI-үйлесімді шлюз болса, мәні бір ғана endpoint-те емес. Мәні — сұрау кластарын алдын ала бөлу: қайсысы күшті модельге барады, қайсысын арзанына беруге болады, ал қайсысын кейінге қалдыруға болады.

Екінші қате — қатаң шегі жоқ кезек. Қағаз жүзінде ол жүйені құтқарады. Іс жүзінде көбіне тек апатты жасырады: сервис формалды түрде тірі, бірақ адамдар 40-60 секунд күтеді де кетеді. Шексіз кезек ұстап, барлық уақыт қорын жағып жібергеннен гөрі, жүктеменің бір бөлігін бірден кері қайтарған жақсы.

Үшінші қате — деградацияны тым кеш қосу. Командалар көбіне таймауттар басталғанша күтеді де, содан кейін асығып функцияларды өшіре салады. Бұл кеш болады. Деградация ерте сигналдар бойынша қосылуы керек: p95 кідірісінің өсуі, кезек ұзындығының секіруі, token бюджетінің жетіспеуі, бір провайдердегі қателер.

Төртінші қате — барлық сұрауды бірдей маңызды деп санау. Банк, интернет-дүкен немесе SaaS өнімінде бәсеңдетуге болмайтын әрекеттер бар: саппорт чатындағы жауаптар, өтінімді тексеру, операторға арналған қысқа түйін. Ал бірнеше минут күте алатын тапсырмалар да болады. Жүйе осы айырмашылықты көрмесе, ресурсты дұрыс емес жерге жұмсайды.

Пиктен кейінгі үнсіз қате де бар: команда қалыпты режимді қайтаруды ұмытады. Жеңілдетілген модельдер қажеттен ұзақ қосулы тұрады, сапа төмендейді, пайдаланушылар шағымданады, ал метрикаларды оқу қиындайды. Қорғанысты қосуға триггер ғана емес, кері қайтуға да анық ереже керек: мысалы, 15 минут қалыпты кідіріс және босап бара жатқан кезек.

Жақсы қорғаныс скучно көрінеді. Онда лимиттер, басымдықтар, ерте шектер және қалыпты жұмысқа қайтудың түсінікті тәсілі бар. Дәл осы тәртіп өнімді шарықтау сағатында аяғынан тік ұстайды.

Шарықтау сағаты алдында қысқа чек-лист

Трафикті кластарға бөліңіз
Лимиттерді кілттер бойынша және маршруттау ережелерін бір шлюзде ұстаңыз

Пик алдында ұзақ регламенттің қажеті жоқ. Команда 10 минутта тексере алатын бірнеше қарапайым қадам керек. Егер соның кемінде бірі дайын болмаса, жүктеме тез арада апатқа айналады.

  • Кідіріс пен отказ үшін нақты шектер қойылған: p95, таймаут үлесі, 5xx пайызы.
  • Кезекке ұзындық және күту уақыты бойынша қатаң лимит бар.
  • Жеңіл модельге резерв маршрут алдын ала бапталған және қарапайым тапсырмаларда тексерілген.
  • Өнім генерациясыз жауап беретін сценарийлер бар: тапсырыс статусы, шоттағы қалдық, операция тарихы, тариф ережелері, жиі сұраққа дайын шаблон.
  • Командада апаттық режимді кім қосатыны, шешімді кім сақтайтыны және метриканы кім бақылайтыны белгілі.

Қысқа сценарийді алдын ала өткізіп көрген пайдалы. Мысалы, 18:05-те кезек өседі, 18:07-де p95 шектен асады, 18:08-де жүйе ұзақ генерацияларды өшіреді, қарапайым сұрауларды жеңіл модельге ауыстырады және кейбір экрандар үшін жауапты шаблонмен береді. Пайдаланушы 25 секунд күтпей, нәтижені 2-3 секундта алады және қате көрмейді.

Егер бұл чек-лист тек құжатта жатса, пайдасы аз. Оны алерттерге, конфигтегі флагтарға және дежур ауысым үшін бір түсінікті әрекетке байлаған дұрыс.

Әрі қарай не істеу керек

Егер сізде LLM-функциялардың жүктемесі бұрын өсіп кеткен болса, келесі ақауды күтпеңіз. Қалыпты жоспар бірнеше сағат немесе бір-екі жұмыс күні алады, бірақ өнімді ең жағымсыз сәтте құтқарады.

Алдымен сценарийлердің маңыздылығы бойынша картасын жасаңыз. Барлық сұрау бірдей емес. Білім базасында іздеу, ұзақ есеп генерациясы, чаттағы қысқа жауап және ішкі қызметтік классификация әртүрлі ережемен өмір сүруі керек. Команда бұл картаны көргенде, нені кез келген бағамен қорғау, нені кезекке қою, ал нені уақытша жеңілдету керегін шешу оңайырақ болады.

Одан кейін сапаны төмендетудің үш деңгейін алдын ала сипаттап шығыңыз. Біріншісі әдетте пайдаланушыға дерлік байқалмайды: жауап ұзындығы қысқа, контекст қысқа, қайталау саны аз. Екіншісі анық сезіледі: кейбір қымбат функциялар кезекке кетеді, ал күрделі тапсырмалар арзанырақ модельдерге ауысады. Үшінші деңгей апаттық: өнім тек ең маңызды сценарийлерді қалдырады, ал қалған трафикті кеседі немесе кейінге қалдырады.

Мұны қысқа жұмыс жоспарында бекітіп қойған пайдалы:

  • қандай сценарийлер критикалық, маңызды және екінші кезектіге жатады
  • әр деградация деңгейінде не өзгереді
  • қандай метрикаларда жүйе келесі деңгейге ауысады
  • автоматика істемесе, командадан кім қолмен режимді қосады

Содан кейін жасанды заглушкаларда емес, нақты prompt-тармен нагрузкалық тест өткізіңіз. Жасанды тест көбіне әдемі сурет салады, бірақ нақты жағдайда құлап қалады. Нақты сұрау тізбектерін алыңыз: ұзақ хабарлар, нашар тұжырымдар, қайта басулар, ауыр құжаттар, сағат басындағы серпіндер. Сонда орташа температураны емес, нақты тар жерлерді көресіз.

Әртүрлі провайдерлер мен модельдер үшін бірегей маршруттау қабатын дайындау да пайдалы. Сонда бір провайдер баяулап қалса немесе қымбаттаса, қосымшаны асығыс қайта жазудың қажеті болмайды. Сіз тек ережені өзгертесіз: критикалық сұраулар тұрақтырақ маршрутқа кетеді, жаппай сұраулар — жеңіл модельдерге, фондық өңдеу — кезекке.

Егер командаға бір OpenAI-үйлесімді кіріс нүктесі керек болса, мұндай қабатты өз шлюзіңіздің үстінде құруға немесе airouter.kz сайтындағы AI Router сияқты дайын нұсқаны пайдалануға болады. Ол маршруттауды, rate limits пен аудитті бір жерде ұстайды, ал Қазақстан мен Орталық Азия командалары үшін жергілікті дерек сақтау және теңгемен B2B-инвойсингті де жеңілдетеді.

Жақсы нәтиже қарапайым көрінеді: шарықтау сағатында өнім бәрін бірден батырлықпен істемей қояды. Ол нені қысқарту, нені кейінге қалдыру және нені кез келген бағаға сақтау керегін алдын ала біледі.

Жиі қойылатын сұрақтар

Шарықтау қашан қауіпті болып кеткенін қалай түсінемін?

Қауіпті сәт айқын қателерден бұрын басталады. Егер p95 бірнеше минут қатарынан әдеттегі нормадан шамамен 1,5 есе жоғары тұрса, ал кезек пен қайталап жіберулер өссе, қорғаныс режимін бірден қосыңыз, 5xx күтпеңіз.

5xx-тен бөлек қандай метрикаларды қарау керек?

p95 және p99, кезектегі күту уақыты, time to first token, retry үлесі және пайдаланушының тоқтатуы сияқты көрсеткіштерге қараңыз. Бұл сигналдар әдетте таймауттар мен 5xx-терден бұрын өседі.

Кезек қай кезде көмектеседі, ал қай кезде тек кедергі болады?

Кезекті адам күтуге дайын болғанда және жауап бәрібір пайдалы болатынын білетін жерде қолданыңыз. Чат, формадағы кеңестер, дауыстық қадамдар және төлем алдындағы тексерулер үшін көбіне пайдаланушыны күттіргеннен гөрі жауапты тез ықшамдау немесе ашық түрде бас тарту жақсы.

Кезекке қандай лимит қою керек?

Лимитті тапсырма санына емес, күту уақытына қарай есептеңіз. Егер сервис секунд сайын 40 сұрауды өңдесе, ал UX 8 секундтан кейін бұзылса, осы санат үшін кезек шамамен 320 тапсырмадан көп өспеуі керек.

Жүктеме артқанда алдымен нені алып тастаған дұрыс?

Жауап бәрібір пайдалы болып қалатын бөліктерді қысқартыңыз: ұзақ кіріспелерді, артық мысалдарды, ауыр форматтауды және тым үлкен шығысты. Көбіне жауап ұзындығын 30-40% азайту жүктемені айтарлықтай түсіреді, мағынаға қатты зиян келтірмейді.

Қарапайым модельге қашан ауысқан жөн?

Кідіріс пен кезек өсіп, тапсырма ақшаға, қауіпсіздікке немесе соңғы шешімге әсер етпесе, оны жеңіл модельге алдын ала ауыстырыңыз. Summary, жіктеу, өрістерді шығару және қарапайым draft үшін бұл әдетте дұрыс қадам.

Шарықтау кезінде қандай тапсырмаларға тимеген дұрыс?

Қате қымбатқа түсетін сценарийлерді жеңілдетпеңіз. Бұған көбіне келісімшарттарды тексеру, медициналық кеңестер, антифрод, кредит шешімдері және адам тексермей берілетін клиент жауабы кіреді.

Бәрі бірден құлап қалмауы үшін трафикті қалай бөлуге болады?

Ағынды үш классқа бөлу ең оңай: критикалық, жұмысшы және фондық. Сонда чат пен клиентке бірден көрінетін басқа функциялар басымдық алады, ал есептер, пакеттік өңдеу және ішкі құралдар ортақ контурды бітемейді.

Қалыпты жұмыс режимін қашан қайтаруға болады?

Бәрін график жақсарған сәтте бірден қайтармаңыз. Кезек өспей, қателер көбеймей 10-15 минут күтіңіз, содан кейін шектеулерді кезең-кезеңімен алып тастаңыз да, кідіріс қайта өспегенін бақылаңыз.

Күтілетін сұрау толқыны алдында нені тексеру керек?

Акцияға немесе таратуға дейін кідіріс пен қате шектері, кезектің төбесі, жеңіл модельге резерв маршрут және кезекші рөлдері тексерілсін. Командада режимді кім және қашан қосатыны түсініксіз болса, нақты пик кезінде сіз таласқа минут жоғалтасыз.