2025 ж. 15 мау.·7 мин оқу

AI-функция сапасының критерийлері: Product пен ML келісімі

AI-функция сапасының критерийлері пайданың шегін, тоқтату сценарийлерін және кері қайтаруды алдын ала келісіп алуға көмектеседі, сондықтан релизден кейін нәтижені таласпай шешесіз.

Қақтығыс шын мәнінде қайдан басталады

AI-функцияға қатысты қақтығыс әдетте релизден кейін емес, әлдеқайда ертерек басталады. Көбіне бұл сәт сәтті демодан кейін келеді, команда негізгі қауіп артта қалды деп ойлаған кезде. Демода модель таза мысалдарға жауап береді: сұрақ анық қойылған, контекст толық, жанында промптты бір минутта түзеп жіберетін адам бар. Нақты жұмыста бұлай бола бермейді.

Product адамға және бизнеске келетін пайдаға қарайды. Егер функция операторға күніне 20 минут үнемдесе, қолмен түзетулер санын азайтса немесе өтініштерді өткізіп алмауға көмектессе, product үшін бұл жақсы нәтиже. ML көбіне дәлдікке, толықтыққа және тест жиынындағы дұрыс жауаптар үлесіне қарайды. Екі тарап та дұрыс. Тек олар әртүрлі нәрсені талқылап отыр.

Сондықтан бірінші көрсетілімнен кейін-ақ дау шығады. ML командасы: модель валидацияда 86% көрсетті, демек сапасы жаман емес дейді. Product: пайдаланушылар бәрібір жауаптарға сенбейді, әр екінші жауапты қайта тексереді дейді. Метрика бар, ал пайда жоқ.

Күту жылдам бұзылатын жер — нақты сценарийлер. Мысалы, команда қолдау қызметіне AI-кеңес беретін функция жасап жатыр делік. Демода бәрі сенімді көрінеді: қысқа сұрақтар, түсінікті санаттар, сыпайы тон. Іске қосылғаннан кейін ұзын шағымдар, қазақша мен орысшаның араласуы, әңгіме үзінділері және бір абзацтағы бір қате бүкіл жауаптың мағынасын өзгертетін жағдайлар келеді.

Әдетте мәселе үш жерде ұлғаяды. Product қол еңбегінің азаюын күтеді, ал ML тек мәтін сапасын өлшейді. ML таза деректермен тестілейді, ал пайдаланушылар ретсіз жазады. Демо орташа жағдайды көрсетеді, ал шын ауыртпалықты сирек, бірақ қымбат қателер тудырады.

Ауызша келісім мұнда көбіне сүрінеді. Әркім уәденің өзіне ыңғайлы нұсқасын есінде сақтайды. Product: функция командаға бірінші нұсқадан-ақ көмектеседі деп естиді. ML: алдымен гипотезаны тексереміз, кейін жақсартамыз деп естиді. Метрикалар төмендеп немесе шағым көбейгенде, ортақ табыс анықтамасы болмағаны белгілі болады.

Жазбаша келісім бюрократия үшін керек емес. Ол әзірлеу басталмай тұрып-ақ ашық айту үшін қажет: қандай пайда күтеміз, қандай қате деңгейіне шыдаймыз, функция қай жерде қауіпті және оны ұзақ талқылаусыз қай кезде кері қайтару керек.

Пайданы пайдаланушы үшін не деп есептейміз

AI-функция сапасының критерийлері модель метрикасынан емес, адамның әрекетінен басталады. Команда нақты бір тапсырманы атай алмаса, сапа туралы дау алғашқы тестке дейін-ақ басталады.

Формулировка қарапайым болуы керек: кім нақты нені тезірек, дәлірек немесе қолмен басатын қадамдары аз болып орындайды. «Менеджерге клиенттермен жұмыс істеуге көмектесу» емес, «операторға тариф бойынша типтік сұраққа жауаптың жобасын ұсыну, сонда ол оны білім базасынан іздемей-ақ жібере алады» деген сияқты.

Келесі қабат — модель жауабынан кейін пайдаланушы не істейді. Бұл бұлыңғыр идеяларға жақсы сүзгі. Егер жауаптан кейін адам бәрібір үш қойындыны ашса, мәтінді басынан жазса және фактіні тексеру үшін әріптесін шақырса, онда пайда әлі жоқ.

Пайдалы жауап нақты әрекетке әкеледі. Пайдаланушы не жауапты клиентке жібереді, не нұсқалардың бірін таңдайды, не нәтижені карточкаға сақтайды, не тапсырманы қолмен қайта өңдемей келесі кезеңге береді.

Осыдан кейін пайданың төменгі шегін бекіту керек. Мінсіз нәтиже емес, тірі сценарийлерде функцияны іске қосуға әлі мәні бар ең аз деңгей. Мысалы, қолдау қызметіндегі жауап жобасы үшін минимум мынадай болуы мүмкін: оператор модель мәтінін алып, оны жіберуге 30 секундтан аз уақыт ішінде 10 жағдайдың 7-інде түзетіп бітеді. Егер түзету әр жолы екі минут алса, функция ақылды көрінеді, бірақ жұмысты жеңілдетпейді.

Міндетті және қалаулыны бірден бөліп алған пайдалы. Міндетті нәрсеге пайда мен тәуекелге қатысты пункттер кіреді: жауап сұрақ тақырыбына сай болуы, фактілер ішкі ережелерге қайшы келмеуі, пайдаланушы келесі қадамды бірден жасай алуы. Қалғанын кейін жақсартуға болады. Тілі әсемдеу, бренд тоны, ұзын түсіндірмелер мен сирек қосымша детальдар жағымды, бірақ релизді сол үшін кешіктірмеу керек.

Мұндай тәсіл қажетсіз даудың жартысын алып тастайды. Product модельдің «ақылдығына» емес, оның тапсырманы аяқтауға көмектесуіне қарайды. ML қандай сапа деңгейі пайдалы деп есептелетінін, ал қайсысы әзірге жоқ екенін түсінеді.

Сапа шегін қалай бекітеміз

Сапа жөніндегі дау модельден емес, бұлыңғыр күтуден басталады. Product: «бұл уже пайдалы» дейді. ML: «тестте бәрі дұрыс» дейді. Кейін команда апталап кімнің дұрыс екенін талқылайды. Бұлай болмас үшін AI-функция сапасының критерийлерін әзірлеу басталмай тұрып-ақ бірнеше санға түсірген дұрыс.

Әдетте 2-4 метрика жеткілікті. Одан көбірек болғаны кедергі келтіреді: адамдар қайсысы маңызды екенін таласады да, шешімді кейінге қалдырады. Жұмысқа жарайтын жинақ мынандай: пайдаланушыға пайда метрикасы, қорғаныш метрикасы, белгіленген жиындағы офлайн-метрика және егер функция уақытқа сезімтал болса, кідіріс сияқты операциялық метрика.

Оларды бір кестеде ұстау ең ыңғайлы. Сонда product, ML және тәуекел иесі бөлек дашбордтарға емес, бір құжатқа қарайды.

Метрика	Қайда өлшейміз	Іске қосу шегі	Тоқтату шегі
Пайдаланушы тапсырмасын сәтті шешу үлесі	Онлайн	72%	65%-дан төмен
Тест жиынындағы дұрыс жауаптар үлесі	Офлайн	85%	80%-дан төмен
Қауіпті немесе тыйым салынған жауаптар үлесі	Онлайн және қолмен тексеру	1%-дан аспау керек	2%-дан жоғары
Жауаптың P95 кідірісі	Онлайн	6 сек дейін	8 сек-тен жоғары

Мұндай формат жиі жасалатын қателікті жояды: офлайн бағалау продтағы сандардан бөлек өмір сүрмейді. Кесте біреу болса, тесттегі жоғары баллдың өзі іске қосуға құқық бермейтіні бірден көрінеді. Егер функция нақты ағын ішінде қателессе немесе баяуласа, пайдаланушыға ноутбуктегі әдемі метрика бәрібір.

Іске қосу шегі мен тоқтату шегі бірдей болмауы керек. Бір сан қойылса, команда әр ауытқуда абыржып қалады. Аралық қалдырған дұрыс. Мысалы, пилотты 72% сәтті шешілген тапсырмада бастауға, ал тарқатуды тек 65%-дан төмен түскенде тоқтатуға болады.

Тағы бір маңызды жайт. Сандарды кім бекітетінін алдын ала жазу керек. Product пайда метрикасы мен іске қосу шегін бекітеді. ML өлшеу тәсілі мен тест жиынының сапасына жауап береді. Тәуекел, қауіпсіздік немесе процестің иесі қорғаныш шектерін бекітеді. Бір адам, әдетте функция иесі немесе product жетекшісі, соңғы нұсқаны тіркеп, әзірлеу басталмай тұрып қол қояды.

Егер мұның бәрі қағазда болмаса, сапа шегі алғашқы сәтсіз пилот аптасынан кейін тез арада естелік бойынша дауға айналады.

Қандай тоқтату сценарийлерін өткізіп алмау керек

Тоқтату сценарийлерін кодтың бірінші жолына дейін атау керек. Бұл — қате жай ғана жауапты бұзбай, процесті құлататын, ақша тәуекелін тудыратын, дерек ағып кетуіне әкелетін немесе ережені бұзатын жағдайлар. Мұндай келісімде олар әдемі орташа метрикадан да маңызды.

Оларды жалпы қорқыныштармен емес, пайдаланушының нақты әрекеттерімен жинаған дұрыс. Модель қай жерде көбірек зиян келтіруі мүмкін? Әдетте тізім тез табылады: қате қаржылық кеңес, клиент карточкасындағы фактілерді алмастыру, маңызды симптомды өткізіп алу, жеке деректерді ашық каналға жіберу, AI-контентті қате белгілеу.

Тоқтату сценарийлерін қауіп деңгейі бойынша бөлу пайдалы. Критикалық қауіп кезінде жауапты пайдаланушыға ешқандай жағдайда көрсетуге болмайды: жүйе шығуды бөгейді, лог сақтайды және адамды шақырады. Жоғары қауіпте жауапты тек жоба нұсқасы ретінде пайдалануға болады: жүйе оны өзі жібермейді және тексеруді сұрайды. Операциялық қауіп өзінен өзі қауіпті емес, бірақ процесті бұзады, сондықтан жүйе шаблон немесе ереже бойынша балама сценарийге өтеді. Егер қауіп қайталана берсе, жүйе модельге трафикті азайтады немесе функцияны уақытша өшіреді.

Әр сценарийдің бір ғана түсінікті әрекеті болуы керек. «Кейін шешеміз» емес, нақты ереже: блоктаймыз, нақтылау сұраймыз, операторға жібереміз, ескі алгоритмге қайтарамыз, автожариялауды өшіреміз. Нұсқа көп болса, команда оларды көңіл-күйіне қарай таңдайды.

Жақсы тексеріс өте қарапайым. Мына сценарийді алыңыз: банк бот комисся түрін шатастырып, клиентке қате уәде берді. Жүйе не істейді? Егер жауап «жағдайға байланысты» болса, келісім әлі дайын емес. Анық маршрут керек: жауапты жібермеу, қауіпсіз қалыңдық мәтінін көрсету, функция иесіне тикет жасау.

Бөлек келісу керек: қате қайталану деп нені есептейміз. Мысалы, тәулігіне 3 критикалық жағдай, бір процесте 1000 сұранысқа 5 ақау немесе бір ірі клиентте 2 инцидент. Мұндай межеден кейін жүйе апта сайынғы қоңырауды күтпейді. Ол өзі релизді кері қайтарады, трафикті алдыңғы нұсқаға аударады немесе проблемалы сценарийді сөндіреді.

Сезімтал домендерде тізім әдетте кеңірек болады. Қазақстан үшін бұған көбіне PII, аудит-логтар және міндетті AI-контент белгілері кіреді. Мұндай тексерулер әрі қолданба деңгейінде, әрі LLM-шлюз деңгейінде болса, қауіпті сценарийлерді пайдаланушы шағымынан емес, оқиға бойынша бірден ұстау оңай.

Қалыпты тоқтату сценарийлері тізімі әдетте қысқа болады. Егер олар үшеуден аз болса, сіз бірдеңе қауіпті нәрсені ұмытып кеткенсіз. Егер жиырма болса, сіз нақты тыйымдар мен кәдімгі багтарды араластырып жібердіңіз.

Кері қайтару тәртібі туралы қалай келісеміз

Логтарды бір жерге жинаңыз

Пилот тірі трафикке шыққанда күмәнді жауаптарды аудит-логтар арқылы тексеріңіз.

Жұмысты бастау

Кері қайтаруды да кодтың бірінші жолына дейін сипаттау керек. Егер AI-функция зиянды нәтиже бере бастаса, команда чатта нені өшіреміз және оны кім істейді деп таласпауға тиіс. Түсінікті сценарий керек: не қалады, не сөнеді және бұл кезеңді product қалай өткізеді.

Алдымен қолмен алмастыруды бекітіңіз. Егер AI клиентке жауап жазса, оны модельсіз кім жасайды: қолдау операторы ма, шаблон жауап па, әлде қолмен тексеру кезегі ме. Егер AI өтінімдерге тег қойса, уақытша ережелерге қайта оралуға немесе күмәнді жағдайларды қызметкерге жіберуге болады. Қолмен процесс әдетте баяу әрі қымбат, бірақ сервисті жұмыс күйінде ұстап тұрады.

Кері қайтаруды екі деңгейге бөлу пайдалы. Ішінара қайтару бір ғана қауіп аймағы бұзылғанда керек. Мысалы, жауап жобасын қалдыруға болады, бірақ авто-жіберуді тыйым салуға болады. Немесе бір модельді өшіріп, трафикті болжамырақ нұсқаға ауыстыруға болады. Команда бірыңғай шлюз арқылы жұмыс істесе, мұндай ауысу көбіне тез және клиент кодын өзгертпей-ақ жасалады. Қазақстандағы компаниялар үшін бұл әсіресе ыңғайлы: провайдерді жылдам ауыстыру, аудит-логтарды сақтау және сезімтал деректерді ел шегінен шығармау керек болғанда. Мұнда airouter.kz ішіндегі AI Router көмектесе алады: ол OpenAI-мен үйлесімді бір endpoint, провайдерлер арасындағы маршрутизация, PII-ді бүркемелеу, rate limits және деректерді Қазақстан ішінде сақтауды береді.

Толық кері қайтару қате ақшаға, деректерге немесе сенімге соққы бергенде керек. Триггерлерді алдын ала жазып қойған дұрыс:

модель пайдаланушыға жіберілмеуі тиіс жеке деректерді немесе ішкі мәтінді шығарып береді;
қауіпті немесе жалған жауаптар үлесі келісілген шектен екі өлшеу қатарынан асып кетеді;
AI жауабынан кейін шағым, қолмен түзету немесе әрекеттен бас тарту саны өседі;
команда қате себебін тез түсіндіріп, мәселе аумағын тарылта алмайды.

Әр триггердің иесі болуы керек. Әдетте ішінара кері қайтару туралы шешімді on-call инженер немесе ML иесі қабылдайды, ал толық кері қайтаруды product немесе сервис жетекшісі растайды. Құжатта реакция уақыты да болуы тиіс: мысалы, ішінара кері қайтаруға 15 минут, толыққа 1 сағат. Егер жауапты екі адам болса, екіншісі қолжетімсіз болса, алғаш кім әрекет ететінін алдын ала көрсетіңіз.

Тәжірибедегі тексеріс тез-ақ есіңізді жияды. Команда функцияны бірнеше сағатта кері қайтара алуы керек, күндер емес. Ол үшін іске қоспай тұрып бір рет оқу-жаттығу ақауын өткізуге болады: тест ортасында модельді өшіру, ағынды қол режиміне ауыстыру, логтарды, алерттерді және қолдау қызметіне арналған мәтінді тексеру. Егер мұндай сынақта конфигті қолмен түзету, токен іздеу немесе бес чатта келісу қажеттігі шықса, кері қайтару жоспары әлі шикі.

Бір функцияға мысал

Қарапайым AI-функцияны алайық: банк чатындағы клиент жауабының жобасы. Пайдаланушы былай жазады: «Кеше картадан 18 500 теңге екі рет алынды, ол жазылымды мен қоспағанмын. Ақшаны қайтарып, автотөлемді өшіріңіз». Осындай бір сұраудың өзінде команда күтулері қай жерде алшақтайтыны көрінеді.

Бір сұрау, үш жауап

Егер Product пен ML арасындағы келісім жұмыс істесе, команда «жалпы әсерге» емес, нақты жауапқа қарайды.

Жақсы жауап: Екі рет есептен шығарылғанын түсіндім. Операцияны тексеремін. Есептен шығару күнін және картаның соңғы 4 цифрын растаңыз. Тексеруден кейін автотөлемді өшіруге бола ма және қайтару мерзімі қандай болатынын айтамыз. Мұндай мәтін факті ойдан шығармайды, артық уәде бермейді және диалогты әрі қарай жылжытады.

Даулы жауап: Қазір жазылымды өшіріп, қайтарымға өтінімді жіберемін. Пайдаланушыға бұл ыңғайлы естіледі, бірақ жүйе өзі орындай алмаған әрекетті алдын ала уәде етіп тұр. Оператор мәтінді әлі түзете алады, бірақ мұны автоматты түрде жіберу қауіпті.

Нашар жауап: Ақша қайтарылды, 3-5 күн ішінде шотыңызға түседі. Бұл — айқын қате. Жауап тексеріс нәтижесін ойдан құрастырып, жалған күту тудырды. Қаржылық сценарий үшін бұл тоқтату сигналы.

Мұнда пайданың шегі анық. Оператор оны дерлік түзетусіз жібере алса және клиент келесі қадамды түсінсе, жауап пайдалы. Егер оператор оны нөлден жазғаннан гөрі түзетуге көп уақыт жұмсаса, AI пайда шегі өтпеді деген сөз. Егер мәтін орындалмаған әрекетті уәде етсе немесе тексерілмеген фактіні айтса, бұл «даулы» емес, сәтсіздік.

Команда әр жағдайда не істейді

Осындай талдаудан кейін AI-функция сапасының критерийлері абстракция болып қалмайды. Әр класс үшін өз әрекеті болады.

Жақсы жауапты команда тест жиынында өтті деп белгілеп, пилотқа жібереді. Даулысын түзету керек деп қояды: промптты, ережені немесе модельді өзгертеді, ал түзетілгенге дейін тек операторға арналған жоба режимін қалдырады. Нашарын тоқтату сценарийлерінің тізіміне енгізеді, регрессиялық тесттерге қосады және AI-функциясын шаблон жауапқа немесе қолмен өңдеуге кері қайтару жоспарын іске қосады.

Сонда дау талғам мәселесінен шығып кетеді. Product қай жерде клиентке пайда барын көреді, ал ML қандай қате класын тіпті ерте іске қосуға да алып келуге болмайтынын түсінеді.

Әзірлеу басталмай тұрып жұмыс тәртібі

Деректерді ел ішінде сақтаңыз

Деректерді Қазақстанда сақтап, PII-ді шлюз деңгейінде бүркемелеңіз.

Пилотты іске қосу

Бэклогтағы алғашқы тапсырмаға дейін командаға модель таңдау емес, анық рамка керек. Онсыз Product пайдаланушыға елеулі пайда күтеді, ал ML кейін ешкімді қанағаттандырмайтын метриканы жақсартады.

Жақсы жұмыс тәртібі бір бетке сияды. Егер келісімді қысқа етіп тұжырымдау мүмкін болмаса, дау іске қосылғаннан кейін-ақ шығады.

Алдымен бір нақты сценарийді сипаттаңыз. «AI операторға көмектеседі» емес, «AI кіріс хатқа жауап жобасын ұсынады» деңіз. Жанында қатенің бағасын бірден жазыңыз: уақыт жоғалту, қате кеңес, ақша тәуекелі, клиент шағымы немесе ережені бұзу.

Содан кейін пайдамен шын байланысы бар метрикаларды таңдаңыз. Әдетте екеу-үшеу жеткілікті: қабылданған жауаптар үлесі, түзетулердің орташа саны, нәтижеге дейінгі уақыт, қауіпті қателер үлесі. Әр метрикаға шек пен тексеру көлемі керек. «Сапа жақсы болуы керек» деген сөз жарамайды.

Содан кейін тірі мысалдардан тоқтату сценарийлерін жинаңыз. Жалпы сөзбен ұзақ сипаттағаннан гөрі, күтілетін нашар нәтижесі бар 20 қысқа кейс жақсы. Мысалы, функция тарифті ойдан шығармауы, негізсіз ақша қайтаруға уәде бермеуі немесе жауапта жеке деректерді шығармауы керек.

Кейін кері қайтаруды бекітіңіз. Функцияны кім өшіреді, флаг қайда тұр, өшіргеннен кейін пайдаланушы не көреді, түнде немесе демалыста шешімді кім қабылдайды. Егер команда бірнеше модельді бір шлюз арқылы жүргізсе, негізгі модельді, қосалқы маршрутты және жүйе қол режиміне өтетін шартты алдын ала көрсету керек.

Соңында қысқа жұмыс құжатына қол қойыңыз. Онда Product тарапынан функция иесі, ML тарапынан жауапты адам, қайта қарау күні, шектер, тоқтату сценарийлері және кері қайтару тәртібі болуы тиіс. Мұндай парақ көбіне апталарға созылатын дауды үнемдейді.

Кішкентай мысал әңгімені тез жерге қайта түсіреді. Егер AI қолдау қызметіне жауап жобасын жазса, команда былай келісе алады: функция операторға диалог сайын кемінде 20 секунд үнемдеуі керек, компания саясатына сай емес әрекеттерді ұсынбауы керек және қолмен түзетулер шегі екі күн қатарынан асып кетсе, өшірілуі керек.

Егер осы пункттердің біреуі де мысалмен тексерілмесе, әзірлеуді бастамаған дұрыс. Демек, Product пен ML арасындағы келісім әлі жиналмаған.

Қымбатқа түсетін қателер

Модельдерді бір API арқылы салыстырыңыз

500+ модельге сұраныс жіберіп, релизге дейін жұмыс істейтін шекті табыңыз.

Салыстыруды бастау

Ең қымбат қателер релизге дейін-ақ болады: команда «қалыпты сапа» туралы тым бұлыңғыр келіседі. Кейін product пайдаланушыға айқын пайда күтеді, ал ML слайдта ғана әдемі көрінетін орташа метриканы көрсетеді.

Орташа баға көбіне шеттерді жасырады. Егер функция 85% қарапайым жағдайда көмектесіп, қалған 15%-ында мағынаны шатастырса, артық дерек берсе немесе қате әрекетке кеңес берсе, пайдаланушыға жеңіл болмайды. Қолдау, банк немесе клиника үшін бір нашар сұраныс класы жүз жақсы жауаптан да сенімді көбірек бұзады. Сондықтан тек орташаға емес, кесінділерге де қарау керек: сирек сұраныс түрлері, ұзын хабарламалар, аралас тіл, контекстсіз өтініштер.

Екінші қымбат қате стоп-сценарийлер сәтті демодан кейін жазылғанда пайда болады. Сол кезде команда идеяға беріліп үлгереді де, функцияны трезво тексерудің орнына қорғай бастайды. Стоп-сценарийлерді бірінші интеграцияға дейін бекіту керек: модель фактіні сенімді ойдан шығарғанда, саясатты бұзғанда, PII-ді бүркемелемегенде, пайдаланушыны тығырыққа тірегенде. Егер бұл алдын ала жазылмаса, дау продта басталады.

Тағы бір жиі сәтсіздік — пилот пен продакшенді шатастыру. Пилотта қолмен тексеру, тар пайдаланушы сегменті және қателерді баяу талдау қалыпты. Продакшендe сол жеңілдіктер бұзылады. Егер команда пилот пен кең іске қосудың шарттарын бөлмесе, AI пайдасының шегі қолдан жасалған болып шығады.

AI-функциясын кері қайтару жоспары да көбіне тек сөз жүзінде болады. Бәрі «қажет болса, кері қайтарамыз» деп келіседі, бірақ иесі тағайындалмайды. Жұма кешке сапа төмендегенде, product әрекетті ML-ден күтеді, ML платформалық команданың шешімін күтеді, ал қолдау қызметі клиенттерге жауап беріп жатады. Кері қайтарудың иесі, түсінікті триггері және ұзақ қоңыраусыз функцияны өшірудің қарапайым жолы болуы керек.

Тағы бір тыныш қате бар: сапаны ыңғайлы мысалдармен тексереді. Команда өзі ойлап тапқан қысқа сұраныстарды алады. Нақты пайдаланушылар басқаша жазады. Олар орысша мен қазақшаны араластырады, сөйлем үзіктерін, келісім нөмірлерін, есімдерді, ашуды және сарказмды жібереді. Қазақстандағы командалар үшін бұл сирек шеткі жағдай емес, кәдімгі жұмыс күні.

Іске қоспай тұрып төрт сұраққа жауап берген пайдалы:

қай сұраныс тобы орташа нәтиже жақсы болса да сенімді бұзады;
қандай жағдайлар іске қосуды бірден тоқтатады;
пилот пен продакшен метрика мен тәуекел бойынша несімен бөлек;
кері қайтаруды кім жеке өзі істейді және ол туралы көрші командаларға кім хабарлайды.

Егер бұл жауаптар тек алғашқы шағымнан кейін ғана пайда болса, AI-функция сапасының критерийлері тым қымбатқа түсті деген сөз.

Іске қосар алдындағы қысқа тізім

Іске қосар алдында күтулер жиынтығы емес, Product, ML және бизнес бірдей оқитын қысқа құжат керек. Егер пайданың тұжырымы бұлыңғыр болса, команда әдетте алғашқы демодан кейін-ақ дауласуға көшеді, ал тәсілді өзгерту қымбатқа түседі.

Іске қоспас бұрын бес нәрсені тексерген дұрыс:

Пайда бір сөйлеммен, қос мағынасыз жазылған. «Жауапты ақылдырақ ету» емес, мысалы, «шағым өңдеу уақытын 6 минуттан 4 минутқа дейін, шағым көбейтпей азайту» сияқты.
Іске қосу шегі сандармен айтылған. Команда қандай нәтижеде функцияны шығара алатынын, қандай нәтижеде болмайтынын біледі.
Тоқтату сценарийлерінің тізімі алдын ала жиналған. Оған орташа метрика жақсы болса да, продта қалдыруға болмайтын қателер кіреді.
Кері қайтаруға нақты бір адам жауапты. Егер функция тәуекелге, ақшаға немесе пайдаланушы тәжірибесіне соққы берсе, оны тоқтатуға құқығы бар.
Құжат үшеуіне де біреу. Product, ML және бизнес бір нұсқаны көреді, оны естелікпен қайта айтып жүрмейді.

Міне, бұл — AI-функция сапасының жұмыс істейтін критерийлері. Олар есеп беру үшін емес. Олар модель продуктке кіргеннен кейін, әр тарап басқа нәтиже күткен болып шыққанда, апталарға созылатын дауды үнемдейді.

Егер сізде бірнеше модель және деректерге қатаң талаптар болса, бұл тексерісті әзірлеуге дейін жасаған дұрыс. Қай модель әдепкі болатынын, логтар қайда түсетінін, аудит қалай өтетінін, PII-маскалау қайда қосылатынын және деректерді ел ішінде сақтауға бола ма — бұлардың бәрін алдын ала түсіну керек. Қазақстандағы командалар үшін мұндай сұрақтар көбіне архитектура кезеңінде шешіледі. Егер аудит-логтары, AI-контент белгілері, кілт деңгейіндегі шектеулер және модельдердің бір бөлігін жергілікті орналастыруы бар ортақ OpenAI-үйлесімді шлюз керек болса, оны AI Router арқылы жабуға болады.

Дайындықтың жақсы белгісі өте қарапайым: команданың кез келген мүшесі екі минутта функция қандай пайда береді, AI пайдасының шегі қайда, не тоқтату сценарийі болып саналатынын және кері қайтаруды кім басатынын айта алады. Егер бір пунктке болсын «жолай шешеміз» деген жауап шықса, іске қосуды екі күнге шегерген дұрыс. Әйтпесе кейін модельді емес, Product пен ML арасындағы келісімді жөндеуге тура келеді.