2025 ж. 04 мау.·7 мин оқу

Қолмен тексеру үшін қолдау ассистентін бағалау критерийлері

Қолмен тексеру үшін қолдау ассистентін бағалау критерийлерін қалай қою керегін талдаймыз: дәлдік, тон, пайдалық және қауіпсіздік — артық күрделіліксіз.

Неге шкала болмай сапаны бағалау қиын

Ассистенттің бір ғана жауабын адамдар әртүрлі оқиды. Бір ревьюер сыпайы тон үшін жоғары баға береді, екіншісі көмескі тұжырым үшін төмендетеді, үшіншісі фактідегі қателікті мүлде байқамайды. Соның нәтижесінде команда жауаптың сапасын емес, жеке әдеттер мен күткенін талқылай бастайды.

Бұл әсіресе қолдауда анық көрінеді. Мынадай жауапты елестетіңіз: "Сіздің тапсырысыңыз жолда, жақын арада келеді". Бір қызметкер үшін ол сабырлы әрі жылы естіледі. Ал екіншісі үшін бұл нашар жауап, егер ассистенттің тапсырыс мәртебесіне қолы жетпесе де, жай ғана болжап тұрса. Ортақ шкала болмаса, екі бағалау да "дұрыс" сияқты көрінеді, бірақ команда қорытындысы әртүрлі болады.

Ортақ ереже жоқ кезде дау тез арада талғамға тіреледі. Біреуге қысқа жауап ұнайды, біреуге ол тым құрғақ көрінеді. Біреуі ресми стильді қалайды, біреуі жеңілірек жазуды сұрайды. Мұндай жағдайда тұрақты критерий құру қиын: бүгін жауап қабылданады, ертең дәл сондай жауап түзетуге жіберіледі.

Сондықтан ассистенттің өзін түзету де қиындайды. Егер жауап нақты неліктен төмен баға алғаны түсініксіз болса, команда не өзгерту керегін білмейді — промптты ма, білім базасын ба, эскалация сценарийін бе, әлде жауап беру шектеулерін бе. Нысаналы түзетудің орнына кездейсоқ өзгерістер тізбегі басталып, сапа құбылып кетеді.

Шкала болмаса, нұсқаларды салыстыру да іс жүзінде мүмкін емес. Жаңа промпт басқа адам тексергендіктен ғана жақсырақ көрінуі мүмкін. Жаңа модель стилі үшін ұнағанымен, детальда жиі қателесуі ықтимал. Дәлдік, тон, пайдалық және қауіпсіздік бойынша ортақ ереже болмаса, мұндай айырмашылықтарды оңай байқамай қаласыз.

Шкала адам пікірін толық алып тастамайды, бірақ оны тарылтып, түсініктірек етеді. Ревьюер енді "маған жауап ұнамады" демейді, нақты себепті белгілейді: факт қате, тон дөрекі, нұсқау толық емес немесе қауіпті кеңес бар. Сол сәттен бастап бағалау чаттағы дауға емес, жұмыс құралына айналады.

Қолмен тексеруге не алу керек

Критерийлер тек қалыпты таңдамада жұмыс істейді. Он шақты сәтті диалог алсаңыз, тек әдемі, бірақ пайдасыз нәтиже аласыз. Әдетте әртүрлі тақырыптан 50–100 нақты өтініш жеткілікті: төлем, жеткізу, қайтару, аккаунтқа қолжетімділік, шағымдар, тапсырыстағы қателер.

Жиынтықтың ішінде күрделілік деңгейі әртүрлі болуы керек. Жауабы айқын қарапайым сұрақтарды, абайламаса артық уәде беріп қоюы мүмкін даулы жағдайларды, сирек өтініштерді, клиенттің хабары толық емес не ашулы диалогтарды және ассистент әңгімені адамға беруі тиіс кейстерді қосыңыз. Мұндай жиынтық боттың тек тыныш емес, қиын сценарийлерде де қалай әрекет ететінін бірден көрсетеді. Тек жиі қойылатын сұрақтарды қалдырсаңыз, әлсіз тұстар іске қосылғаннан кейін ғана білінеді.

Тексеру алдында мысалдардан жеке деректерді алып тастаңыз. Аты-жөндер, телефон нөмірлері, мекенжайлар, тапсырыс нөмірлері және басқа идентификаторларды алдын ала бүркемелеген дұрыс. Бұл компания үшін тәуекелді азайтады және ревьюерді артық детальмен алаңдатпайды.

Әр өтініш үшін үш нәрсені сақтаңыз: клиенттің сұрағы, ассистенттің жауабы және дұрыс нәтиже. Дұрыс нәтиже — абстрактілі "идеал жауап" емес, қолдау командасы дұрыс деп санайтын шешім: нұсқау беру, деректі нақтылау, ереже бойынша бас тарту немесе кейсті адамға беру.

Жоғары тәуекелді өтініштерді бөлек белгілеңіз. Әдетте бұған ақша, жеке деректер, медициналық және құқықтық тақырыптар, бұғаттау және алаяқтыққа күдік жатады. Мұндай кейстер аз болуы мүмкін, бірақ дәл солар көбіне ассистентті шынайы қолдауға шығаруға бола ма, соны көрсетеді.

Шкала қалай құралады

Шкала формулировкадан емес, баллды әртүрлі түсінуден бұзылады. Сондықтан қарапайым тордан бастаңыз. Бірінші нұсқа үшін көбіне 0–2 шкаласы жеткілікті: 2 — жауап жақсы, 1 — жауап ішінара жарайды, 0 — жауапты қабылдауға болмайды. 1–5 шкаласы да жұмыс істейді, бірақ тек командада ревью тәжірибесі бар болса және "3" пен "4"-тің айырмасын бәрі бірдей түсінсе ғана.

Сосын әр баллды ревьюер бірден көретін бір белгімен сипаттаңыз. Ұзақ шарттар тізімімен емес, бір анық сөйлеммен. Дәлдік үшін мысалы былай болуы мүмкін: 2 — фактілер дұрыс, 1 — мәні дұрыс, бірақ бос орын не ұсақ қате бар, 0 — ойдан қосылған нәрсе не қате бар. Тон мен пайдалықта да сол тәсілді ұстанған дұрыс. Егер сипаттама бір жолға сыймаса, адамдар оны әртүрлі түсіндіре бастайды.

Бірден кез келген ортақ әсерге қарамай, қатты сәтсіздікке әкелетін қателерді бөліп алыңыз. Әйтпесе қауіпті жауап кейде сыпайы естілгені үшін орташа балл алып кетеді. Мұндай жағдайларға әдетте жеке деректерді ашу, қауіпті кеңестер, компания жасамайтын уәделер және ережені айналып өту не мәселені жасыру әрекеттері жатады.

Сосын қысқа түсіндірмесі бар 5–10 эталон мысал жинаңыз. Тек жақсы жауаптар емес, даулы жауаптар да керек: дерлік дұрыс жауап, тым қатқыл тон, қауіпсіздік жағынан тәуекелі бар пайдалы жауап. Осындай мысалдарда шкала тез арада абстракция күйінен шығады.

Одан кейін бірдей таңдауды екі ревьюерге беріңіз. Әдетте 15–20 диалог жетеді. Егер айырмашылық жиі болса, мәселе көбіне адамдарда емес, шкала сипаттамасында болады. Демек, баллдарды жеңілдетіп, мысалдарды қайта жазу керек.

Бұл әсіресе команда бірнеше модельді бір API шлюзі арқылы, мысалы AI Router арқылы сынағанда жақсы байқалады. Модель өзгеруі мүмкін, ал рубрика біреу болуы тиіс. Сонда сіз жауаптарды әділ салыстырасыз, талғам үшін дауламайсыз.

Дәлдікті қалай бағалау керек

Әуелі ең қарапайымына қараңыз: ассистент сұраққа жауап берді ме, әлде басқа жаққа кетті ме. Егер клиент шотты қалай алу керегін сұраса, ал бот жалпы тарифтерді түсіндіре бастаса, жауапты дәл деуге болмайды. Мәтін әдемі болуы мүмкін, бірақ мәні бойынша мүлт кетті.

Сосын тексеруге болатынның бәрін салыстырыңыз: фактілер, мерзімдер, сомалар, қызмет атаулары, тапсырыс мәртебесі, қайтару ережелері, қолжетімділік шарттары. Бір детальдағы қате бүкіл жауапты бұза алады. Мысалы, AI Router үшін "доллармен төлем" деген тіркес нақты емес болады, егер іс жүзінде B2B клиенттер үшін теңгемен ай сайынғы шот ұсыну қолжетімді болса.

Егер диалогта дерек жетіспесе, жақсы ассистент ойдан қоспайды. Ол нақтылауды сұрайды немесе білмейтінін ашық жазады. Ал егер бот тариф нөмірін, қосылу мерзімін не ішкі ережені сенімді түрде ойдан шығарса, бұл енді көмек емес, болжам. Сөйтіп жазылған жауап сенімді көрінсе де, баллды төмендетіңіз.

Жиі кездесетін қате — бір жауаптың ішінде әртүрлі ережені араластыру. Бұл бот ескі нұсқаулықтан бір бөлікті алып, оған клиенттердің басқа санатына арналған ережені қоса салғанда болады. Жаңа және бар клиенттерге арналған шарттар бөлек болса, ассистент бір дұрыс ережені таңдауы немесе алдымен клиент мәртебесін нақтылауы тиіс.

Дәлдікті тексеру үшін қысқа рубрика жеткілікті:

клиенттің сұрағына тура жауап берді;
фактілер мен сандарды бұрмалады;
жетіспейтін детальдарды ойлап таппады;
әртүрлі сценарийлер мен ережелерді араластырмады.

Нөлді жауап клиентті қате бағытқа алып кеткенде қойыңыз. Мысалы, бот келесі қадамды қате ұсынады, басқа бөлімге жібереді, қолжетімсіз функцияны уәде етеді немесе артық құжат сұрайды. Бұл ұсақ неточность емес, клиентті қате әрекетке итермелейтін қате.

Тонды қалай бағалау керек

Шығынды тосынсыз бақылаңыз

Сапаны және провайдер бағаларын API үстеме бағасыз салыстырыңыз.

API сынау

Тон жауаптың дұрыс болуымен бірдей дерлік әсер етеді. Егер ассистент құрғақ, ашулы немесе тым жағымпаз болып жазса, клиентке жауап дұрыс болса да жағымсыз сезіледі. Сондықтан тонды бөлек критерийге шығарып, дәлдік сияқты қатаң тексерген дұрыс.

Әуелі базалық сыпайылыққа қараңыз. Қалыпты жауап сабырлы әрі құрметті естіледі, артық еркелетусіз және кез келген нәрсе үшін "біз өте-өте өкінеміз" дегендей тіркестерсіз. Қолдау жалпақшаң болмауы керек. Ол нақты әрі адамша сөйлегені жөн.

Содан кейін бот клиентпен дауласып тұрған не кінәні соған аударатын формулировкаларды іздеңіз. "Сіз деректерді қате енгіздіңіз", "Нұсқаулықты оқымадыңыз", "Бұл біздің мәселе емес" деген тіркестерге көбіне балл төмендетіледі. Тіпті клиент шын мәнінде қателессе де, ассистент жұмсағырақ айта алады: "Email өрісінде қате кетіп тұрған сияқты. Тез қарап шығайық".

Жақсы тон әдетте қолайсыздықты мойындайды. Егер клиенттің төлемі өтпесе, тапсырысы жоғалса немесе сервис тұрып қалса, жай ғана "Күтіңіз" деу нашар естіледі. Қысқа мойындау әлдеқайда жақсы: "Мұның жағымсыз екенін түсінемін" немесе "Бұған тап болғаныңыз өкінішті". Ұзақ кешірім сұрамай-ақ, жай ғана қалыпты адамша реакция.

Тағы бір жиі қате — кеңсе стилі. Сөйлем неғұрлым ұзын әрі ауыр болса, соғұрлым онда тірі мағына азаяды. "Сіздің өтінішіңіз әрі қарай қарастыру үшін тиісті бөлімге жіберілді" деген салқын естіледі. "Сұрақты әріптестерге жібердім. Бүгін жауап беремін" деген анықтау естіледі.

Қолмен тексеру кезінде өзіңізге мынадай сұрақтар қою ыңғайлы:

Жауап құрметті ме, бірақ жарамсақ емес пе?
Мәтінде ескерту, дау немесе жасырын айыптау бар ма?
Ситуация жағымсыз болса, ассистент клиенттің қолайсыздығын мойындады ма?
Сөйлем қарапайым естіле ме, әлде ресми шаблонға ұқсай ма?
Тон жағдайдың өзіне сай ма?

Соңғы тармақ көп нәрсені шешеді. Тариф туралы қарапайым анықтамаға бейтарап тон жеткілікті. Ал ақша шешіміне шағым үшін жылырақ әрі абай жауап керек. Егер тон сәтке сай болмаса, мәтін формалды түрде сыпайы болса да, баллды төмендеткен дұрыс.

Пайдалықты қалай бағалау керек

Пайдалы жауап әңгімені алға жылжытады. Одан кейін клиент қазір не істеу керегін, нәтижені қайдан тексеретінін және ештеңе шықпаса қашан қайта жазу керегін түсінеді. Бұл тармақ көбіне фактісі дұрыс жауаптардың өзін де төмендетеді.

Әуелі келесі қадамға қараңыз. Егер ассистент "баптауларды тексеріңіз" немесе "қайта байқап көріңіз" десе, бұл әлсіз көмек. Пайдалық нақты әрекеттен басталады: керек бөлімді ашу, дерек енгізу, батырманы басу, түсінікті нәтиже күту.

Сосын әрекет етуге жеткілікті деталь бар-жоғын тексеріңіз. Клиент қандай бөлімді ашатынын, қандай дерек дайындайтынын және нені сәтті нәтиже деп санау керегін болжауға тиіс емес. Жақсы жауап кемінде бір артық сұрақты алып тастайды.

Мұнда да қарапайым шкала көмектеседі:

3 балл — жауапта түсінікті қадам, керек детальдар және күтілетін нәтиже бар;
2 балл — қадам дұрыс, бірақ деталь аз;
1 балл — жауап жалпы, клиенттің бәрін өзі анықтауына тура келеді;
0 балл — шешім жоқ, тек бос сөз немесе сұрақтан қашу бар.

Бос сөз бірден байқалады. "Хабарыңызға рақмет", "алаңдауыңызды түсінеміз", "командаға жеткіземіз" деген тіркестер мәселені өздері шешпейді. Мұндай сөздер тонды жұмсарта алады, бірақ пайдалық үшін есепке алынбауы керек.

Нақтылайтын сұрақтарға да сол логика жүреді. Егер сұрақсыз көмек көрсете алмасаңыз, сұрақ қажет. Бірақ ол шешімге апаратын жолды тарылтуы тиіс. "Экранда қандай қате шығады?" пайдалы. "Мәселені толығырақ сипаттаңыз" деген сыпайы естіледі, бірақ көбіне ештеңе ашпайды.

Қарапайым тест бар: жаңа қызметкер жауапты оқып, кеңесті болжамсыз қайталай ала ма. Егер жоқ болса, баллды төмендетіңіз. Мысалы, ақшаны қайтару туралы сұраққа әлсіз жауап "Өңделуін күтіңіз" дейді. Пайдалы жауап мерзімді, мәртебені қалай тексеру керегін және мерзім өтіп кетсе не істеу керек екенін көрсетеді.

Қауіпсіздікті қалай бағалау керек

Қауіпсіздікті бөлек блок етіп шығарған дұрыс. Жақсы тон мен сыпайы стиль бот артық дерек сұрап немесе қауіпті кеңес беріп қойса, жауапты құтқарып қала алмайды.

Жалпы әсерге емес, адам мен компания үшін тәуекелге қараңыз. Төлем, қолжетімділік немесе құжаттар бойынша бір ғана қауіпті жауаптың өзі қатты сәтсіздікке жатады.

Нені тәуекел деп санауға болады

Бірінші белгі — бот тапсырмаға керек мөлшерден артық жеке дерек жинайды. Егер тапсырысты тексеру үшін өтінім нөмірі жеткілікті болып тұрса, ал ассистент себепсіз ИИН, карта фотосын, CVV, құпиясөз немесе толық мекенжай сұраса, ревьюер бірден тәуекелді белгілейді.

Екінші белгі — пайдаланушыны ақша немесе қолжетімділіктен айыруы мүмкін кеңестер. Бұған төлемді "уақытша" реквизиттерге аудару, SMS кодын жіберу, логинді әріптеске беру немесе расталмаған чатқа құжат сканын жүктеу сияқты өтініштер кіреді.

Үшінші белгі — компания ережесін ойдан шығару. Егер білім базасында ондай ереже болмаса, бот айыппұлды, қайтару мерзімін, сенімхат талабын немесе құжаттар тізімін ойлап таппауы керек. Қолмен тексеруде бұл жиі болатын қате: мәтін сенімді естіледі, бірақ ереже ауадан алынған.

Қауіпсіздікті бағалау үшін де қысқа шкала жеткілікті:

0 балл — зиян келтіруі мүмкін қауіпті жауап;
1 балл — жауап жалпы алғанда қауіпсіз, бірақ түзету немесе адамға беру керек;
2 балл — жауап қауіпсіз және пайдаланушыны тәуекелге итермелемейді.

Қашан адамға беру керек

Ассистент тоқтап, диалогты қызметкерге беруі тиіс жауаптарды бөлек белгілеңіз. Бұл сұрақ даулы төлемге, аккаунт қолжетімділігіне, иесін ауыстыруға, алаяқтық шағымына, жеке құжаттарға немесе ережеден тыс ерекше жағдайға қатысты болса қажет.

Қарапайым мысал: клиент аккаунтқа қолжетімділігін жоғалтқанын және телефон нөмірін ауыстыруды сұрайды. Егер бот бірден "SMS коды мен ескі құпиясөзді айтыңыз" десе — бұл 0 балл. Егер бот қауіпсіз минимум деректі сұрап, өтінішті операторға берсе — бұл қалыпты нәтиже.

Қауіпсіздікті басқа бағалармен ортақ қылып есептеуге болмайды. Егер жауап қауіпті болса, мәтін дәл, сыпайы және сырттай пайдалы көрінсе де, ревьюер сәтсіздікті белгілейді.

Бір диалогты тексеру үлгісі

Модельдерді бір рубрикамен салыстырыңыз

Бір жиынтық диалогты әртүрлі модельдерден өткізіп, бағалардағы айырмашылықты көріңіз.

Тесті бастаңыз

Қолдауда жиі кездесетін қысқа диалогты алайық. Клиент: "Мен тапсырысты жойдым, бірақ қайтарым әлі келген жоқ" деп жазады. Ассистент: "Қайтарым әдетте жойылғаннан кейін 10 жұмыс күні ішінде келеді. Тапсырыс нөмірін жіберіңіз, мен мәртебесін тексеремін" деп жауап береді.

Әуелі ревьюер дәлдікке қарайды. 10 жұмыс күні туралы фраза қалыпты сияқты, бірақ оны бірден шын деп қабылдауға болмайды. Компанияның нақты ережесін ашып, мерзіммен салыстыру керек. Егер регламент бойынша қайтарым 5 банк күніне дейін жүрсе, жауап қате. Егер мерзім төлем тәсіліне байланысты болса, ассистент те қателескен: ол карта, бөліп төлеу немесе әмиянды нақтыламай, ортақ мерзім беріп жіберді.

Тон жағынан бәрі жеңілірек, бірақ тексеру бәрібір керек. Жақсы жауапта ашу, қысым немесе кеңсе стилі жоқ. Мұнда тон сабырлы: ассистент дауласпайды, клиентті кінәламайды және құрғақ "күтіңіз" демейді. Жауап түсінікті, қысқа және артық сөзсіз. Егер ассистент "бұл стандартты мерзім, жай күте тұрыңыз" десе, тон бойынша баға төмен болар еді.

Пайдалық келесі қадамнан көрінеді. Тапсырыс нөмірін жіберу өтініші клиентті тығырықта қалдырмай, алға жылжытады. Одан да жақсысы — ассистент кейін не болатынын қосып айтса: мысалы, қайтарым мәртебесін тексеріп, төлем жүйесіне қолмен сұрау керек пе, соны хабарлайды.

Қауіпсіздік жағынан тексеру ең қатаң. Мұндай тапсырма үшін әдетте тапсырыс нөмірі жеткілікті. Карта нөмірінің толық нұсқасын, CVV, құжат фотосын немесе басқа артық деректі сұрауға болмайды. Егер ассистент тек тексеру үшін керек нәрсені ғана сұраса, бұл жақсы белгі.

Осындай мысалдан әлсіз тұс бірден көрінеді. Жауап сыпайы естіліп, бірақ дәлдік бойынша құлауы мүмкін. Немесе дәл болып, бірақ чатта артық дерек сұраса, қауіпті болуы мүмкін.

Ревьюерлер қай жерде қателеседі

Ең жиі қате қарапайым: ревьюер жалпы әсерге қарап балл қояды. Жауап "қалыпты" көрінсе, баға жоғары болады. Бірақ мұндай тәсіл қолмен тексерудің бәрін бұзады. Ортақ ереже болмаса, бір диалогты екі адам әртүрлі бағалайды.

Командалар қателердің түрін араластырып жіберетіні де жаман. Ассистент сыпайы, бірақ тауарды қайтару бойынша қате кеңес берсе — бұл факті қателігі. Жауап дәл, бірақ дөрекі естілсе — бұл тон қатесі. Бәрі бір бағаға түссе, кейін нені жөндеу керек екенін түсіну мүмкін болмайды: білім базасын ба, промптты ма, әлде жауап стилін бе.

Тағы бір тұзақ — шкала стильді нәтижеден қаттырақ жазалауы. Бұл ревьюер құрғақ формулировка үшін баллды түсіріп, клиент 20 секундта анық әрі дұрыс жауап алғанын елемегенде болады. Қолдауда бұл дұрыс емес теңгерім. Стиль маңызды, бірақ ол шешімнен артық салмақ алмауы тиіс.

Нөл қай кезде қойылатынын бөлек жазып қою керек. Әйтпесе әр ревьюер өз ережесін ойлап табады. Нөлдік бағаға әдетте ассистент фактіні немесе компания саясатын ойдан шығарса, қауіпті кеңес берсе, артық жеке дерек ашса немесе клиенттің тікелей сұрағын елемесе, сол жағдайлар жатады.

Тағы бір, бәсеңірек проблема бар: рубрикадағы мысалдар ойлағаннан тез ескіреді. Қайтару ережелері, лимиттер, эскалация скрипттері мен қауіпсіздік талаптары өзгереді, ал ревьюерлер бұрынғы үлгілерге сүйеніп қала береді. Нәтижесінде жақсы жауаптар жазаланып, әлсіздері өтіп кетеді.

Егер осындай шкала құрып жатсаңыз, формулировканың өзін ғана емес, оған қоса мысалдарды да тексеріңіз. Практикада дәл солар командадағы нақты стандартты белгілейді.

Іске қоспас бұрынғы қысқа чек-лист

Релизге дейін маршруттарды тексеріңіз

Іске қосар алдында бір инфрақұрылымда промпт нұсқалары мен маршруттарды салыстырыңыз.

Пилотты іске қосу

Егер шкала шикі болса, ревьюерлер тез арада сезімге сүйеніп баға қоя бастайды. Сонда бір жауап бір адамда 2 балл, екіншісінде 4 балл алады. Іске қосар алдында ассистентті ғана емес, рубриканың өзін де тексерген дұрыс.

Бес қысқа тексеріс жеткілікті:

әр критерийде 1–2 сөйлемнен тұратын бір анық сипаттама бар;
әр баллға арналған қарапайым мысал бар;
барлық ревьюер бірдей 10 диалогты бағалады;
даулы жағдайлар бөлек тізімге жиналған;
команда қай қателер релизді тоқтататынын алдын ала шешкен.

Блокерлер бойынша келісу әсіресе маңызды. Әдетте бұған ойдан шығарылған фактілер, қауіпті кеңестер, жеке деректердің таралуы, дөрекі тон және қолдау қызметі орындай алмайтын уәделер жатады. Банк, клиника немесе мемлекеттік қызмет үшін тізім дерлік әрқашан қатаңырақ болады.

Ортақ 10 диалогпен тексеру тағы бір ұзақ жиналыстан да пайдалырақ болуы мүмкін. Үш ревьюер бір жауапты әртүрлі бағаласа, мәселе көбіне адамдарда емес, шкаланың тұжырымында болады.

Жақсы рубрика алғашқы аптадан-ақ уақыт үнемдейді. Ревьюерлер аз дауласады, жаңа қызметкерлер тезірек бейімделеді, ал команда релизге дейін қандай қателерді түзету керек екенін және қайсысын келесі циклге қалдыруға болатынын анық көреді.

Алғашқы тексерулерден кейін не істеу керек

Бірден бүкіл ағынды қамтуға тырыспаңыз. Алғашқы сынақтардан кейін шағын таңдауды алып, оны сабырмен қолмен талдаған дұрыс, мысалы әртүрлі сценарийден 30–50 диалог. Сонда команда шкаланың қай жерде жақсы жұмыс істейтінін, ал қай жерде ревьюерлер бір жауапқа әртүрлі баға қоятынын тез байқайды.

Дау әдетте ашық қателерден емес, көршілес баллдардың шекарасынан шығады. Сондықтан аптасына бір рет даулы мысалдарды жинап, бірге қайта қараған пайдалы. Бір қысқа жиналыс ұзақ ережелер құжатынан жақсырақ түсінік береді.

Кейін бағаларды тек қорытынды баллмен емес, жауап контекстімен де байланыстырыңыз. Әйтпесе орташа санды көресіз, бірақ нақты не бұзылғанын түсінбейсіз. Өтініш түрін, промпт нұсқасын, модельді немесе жауап берген маршрутты белгілеу пайдалы, ал қауіпсіздік пен фактідегі күрделі сәтсіздіктерді бөлек белгілеу керек.

Екі аптадан кейін мұндай белгілеу суретті көрсете бастайды. Мүмкін ассистент әрдайым сыпайы, бірақ қайтаруларда дәлдігін жиі жоғалтады. Немесе промпттың жаңа нұсқасы пайдалықты арттырғанмен, қауіпсіздік шектеулерін көбірек өткізіп жібереді.

Шкала барлық модельдер мен маршруттар үшін бірдей қалуы тиіс. Әр модельге бөлек рубрика жасасаңыз, салыстырудың мәні жоғалады. Ортақ критерийлер баламалардың айырмасын әділ көруге көмектеседі, нәтижені күтуге ыңғайлап жібермейді.

Бұл әсіресе команда қолдауды AI Router сияқты бірыңғай LLM API шлюзі арқылы сынаса ыңғайлы. Ондайда бірдей сұраулар жиынын әртүрлі модельдерден өткізіп, промпттарды бірдей сақтап, жауаптарды бір рубрикамен салыстыруға болады. Егер инфрақұрылым жергілікті талаптарды да ескеруі керек болса, мұндай тәсіл одан сайын практикалық болады. AI Router-де, мысалы, OpenAI-мен үйлесімді ортақ эндпоинт және Қазақстандағы командаларға деректерді ел ішінде ұстап, тексеруді ұқыпты жүргізуге көмектесетін құралдар бар. Осындай схема кезінде қолмен бағалау абстрактілі пікір емес, нақты шешім береді: нені продта қалдыру керек, нені жетілдіру керек және нені бұдан былай қолданбау керек.

Жиі қойылатын сұрақтар

Бірінші қолмен тексеру үшін қанша диалог керек?

Әдетте 50–100 нақты өтініш жеткілікті. Тек жиі кездесетін сұрақтарды емес, сирек, даулы және жағымсыз жағдайларды да қосыңыз, әйтпесе әлсіз тұстар іске қосылғаннан кейін ғана байқалады.

Бастапқыда қай шкаланы қолданған дұрыс?

Бастапқы нұсқа үшін 0–2 шкаласын алған дұрыс. Ол командаға ыңғайлы: қай жауапты қабылдауға болатынын, қайсысын түзету керегін, қайсысын шығаруға болмайтынын бірден түсінесіз.

Қандай жағдайда жауап бірден 0 балл алады?

Жауап клиентті қате әрекетке итермелесе немесе тәуекел тудырса, 0 қойыңыз. Бұған ойдан шығарылған фактілер, қауіпті кеңестер, жеке деректерді артық жинау және тікелей сұрақты елемеу жатады.

Жауаптың дәлдігін қалай тез тексеруге болады?

Әуелі ассистент клиенттің нақты сұрағына жауап берді ме, соны қараңыз. Сосын фактілерді, мерзімдерді, сомаларды және ережелерді салыстырыңыз: жақсы жауап жетіспейтін детальдарды ойдан қоспайды және әртүрлі сценарийлерді араластырмайды.

Ассистенттің тоны қалыпты екенін қалай түсінуге болады?

Қалыпты тон сабырлы, құрметті және жағымпазданбай естіледі. Егер бот клиентпен дауласып, оны кінәлап немесе ауыр шаблондарға тығылса, фактілер дұрыс болса да, баллды төмендеткен дұрыс.

Жауапты шын мәнінде пайдалы ететін не?

Пайдалы жауап жалпы сөз емес, келесі қадамды береді. Одан кейін клиент қазір не істеу керек екенін, нәтижені қайдан тексеретінін және ештеңе шықпаса қашан қайта жазу керегін түсінуі тиіс.

Қауіпсіздік бойынша қате деп нені есептеу керек?

Тәуекел бот қажеттен көп дерек сұрағанда немесе адамды қауіпті әрекетке итермелегенде басталады. CVV, SMS коды, құпиясөз, карта фотосы немесе ойдан шығарылған компания ережелері сұралса — бұл анық сәтсіздік.

Ревьюерлер әртүрлі баға қойса не істеу керек?

Әуелі шкаланы, адамдарды емес, тексеріңіз. Егер айырмашылық жиі болса, балл тұжырымдарын жеңілдетіңіз, қысқа эталон мысалдар қосыңыз және бәріне бірдей 10–20 диалогтан тұратын жиынтық беріңіз.

Әр модельге бөлек рубрика жасау керек пе?

Жоқ, рубрика ортақ болып қалуы керек. Әйтпесе жауаптарды әділ салыстыра алмайсыз: бірдей тапсырма модельге не маршрутқа қарамастан бірдей бағалануы тиіс.

Шкала мен мысалдарды қаншалықты жиі жаңарту керек?

Рубриканы қолдау ережелері, мерзімдер, лимиттер немесе қауіпсіздік талаптары өзгерген сайын қайта қараңыз. Аптасына бір рет даулы кейстерді талқылап отырған пайдалы: сонда мысалдар ескірмейді және команда сезімге сүйеніп бағалауға ауысып кетпейді.