Мазмұнға өту
2025 ж. 11 нау.·7 мин оқу

LLM үшін алтын жиынтық: оны қалай быт-шытқа айналдырмай қолдап отыруға болады

LLM үшін алтын жиынтық сапаны хаоссыз тексеруге көмектеседі: кейстерді қалай іріктеу, ескі мысалдарды архивтеу және сирек күрделі сұрауларды сақтап қалу.

LLM үшін алтын жиынтық: оны қалай быт-шытқа айналдырмай қолдап отыруға болады

Неліктен жиынтық тез арада быт-шытқа айналады

Басында LLM үшін алтын жиынтық жинақы көрінеді: бірнеше ондаған мысал, түсінікті жауаптар, айқын мақсат. Сосын өнім өзгереді. Жаңа сценарийлер, жаңа шектеулер, жауап берудің басқа ережелері пайда болады. Ескі кейстерді ешкім алып тастамайды, өйткені «қой, жата берсін, бір күні керек болып қалар». Бір-екі айдан кейін жиынтық жүйенің шынайы жұмысын онша көрсетпей қалады.

Тағы бір себеп бар. Команда ішіне шамасы келгеннің бәрін сала бастайды. Кез келген оғаш диалог, кез келген ақау, кез келген даулы жауап пайдалы сияқты көрінеді. Ниет түсінікті, бірақ құрылым тез жоғалады. Сапаны бағалайтын жұмыс құралының орнына қасында маңызды жағдайлар, кездейсоқ шу және қайталаулар жатқан қалта пайда болады.

Ең жағымсызы - сирек әрі қымбат қателер қарапайым сұраулардың арасында батып кетеді. Егер жиынтықта 300 жеңіл сұрақ пен өнім лимиттерін шатастыратын, артық дерек шығаратын немесе маңызды сценарийді бұзатын 8 жағдай болса, назар әдетте жеңіл мысалдарға ауады. Метрика жаман емес сияқты көрінеді, ал продакшнда команда бәрібір ауыр сәтсіздіктерді ұстап қалады.

Әдетте мұндай быт-шыт төрт белгі арқылы білінеді:

  • ескі мысалдар енді жоқ функцияларды тексереді;
  • жаңа кейстер себепсіз және дереккөз белгісінсіз қосылады;
  • күрделі пайдаланушы сұраулары типтік мысалдардың арасында жоғалады;
  • кім де болса бір мысалдың не үшін сақталғанын тез түсіндіре алмайды.

Соңғы тармақ әсіресе қолайсыз. Команда бір кейстің не үшін жиынтыққа кіргенін ұмытса, оны дұрыс қолдану да қиын болады. Бір адам оны қауіпсіздік тесті деп ойлайды, екіншісі стиль тексеруі деп көреді, үшіншісі жай FAQ деп қабылдайды. Соның салдарынан бір мысал әртүрлі түсіндіріледі де, релиздерді салыстыру шатасады.

Практикада бұл өте қарапайым түрде болады. Дүйсенбіде support клиенттің күрделі сұрауын әкеледі, команда оны датасетке қосады, ал екі аптадан кейін ешкім контексті есіне түсірмейді. Бұл нақты ақау ма? Бір реттік жағдай ма? Қате модельден бе, промпттан ба, әлде бизнес-логикадан ба? Егер жауап жоқ болса, мысалдар архиві үлкейеді, бірақ пайдасы онша артпайды.

Жиынтық ережесіз үлкейсе, ол бірінші кезекте нені жөндеу керек екенін таңдауға көмектеспей қалады. Тек уақыт алады да, бақылаудамыз деген жалған сезім береді.

Қандай кейстерді жиынтықта ұстау керек

Жақсы жиынтық әдетте қалағаннан кіші, көрінгеннен қатаңырақ болады. Оған шамасы келгеннің бәрін сала беруге болмайды. Егер мысал ештеңені бұзбаған болса, ақшаға, тәуекелге немесе support жүктемесіне әсер етпесе, оны тұрақты тексеру үшін жиі қажет етпейді.

Ең жақсы жұмыс істейтін кейстер - командаға бұрын нақты зиян келтірген жағдайлар. Бұл банктік өнім бойынша лимитті қате көрсету, міндетті дисклеймерді өткізіп жіберу, мәтінде жеке деректердің сыртқа шығуы немесе интеграцияны құлататын форматтың бұзылуы болуы мүмкін. Осындай бір мысал он әдемі демодан пайдалырақ.

Жиынтықта пайдаланушыларға жиі кездесетін және қымбатқа түсуі мүмкін нәрсені қалдырыңыз. Төмен тәуекелді жиі сұранысты сирегірек тексеруге болады. Ал айқын тәуекелі бар жиі сұраныс қол астында үнемі тұрғаны дұрыс, тіпті ол іш пыстыратын болып көрінсе де.

Әдетте жұмыс жиынтығына төрт топ кіреді: команда промптты, routing-ті немесе post-processing-ті бұрын түзеткеннен кейін пайда болған продакшн инциденттері; қате ақшаға, SLA-ға немесе support жүктемесіне соққы беретін кәдімгі пайдаланушы сценарийлері; модель жауап форматын, фактілерді, сандарды, күндерді немесе шектеулерді шатастыратын мысалдар; және пайдаланушы ұзақ, түсініксіз жазатын немесе бір хабарламада бірнеше міндетті араластыратын шекаралық сұраулар.

Бөлек ұстауға тұрарлық нәрсе - модель формалды жауап бергенімен, бизнеске дұрыс емес жолмен жауап беруі. Мысалы, мағынасы дұрыс, бірақ JSON-схеманы бұзады. Немесе дерек жетпесе де, сенімді түрде жауап береді. Демода мұндай олқылықтар онша көрінбейді, ал тірі ағынға түскенде тез байқалады.

Презентацияға арналған әсерлі мысалдарды тексеру жиынтығынан бөлек ұстаған дұрыс. Демо мүмкіндікті түсіндіреді. Тексеру жиынтығы қателерді ұстайды. Егер екеуін бір папкаға араластырса, команда әдемі жауаптың соңынан қуады да, нақты ақауларды өткізіп жібереді.

Егер сіз бірнеше модельмен бір шлюз арқылы жұмыс істесеңіз, бұл әсіресе маңызды. Бірдей сұрау бір модельде өтіп, екіншісінде формат, жауап ұзындығы немесе шектеулерді түсіну айырмасынан бұзылып кетуі мүмкін. Сондықтан жиынтық тек «ақылды жауапты» ғана емес, оның сіздің жүйеңіздің ішінде қалай әрекет ететінін де тексеруі керек.

Жаңа кейстерді қадамдап қалай іріктеу керек

Жаңа мысалдарды көңіл-күймен қоса салуға болмайды. Егер команда жиынтыққа кез келген нәрсені тастай берсе, бір айдан кейін ішінде он ұқсас кейс тұрады да, шынымен қиын бірде-бір мысал қалмайды. Қарапайым қағида ұстаған дұрыс: бір мәселе көзі, бір анық мағына, бір күтілетін нәтиже.

Сәтсіз жауаптарды үш жерден жинау ыңғайлы: логтардан, тикеттерден және қолмен тексеруден. Логтарда тірі ақаулар көрінеді, тикеттерде пайдаланушылар байқаған нәрсе болады, ал қолмен тексеру әзірше шағымға жетпеген оғаштықтарды ұстайды. Егер бір қате бірден support чатында, ішкі тестте және сұраулар журналында шықса, бұл үш кейс емес, бір кейс.

Сосын қайталанатындарын тазалаңыз. Формулировкаға емес, қателің мағынасына қараңыз. Егер пайдаланушы «карта бойынша комиссияны көрсет» және «қызмет көрсету үшін ұсталған ақшаны қайдан көремін» деп сұрап, модель бірдей жерден сүрінсе, бір мысалды ғана қалдырыңыз. Әйтпесе жиынтық өседі, ал сапаны бағалау бұрмаланады.

Жұмыс тәртібі әдетте мынадай болады:

  1. Бір аптаға немесе бір релизге қатысты кандидаттарды бір тізімге жинаңыз.
  2. Мағынасы бір қайталанатындарын біріктіріп, айқын қатесі жоқ шуылды өшіріңіз.
  3. Қалған әр кейс үшін команда дұрыс деп санайтын жауапты жазыңыз.
  4. Кейсті қазіргі модельде өткізіп, нәтижені салыстырудың алғашқы нүктесі ретінде сақтаңыз.

Күтілетін нәтижені қысқа ережелермен жазған жақсы. «Жауап сапалы әрі толық болуы керек» емес, «модель тариф ойдан шығармайды», «қазақша жауап береді», «дерек жетпесе, нақтылау сұрайды». Осындай ережелермен дауласады сирек.

Тегтерді бірден қойыңыз. Әдетте төртеу жеткілікті: тапсырма түрі, тәуекел, тіл және дереккөз. Тапсырма түрі қысқаша мазмұндау мен дерек шығарып алуды ажыратады. Тәуекел қателік құнын көрсетеді. Тіл қазақша, орысша және ағылшынша аралас сұрауларды жоғалтпауға көмектеседі. Дереккөз кейстің қайдан келгенін көрсетеді: prod, тикет немесе қолмен тест.

Бірінші өтімді «жөндеп», «тазалап» отырудың қажеті жоқ. Сол күйінде сақтаңыз. Екі аптадан кейін дәл сол бастапқы нұсқа жақсарғанын ба, әлде команда тек тестке ыңғайлы басқа күрделі сұрауларға ауысқанын ба көрсетеді.

Пайдаланушының күрделі сұрауларын қалай жоғалтпау керек

Көңілсіз ақаулардың көбі таза тест промпттардан емес, тірі диалогтардан келеді. Пайдаланушы ұзақ жазады, бір хабарламада екі міндетті араластырады, шартты жол үстінде өзгертіп, «жоғарыдағы сол келісімшартқа» сілтейді. Егер жиынтық мұндай жағдайларды ұстамаса, қағаздағы сапа шындықтан жақсы көрінеді.

Чаттан бір «жаман» репликаны ғана қиып алмаңыз. Бүкіл әңгімені сақтаңыз: бірінші сұрақ, нақтылаулар, модельдің бас тартуы, қайта әрекет, оператордың немесе сарапшының соңғы жауабы. Қате көбіне соңғы хабарламада емес, екі қадам бұрын туады - модель рөлді, шектеуді немесе жауап форматын дұрыс түсінбей қалады.

Күрделі кейсте нені белгілеу керек

Әр осындай мысалға себептің қысқа белгісі керек. Командаға 1-2 сөз жеткілікті: ұзын контекст, екі ниет, екіұшты сілтеме, нұсқаулардың қайшылығы, ақша немесе комплаенс тәуекелі. Мұндай белгісіз кейс тез арада «тағы бір оғаш чатқа» айналады да, бір айдан кейін оның не үшін жиынтықта жатқанын ешкім есіне түсірмейді.

Сирек, бірақ қымбат қателерді бөлек ұстаған дұрыс. Олар күнде бола бермейді, бірақ бір ғана қате клиентке дұрыс емес кеңес беріп, құжат маршрутын бұзып немесе жауапты дұрыс емес форматта жіберіп жіберуі мүмкін. Инциденттерге арналған шағын кезек ашып, оны әр релизден кейін қайта қарап отыру ыңғайлы.

Инцидент болып қойған жағдайда қысқа цикл жеткілікті: диалогты толық сақтау, модель қай жерде қате бұрылғанын белгілеу, күтілетін жауапты немесе дұрыс стратегияны тіркеу, күрделілік пен тәуекел белгісін қою, сосын кейсті жалпы тексеруге қайтару. Сонда күрделі пайдаланушы сұраулары бір жақта «кейінге» қалып қоймай, кәдімгі мысалдармен бірге қайта тексеріледі.

Банк үшін бұл ұзын тарифтер, лимиттер және құжаттар туралы тармақтарда әсіресе байқалады. Клиент бір өнімнен бастайды да, кейін екіншісіне ауысып, салыстыруды кесте түрінде сұрауы мүмкін. Егер команда тек соңғы репликаны сақтаса, тест тым оңай болып қалады. Егер бүкіл диалог пен күрделілік себебін сақтаса, мұндай кейс жарты жылдан кейін де пайдалы болып қалады.

Мысалды архивке қашан жіберу керек

Сыртқы және хостингтегі модельдерді салыстырыңыз
Сыртқы және хостингтегі модельдерді кодты ауыстырмай-ақ бір жиынтықта салыстырыңыз.

Архив ескі файлдар үшін емес, енді тірі тәуекелді тексермейтін кейстер үшін керек. Егер мысал релиз туралы шешімге енді әсер етпесе, оның жиынтықтың белсенді бөлігінде жүруі орынсыз. Бірақ оны мүлде өшіру де дұрыс емес: кейде команда неліктен кезінде дәл осыны тексергенін түсіну маңызды.

Белгілер әдетте анық болады. Егер тапсырма өнімнен немесе нақты процестен кетіп қалса, жауап беру ережелері түбегейлі өзгерсе, мысал бірнеше релиз қатарынан бірде-бір қателікті ұстамаса немесе әлдеқайда жаңа кейсті түгел қайталаса, оны архивке жіберетін уақыт келген.

Бірінші жағдай күткеннен жиірек кездеседі. Команда чат-боттан сценарийді алып тастады, ал тест сол күйі қалып қойды. Формалды түрде ол өтеді, бірақ сапаны бағалауға енді ештеңе бермейді. Мұндай мысал тек жиынтықты үлкейтіп, қазіргі мәселелерді көруге кедергі жасайды.

Егер ережелер толық өзгерсе, ескі кейсті жамап-жасқаудың қажеті жоқ. Заңгерлер, өнім командасы немесе support жауапты түбегейлі қайта жазса, жаңа эталонмен жаңа мысал құрған дұрыс. Ескісін архивке жіберіңіз. Әйтпесе белсенді жиынтықта өнімнің әртүрлі нұсқалары араласып, нәтиже туралы дау әр релиз сайын қайталанады.

Қайталанатындарына ереже қарапайым. Егер екі кейс әдетте бірдей құлап, бірдей өтсе, біреуі артық. Тәуекелі нақтырақ сипатталғанын қалдырыңыз. Бірақ егер формулировкалары қатты бөлек болып, модель тек біреуінде ғана қателессе, бұл дубликат емес.

Себебі мен күні жазылмаған архив тез арада басқа бумадағыдай быт-шытқа айналады. Сондықтан кемі мына үш нәрсені тіркеңіз: архивке көшірілген күні, себебі және кім шешім қабылдады, ал ауыстырылса, немен ауыстырылды. Қысқа жазба жеткілікті: «15.05.2026, сценарий onboarding-тан алынды, орнына K-184 кейсі қойылды».

Сонда белсенді жиынтық қысқа әрі жұмысқа ыңғайлы қалады, ал архив қоқыс емес, шешімдер тарихын сақтайды.

Кейсті бүкіл команда түсінетіндей қалай рәсімдеу керек

Егер кейсті бір минутта түсіну мүмкін болмаса, оның пайдасы аз. Бір айдан кейін бұл сұрау не үшін жиынтыққа кіргенін, ішінде нақты не бұзылғанын және қандай белгі бойынша жауап жақсы деп саналатынын ешкім есіне түсірмейді.

Көбіне команда тек сұрау мәтінін және «өтті» немесе «өтпеді» деген белгіні сақтайды. Бұл аздық етеді. Бірдей сұрақ support чатында, мобильді қосымшада және қызметкерлерге арналған ішкі көмекшіде әртүрлі әрекет етуі мүмкін. Контекст болмаса, әр релизде дау қайтадан басталады.

Кейсті бекітілген өрістері бар қысқа карточка ретінде рәсімдеген дұрыс. Онда команданың барлық ойы қажет емес. Басқа адам тексеруді қайта іске қосуы үшін керек мәлімет қана қажет: пайдаланушының бастапқы сұрауы, «әдемілеусіз» күйінде; канал, жүйе рөлі және промпт не тізбек нұсқасы бар контекст; эталондық жауап немесе қысқа тексеру тізімі түріндегі күту; күрделілік, тәуекел, тіл және тапсырма түрі бойынша тегтер; сондай-ақ кейс статусы - белсенді, қайта қарауда немесе архивте.

Бастапқы сұрауды сол күйінде сақтау жақсы, тіпті онда қате, сленг немесе сөйлем үзіктері болса да. Жүйені көбіне дәл осындай формулировкалар бұзады. Егер редактор мәтінді «жақсартса», сіз енді нақты пайдаланушы сценарийін емес, командаға ыңғайлы нұсқаны тексеріп жатырсыз.

Күтілетін нәтижені де ұқыпты берген дұрыс. Қарапайым кейс үшін бір дұрыс жауап жеткілікті. Күрделі жағдайда қысқа чеклист жарайды: модель факт ойдан шығармайды, қазақша жауап береді, жеке деректерді ашпайды, дерек жетпесе, нақтылау сұрайды. Мұндай форматты ұзақ идеал үлгіден гөрі сақтау оңай.

Тегтер қағаздағы тәртіп үшін емес, іздеу үшін керек. Олардың көмегімен кейін қазақша тәуекелі жоғары кейстерді, колл-орталықтан келген барлық дауыстық сұрауларды немесе клиент шағымы бар ұзын диалогтардың бәрін тез жинауға болады. Егер тег тым көп болса, ешкім қолданбай қояды. Әдетте 4-6 түсінікті категория жеткілікті.

Мысалы, банк командасында карточка былай көрінуі мүмкін: клиент қате жазып, «әйелімнің картасынан соңғы ұсталымдарды көрсет» деп сұрайды; канал - чат; тіл - орысша; тәуекел - жоғары; промпт нұсқасы 12; тексеру - ассистент бөгде дерек бермейді және жеке басын растауды сұрайды. Тіпті жаңа қызметкер де бұл кейс нені тексеретінін бірден түсінеді.

Команда осындай карточкаларды бірдей жүргізсе, талқылау қысқарады. Адамдар енді кестедегі формулировкаға емес, жауап сапасының өзіне дауласады.

Мысал: банк командасы релизден кейін жиынтықты қалай жаңартады

Жиынтықты әртүрлі модельдерде іске қосыңыз
AI Router ішінде бірдей жиынтықты бір LLM шлюзі арқылы тексеріп, модельдердің қай жерде айырмашылық беретінін көресіз.

Бір релизден кейін банк чаты кредиттік лимит пен қолжетімді қалдықты шатастыра бастады. Қате ұсақ сияқты көрінді, бірақ клиент үшін айырмашылық үлкен: лимит жоғарғы шекті көрсетеді, ал қолжетімді қалдық сатып алулардан, бұғаттаулардан және төлемдерден кейін өзгеріп отырады.

Команда промпттарды бірден ойдан шығарып түзетпеді. Алдымен соңғы аптадағы support тикеттерін көтеріп, адамдар картадағы сома туралы шағымданған диалогтарды таңдады. Мәселенің ұқсас формулировкаларда қайталанатыны тез байқалды, бірақ бірдей емес.

Осы топтан бәрін бірдей алған жоқ. Жаңартылған жиынтыққа тек әртүрлі сұрау түрлері кірді: «картамда қанша қалды?» деген тікелей сұрақ, сатып алудан кейін сома өзгергендегі нақтылау, «менде қанша запас бар» сияқты ауызекі сұрау, алдымен лимит, кейін қалдық туралы сұраған диалог және контексті қысқа хабарлама.

Осылайша жиынтық бірнеше кейске ғана өсті, ондап емес. Әр кейсті команда күтілетін жауаппен және модель әдетте қай жерде қателесетіні туралы қысқа белгімен рәсімдеді.

Ескі сценарийлер бойынша мысалдарды олар өшірмеді. Бұрын чат тарифтердегі жалпы лимит пен кредит желісін жиі шатастыратын, бірақ өнім өзгергеннен кейін мұндай диалогтар сирей түсті. Команда оларды архивке көшіріп, күні, себебі және «релизден кейін ескірді» деген тег қосты. Қате қайтып келсе, мысалды белсенді жиынтыққа оңай қайтаруға болады.

Содан кейін олар жаңартылған жиынтықты екі модельде іске қосып, тек жалпы сәтсіздік пайызын емес, қате түрлерін де салыстырды. Бір модель қалдық туралы сенімді, бірақ қате жауапты жиі берді. Екіншісі көбірек нақтылау сұрады, бірақ лимит пен қолжетімді соманы сирегірек шатастырды. Бұл бір орташа саннан пайдалырақ: команда модельдің қай жерде қауіпті ойдан шығаратынын, ал қай жерде жай ғана контексті жоғалтатынын көреді.

Бір аптадан кейін оларда кездейсоқ диалогтар қоймасы емес, жұмыс істейтін жиынтық болды. Күрделі сұраулар жоғалмады, ескі шу архивке кетті, ал релизден кейінгі жаңа мінез бірден көрінетін болды.

Жиынтықты қолдаудағы жиі қателер

Ең жиі қате қарапайым, бірақ қымбат: команда тек қысқа әрі ыңғайлы мысалдарды қосады. Оларды оқу оңай, тез іске қосуға болады және талқылау да жеңіл. Мәселе мынада: мұндай кейстер нақты ақауларды сирек ұстайды. Модель олардан әдетте өтеді де, кейін тірі жұмыстағы ұзын, шатасқан, жүйкеге тиетін сұрауларда құлайды.

Сондықтан сапаны бағалау әдемі, бірақ бос сурет сыза бастайды. Егер жиынтықта күрделі диалогтар, аралас ниеттер, толық емес бастапқы деректер және оғаш формулировкалар болмаса, нәтиже продакшннан алыстайды. Жиырма тегіс, алдын ала болжанатын мысалдан гөрі, бірнеше ыңғайсыз мысалды ұстаған дұрыс.

Екінші қате күтілетін жауапқа байланысты. Командалар оны жиі тым бұлдыр жазады: «жауап пайдалы болуы керек», «модель қателеспеуі тиіс», «әдепті тон қажет». Мұндай кейсті тексеру іс жүзінде мүмкін емес. Бір ревьюер есептейді, екіншісі есептемейді, үшіншісі тапсырманы мүлде басқаша түсінеді.

Жақсы кейс нақты шекара қояды. Модель нақты не істеуі керек? Қандай фактілерді бұрмалауға болмайды? Нені қате деп санау керек? Егер сұрау 5 сөйлемдік қысқа түйіндеме сұрап, ойдан шығарылған деталь қоспауын талап етсе, солай жазыңыз. Тексерушінің жорамалы неғұрлым аз болса, нәтиже соғұрлым таза болады.

Тағы бір жиі мәселе - бір кейске стильді, фактілерді, қауіпсіздікті, жауап форматын және бас тарту жұмысын бірден араластырады. Сонда мысал не үшін құлағаны түсініксіз болады. Модель жауаптың мәнінде қателесті ме, әлде жай ғана дұрыс емес тон таңдады ма? Қауіпсіздік ережесін бұзды ма, әлде құрылымға сыймады ма?

Мұндай кейсті әрқайсысында бір басты мақсаты бар бірнеше тексеріске бөлген дұрыс. Әйтпесе күрделі сұраулар отладкаға көмектеспей, тек команданы шатастырады.

Тегтердегі ретсіздік те көп шу шығарады. Бүгін кейс «finance» деп белгіленеді, ертең «banking», келесі аптада «risk». Ортақ ереже болмаса, сүзгілер бұзылады, іріктеулер құбылады, ал ескі нәтижелермен салыстыратын ештеңе қалмайды. Тегтер сөздігі қысқа әрі тұрақты болуы керек. Командаға жаңа тег керек болса, алдымен оның нені білдіретінін және қашан қойылатынын келісіп алады.

Тағы бір зиянды әдет бар: нашар кейстерді өшіріп тастайды. Сырттай жиынтық тазарады, бірақ команда проблемалы сценарийлердің ізін жоғалтады да, бұрын модельді қай сұраулар бұзғанын ұмытады. Мұндай мысалдарды күні мен себебімен архивке жіберген пайдалырақ. Сосын ұқсас қате қайта шықса, оларды оңай қайтаруға болады.

Аптасына бір рет жылдам тексеру

Жаңа қаптамасыз тестті іске қосыңыз
API мекенжайын ауыстырып, сол SDK, код және промпттарды қолданыңыз.

Аптасына бір рет жиынтықты қысқа қарап шығу керек, әйтпесе ол тез өсіп, көмектесудің орнына кедергі жасайды. Әдетте 20-30 минут жеткілікті, егер бірнеше түсінікті сигналға қарасаңыз.

Мұндай тексерудің мәні бүкіл датасетті қайта жазу емес. Ол тірі ме, соны түсіну керек: соңғы жаңа шынайы сценарийлер кіріп жатыр ма, пайдалы ескі мысалдар қалды ма, команда бір кейсті әртүрлі атпен сүйреп жүр ме.

Мұндай талдау үшін қысқа чеклист жарайды:

  • соңғы 7 күндегі жаңа мысалдарды санаңыз;
  • көптен бері қате ұстамаған сценарийлерді табыңыз;
  • дубликаттарды мәтінге емес, мағынасына қарай біріктіріңіз;
  • тегтер әлі де бірдей қолданылып тұрғанын тексеріңіз;
  • support-тен бір аптадағы ең ауыр бірнеше өтінішті алыңыз.

Жақсы белгі - осындай тексеруден кейін әр әрекеттің өз нәтижесі бар: бір кейс қосылды, екеуі біріктірілді, біреуі архивке кетті, бір тег өшірілді. Егер кездесуден кейін тек «кейін қарап шығу керек» деген жазба қалса, жиынтық қоқыс жинауды жалғастыра береді.

Жаңа мысалдардың қайдан келгеніне де қараған пайдалы. Егер барлық кейс тек ML-командадан түссе, картина тым тегіс болады. Support, сату және енгізу мүлде бөлек материал әкеледі: оғаш формулировкалар, аралас тілдер, толық емес деректер, бір хабарлама ішінде тақырыптың күрт ауысуы.

Алтын жиынтық үшін мұндай апталық тексеру сирек жасалатын үлкен тазалаудан жақсы. Үлкен ревизияны көбіне кейінге қалдырады. Қысқа ырғақ жиынтықты формада ұстайды және модель шынымен құлайтын сұрауларды жоғалтпауға көмектеседі.

Әрі қарай не істеу керек

Алтын жиынтықтың дұрыс өмір сүруі үшін оның иесі болуы керек. Егер жиынтық «бәріне ортақ» болса, әдетте оған ешкім иелік етпейді: даулы кейстер жинала береді, ескі мысалдар архивке кетпейді, ал жаңа инциденттер чаттар мен тикеттерде жоғалады.

Бір иесін тағайындап, оған қарапайым жұмыс ырғағын берген дұрыс. Көп команда үшін аптасына бір рет қысқа талқылау және айына бір рет жайлырақ қайта қарау жеткілікті. Апталық кездесуде иесі өнімге әсер еткен жаңа жағдайларды қосады. Ай сайын - дубликаттарды тазартады, ескіргенін ауыстырады және жиынтықтың бір категорияға тым қисайып кетпегенін тексереді.

Белсенді бөлік пен архив арасында нақты өту шарттары да керек. Белсенді жиынтықта релизден, модель ауысуынан немесе промпт түзетілгеннен кейін қайта бұзылуы мүмкін нәрсе тұрады. Архивке өнімнің қазіргі түрін, ескі жауап саясатын енді көрсетпейтін немесе тірі трафикте сирек кездесетін мысалдар кетеді.

Егер мұны қарапайым регламентпен бекіткіңіз келсе, үш ереже жеткілікті. Әр кейстің статусы болуы керек: белсенді, тексерілуде немесе архивте. Жаңа кейс белсенді бөлікке түседі, егер қате пайдаланушыға жетсе, кемінде екі рет қайталанса немесе тәуекелі жоғары сценарийге қатысты болса. Архивті өшірмейді: модель, промпт немесе модерация ережелері өзгергенде соған қайта оралады.

Қолмен жинау көлем артқанда көбіне бұзылады. Сондықтан инциденттерді, support шағымдарын және даулы диалогтарды автоматтандырған дұрыс. Сол жерге жиынтықты кесте бойынша үнемі іске қосатын прогонды да қосқан жөн, мысалы әр релизден кейін және аптасына бір рет түнде. Сонда команда жеке әсерлерді емес, тұрақты суретті көреді.

Егер сіз бірнеше модельді салыстырсаңыз, бірдей жағдайларда бір жиынтықты ортақ шлюз арқылы іске қосу ыңғайлы. Мысалы, AI Router ішінде airouter.kz командасы base_url-ды api.airouter.kz-ке ауыстырып, әр провайдерге бөлек қаптама жасамай-ақ сол SDK, код және промпттарды қолдана алады.

Осы аптадағы жақсы алғашқы қадам қарапайым: иесін тағайындаңыз, архив пен белсенді жиынтыққа арналған екі ережені бекітіңіз, сосын соңғы 20 инцидентті автоматты түрде тартып алыңыз. Осы-ақ жиынтықтың жан-жаққа шашырауын тоқтатуға жетеді.

LLM үшін алтын жиынтық: оны қалай быт-шытқа айналдырмай қолдап отыруға болады | AI Router