Мазмұнға өту
2025 ж. 22 қар.·7 мин оқу

Нақты сценарийлерге негізделген қазақ тіліне арналған бенчмарк

Қазақ тіліне арналған бенчмарк тірі сценарийлерге сүйенуі керек: клиент сұраулары, формалар, іздеу, қолдау. Набор, метрика және қателерді талдаймыз.

Нақты сценарийлерге негізделген қазақ тіліне арналған бенчмарк

Неге әдемі демолар бағалауды бұзады

Әдемі демоны команда өзі құрастырады. Сондықтан ондағы сұраулар ұқыпты болады: қате жоқ, ой үзігі жоқ, жергілікті сленг жоқ, адамдар асығып жазатын біртүрлі тұжырымдар жоқ. Мұндай жиында модель шынайы жұмыстағыдан әлдеқайда ақылды көрінеді.

Қазақ тілімен бұл әсіресе қатты байқалады. Тірі чатта адам бір хабарламада қазақша мен орысшаны араластырады, транслит жазады, қысқартып жібереді және дауыстық енгізуден қалған үзінділерді қосады. Егер тестте тек «Клиентке сыпайы жауап жаз» сияқты таза сөйлемдер болса, сіз нақты тіл ортасын тексермейсіз.

Кәдімгі жұмыс сұрауы былай көрінуі мүмкін: «Сәлем, кеше заказ бергенмін, ақша 2 рет кетіп қалды, енді не істеймін?» Адам мағынасын бірден түсінеді. Ал модель үшін бұл аралас сөйлеу, орфографиялық шу және қолдау контекстіне арналған тексеріс. Әлсіз тұстар дәл осындай хабарламаларда көрінеді.

Қысқа әрі ыңғайлы сұраулар да алдайды. Олар ұзын контексті ұстап тұруды талап етпейді, бірнеше хабарламадан тұратын хат алмасуды тексермейді және екіұшты тұжырымда не болатынын көрсетпейді. Демода модель тек тапсырма тым ыңғайлы болғандықтан ғана жақсы жауап береді.

Тағы бір тұзақ бар — бір сәтті жауап. Егер модель бір мысалда жақсы жұмыс істесе, бұл ештеңе дәлелдемейді. Продакшенде қайталанғыштық маңызды: ол 20 ұқсас сұрауда қалай әрекет етеді, бір сұрақтың әртүрлі нұсқаларында қандай, модельді немесе провайдерді ауыстырғаннан кейін не болады.

Жақсы наборға тек «таза» мысалдар емес, қате терілген хабарламалар, ауызекі сөйлеу, қазақша мен орысшаның араласуы, контексті жоғалтқан ұзын тізбектер және тұрақты жауап керек болатын ұқсас сұраулар да кіреді.

Егер набор презентацияға арналған әдемі скриншоттар топтамасына ұқсаса, оның пайдасы шамалы. Пайдалы набор сәл ыңғайсыз, кей жері шулы және клиенттер, операторлар мен компания ішіндегі қызметкерлер шын мәнінде жазатын нәрселерге өте ұқсас болады.

Наборға қандай міндеттерді қосу керек

Бастауды сирек кейстерден де, әсерлі мысалдардан да емес, күнде жасалатын нәрселерден бастаған дұрыс. Егер қате жауап қосымша қоңырауға, өтінімнің қайтарылуына немесе сатылымның жоғалуына әкелсе, мұндай міндетті бірінші тексерген жөн.

Әдетте бес түрі жеткілікті. Олар формасы бойынша қарапайым, бірақ модель тірі тілді түсіне ме, әлде тек әдемі промптты ма — соны тез көрсетеді.

Қолдаудағы күнделікті сұрақтар бірінші наборға міндетті түрде кіреді: тапсырыс статусы, қайтару, карта лимиті, тариф шарттары, жеткізу мерзімі. Адамдар оларды қысқа жазады, қате жібереді және жиі қазақша мен орысшаны араластырады.

Каталог бойынша іздеу міндеттері де жақсы жұмыс істейді. Пайдаланушы базадағы атаумен дәл сәйкес келмейтін сөз жазады. Ол «ақ көйлек», «ақ көйлек» немесе «ақ жейде» деп енгізуі мүмкін, ал жүйе соған жақын нәтижені табуы керек.

Бөлек бір түрі — формаларды толтыру және тексеру. Мұнда модель ИИН-ді, келісімшарт нөмірін, күнді, соманы бөліп алады, бос немесе қате өрістерді байқайды және ұқсас мәндерді шатастырмайды.

Тағы бір пайдалы сценарий — ұзын мәтіндерді қысқаша мазмұндау: клиенттің хаты, өтінім, ішкі нұсқаулық немесе оператормен чат. Модель мәтінді мағынасын жоғалтпай қысқартуы және жоқ нәрсені қосып жібермеуі маңызды.

Соңында, сұрауды тақырып пен жеделдік бойынша талдауды да тексерген жөн. Шоттағы қалдық туралы сұрақ пен екі рет ақша алынғанына шағым әртүрлі реакцияны талап етеді, бірақ екеуі де чаттағы қысқа хабарлама сияқты көрінуі мүмкін.

Тілдегі әркелкілігі бар міндеттерді таңдаңыз. Қазақ тілі үшін бұл өте маңызды: сөздердің әртүрлі формалары, ауызекі нұсқалар, қате жазылым, кириллицаның орнына латиница, аралас сұраулар. Егер тест тек «қайтару шарттары қандай» сияқты ұқыпты сөйлемдерден тұрса, модель шынайы жұмыстағыдан жақсы нәтиже көрсетеді. Ал кейін «zатты кайтарсам бола ма» сияқты фразаларда қате жібере бастайды.

Қарапайым сүзгі бар: тек тексеруге болатын тапсырмаларды қалдырыңыз. Егер тіпті сарапшы да қай жауап дұрыс екенін таласа берсе, мұндай мысалды әзірге наборға қоспаған жөн. Алғашқы кезеңде айқын нәтижесі бар кейстерді алған дұрыс: керек өнім табылды ма, жоқ па; өрістер дұрыс толтырылды ма, жоқ па; жеделдік дұрыс анықталды ма, жоқ па.

Бастауда әр міндет түріне 30-50 мысал жеткілікті. Мұндай набор модельдің қай жерде сенімді екенін, ал қай жерде қарапайым сұраулардың өзінде сүрінетінін бірден көрсетеді.

Жанды мысалдарды қайдан алуға болады

Набор үшін ойдан шығарылған сұрақтар керек емес. Ең жақсысы — нақты жұмыстың іздері: қолдау чаттары, клиент хаттары, формадағы өтінімдер, операторлардың түсіндірмелері, сайт немесе қосымша ішіндегі қысқа іздеу сұраулары. Мұндай материал модельдің демодан тыс қалай әрекет ететінін тез көрсетеді, өйткені адамдар жазғанда ретсіз жазады, асығады және сөздерді шатастырады.

Егер қазақ тіліне арналған датасет жинап жатсаңыз, әуелі оны оқулық стандартына дейін «тазалап» тастауға тырыспаңыз. Қате терілген сөздерді, ауызекі формаларды, қазақша-орысша араласуды, жергілікті қысқартуларды және қисық тұжырымдарды қалдырыңыз. Пайдаланушы редактор сияқты жазбайды. Егер осы шуды алып тастасаңыз, сіз нақты өнімді емес, ұқыпты витринаны тексересіз.

Жақсы бастама көбіне былай көрінеді: қолдаудан алынған 100-200 анонимдендірілген диалог, мәселені ұзақ сипаттайтын 50-100 хат немесе өтінім, сайттан немесе қосымшадан алынған іздеу сұраулары, бірнеше ондаған қымбат қателер және сирек, бірақ жағымсыз жағдайлардың жеке таңдауы.

Сирек жағдайларды бөлек сақтау керек. Олар күнде кездеспейді, бірақ ең қатты соғады: қате сома, терістеудің түсіп қалуы, жеткізу адресінің шатасуы, өтінім статусының қате болуы, денсаулық тақырыбындағы қауіпті кеңес. Осындай бір мысал он тегіс FAQ-сұрақтан пайдалырақ. Банк, ритейл немесе телекомда мұндай қателер көбіне шағымдардан, қолмен эскалациялардан және операторлардың даулы жауаптарынан көрініп тұрады.

Таңбалау алдында наборға түспеуі тиіс барлық нәрсені алып тастаңыз: аты-жөні, телефон нөмірі, электрондық пошта, ИИН, келісімшарт нөмірлері, ішкі ID және қызметтік белгілер. Мұны бірден жасаңыз. Әйтпесе жеке деректер кестелерге, талқылауларға және разметтаушыларға арналған нұсқауларға тез тарап кетеді. Қазақстандағы командалар үшін бұл жай ғана практикалық қадам: деректерді сақтау мен өңдеуге қойылатын талаптарды басынан ескерген дұрыс, кейін түзеткеннен гөрі.

Қысқа контексті қатар сақтаған пайдалы. Тек сұрақтың өзін емес, оның қайдан келгенін, адам не істегісі келгенін және әңгіменің немен аяқталғанын да жазып қойыңыз. Екі-үш жол көбіне бір мәтіннің өмірде неге дұрыс жауап болып саналатынын, ал тестте неге даулы көрінетінін түсінуге көмектеседі.

Қалай дұрыс жауап туралы келісуге болады

Сапаға қатысты дау әдетте модельден емес, эталоннан басталады. Егер команда жақсы жауап дегенді әртүрлі түсінсе, набор тез арада кездейсоқ пікірлер жинағына айналады.

Қарапайым ережеден бастаңыз: бір мысал — бір міндет. Бір кейсте факт іздеуді, сыпайы тонды, аударуды және форматтауды араластырмаңыз. Егер пайдаланушы қазақша кабинетке кіруді қалай қалпына келтіру керегін сұраса, бұл мысал дәл сол қалпына келтіру нұсқаулығын тексеруі керек.

Әр кейс үшін екі нәрсені бекітіңіз: не дұрыс деп есептеледі және не мүлде жарамайды. Жауап қарапайым болса, дұрыс нұсқа қысқа болуы да мүмкін. Қате деп тек фактілік қателікті емес, артық ойдан шығаруды, сұрақтан ауытқуды, себепсіз тіл ауыстыруды және бұзылған форматты да санаған жөн.

Қазақ тіліндегі LLM бағалауында бұл ерекше маңызды. Бір мағынаны бірнеше дұрыс тәсілмен айтуға болады. Егер жауап мағына мен тонды сақтаса және керек әрекетті берсе, тек басқа сөздер үшін модельді жазалау дұрыс емес.

Әр мысал үшін нені бекіту керек

  • жауаптың мақсаты бір сөйлеммен
  • мағынасының рұқсат етілген нұсқалары
  • қатаң қателер
  • жауап тілі
  • қажет формат

Мысалы, «Төлем түбіртегін қайдан жүктеймін?» деген сұрау модель қазақша жауап берсе, интерфейстегі түсінікті жолды көрсетсе және ойдан шығарылған бөлімдерді қоспаса, жабық деп есептеуге болады. Егер ол орысша жауап берсе немесе жоқ батырманы айтса, бұл — қате.

Форматты бөлек белгілеңіз. Бір абзац керек пе, қадамдар тізімі керек пе, JSON керек пе, әлде операторға арналған қысқа үлгі ме? Мұны көрсетпесеңіз, разметтаушылар стиль туралы дауласа бастайды, ал сіз жауаптың пайдалы екенін тексергіңіз келген.

Разметтаушыларға бір беттік қысқа нұсқаулық жеткілікті. Онда әдетте набордың мақсаты, тілдерге қатысты ережелер, жартылай дұрыс жауапты қалай белгілеу керегі және 3-4 түсіндірмесі бар мысал болса болды. Егер ережені бір сөйлеммен түсіндіре алмасаңыз, ол бірінші набор үшін тым күрделі болуы мүмкін.

Жақсы эталон тілдің барлық реңкін бірден қамтуға тырыспайды. Ол командаға жауапқа бірдей қарауға және модель шынымен көмектескен жерді, ал жай ғана сенімді сөйлеген жерді тез байқауға көмектеседі.

Бірінші наборды қалай қадамдап жинау керек

500+ модельді салыстырыңыз
Бір шлюз арқылы әр провайдердің модельдерінде бірдей наборды тексеріңіз.

Идеал наборды бірден жинауға тырыспаңыз. Алғашқы прогон үшін бір сценарий және 50-100 мысал жеткілікті. Егер одан аз алсаңыз, кездейсоқ сәттілік пен сәтсіздік нәтижеге тым қатты әсер етеді. Егер одан көп алсаңыз, команда шаршап, ұсақ-түйекке таласа бастайды.

Мысалдарды бірден күрделілік бойынша бөліңіз: жеңіл, орташа және күрделі. Жеңілдері сұрауды базалық түсінуді тексереді. Орташалары контекст, шектеу немесе ауызекі тілді қосады. Күрделілері қазақша мен орысшаның араласуын, қате теруді, толық емес деректерді немесе өзара қайшы нұсқауларды қамтиды. Мұндай бөлініс модельдің қай жерде құлайтынын, қай жерде сенімді тұратынын тез көрсетеді.

Сосын 2-3 модель алып, оларды бірдей промптпен және бірдей параметрлермен іске қосыңыз. Әр модельге қарай сұрау мәтінін түзетпеңіз, әйтпесе салыстырудың мәні жоғалады. Егер бір модельге ыңғайлырақ тұжырым берілсе, сіз енді модельдерді емес, әртүрлі жағдайларды салыстырасыз.

Прогоннан кейін тек жалпы нәтижеге қарамаңыз. Сәтсіз жауаптарды қолмен ашып, бірінен соң бірін оқыңыз. Көбіне дәл сол кезде наборға не жетіспейтіні көрінеді: тірі тұжырымдар, қысқа хабарламалар, аралас тіл, өңірлік сөздер немесе байқалмайтын шектеулер. Мұндай жағдайларды келесі нұсқаға қосу керек.

Қателіктің өзін ғана емес, оның түрін де белгілеңіз. Мысалы, модель мағынаны шатастырды, тым жалпы жауап берді, ойдан шығармау талабын елемеді немесе қазақша тұжырымды түсінбеді. 20-30 осындай шолудан кейін сурет әдетте анық көріне бастайды.

Набор нақты жұмысқа ұқсай бастағанда, салыстыру алдында оның нұсқасын бекітіп қойыңыз. Оған ат беріңіз, бөлек файлға сақтаңыз және тест біткенше өзгертпеңіз. Әйтпесе бірінші модель бір наборда, ал келесісі басқа наборда тексеріледі.

Жақсы бірінші набор әдемі болуға міндетті емес. Ол кейін қолдау, сату немесе ішкі процестерге соққы болатын қателерді ұстап қалуы керек. Егер осындай прогоннан кейін команда промптта, жауап ережелерінде немесе модель маршрутизациясында нені өзгерту керегін түсінсе, набор өз жұмысын істеп тұр деген сөз.

Нәтижені күрделі ғылымсыз қалай санауға болады

Тәжірибелік тексеру үшін бір «ақылды» балл керек емес. Команда қолмен тексеріп, бір айдан кейін қайталай алатын қарапайым метрикалар керек. Егер метрика модель таңдауға немесе әлсіз тұсты табуға көмектеспесе, оны санамаған дұрыс.

Жауапты оңай тексеруге болатын жерде pass/fail қолданыңыз. Бұл модель фактіні қайтаруы тиіс, бірақ әдемі тұжырым емес жағдайларда жақсы жұмыс істейді: келісімшарт нөмірі, сома, күн, өтінім статусы, ережеге сәйкес «иә» немесе «жоқ» жауабы. Не дәл түсті, не тимеді.

Іздеу мен дерек алуда бүкіл жауапқа емес, жеке өрістерге қараған пайдалы. Егер модель клиенттің атын дұрыс алса, бірақ сома мен күнде қателессе, қай жерде бұзылатыны көрініп тұрады. Әдетте әр өріс бойынша дұрыс мәндердің үлесін санау жеткілікті, ал егер өріс қатаң форматта болуы тиіс болса, формат қателерін бөлек белгілеңіз.

Көп адам ұмытып кететін тағы екі практикалық метрика бар: кідіріс және бір сәтті жауаптың құны. Арзан модель жиі қателессе, шын жұмыста қымбатырақ болып шығуы мүмкін. Қарапайым формула тез ойландырады: прогонның жалпы құнын сәтті жауаптар санына бөліңіз. Салыстыру сонда әділірек болады.

Егер сіз модельдерді AI Router сияқты бірыңғай шлюз арқылы жіберсеңіз, мұндай сандарды бір жерден жинау оңайырақ. Бұл тәсілдің тағы бір плюсы бар: base_url-ды api.airouter.kz етіп өзгертіп, SDK-ны, кодты және промпттарды қайта жазбай-ақ, OpenAI-үйлесімді бір эндпоинт арқылы әртүрлі модельдерді іске қосуға болады. Бірақ негізгі логика құралға тәуелді емес: сәттілік, баға және жауап уақыты бөлек кестелерде емес, қатар тұруы керек.

Жалпы пайыз көбіне мәселені жасырып қалады. Қате терілген сөздер, аралас тіл, кіріс ұзындығы және міндет түрі бойынша срездер жасаңыз.

Мұндай бөлініс шынайы көріністі тез береді. Модель қысқа әрі таза сұрауларда 85% көрсетіп, ал ұзын, ауызекі жазылған өтініштерде 52%-ға дейін құлдырауы мүмкін. Қолдау қызметі үшін бұл ұсақ нәрсе емес, кәдімгі жұмыс күні.

Бір ғана қорытынды санның орнына міндеттер бойынша қысқа кесте ұстаған дұрыс: өріс шығару, жіктеу, білім базасы бойынша жауап, қайта тұжырымдау. Әр жолдың өз метрикасы болады. Сонда модель қай жерде бірден жарайтыны, ал қай жерде басқа промпт, басқа модельге бағыттау немесе қолмен тексеру керек екені көрінеді.

Қолдау қызметіне арналған мысал жинағы

Шулы сұрауларды тексеріңіз
Қазақша-орысша, қате жазылған сұрауларды іске қосып, әлсіз тұстарды тез табыңыз.

Алғашқы прогон үшін қазақ тіліндегі интернет-дүкеннің 200 өтініші жеткілікті. Бұл модельдің клиентті қай жерде түсінетінін, ал қай жерде мағынаны, жауап тілін немесе тонды шатастыратынын жақсы көрсетеді. Мұндай набор оншақты ұқыпты демо-фразадан пайдалырақ.

Тек «таза» сұрауларды алмаңыз. Шынайы қолдауда адамдар қысқа жазады, қате жібереді, эмоциямен сөйлейді және кейде қазақша мен орысшаны араластырады. Бір клиент «Тапсырыс қайда?» деп жазса, екіншісі жеті жолдан тұратын ұзақ шағым, күндер, сомалар және сатып алудан бас тартамын деген ескерту жібереді.

Таңдамада команда күнде көретін тақырыптар болғаны дұрыс: жеткізу мен мерзімдер, тапсырысты тоқтату, тауарды немесе ақшаны қайтару, бонус пен жеңілдік, сондай-ақ төлем немесе қайталанған есептен шығару бойынша даулы жағдайлар.

Бұл тақырыптар әртүрлілік үшін пайдалы емес. Олар модельді әр қырынан тексереді. Жеткізу статусты дәл түсінуді талап етеді. Қайтару мен тоқтату модель дүкен ережесін ойдан шығарып жібермейтінін көрсетеді. Бонус бөлімінде ұсақ нәрсе көп бұзылады: жарамдылық мерзімі, есептеу шарттары, ерекше жағдайлар.

Наборға әртүрлі формадағы өтініштер қосыңыз. Шамамен жартысы өте қысқа болуы мүмкін, мысалы «Жеткізу қашан болады?» немесе «Бонусым көрінбей тұр». Қалғандары ұзағырақ болсын: тапсырыс тарихы, наразылық, артық детальдар және бірден бірнеше сұрақ. Дәл осындай хабарламаларда AI-көмекшінің сапасын тексеру шын мәнінде көрінеді.

Әр жауапта нені тексеру керек

Тек фактілік дәлдікке қарамаңыз. Қолдау қызметі жауабының тағы бірнеше қарапайым тексеріс қабаты бар:

  • модель клиенттің сұрағын дұрыс түсінді
  • жауап клиент қай тілде жазса, сол тілде берілді
  • тон сабырлы және сыпайы
  • мәтін дүкен істемейтін нәрсені уәде етпейді
  • жауап маңызды детальды, мысалы тапсырыс нөмірін немесе қайтару мерзімін, түсіріп қалмайды

Ақшаға әсер ететін қателерді бөлек белгілеңіз. Егер модель қайтаруды қате уәде етсе, тоқтату шарттарын шатастырса немесе жоқ жеңілдік берсе, бұл қарапайым қате емес. Бұл табысқа да, кейін жанжалды қолмен шешетін командаға да қауіп.

Тәжірибеде «ақша қаупі» деген қарапайым флаг енгізу ыңғайлы. Сонда сіз ыңғайсыз жауап пен дүкенге ақша, клиент немесе екеуі бірдей жоғалатын қатені тез ажырата аласыз.

Командалар қай жерде жиі қателеседі

Бірінші қате өте қарапайым: наборға тек ұқыпты, әдеби қазақ тілі кіреді. Өмірде оны ешкімге тән жаза бермейді. Пайдаланушы қазақша мен орысша сөздерді араластырады, әріп тастап кетеді, телефоннан жазады және диакритика қоймайды. Егер модельді тек «Төлем жүргізілмеді» сияқты сөйлемдермен тексерсеңіз, ол әдемі нәтиже көрсетіп, «tolem otpedi» немесе «картадан акша шыгып кетті» деген хабарламада құлайды.

Екінші қате соған жақын. Команда деректерді тым қатты тазартады. Қате терілген сөздерді алып тастайды, тыныс белгілерін қалыпқа келтіреді, қысқа шағымдарды тегіс мәтінге қайта жазады. Осылайша набор тексеруге ыңғайлы болады, бірақ шынайы ағынға ұқсамай қалады. Қазақ тіліне арналған LLM бағалауында шудың бір бөлігін қалдырған дұрыс. Әйтпесе сіз ассистенттің жұмысын емес, редактордың жұмысын өлшейсіз.

Көп жағдайда жалпы балл да әртүрлі міндеттерді шатастырып жібереді. Чат, білім базасынан іздеу және форманы толтыру әртүрлі мінез-құлықты талап етеді. Чатта модель сұрақты нақтылай алады. Іздеуде ол ойдан шығармай, табылған мәтінге сүйенуі керек. Формада өрістердің дәлдігі мен жауап форматы маңызды.

Кемінде сценарийлерді аздап бөліңіз: диалогтық сұраулар, құжаттардан іздеуді қажет ететін сұрақтар және өрістерді шығару не толтыру міндеттері.

Тағы бір жиі қате — команда салыстыру барысында промптты өзгерте береді. Бір модель ескі нұсқаулықпен тексеріледі, екіншісі жаңа нұсқамен, үшіншісіне екі-үш мысал қосылып үлгереді. Осыдан кейін сандардың мәні жоғалады. Алдымен промптты, жауап форматын және параметрлерді бекітіңіз. Содан кейін модельдерді салыстырыңыз.

Және соңғысы: көп адам тек жауап сапасына қарап, кідіріске мән бермейді. Бұл қымбат қате. Ішкі көмекші үшін 2 секунд пен 8 секундтың айырмасы кейде дәлдіктегі 3%-дан да маңызды. Егер қолдау боты баяу жауап берсе, адамдар бәрібір операторға кетеді.

Прогон алдында жылдам тексеру

Жергілікті open-weight модельдер
Ел ішінде төмен кідіріс пен деректерді сақтау маңызды болса, AI Router хостингін пайдаланыңыз.

Жинақты іске қоспас бұрын оған зерттеуші ретінде емес, редактор ретінде қарап шығыңыз. Жақсы набор көбіне модельде емес, ұсақ нәрселерде құлайды: қайталанулар, бұлыңғыр таңбалау және бір аптадан кейін ешкім қайтара алмайтын жағдайлар.

Қарама-қайшылықтан бастаңыз. Ішінде әрі жеңіл, әрі жағымсыз сұраулар болсын. Егер сізде тек «Құжатты қайдан жүктеймін?» сияқты ұқыпты сөйлемдер болса, модель тым әдемі нәтиже көрсетеді. Шу қосыңыз: қазақша мен орысшаның араласуы, қате теру, қысқа дауыстық транскрипциялар, контекстсіз өтініштер, өткір тұжырымдар.

Сосын қайталануларды алып тастаңыз. Егер он мысал тек қала атауы немесе тапсырыс нөмірімен ғана айырылса, сіз наборды кеңейтпей, жай ғана үлкейтіп жатырсыз. Бір үлгіге бір жақсы мысал қалдырып, басқа қате түрін қосқан дұрыс.

Прогон алдында бес нәрсені тексеріңіз:

  • наборда жеңіл де, жағымсыз да жағдайлар бар
  • мысалдар бір сценарийді әртүрлі атпен қайталамайды
  • кез келген әріптес таңбалауды қоңыраусыз және ауызша түсіндірмесіз түсінеді
  • сізде критикалық қателердің бөлек тізімі бар
  • команда бір аптадан кейін дәл сол прогонды дәл солай іске қоса алады

Таңбалауда қатаң болған дұрыс. Егер бір адам «ішінара дұрыс» деп жазса, ал екіншісі оның «дұрыс, бірақ дөрекі» дегеннен айырмасын түсінбесе, талқылау бағалауға дейін-ақ басталады. Әр белгі үшін қысқа ереже және бір мысал беріңіз. Әдетте бұл жеткілікті.

Критикалық қателер тізімін жалпы бағалаудан бөлек ұстаңыз. Қолдау қызметі үшін бұл ойдан шығарылған тариф, тыйымды өткізіп жіберу, қате адрес, қауіпті кеңес немесе дұрыс емес тілдегі жауап болуы мүмкін. Модель орташа баллда жоғары нәтиже көрсетсе де, бір осындай қате бүкіл нәтижені жарамсыз етуі мүмкін.

Соңғы тексеріс қарапайым: нұсқаулықты ашып, ертең бұл прогонды басқа адам іске қосады деп елестетіңіз. Егер ол сізге чатта «мына жерде не қате деп саналады?» деп жазуы керек болса, набор әлі шикі. Ережелер бірден оқылатын болса, сіз сенуге болатын сандар аласыз.

Бірінші нұсқадан кейін не істеу керек

Набордың алғашқы нұсқасы көбіне көрінгеннен әлсіз болады. Бұл қалыпты. Пайдасы ол жиналған күні емес, команда әрбір елеулі өзгерістен кейін тестті қайта жүргізгенде басталады: жаңа промпт, басқа модель, провайдерді ауыстыру, retrieval-ге, фильтрлерге немесе кейінгі өңдеуге түзету енгізу.

Егер мұны тұрақты жасамасаңыз, қазақ тіліне арналған бенчмарк тез арада архивке айналады. Ол бар сияқты, бірақ кеше нақты не бұзылғанын енді көрсетпейді. Апта сайын іске қосылатын 80 сценарийі бар шағын, тірі набор 800 мысалы бар, бірақ ешкім қайтпайтын папкадан әлдеқайда пайдалы.

Жаңа кейстердің ең жақсы көзі — продакшендегі қателер. Пайдаланушы қазақша-орысша аралас жазды, модель ниетті қате түсінді, сыпайылық формасын шатастырды немесе факт ойдан шығарды — мұндай мысалды бірден наборға қосқан дұрыс. Тоқсандық шолуды күтпеңіз. Бүлінуді байқасаңыз, деректерді анонимдендіріңіз, күтілетін жауапты жазып қойыңыз да, келесі прогонға енгізіңіз.

Модельдерді жалпы әсерге қарап емес, набордың бірдей нұсқасы, бірдей промпт және бірдей санау ережелері бойынша салыстырыңыз. Тек сонда ғана жүйе шын мәнінде жақсарды ма, әлде ыңғайлы мысалдарда жай ғана сәтті жауап берді ме — соны көресіз.

Егер набор релизге дейін қателерді ұстауға көмектессе, демек ол өз пайдасын беріп жатыр. Жақсы бастау үшін осының өзі жеткілікті.

Нақты сценарийлерге негізделген қазақ тіліне арналған бенчмарк | AI Router