2024 ж. 06 шіл.·6 мин оқу

Автооценкаға арналған модель-судья: қайда сенуге болады, қайда тексеру керек

Модель-судья арқылы автооценка жауаптарды жылдам тексеруге көмектеседі, бірақ бәрінде бірдей емес. Рубрика, қолмен таңдама және жүйелі қате белгілерін талдаймыз.

Неге модель-судья қателеседі

Модель-судья арқылы автооценка ыңғайлы, себебі ол бір ғана сан береді. Оны дашбордқа оңай салуға, релиздер арасында салыстыруға және жиналыста талқылауға болады. Бірақ мәселе мынада: бұл сан адамның жауабын емес, басқа бір модель сіздің рубриканы қалай түсінгенін және мәтінді қалай оқығанын көрсетеді.

Міне, осында ыңғайлы метрика мен шынайы сапаның айырмасы жатыр. Метрика қысқа болуды жақсы көреді: бір балл, бір кесте, бір қорытынды. Ал қолданушының жауабы әлдеқайда күрделі. Ол анық әрі сыпайы болуы мүмкін, бірақ факті жағынан қате болуы ықтимал. Немесе қысқа болса да, тапсырманы дәл шеше алады.

Егер рубрика тым бұлдыр болса, модель-судья жалпы әсерді бағалай бастайды. Тегіс әрі сенімді жауап көбіне жоғары балл алады, тіпті ішінде логика, есеп немесе ережеге сілтеме жағынан қате болса да. Стиль мазмұндағы мәселені оңай жасырып қояды. Қысқаша мазмұндау үшін бұл онша сезілмеуі мүмкін. Ал шарттарды шығару, банк скорингі немесе медициналық қорытынды үшін бұл тікелей тәуекел.

Орташа балл да ақауды жақсы жасырады. Елестетіңіз: 100 жауаптың 90-ын судья дерлік қате жібермей бағалайды, ал сирек кездесетін 10 жауаптағы қауіпті қатені жүйелі түрде өткізіп жібереді. Графикте бәрі жақсы көрінеді, өйткені орташа мән жоғары күйінде қалады. Команда үшін бұл тұзақ: сирек қателер көбіне ең қымбатқа түседі.

Модельдерді салыстырғанда да осыны көруге болады. Команда бірнеше нұсқаны бір шлюзден өткізіп, таза кесте алады да, орташа балл бойынша көшбасшыны таңдайды. Кейін сол көшбасшы сыпайы жауаптарды жақсы жазғанымен, бас тартуды, екіұштылықты немесе дерек жетіспеуін нашар танитыны анықталады. Судья пішінді марапаттап, мағынаны емес.

Автоматты балға соқыр сену тағы бір себептен қауіпті: команда жүйені судьяның талғамына бейімдей бастайды. Сонда сапа емес, тесттен өту шеберлігі өседі. Егер баға өсіп, ал қолданушылар әлі де біртүрлі жауаптарға шағымданса, мәселе көбіне тексеру сызбасында болады.

Автооценаға қашан сенуге болады

Автооценка ең пайдалысы — жауапты дерлік үлгі бойынша тексеруге болатын жерде. Талғам мен жорамалға орын неғұрлым аз болса, нәтиже соғұрлым тұрақты. Егер міндет қажетті өріс бар ма, формат сақталды ма, жауап лимиттен аспады ма дегенге келсе, модель-судья әдетте қалыпты жұмыс істейді.

Ең сенімді жағдай — жауап формасын тексеру. LLM JSON қайтарды ма, міндетті өрістер бар ма, типтер сәйкес пе, атрибут түсіп қалмаған ба, мәтін ұзындығы асқан жоқ па. Мұнда модель мағынамен таласпайды, нақты белгілерді іздейді.

Қысқа эталонмен салыстыру да жақсы жұмыс істейді, егер дұрыс жауап дерлік бірмәнді болса. Мысалы, келісімшарт нөмірін, датаны немесе бекітілген тізімнен бір ғана статусты шығару керек. Эталон қысқа, ал рұқсат етілген нұсқа аз болса, судья дұрыс пен бұрысты сенімді ажыратады.

Тағы бір жақсы сценарий — жұптық салыстыру. Модельге 1-ден 10-ға дейін нәзік баға қоюдан гөрі, екі жауаптың ішінен жақсысын таңдауы оңай. Әсіресе сұрақ тікелей қойылса: қай жауап нұсқауды дәлірек орындайды, қайсында фактілік қате аз, қайсысы форматты бұзбайды.

Бастапқыда үш қауіпсіз қолдану жеткілікті:

формат бақылауынан өтпеген жауаптарды сүзу;
оператор үшін екі нұсқаның бірін таңдау;
белгіленген меткалар бойынша қысқа классификацияларды тексеру.

Егер модель-судья мұндай тапсырмаларда қателессе, команда клиентті не ақшаны емес, уақытын ғана жоғалтады. Бұл алғашқы іске қосулар үшін дұрыс режим.

Жұмыс істейтін жүйеде мұндай қабатты көбіне бірінші болып қояды. Егер команда трафикті бір LLM-шлюз арқылы өткізсе, мұндай тексерістерді ертерек автоматтандыру ыңғайлы, ал мағына формадан маңызды болатын даулы тапсырмаларды қолмен қарауға қалдырған дұрыс. Мысалы, AI Router ішінде бірнеше модельді бір OpenAI-үйлесімді эндпоинт арқылы өткізіп, SDK-ны, кодты және промпттарды қайта жазбай бірдей тексеру сценарийін ұстауға болады.

Қай кезде қолмен таңдау керек

Жақсы жауаптың бір ғана дұрыс формасы жоқ жерде қолмен таңдау керек. Модель-судья шаблонға сүйенген стильді жақсы көреді: қысқа, тегіс, даулы детальсыз. Соның салдарынан ол күшті жауапты кейде тек рубрика күткенше жазылмағаны үшін төмен бағалайды.

Бұл әсіресе ашық мәтінді тапсырмаларда байқалады. Клиент шағымына берілген екі жауап та бірдей пайдалы болуы мүмкін, бірақ біреуі жұмсақ, екіншісі тік айтылады. Адам мұнда орынды тон мен мағынаны көреді. Ал модель көбіне промпттағы мысалдарға көбірек ұқсайтын нұсқаны таңдайды.

Кей жағдайларда адамдарсыз мүлде болмайды. Бұл медициналық, құқықтық және қаржылық жауаптар, мұнда бір дәл емес сөйлем мағынаны өзгертіп жібереді. Бұл сенімді эталоны немесе салыстыратын базасы жоқ фактілерді тексеру. Бұл PII байқаусызда ашылып кетуі, ішкі ережелер немесе заң талаптары бұзылуы мүмкін сұраныстар. Және бұл сирек болса да, зияны үлкен қателер.

Домендік міндеттер мына себептен қауіпті: модель-судья сенімді естіліп, сонымен бірге қатені өткізіп жіберуі мүмкін. Медициналық қорытындыда ол кеңес симптомдарға қайшы екенін байқамауы ықтимал. Банк жауабында бас тартудың екіұшты түсіндірмесін мақұлдауы мүмкін. Құқықтық мәтінде кейде жауап толық деп санайды, бірақ онда керекті ескерту жоқ болып шығады.

Фактілермен де жағдай осындай. Егер эталон болмаса, модель шындықты емес, шындыққа ұқсастықты бағалай бастайды. Жаңалықтар, салалық шолулар және қысқа нарықтық анықтамалар үшін бұл жеткіліксіз. Адам таңдама кемінде бір бөлігін оқып, дереккөзге, датаға, санға және есімдерге бөлек қарауы керек.

Қауіпсіздік пен комплаенс те бөлек тәуекел аймағы. Егер жүйе өтінімдермен, клиент чаттарымен немесе ішкі құжаттармен жұмыс істесе, қолмен тексеру тек жауап сапасына емес, ФИО, шот нөмірі, телефон немесе басқа жеке деректердің шығып кетпегеніне де қарауы керек. Банк, телеком, мемлекеттік сектор және healthcare үшін бұл артық сақтық емес, қалыпты жұмыс тексерісі.

Мұндағы ереже қарапайым: қате неғұрлым сирек, ал құны неғұрлым жоғары болса, автооценкаға адам тексерісінсіз сенуге соғұрлым аз болады. Адам бәрін емес, қауіпі жоғары сегменттерді, даулы жауаптарды және судья тым сенімді баға қоятын шеткі жағдайларды оқысын.

Рубриканы бұлыңғыр сөздерсіз қалай құруға болады

Модель-судья бәрін бір балмен бағалауды сұрағанда шатаса бастайды. "Жауап сапасы" деген формулировка ыңғайлы көрінеді, бірақ оның ішінде әдетте дәлдік, толықтық, стиль, формат және қауіпсіздік араласып кетеді. Бағалауды бөлек критерийлерге бөліп, әрқайсын өз шкаласымен тексерген жақсы.

Кәдімгі LLM міндеті үшін көбіне төрт критерий жеткілікті:

фактілердің дұрыстығы;
нұсқауды орындау;
форматты сақтау;
жауап қауіпсіздігі.

Егер сізде тәуекелі жоғары жұмыс сценарийі болса, критерийлерді нақты ақаулармен байланыстырыңыз. Банк немесе медицина кейсінде PII ағып кетуін бөлек бағалау пайдалы. API арқылы интеграцияларда — JSON-схеманы сақтау. Сонда рубрика жалпы әсерді емес, нақты қателерді ұстай бастайды.

Әр критерийге қысқа шкала және мысалдар керек. Әдетте 0, 1 және 2 жеткілікті. Одан көп градация көбіне кедергі жасайды: адамдар да, модель де мәннен гөрі іргелес баллдарға дауласады.

"Форматты сақтау" критерийі үшін шкала былай болуы мүмкін: 0 — жауап дұрыс форматта емес немесе парсингті бұзады; 1 — формат дерлік дұрыс, бірақ бір өріс жоқ не артық мәтін бар; 2 — жауап тексерістен толық өтеді. "Фактілердің дұрыстығы" да осыған ұқсас: 0 — ойдан шығарылған нәрсе немесе дерекке тікелей қайшылық бар; 1 — тапсырмаға зияны жоқ ұсақ дәлсіздік; 2 — фактілер дереккөзбен сәйкес.

Бұлдыр сөздерді бірден алып тастаған дұрыс. "Жақсы", "жеткілікті толық", "сапалы", "орынды" дегендер тек сөз жүзінде түсінікті. Екі разметка жасаушы оларды әртүрлі оқиды. Оның орнына тексерілетін белгілерді жазған пайдалы: "үш қадамның бәрі аталған", "жаңа факт жоқ", "бірінші абзацта қорытынды жауап бар", "жеке деректер жоқ".

Рубрика алдын ала қай кезде судья нөл қоятынын, ал қай кезде адам керек екенін айтуы тиіс. Нөл айқын сәтсіздіктерге беріледі: қауіпті кеңес, PII ағып кетуі, ойдан шығарылған фактілер, бұзылған формат. Қолмен тексеру судья жиі қателесетін жерлерге керек: күрделі есептер, даулы тұжырымдар, құқықтық және медициналық жауаптар, сарказм немесе бас тарту сияқты нәзік жағдайлар.

Іске қосар алдында рубриканы бірдей таңдамада екі разметка жасаушыға беріңіз. Көбіне 30-50 жауап жеткілікті. Егер адамдар бір критерий бойынша жиі келіспесе, мәселе әдетте шкаланың формулировкасында, адамдарда емес. Мұны автооценканы қоспай тұрып түзетіңіз. Әйтпесе модель-судья дәл сол шатасуды өзіне сіңіреді.

Тексерісті қадамдап қалай баптауға болады

Пилотты тезірек іске қосыңыз

Прогондарды бір шлюзге көшіріп, әр провайдер үшін кодты қайта жазбаңыз.

Шлюзді сынау

Егер сіз LLM жауаптарын оқу промпттарында тексеріп жатсаңыз, судья тірі жұмысқа қарағанда әрдайым дәлірек көрінеді. Баптау үшін нақты сұраныстар жиыны керек: қолдау диалогтары, қоңырау қорытындылары, құжаттардан өрістерді шығару, өнім ішіндегі ассистент жауаптары. Мұндай жинақта бірден шу, оғаш формулировкалар және шекаралық жағдайлар көрінеді.

Өнімнен 100-300 мысал жинаңыз. Оған тек қалыпты сұраныстарды емес, қысқа, былғаныш және даулы жағдайларды да қосыңыз.
Жинақтың бір бөлігін қолмен разметкалаңыз. Бірінші өтім үшін 30-50 мысал жеткілікті, егер оларды екі адам бір рубрика бойынша қараса.
Адамдар арасындағы келіспеушіліктерді талдаңыз. Егер разметка жасаушылар таласса, себеп көбіне бұлдыр критерийде болады.
Сол жинақты модель-судьядан өткізіп, жалпы балмен ғана емес, әр критерий бойынша бағаларды салыстырыңыз.
Рубриканы түзетіп, сол мысалдармен емес, жаңа кесіндіде циклді қайталаңыз.

Тек сәйкес келу пайызын ғана емес, типтерді де қараңыз. Модель-судья ұқыпты, бірақ бос жауаптарды жүйелі түрде жоғары бағалауы мүмкін. Ол сыпайы тонды сапамен шатастыруы, басқа стильді жазалауы және ұзын мәтіндегі фактілік қатені өткізіп жіберуі мүмкін.

Жақсы тексеріс қате түрлерін іздейді. Өрістерді шығару үшін судья қай өрістерді жиі өткізіп жіберетінін белгілеу пайдалы. Қолдау үшін қате факт пен әлсіз тұжырымды ажыратқан дұрыс. Қысқаша мазмұндау үшін міндетті детальдарды бөлек критерийге шығарған жөн: дата, сома, өтініш себебі, келесі қадам.

Кішкентай мысал ауытқуды бірден көрсетеді. Айтайық, судья қоңыраудың қысқа қорытындысына жоғары баға береді, бірақ мәтінде төлем сомасы жоқ. Жалпы қолмен разметкамен сәйкес келу 82% болып тұр. Жаман емес сияқты. Бірақ "міндетті фактілер бар" критериі бойынша сәйкестік 54%-ға түседі. Демек, рубрика тым жұмсақ немесе судья соманың түспеуі жауапты бұзатынын түсінбейді.

Егер команда бірнеше модельді салыстырса, олардың жауаптарын бір кестеге айырмай жинамаңыз. Бір модель тегіс жазады, екіншісі фактілерді дәлірек ұстайды. Судья көбіне тегіс стильді ұнатады да, соның салдарынан суретті бұрмалайды.

Қайта циклді жаңа дерек кесіндісінде іске қосқан дұрыс: басқа диалогтар, басқа сценарий, басқа тіл, жауаптың басқа ұзындығы. Егер түзетуден кейін қате бірдей тапсырма түрінде қайталанса, бұл бағалау бөлігін әзірге қолмен қарау керек.

Нақты тапсырмадағы жүйелі қате мысалы

Елестетіңіз, бұл — компанияның білім базасы бойынша ғана жауап беретін қолдау чаты. Қарапайым сұрақтарда ол жақсы жұмыс істейді, ал қателер ерекше сұраныстарда шығады.

Клиенттің сұрағы: "Мен тапсырысты төледім. Егер сәлемдеме курьерге берілген болса, жеткізу мекенжайын өзгертуге бола ма?" Білім базасында мекенжайды әрдайым өзгертуге болмайтыны жазылған. Егер тапсырыс сыртқы жеткізу қызметіне кетсе, жаңа тапсырыс не оператордың бөлек келісімі керек.

Бот өте сыпайы жауап береді: "Иә, әрине. Мен мекенжайды өзгертуге көмектесемін. Әдетте бұл 2 сағатқа дейін уақыт алады". Жауап жақсы естіледі, бірақ ол дәл емес. Бот ережеде болмауы мүмкін әрекетті уәде етті.

Модель-судья мұндай жауапты жиі жоғары бағалайды. Ол сыпайы тонды, түсінікті құрылымды және көмектесуге талпынысты көреді. Егер рубрикада тек пайдалық, айқындық және тон болса, судья 4,5/5 қоюы әбден мүмкін. Ал адамдар 2/5 қояды, өйткені клиент жалған уәде алды.

Адамдар мен судья қай жерде айырылады

200 диалогтан тұратын таңдамада айырмашылық бірден көрінеді. Қарапайым FAQ-та бағалар дерлік сәйкес келеді. Ерекше жағдайы бар сұраныстарда айырма едәуір өседі.

Сұраныс түрі	Адамдардың орташа балы	Судьяның орташа балы
База бойынша кәдімгі сұрақ	4.4	4.5
Ерекшелігі бар сұрақ	2.7	4.3

Себебі қарапайым: адамдар фактілік қате үшін құрғақ тонға қарағанда қаттырақ жазалайды. Ал фактіге бөлек критерий қойылмаған судья керісінше істейді.

Рубрикада нені өзгерту керек

Мұндай сәтсіздіктен кейін командаға фактілік дәлдік сыпайылықтан бөлек өмір сүретін рубрика керек. Әдетте бірнеше нақты ереже көмектеседі:

жауап білім базасында жоқ әрекетті уәде етпейді;
егер ерекше жағдай болса, бот шартты тікелей атайды;
дерек жетпесе, бот нақтылау сұрағын қояды;
фактілік қате тіпті тон жақсы болса да, жалпы бағаны бірден төмендетеді.

Осыдан кейін қолмен таңдау артық сақтық сияқты көрінбейді. Ерекше жағдайлары бар сценарийлерде алғашқы 2-3 аптада диалогтардың 100%-ын қолмен қараған дұрыс. Егер ағын тым үлкен болса, мұндай жағдайлардың кемінде 30%-ын тексеріп, қарапайым диалогтардың 10%-ын бақылау тобында ұстаңыз.

Әйтпесе модель-судьяның қатесі байқалмай қалады: қолдау бөлімі клиент шағымдарын талдай бастағанға дейін бот сыпайы әрі пайдалы болып көріне береді.

Іске қосудағы жиі қателіктер

Қауіпті сегменттерді тексеріңіз

Ерекше жағдайлар мен қымбат қателерді бір шлюз арқылы бірнеше модельде бөлек тексеріңіз.

Тестті бастау

Автооценка көбіне модельдің өзінен емес, тексеру сызбасынан бұзылады. Ең жиі қате — стильді, дәлдікті және толықтықты бір ортақ балға біріктіру. Сонда әдемі, бірақ қате тұжырым дәл сондай баға алады, как құрғақ, бірақ дәл жауап.

Сондықтан рубриканы бөлек ұстаған дұрыс. Фактілік дәлдікті бөлек бағалаңыз. Сұранысты қамтуды бөлек. Формат немесе тон да, егер олар міндет үшін шынымен маңызды болса, бөлек болғаны жөн. Әйтпесе кейін модель не промпт ауысқанда нақты не төмендегенін түсіну қиын.

Екінші тұзақ команда бір ғана типтегі сұраныстарда рубриканы тексеріп, кейін барлық жерде дәл сондай тұрақтылық күтетін кезде пайда болады. FAQ, қоңырау қорытындысы және құқықтық нобайларда судья әртүрлі қателеседі. Егер рубрика тек қысқа қолдау сұрақтарында тексерілсе, ол бірнеше шарт пен ескертпесі бар ұзын жауаптарда оңай сырғып кетеді.

Орташа балл да ұйықтатып жібереді. Ол сирек, бірақ қымбат қателерді жасырады. Модель жалпы сан бойынша қалыпты көрінуі мүмкін, бірақ әр 50 жауап сайын бір рет қауіпті қатені өткізіп жібереді: ойдан шығарылған ставка, қате мерзім, шатасқан диагноз.

Бақылауды жоғалтпау үшін мынадай қарапайым тәртіп жеткілікті: тек орташа мәнді емес, нашар бағалардың құйрығын да қарау; судья мен адам келіспеген мысалдарды сақтау; рубриканы бірнеше сұраныс түрінде тексеру; промпт, модель және параметр нұсқасын белгілеу; бағалау құнын мыңға немесе он мыңға шаққанда есептеу.

Нұсқалармен де қарапайым проблема жиі болады. Команда судьяның нұсқауын сәл өзгертіп, 4-5 пункт өсім көреді де, сапа жақсарды деп ойлайды. Негізінде шкала өзгерген. Егер бағаларды бір OpenAI-үйлесімді шлюз арқылы өткізіп жатсаңыз, тек промпт мәтінін емес, модельдің дәл атын, провайдерді және конфигурация өзгерген күнін де бекітіп қою пайдалы.

Тағы бір шынайы жайт бар: қымбат модель-судья әрдайым өзін ақтай бермейді. Егер автооценка бюджеттің елеулі бөлігін жесе, оны сирек іске қосады, ал соқыр аймақтар көбейеді. Көбіне даулы жағдайларға мықты судьяны қалдырып, негізгі ағынды арзан модельмен өткізіп, сәтсіз жерлерде қолмен таңдау ұстаған дұрыс.

Іске қоспас бұрын нені тексеру керек

Судьяларды таңдамада салыстырыңыз

Бір рубриканы әртүрлі модельдерден өткізіп, сценарийді өзгертпей айырмашылықтарды қараңыз.

Үлгілерді салыстыру

Іске қоспас бұрын орташа жағдайды емес, қате ең қымбатқа түсетін жауаптарды қараңыз. Осындай бір сағаттық тексеріс метрикалар неге кенеттен нақты сапамен сәйкес келмей қалғаны туралы бір апта пікірталастан сақтайды.

Алдымен қолмен таңдама жинаңыз. Оның ішінде тек ұқыпты және қысқа жауаптар емес, күрделі жағдайлар да болуы керек: даулы сұраныстар, толық емес деректер, ұзын контекст, бірден бірнеше шектеу. Егер команда LLM-ді банк, телеком, мемлекеттік сектор немесе healthcare ішінде енгізсе, тәуекелі жоғары кейстерді бөлек жиынға шығарған дұрыс. Дәл сол жерде модель-судья көбіне сенімді кейіппен қателеседі.

Іске қосар алдында мына бірнеше нәрсені тексерген пайдалы:

жаңа разметка жасаушы рубриканы ауызша түсіндірмесіз ұғына ма;
модель фактілік қатені стильден ажырата ма;
кестеден қай критерий мен қай типтегі тапсырмада ақау басталатыны көріне ме;
адамдар әлсіз шкала формулировкасынан бір-бірімен дауласа ма;
автооценка қай жерде тек ағынды сұрыптайтыны, ал қай жерде шешімге әсер ететіні алдын ала түсінікті ме.

Кішкентай тест тез ес жиғызады. Егер модель фактілік қателерді тұрақты кешіріп, бірақ тонға немесе форматқа қатал болса, оны алғашқы ондаған мысалда-ақ көресіз. Мұндай ауытқуды тоқсандық есептен кейін емес, іске қоспай тұрып байқаған дұрыс.

Егер қате құны жылдамдықтан жоғары болса, осы бөлікке автооценканы тоқтатыңыз. Рубрикаға қайта оралып, мысалдар қосыңыз, қолмен таңдама жинағын қайта құрыңыз және содан кейін ғана автоматты судьяны қайта қосыңыз. Жылдам іске қосу өзі ештеңе бермейді, егер команда кейін қате бағаларды қолмен түзетумен әуре болса.

Әрі қарай не істеу керек

Модель-судья оның жауапкершілік аймағы тар болғанда ғана пайдалы. Автоматты тексерісті қарапайым міндеттерге қалдырыңыз: формат, міндетті өрістер, саясаттың айқын бұзылуы, түсінікті ережелер бойынша эталонмен сәйкестік. Мағыналық реңктер, жауаптың даулы толықтығы немесе адам үшін айқын емес пайдалылық сияқты нәрселерді қолмен таңдаумен тексерген дұрыс.

Қолмен тексеріс үлкен болуға міндетті емес. Көп жағдайда әр даулы сценарийге 30-50 жауап жеткілікті, қайталанатын қатені көру үшін. Егер модель-судья сыпайы, бірақ бос жауапқа қайта-қайта жоғары балл қойса, мәселе бір ғана промптта емес, рубриканың өзінде немесе тапсырмалар класында.

Бір модель-судьяны таңдар алдында бірнеше кандидаттарды бірдей таңдамада салыстырыңыз. Әр модельге критерийлерді қайта жазбай, бір рубриканы қолданыңыз, бірдей промпт пен кіріс өрістерінің бірдей ретін беріңіз, қолмен разметкаланған бір бақылау таңдамада өткізіп, орташа баллды ғана емес, адамдармен айырмашылықты да есептеңіз. Қате түріне де қараңыз: бір модель фактілерді жиі өткізіп жіберсе, екіншісі стильге шамадан тыс жабысады.

Содан кейін бағалау нұсқасын бекітіңіз. Рубриканың өзін, промпт мәтінін, бақылау таңдама мен әр өзгерістің себебін сақтаңыз. Әйтпесе екі аптадан кейін команда метрикадағы жылжуды көреді, бірақ оны не тудырғанын түсінбейді: критерийдің жаңа формулировкасы ма, басқа судья ма, әлде жаңа сұраныстар жиыны ма.

Егер судьяны әртүрлі провайдерлерде сынасаңыз, бәрін бір үйлесімді интерфейс арқылы өткізу ыңғайлы. AI Router ішінде мұндай прогондарды бір OpenAI-үйлесімді эндпоинт арқылы жіберіп, модель ауысқанда SDK-ны, кодты және промпттарды өзгертпеуге болады. Бұл бір рубрикада бірнеше кандидаттарды салыстырғанда және айырмашылық инфрақұрылымнан емес, модельден шыққанын қалағанда пайдалы.

Жақсы автооценка сау ойды алмастырмайды. Ол тек қай жерді бірінші қолмен қарау керегін тезірек көрсетеді.

Жиі қойылатын сұрақтар

Модель-судьяға мүлде сенуге бола ма?

Иә, бірақ тек тар міндеттерде. Егер жауапты JSON, міндетті өрістер, мәтін ұзындығы немесе алдын ала белгілі тізімдегі қысқа белгі сияқты айқын белгілер арқылы тексеруге болса, модель-судья пайдалы сигнал береді.

Жауаптың мағынасын түсіну, фактіні тексеру немесе клиент үшін тәуекелді байқау керек болса, бір ғана баллға емес, қолмен іріктеуге сүйеніңіз.

Автооценка қай тапсырмаларда әдетте дұрыс жұмыс істейді?

Ең жақсысы — жауап формасында. Қажетті формат қайтты ма, барлық өріс бар ма, типтері сәйкес пе, парсинг бұзылмаған ба — мұндай тексерістер "жауап қаншалықты жақсы" деген жалпы бағаға қарағанда тұрақтырақ жұмыс істейді.

Жұптық салыстыру да жақсы жұмыс істейді: судья екі нұсқаның ішінен дәлдігі немесе нұсқауды сақтау жағынан жақсысын таңдайды.

Қашан қолмен тексеруден бас тартпаған дұрыс?

Медицина, құқық және қаржы жауаптарында адамды алып тастамаңыз. Онда бір дәл емес сөйлем мағынаны өзгертіп, қымбатқа түсуі мүмкін.

Сол сияқты сенімді эталон жоқ фактілерге, PII ағып кетуіне, ережеден сирек кездесетін ерекше жағдайларға және қате аз болса да, соққысы ауыр сценарийлерге де қатысты.

Неге орташа балл жиі алдайды?

Орташа мән сирек болатын сәтсіздіктерді тегістеп жібереді. Судья 90 қарапайым жауапты жақсы бағалап, 10 қауіпті қатені жүйелі түрде өткізіп жіберсе де, қорытынды сан әлі де тәуір көрінеді.

Тек орташа балға емес, нашар жағдайлардағы құйрыққа, даулы сегменттерге және қате құны әдеттегіден жоғары болатын сұраныс түрлеріне де қараңыз.

Алғашқы іске қосуға қандай рубрика алған дұрыс?

Бастау үшін төрт бөлек критерий жеткілікті: фактілердің дұрыстығы, нұсқауды орындау, формат және қауіпсіздік. Бұларды бір бағаға біріктірмеңіз, әйтпесе стиль мағынадағы қателерді жасырып қалады.

Шкала қысқа болсын, мысалы 0, 1, 2. Әр балға "жақсы" немесе "жеткілікті толық" сияқты сөздер емес, тексерілетін белгілер беріңіз.

Судья стильді мағынадан жоғары бағалап тұрғанын қалай түсінуге болады?

Судьяның фактіден гөрі стильді жоғары бағалайтынын қолмен разметкамен әр критерий бойынша салыстырып көріңіз. Егер модель жалған уәделерді, міндетті фактілердің түсіп қалуын немесе екіұшты жауаптарды кешіріп, бірақ сыпайы тонды жақсы көрсе, сізде форма жағына ауытқу бар.

Мұндай ақау әсіресе ерекше жағдайлары бар сценарийлерде жақсы байқалады: жауап тегіс естіледі, бірақ база ережелерін бұзады.

Тексерісті баптау үшін қанша мысал керек?

Әдетте 100–300 нақты мысал және алғашқы қолмен өтетін тексеріс үшін 30–50 жауап жеткілікті. Бір бөлікті екі адам бір рубрика бойынша разметкалағаны дұрыс.

Тек таза сұраныстарды емес, қысқа, лас, даулы және шектік жағдайларды да қосыңыз, әйтпесе тірі трафикте судья тесттегіден нашар нәтиже береді.

Разметка жасаушылар бағалауда жиі келіспесе не істеу керек?

Әуелі рубриканы түзетіңіз, адамдардың талғасына таласпай. Егер разметка жасаушылар бір критерий бойынша жиі келіспесе, формулировка тым бұлыңғыр деген сөз.

Шкаланы байқалатын белгілер арқылы қайта жазыңыз. Мысалы, "жауап толық" демей, "күні, сомасы және келесі қадам айтылған" деп жазыңыз.

Жауапты бір ғана жалпы балмен бағалау керек пе?

Жоқ, бір ғана сан дашборд үшін ыңғайлы, бірақ ол ақаудың себебін жасырады. Модель немесе промпт ауысқаннан кейін не түсіп қалғанын білмейсіз: фактілер ме, формат па, сұранысты қамту ма, әлде қауіпсіздік пе.

Жалпы қорытындыны тек қосымша сигнал ретінде қалдырыңыз. Шешімді бөлек критерийлер мен тәуекелі жоғары сегменттерге сүйеніп қабылдаңыз.

Іске қосқаннан кейін қымбат қателер қаупін қалай азайтуға болады?

Автооценканы қарапайым тексерістерде қалдырып, даулы жағдайларды адамдарға жіберіңіз. Сирек ерекше жағдайлар, қымбат қателер және тәуекелі жоғары жауаптар үшін бөлек тексеру жолын іске қосу керек.

Тұрақты бақылау таңдама да көмектеседі. Егер судья бос немесе қате жауаптарға жоғары баға бере бастаса, оны шағымдар келгенше күтпей-ақ байқайсыз.