Өтінімдерден өрістерді шығару: OCR, тексеру және қолмен өңдеу
Өтінімдерден өрістерді қалай дұрыс шығару керегін көрсетеміз: OCR таңдау, деректерді тексеру, күмәнді жағдайларды қолмен қарау және қателерді азайту.

Өтінімде іс жүзінде не бұзылады
Бірдей бланк ешқашан бірдей күйде келмейді. Бір клиент жеке кабинеттен тегіс PDF жүктейді, екіншісі ескі МФУ-дан жолақты скан жібереді, үшіншісі кешкісін ас үй үстелінде құжатты телефонмен түсіреді. Жүйе үшін бұл енді "бір өтінім" емес, кіріс сапасы әртүрлі бірнеше бөлек міндет.
Телефонмен түсірілген фото тануды ойлағаннан да жиі бұзады. Камера ламинатталған өрістердегі шағылуды, қолдың көлеңкесін, бет парақтың қисайғанын және шеттеріндегі бұлдыр мәтінді ұстап қалады. Құжат бұрыштап түсірілсе, жолдар "жүзіп" кетеді, ал берілген күн немесе келісімшарт нөмірі сияқты шағын өрістерді OCR қате оқиды.
Мәселе тек суретте емес. Өтінімдерде бір-біріне өте ұқсас таңбалар көп: 0 мен O, 1 мен I, 8 мен B, кирилл "С" мен латын "C". Баспа бланкте айырма көрінеді, бірақ қысқаннан, мессенджер арқылы жіберілгеннен немесе қайта сканерленгеннен кейін ол жиі жоғалып кетеді.
Ең көп қиындық тудыратын өрістер - бір таңбалық қате бүкіл мағынаны өзгертетін өрістер. Қазақстанда бұл ИИН-нен жақсы байқалады. OCR бір цифрды шатастырса, өтінім клиентті дерекқордан таппайды, басқа жүйемен салыстырудан өтпейді немесе басқа кезекке түсіп кетеді. Сонда оператор өтінімнің мәнін тексеруге емес, қай жерден бәрі бұзылғанын іздеуге уақыт жұмсайды.
Процестің өзі де зардап шегеді. Айталық, сақтандыру өтінімінде аты дұрыс танылды, ал ИИН-де бір қате бар. Сырттай құжат "шамамен дұрыс" көрінеді, бірақ жүйе оны полиспен, өтінімдер тарихымен және тексеру ережелерімен байланыстыра алмайды. Бір цифр автоматты өңдеуді тоқтатады, өтінім кідіріп қалады, жауап беру мерзімі ұзартады.
Әдетте ақау бір нүктеде болмайды. Алдымен нашар фото келеді, сосын OCR шу қосады, кейін ұқсас таңбалар бір маңызды өрісті бұзады, ал соның кесірінен бүкіл маршрут құлайды.
Алдымен қандай өрістерді алу керек
Өтінімдерден өрістерді шығаруды бастасаңыз, бірден бланктегі барлығын алуға тырыспаңыз. Бастапқыда өтінім алға жылжи алмайтын 10-15 өріс жеткілікті. Сонда қателер санын азайту да, OCR мен тексеру ережелері қай жерде бұзылатынын тез түсіну де оңай болады.
Әуелі міндетті өрістерді пайдалы, бірақ міндетті емес өрістерден бөліп алыңыз. Міндетті өрістер клиентті іздеуге, тұлғаны тексеруге, келісімшартпен салыстыруға және құжатты келесі жүйеге беруге қатысады. Қосымша өрістер көбіне аналитикаға, сирек сценарийлерге немесе қолмен оқуға керек.
Бірінші нұсқа үшін әдетте мына жиын жеткілікті:
- ТАӘ
- ИИН
- туған күні
- келісімшарт немесе өтінім нөмірі
- толтырылған күні
Бұл көбіне клиентті табуға, деректер форматын тексеруге және құжатты адамсыз әрі қарай жіберуге бола ма, соны шешуге жетеді. Сақтандыру өтінімінде бұл тізімге кейде полис нөмірі қосылады. Банктік анкета үшін - егер сонымен салыстыру немесе кері байланыс жүрсе, телефон нөмірі.
Мекенжай, еркін комментарийлер, дәрігердің ескертпелері, оқиға сипаттамасы және ұзын мәтін блоктарын кейінге қалдырған дұрыс. Олар жиі шулы оқылады, әртүрлі жазылады және маршруттың алғашқы қадамына сирек әсер етеді. Команда оларды тазартуға көп уақыт жұмсайды, ал бастапқы кезеңде пайдасы аз.
Ереже қарапайым: егер өріс "қабылдау, қабылдамау немесе қолмен тексеруге жіберу" шешіміне әсер етпесе, оны бірінші кезекке қоймаңыз. Алдымен қысқа өріс жиынтығын жинаңыз, нақты скан мен фотода дәлдігін тексеріңіз, содан кейін схеманы кеңейтіңіз.
Процесті қалай кезең-кезеңімен құру керек
Жұмыс істейтін өріс шығару OCR-ден емес, файлды дұрыс қабылдаудан басталады. Қызмет бастапқы файлды өзгеріссіз сақтап, оған ID беруі және негізгі деректерді жазуы керек: жүктеу арнасы, уақыт, файл түрі, бет саны. Кейін оператор немесе аудитор даулы жағдайды тексергісі келсе, команданың клиент жіберген нәрсенің дәл көшірмесі болады.
Келесі қадам - кескінді оқуға дайындау. Жүйе бетті түзулейді, шеткі артық аймақтарды алып тастайды, контрастты реттейді және қажет болса, көпбетті PDF-ті жеке парақтарға бөледі. Телефонмен түсірілген фотода бұл көбіне OCR қозғалтқышын ауыстырғаннан да пайдалы.
Келесі қадам - координаттары бар OCR. Тек мәтінді емес, құжат ішіндегі аймаққа байланысын да алу маңызды: фамилия қай жерде, полис нөмірі қай жерде, күн қай жерде. Бір сөз құжаттың бірнеше жерінде кездессе немесе бланк басқа құжатқа ұқсаса, бірақ өрістер сәл өзгеше тұрса, координаттар қатты көмектеседі.
Танудан кейін жүйе өрістерді жинайды. Тұрақты формалар үшін көбіне шаблондар мен ережелер жеткілікті: қажет аймақтан мәтінді алу, бос орындарды қысқарту, күнді бір форматқа келтіру. Адамдар қолмен жазатын немесе деректерді орынсыз қоятын күрделі анкеталар үшін контекст бойынша керек бөлікті таңдайтын модель қосылады.
Сосын тексерулер басталады. Жүйе жай ғана мән қайтармауы керек, оған түсінікті статус қажет. Әдетте төрт нұсқа жеткілікті: формат пен мағына сәйкес келсе, "ok"; өріс оқылды, бірақ сенім төмен болса, "warning"; ережелер қайшылық тапса, "review"; өріс бос болса, "missing".
Қолмен кезекке бүкіл құжатты емес, тек даулы жерлерді жіберген дұрыс. Операторға бастапқы сурет, белгіленген аймақ, OCR-тен кейінгі мәтін, ұсынылған мән және жүйе неге күмәнданатыны керек. Егер кредиттік анкетада OCR ИИН-ді бір қате цифрмен оқыса, оператор бір таңбаны 10 секундта түзетеді де, бүкіл файлды қайта оқып отырмайды.
Скандар мен фотолар үшін OCR қалай таңдалады
Жақсы OCR-ді сирек демоға қарап таңдайды. Өрістерді шығару үшін презентациядан гөрі қызметтің сіздің құжаттарыңызды қалай оқитыны маңызды. Бір OCR таза PDF-ті қате жібермей оқуы мүмкін, бірақ көлеңкесі бар, көк мөрі қойылған және қолмен толтырылған өрісі бар анкетаның фотосында әлдеқайда нашар жұмыс істейді.
Өзіңіздің тест жинағыңызды алдын ала құрастырыңыз. Онда кеңсе МФУ-дан шыққан скандар, телефон фотолары және PDF болуы керек. PDF-ті де екі түрге бөлген дұрыс: цифрлық мәтіні бар файлдар және растрлық көшірмелер. Егер бәрін бір топқа араластырсаңыз, орташа дәлдік жақсы көрінеді, ал нақты ағынға келгенде ақаулар шыға бастайды.
Нені бөлек тексеру керек
Баспа мәтін мен қолмен толтырылған өрістерді бөлек міндет деп қараған дұрыс. Туған күн, ИИН, телефон нөмірі және келісімшарт нөмірі әдетте жақсырақ оқылады, себебі олардың форматы қатаң. Қолмен жазылған ТАӘ, мекенжай және еркін комментарийлерде қате деңгейі мүлде басқа.
Тілді де "орташа" түрде тексеруге болмайды. Қазақстан үшін тек орыс тілінің өзі жеткіліксіз. Бір жинақта қазақ тілі мен латиница керек: клиенттің аты, мекенжай, email, көлік маркасы, компания атауы. Егер OCR "Ә" мен "A"-ны шатастырса немесе латындағы полис нөмірінен бір таңбаны жоғалтса, қате тізбек бойымен әрі кетеді.
Күрделі аймақтарды бөлек өлшеңіз: мәтін үстіндегі мөрлер мен штамптар, тар бағанды кестелер, бет шетіне жақын өрістер, шағылысу, көлеңке, бұлдыр фото, ұсақ қаріп және нашар көшірмелер. Тек жалпы дәлдікке қарамаңыз. Мысалы, 200 банк және сақтандыру өтінімін алып, OCR маңызды өрістерді толық дұрыс оқыған құжаттар үлесін есептеңіз. Егер сервис ИИН, сома немесе күннің бір таңбасынан қателессе, мұндай құжат бәрібір қолмен тексеруге кетеді.
Егер OCR-ден кейін сізде нормализация мен тексеруге арналған LLM тұрса, оны әлсіз тануды жабу үшін қолданбаңыз. Модель күн форматын түзете алады немесе мекенжайды бір үлгіге келтіре алады, бірақ бастапқы мәтінде жоқ цифрларды ойдан шығара алмайды. Алдымен сіздің скан, фото және PDF-теріңізде сенімді жұмыс істейтін OCR керек.
OCR-ден кейін өрістерді қалай қалыпқа келтіру керек
OCR-тен кейін мәтін жұмысқа бірден дайын болмайды. Жүйе бір күнді үш түрлі түрде оқуы, ИИН-ге артық бос орын қосуы немесе "0" мен "О"-ны шатастыруы мүмкін. Іс жүзінде нормализация көбіне нәтижеге OCR моделінің өзін таңдаудан да қатты әсер етеді.
Жиі жіберілетін қате - барлық өрісті бірдей тазалау. Күн, ИИН, БИН, мекенжай және ТАӘ үшін әртүрлі ереже керек. Әр өріс үшін үш мәнді сақтаған ыңғайлы: бастапқы, тазаланған және тексеру статусы.
Күндерді бір форматқа келтіріңіз, әдетте YYYY-MM-DD. Егер OCR "12.03.24", "12/03/2024" және "12 03 2024" қайтарса, нәтижеде бір ғана жазба қалуы керек: "2024-03-12".
Артық бос орындарды, дефистің әртүрлі түрлерін және өріс шетіндегі кездейсоқ таңбаларды алып тастаған дұрыс, бірақ шектен шықпай. Мекенжайда немесе пәтер нөмірінде артық таңба деректің бір бөлігі болуы мүмкін.
ИИН мен БИН-ді келесі қадамдарға дейін ұзындығы мен маскасы бойынша тексерген жөн. Егер мәнде 12 цифр болмаса, әріптер кездессе немесе бір таңба жетіспесе, өрісті бірден қате деп белгілеңіз.
ТАӘ-ні тек анық ережемен бөліңіз. Егер формада фамилия, есім және әке аты үшін бөлек ұяшықтар болса, бөлу қауіпсіз. Егер OCR нақты шекарасыз бір жол қайтарса, толық атты сол күйі сақтау жақсы.
Тазаланған мәнмен қатар бастапқы мәнді де сақтау керек. Қолмен тексерудегі операторға құжаттан не келгенін және нормализация нені өзгерткенін көру маңызды. Әйтпесе даулы жағдайлар ұзақ шешіледі, ал қателерді аудитте түсіндіру қиын.
Мысалы, сақтандыру бланкіндегі OCR ИИН-ді "940101-300123 " деп, күнді "1 2.0 3.2024" деп қайтаруы мүмкін. Нормализатор қоқысты алып тастайды, форматты тексереді, raw-мәнді сақтайды да, әрі қарай сенуге болатын нәрсені ғана жібереді.
Қолмен кезекке дейінгі тексерулерді қалай қою керек
Қолмен кезекке бәрін бірдей жіберсеңіз, ол тез үлкейіп кетеді. Оның орнына қарапайым жағдайларды ертерек іріктеп тастаған дұрыс: бос өрістер, айқын қателер, парақтар арасындағы сәйкессіздік және әлсіз тану. Сонда оператор тек шын мәнінде автоматты түрде шешілмейтін нәрсені көреді.
Алдымен міндетті өрістерді тексеріңіз. Егер өтінімде ИИН, полис нөмірі, сома немесе беру күні жоқ болса, жүйеге ойдан шығарып керегі жоқ. Мұндай құжат бірден нақтылау немесе қолмен қарау статусын алады. Қарапайым ереже, бірақ шу көп азаяды.
Сосын байланысты мәндерді салыстырыңыз. Сақтандыру бланкісінде бірінші беттегі жабу сомасы қосымшадағы сомамен сәйкес келуі керек. Несие анкетасында туған күн өтінім мен жеке куәлік сканында әртүрлі болмауы тиіс. Бір цифр айырмасы көбіне күрделі жағдайды емес, OCR қателігін немесе нашар фотоны білдіреді.
OCR сенімділігін екі деңгейде сақтау пайдалы: сөз деңгейінде және өріс деңгейінде. Егер модель фамилиядағы бір әріпке сенімсіз болса, бұл қалыпты. Егер бүкіл ИИН сенімділігі төмен бөлшектерден жиналса, құжатты тексерусіз әрі қарай жібермеген дұрыс.
Қарапайым формалды тексерулер де жақсы жұмыс істейді. Күндерді регулярлы өрнекпен және ақылға сай мәнмен тексеріңіз, сомаларды рұқсат етілген диапазонмен салыстырыңыз, ИИН, БИН және келісімшарт нөмірлерін шаблондармен өткізіңіз, сақтандырушы, банк және филиал атауларын анықтамалықпен салыстырыңыз, ал бос немесе тым қысқа мәндерді бірден белгілеңіз.
Содан кейін өтінімнің жалпы тәуекелін есептеңіз. Бір бинар флагтың орнына әр ақауға ұпай берген ыңғайлы: бос ИИН үшін 40, сомалар сәйкессіздігі үшін 25, OCR сенімі төмен болса 15, күмәнді күн үшін 10. Егер қорытынды шектен асса, құжат қолмен кезекке барады. Мұндай тәсілді баптау да, командаға түсіндіру де жеңіл.
Қолмен тексеруді қалай ретсіздіксіз ұйымдастыру керек
Қолмен кезек оператордың бүкіл бланкті қайта теруі үшін керек емес. Ол жүйе күмәнданған жерлерге керек: OCR ИИН-ді нашар оқыды, қолтаңба күнді жауып тұр, сома формат бойынша тексеруден өтпеді. Егер адамға бүкіл құжатты жіберсеңіз, команда тез біркелкі жұмыста тұрып қалады.
Жақсы тексеру экраны тек даулы өрістерді көрсетеді. Операторға танылған мән, сенімділік бағасы және өріс маңындағы шағын бет үзіндісі керек. Адам анкеттің керек бөлігін бірден көрсе, өрісті бірнеше секундта түзетеді де, бүкіл PDF-ті ақтарып отырмайды.
Кредит өтінімінде бұл былай көрінеді. Жүйе ТАӘ мен туған күнге сенімді, бірақ телефон мен ИИН-ге күмәнданады. Кезекке тек осы екі өріс түседі. Сақтандыру бланкімен логика дәл сондай: егер полис нөмірі дұрыс оқылса, ал оқиға күні қате танылса, оператор тек күнді ашады да, сол блок бар бет бөлігін көреді.
Адамдардан құжатты қайтадан толық енгізуді сұрамаңыз. Толық қайта теру сирек көмектеседі және көбіне OCR-дегі, форма шаблонындағы немесе валидация ережелеріндегі проблеманы жасырады. Операторға тапсырма неғұрлым тар болса, жаңа қате соғұрлым аз болады.
Түзетілген мәнмен бірге түзету себебін де сақтау пайдалы. Әдетте бірнеше қысқа белгі жеткілікті: "таңба қате танылды", "өрісті мөр немесе қолтаңба жауып тұр", "фото бұлдыр", "клиент өрісті стандарттан тыс толтырған", "валидация ережесі тым қатаң". Осы белгілер бойынша кейін не жөндеу керегін тез түсінесіз: модель ме, кескінді алдын ала өңдеу ме, әлде бизнес-ереже ме.
Әр тапсырмада қарапайым статус пен жауап беру мерзімі болуы керек. Көбіне үш статус жеткілікті: "жаңа", "жұмыста", "дайын". Банктік анкета үшін 15 минут, сақтандыру өтінімі үшін 2 сағаттық жауап уақытын қоюға болады. Сонда кезек шашырап кетпейді, ал команда дәл қазір не істеу керегін түсінеді.
Кредит өтінімі мен сақтандыру бланкісінің мысалы
Клиент телефонмен түсірілген кредит анкетасының фотосын жіберді де, бөлек паспорт қосты. Басқа жағдайда сақтандыру бланкісі бөлімшеден скан ретінде келді. Екі құжат та бір ағынға түсті, онда өңдеу бір схема бойынша жүреді: OCR, нормализация, тексерулер, содан кейін ғана қолмен кезек.
OCR бірден ТАӘ мен ИИН-ді алып шықты. Телефон нөмірімен бәрі күрделірек болды: анкета фотосында шағылысу бар еді, сондықтан бір цифр жоғалып кетті. Мұндай өтінімді тексерусіз әрі қарай жіберсеңіз, call-орталық клиентке хабарласа алмайды, ал клиентке форманы қайта толтыруға тура келеді.
Туған күн тағы бір белгі берді. Анкетаның бірінші бетінде 14.03.1989 тұрды, ал қосылған құжатта жүйе 13.03.1989 көрді. Мұнда болжаудың қажеті жоқ. Өрістерді салыстыру ережесі айырмашылықты белгілеп, операторға тек осы пакетті жіберді, бүкіл күндік өтінімдер партиясын емес.
Оператор карточканы ашып, бүкіл құжатты емес, тек даулы жерлерді көрді: телефон, туған күн және OCR мәндерді алған жол үзінділері. Бұл қолмен тексеруді едәуір жылдамдатады. Адам анкетаны басынан қайта термейді, екі өрісті түзетеді де нәтижені бірден растайды.
Түзетуден кейін өтінім әдеттегі маршрутпен әрі кетеді: скоринг, лимиттерді тексеру, CRM немесе сақтандыру жүйесіне жазба жасау. Қайта енгізу қажет емес. Бұл маңызды. Команда артық қолмен көшіруді алып тастағанда, уақытты аз жоғалтады және түзетуден кейін жаңа қателерді сирек алады.
Дұрыс жұмыс сценарийі былай көрінеді: машина сенімді оқығанның бәрін алады, ережелер қайшылықтарды ұстайды, ал адам тек күмәнді жағдайларды қарайды. Сонда деректерді тексеру ағынды тежемейді және әр өтінімді қолмен талдауға айналдырмайды.
Командалар көбіне қай жерде қателеседі
Командалар сирек бір үлкен ақауға соғылады. Әдетте процесті бастапқыда қисынды көрінген бірнеше шағын шешім бұзады.
Бірінші қате - өтінімнен бірден барлық өрісті тартуға тырысу. Бұл болашаққа қор сияқты көрінеді, бірақ іс жүзінде күрделілікті өсіреді. Егер банкке алғашқы шешім үшін ТАӘ, ИИН, телефон нөмірі, сома және күн керек болса, сол спринтте тіркеу мекенжайын, отбасы жағдайын, жұмыс орнын және ондаған қосымша өрісті қазбалаудың қажеті жоқ. Бастапқыда ашкөздік көбіне пайдадан гөрі шу әкеледі.
Екінші қате - эталон құжаттар жиынын болмауы. Онсыз сапа туралы дау айналып жүре береді. Біреу OCR әлсіз дейді, екіншісі ережелерді кінәлайды, үшіншісі нашар скан дейіп шығады. Мұны тексеретін нәрсе жоқ. Кішкентай, бірақ шынайы жиын керек: жақсы PDF-тер, мыжылған фотолар, көлеңкелер, қиылған беттер, бланктің ескі нұсқалары, қолмен жазылған белгілер.
Өлшемдерді де бірден бөліп алған дұрыс. Мәтін тану дәлдігін бөлек санаңыз, өрістердің ережелер бойынша талдануын бөлек, қолмен кезекке кететінді бөлек, ал қателерсіз шыққан құжаттардың жалпы үлесін бөлек есептеңіз. Әйтпесе бір әдемі сан әлсіз жерді жауып тастайды.
Үшінші қате бюджетке тиеді. Команда OCR құнын есептейді де, қолмен тексеру құнын ұмытады. Кейін 5% даулы өтінімнің өзі күніне жүздеген карточка беретінін анықтайды. Бір оператор құжатқа 3 минут жұмсаса, кезек автоматтандырылған қабаттың өзінен әлдеқайда қымбатқа түсе бастайды.
Тағы бір жиі мәселе нұсқаларға байланысты. Формалар өзгереді, OCR моделі жаңартылады, нормализация ережелері жұмыс барысында түзетіледі. Егер шаблондар, модельдер және ережелер нұсқаларын сақтамасаңыз, кеше "беру күні" өрісі неге қалыпты оқылғанын, ал бүгін неге 12% төмен түскенін команда түсінбейді.
Сақтандыру және банк анкеталары үшін бұл әсіресе маңызды. Филиалдан келген бір жаңа шаблон, өрістер тәртібіндегі бір өзгеріс - және метрикалар сырғи бастайды. Егер сізде audit-логтар мен қадамдардың қатаң трассировкасы болса, талдау сағатқа созылады. Егер ол жоқ болса, мәселе апталап созылады.
Іске қосар алдында қысқа тексеру тізімі
Пилот алдында бір күн тоқтап, базалық нәрселерді тексерген пайдалы. Ақаулардың көбі модельден емес, деректерден, кезектерден және құжат адамға өткендегі түсініксіз ережелерден пайда болады.
Әр форма түрі бойынша нақты мысалдар жинаңыз. Бес мінсіз PDF емес, тірі таңдау керек: мыжылған скандар, телефон фотолары, ескі нұсқадағы бланкілер, жартылай толтырылған анкеталар. Егер бір форма түріне мысал болмаса, жүйе бірінші аптада-ақ өрістерді шатастыра бастайды.
Кіріс форматтарының үлесін есептеңіз. Фото, скан және PDF әртүрлі әрекет етеді. Егер ағынның 60%-ы фото болып келсе, ал сіз негізінен PDF-ті тексерсеңіз, анкетаға арналған OCR демода әдемі көрінгенімен, жұмыста нашар нәтиже береді.
Сенімділік шектерін алдын ала бекітіңіз. Әр өріс үшін жүйе қай кезде мәнді өзі қабылдайтынын, ал қай кезде құжатты қолмен тексеруге жіберетінін шешіңіз. Эскалация себептерін де ашық атаған дұрыс: төмен сенім, күндердің қайшылығы, міндетті блоктың бос болуы, күмәнді ИИН, кескін сапасының нашарлығы.
Құжаттың бүкіл жолындағы метрикаларды көріп отырсыз ба, соны тексеріңіз. Кемінде өңдеу уақыты, қолмен талдау үлесі, валидация қатесі бар құжаттардың пайызы және қайтарудың ең жиі себептері керек. Онсыз өріс шығаруда не нәрсе бұзылып жатқанын түсінбейсіз.
Алғашқы жиі қателерді түзету жоспарын дайындаңыз. Мысалы, OCR полис нөмірінде 0 мен О-ны үнемі шатастырса, команданың ережені кім және қалай өзгертетінін алдын ала білуі керек: аналитик пе, инженер ме, оператор ма. Қысқа цикл жақсы жұмыс істейді: таңертең қате табылды, түстен кейін ереже немесе сөздік түзетілді, кешке жаңа таңдау тексерілді.
Бір қарапайым тест көп нәрсені көрсетеді. Нақты ағыннан 100 құжат алып, қанша өтінімге қолмен араласусыз жеткенін, қаншасы кезекке кеткенін және қаншасы қате өрістермен қайтқанын қараңыз. Осындай прогоннан кейін әлсіз жерлер бірден көрінеді.
Әрі қарай не істеу керек
Бірден барлық форманы автоматтандыруға тырыспаңыз. Бір өтінім түрінен және процесті жылжытпайтын шағын өріс жиынтығынан бастаңыз: ИИН, ТАӘ, туған күн, келісімшарт нөмірі, сома, беру күні. Сонда мәселе нақты қай жерде бұзылатынын көру оңай болады: фото сапасында ма, OCR-де ме, нормализацияда ма, әлде тексеруде ме.
Бір жалпы дәлдік саны көп нәрсе айтпайды. Этаптарды бөлек қарау әлдеқайда пайдалы: OCR қанша таңбаны қате жібермей оқиды, әр өрістің дәлдігі қандай, өтінімнің қанша пайызы операторсыз өтеді, қанша құжат қолмен кезекке кетеді және қызметкер түзетуге қанша уақыт жұмсайды. Мұндай бөлініс әлсіз жерді тез көрсетеді. OCR бланкті қалыпты оқуы мүмкін, бірақ валидация тым қатаң ережелерге байланысты мекенжайларды жиі тоқтатады.
Ережелерді тым күрделендірмеген дұрыс. Күндер, ИИН, полис нөмірлері, сомалар және кодтар үшін көбіне шаблондар, сөздіктер және қарапайым тексерулер жеткілікті. LLM еркін жазылатын жерде керек: сақтандыру оқиғасының сипаттамасы, несие мақсаты, клиенттің түсіндірмесі, стандарттан тыс мекенжай. Егер өрісті регулярлы өрнекпен және анықтамалықпен тексеруге болса, солай істеңіз. Бұл арзанырақ және қателерді талдағанда түсініктірек.
Егер команда әртүрлі провайдерлердің модельдерін салыстырса немесе деректерді Қазақстанда сақтауға міндетті болса, AI Router сияқты бірыңғай қатынау қабаты ыңғайлы. Қызмет әртүрлі провайдер модельдерімен бір SDK, код және промпт ауыстырмай жұмыс істеу үшін бір OpenAI-үйлесімді эндпоинт береді. Data residency мен төмен кідіріс маңызды міндеттер үшін airouter.kz-де өз GPU-инфрақұрылымындағы hosted open-weight модельдер де бар.
Пилоттан кейін базалық бақылауды кейінге қалдырмаңыз. Audit-логтар, PII маскілеу және кілт деңгейіндегі лимиттерді қосыңыз. Демо кезінде мұның бәрін жиі елемейді, бірақ жұмыс процесінде мұндай олқылықтар кейін іске қосқаннан да қымбатқа түседі.
Егер екі аптадан кейін команда ең төмен дәлдігі бар үш өрісті және қолмен тексеруге кететін өтінімдер үлесін атай алмаса, жүйені әлі кеңейтуге ерте.