LLM алдында OCR: құжат скандарындағы шығынды қалай өлшеу керек
OCR LLM алдында келісімшарттар мен медициналық формалардың скандарын оқуға көмектеседі, бірақ қателер жинала береді. Метрикаларды, адам тексеретін шектерді және қарапайым процесті талдаймыз.

Неліктен скан LLM жауабын бұзады
OCR-дегі бір ғана қате құжаттың мағынасын оңай өзгертіп жібереді. Келісімшартта "айыппұл алынбайды" деген жол жүйе бір "емес" сөзін өткізіп жіберсе, "айыппұл алынады" болып кетуі мүмкін. Медициналық формада мұндай ұсақ айырма одан да қауіпті: "0,5 мг" пен "5 мг" бозғылт сканда бір-біріне өте ұқсап көрінеді, бірақ шешім мүлде бөлек болады.
Мәселе мынада: бүлінген мәтін модельге көбіне әбден қалыпты болып көрінеді. OCR LLM алдында жүйелі, оқуға жеңіл абзац шығарып беруі мүмкін, бірақ жолда өріс нөмірін жоғалтып, кестедегі жолдарды шатастырып немесе екі көрші блокты біріктіріп жібереді. Мәтін жинақы көрінеді, ал деректердің өзі сенімсіз болып қалады.
Айырма өте қарапайым. Әдемі мәтінді оқу жағымды. Ал сенімді деректер таңбаларды, өріс шекараларын, жолдардың ретін және жүйе күмәнданған жерлерді дәл сақтайды. Егер OCR күмән белгілеудің орнына сөзді болжап қойса, LLM талдауды бастамай тұрып-ақ жалған сенім алады.
Бұл скандарда үнемі болып жатады. Құжатты телефонмен бұрыштап түсіруі мүмкін, бірнеше рет басып шығарып-көшірген болуы мүмкін, мессенджер арқылы сығымдалып өткен болуы мүмкін немесе баспа мәтіннің үстіне қолмен қол қойылған болуы мүмкін. Мөрлер, көлеңкелер, бүктемелер, сұр фон және әлсіз контраст қысқа сөздерге, сандарға және терістеулерге қатты соққы береді.
Модельдің өзі распознау кезінде нақты не жоғалғанын ешқашан дерлік білмейді. Ол тек кіріс мәтінді көреді де, содан ықтимал жауап құрастыруға тырысады. Егер OCR "аллергия жоқ" деген тіркесті "аллергия бар" деп бұрмалап жіберсе, модель соның айналасында риск белгісін, қысқаша мазмұнды және ұсыныстарды сенімді түрде құра береді. Көбіне мұндай жауап өте нанымды естіледі, өйткені модель контекст бойынша бос жерлерді жақсы толтырады.
Қате ең қатты әсер ететін құжаттар мыналар:
- сомалар, мерзімдер, айыппұлдар және бұзу шарттары бар келісімшарттар
- дозалар, аллергиялар, диагноздар және даталар көрсетілген медициналық формалар
- ИИН, полис нөмірлері және паспорт деректері бар анкеталар мен өтініштер
- сипаттамадан гөрі нақты мәні маңызды зертхана бланкілері
Егер құжат тек жалпы тақырыпты іздеу үшін керек болса, ұсақ кемшіліктерді тағы да көтеруге болады. Ал егер соның негізінде шешім қабылдау, шот шығару, тәуекелді тексеру немесе пациентті келесі кезеңге жіберу керек болса, OCR-дегі бір ғана өткізіп алу бүкіл жауапты бұзады.
OCR қай жерде мағынаны жиі жоғалтады
OCR тек мәтін нашар көрінген жерде ғана қателеспейді. Бұдан да жаманы бар: ол таңбаларды сенімді көрінетіндей оқып, бірақ мағынасы әлдеқашан ауып кеткен болуы мүмкін. LLM үшін ең қауіпті жағдай осы. Модель кәдімгі мәтінді көреді де, бұзылған негіздің үстіне сенімді жауап құрастырады.
Көбіне мәселе бірнеше рет басылып-көшірілген скандардан басталады. Ұсақ қаріп тарамдалып кетеді, әріптердің жіңішке сызықтары жоғалады, ал сандар жабысып қалады. Келісімшартта бұл "3 000 000" мәнін "300 000" деп оқуға немесе аяқталу күнін өзгертуге алып келеді. Медициналық формада дозадағы бір жоғалған үтір де мағынаны толық өзгертіп жібереді.
Ең жиі не бұзылады
- Мөрлер мен қолтаңбалар сөздерді, даталарды және сомаларды жауып қалады. OCR мәтінді толықтыруға тырысады да, жиі қателеседі.
- Беттегі қолмен жазылған белгілеулер негізгі мәтінге араласып кетеді. Әсіресе дәрігер не менеджер баспа жолының үстіне жазса, қиын.
- Екі бағанды кестелер мен формалар оқу ретін бұзады. Жүйе алдымен оң бағанды, сосын сол бағанды алып, әртүрлі жолдардың фразаларын араластырып жіберуі мүмкін.
- Белгілеу ұяшықтары мен ұсақ өрістер құрылымды шатастырады. "Иә" белгісі жоғалып кетуі мүмкін, ал бос өріс кейде белгі немесе цифр ретінде оқылады.
- Орыс, қазақ, латын әріптері мен цифрлардың араласуы үнсіз қателерге әкеледі: "O" орнына "0", "I" орнына "1", "А" мен "A" бір-біріне өте ұқсас көрінеді.
Мағына көбіне қысқа, бірақ маңызды бөліктерде жоғалады. Бұл — келісімшарт нөмірі, ИИН, құжат сериясы, дәрі атауы, өлшем бірлігі, жарамдылық мерзімі, чекбокстағы белгі. Ұзын абзацтағы бір қате таңба әрдайым қорқынышты емес. Ал полис нөміріндегі бір қате таңба бүкіл талдауды бұзады.
Медициналық формаларда OCR баспа шаблоны мен қолмен толтыру араласқандықтан қосымша шатасады. Келісімшарттарда сноскалар, ұсақ өрістер, "көшірмесі дұрыс" мөрі, қисық скан және бұрыштап түсірілген беттер кедергі келтіреді.
Егер құжат адамға "дерлік оқылатын" сияқты көрінсе, бұл OCR LLM алдында да жақсы жұмыс істейді деген сөз емес. Адам мағынаны контекстен толықтырады. Ал OCR құжатты түсінбейді, тек таңбаларды болжайды. Сондықтан ең қауіпті аймақтар — ең кір беттер емес, қате шындыққа ұқсап тұрған жерлер.
OCR-тегі шығынды қалай есептеу керек
Тек мәтіннің жалпы сәйкестік пайызын есептеу жеткіліксіз. Келісімшарттар мен медформалардың скандары үшін қателікті екі кезеңге бөліп қараған дұрыс: OCR не бұзды және кейін LLM нені қате түсінді. Әйтпесе сіз нашар қорытындыны көресіз, бірақ процестің қай жерін жөндеу керегін түсінбейсіз.
Тексеру бірдей құжаттар жиынында жүргізілуі керек. Алдымен OCR нәтижесін қолмен түзетілген мәтінмен салыстырыңыз. Сосын LLM-ге екі кіріс беріңіз: таза эталон мәтін және OCR-тен өткен мәтін, промпт бірдей болсын. Жауаптар арасындағы айырма — дәл распознаудан келген шығынды көрсетеді, ал эталон мәтіндегі қателер — модельдің өз шегін көрсетеді.
Мәтін мен өрістерде нені өлшеу керек
Құжаттың барлық бөлігіне бірдей метрика керек емес. Бір таңба мағынаны өзгертетін жерлерде таңба бойынша сәйкестікті қараңыз. Бұл — келісімшарт нөміріне, датаға, сомаға, ФИО-ға, полис нөміріне, дозалауға дұрыс келеді. Ұзақ фразалар үшін сөз бойынша метрика ыңғайлырақ. Ол OCR қанша сөзді жоғалтты, қосты немесе шатастырды — соны жақсырақ көрсетеді.
Бөлек есептеген пайдалы:
- нөмірлер, даталар, сомалар және ФИО үшін таңба бойынша дәлдік
- келісімшарт тармақтары мен дәрігер жазбалары үшін сөз бойынша дәлдік
- әр өріс түрі бойынша табылған өрістер үлесі
- толықтай сәйкес келген өрістер үлесі
Өрістерге келгенде тек мәтін дәлдігі аздық етеді. Әр өріс бойынша толықтықты есептеңіз: нөмір, дата, сома, диагноз, ФИО. Қатар ұстайтын екі метрика ыңғайлы: өріс мүлде табылды ма және ол қателіксіз оқылды ма. Сонда OCR күнді мүлде көрмеген жағдай мен оны көріп, 03.04.2024 орнына 08.04.2024 деп өзгертіп жіберген жағдайдың айырмасы тез байқалады.
Қай жерде қате шешімді-ақ өзгертеді
Ең қымбат қателер — мағыналық қателер. Оларды жалпы мәтін ұқсас болса да бөлек белгілеу керек. Әдетте бұл топқа шатасқан дата, түсіп қалған терістеу, қате өлшем бірлігі, сомаға қосылған артық цифр, пациенттің не келісімшарт тарапының ФИО-сын ауыстыру жатады.
Тек қате санына емес, қате шешімді өзгертетін құжаттар үлесіне де қараңыз. Егер OCR ұзын абзацтағы үтірді жоғалтса, бұл жағымсыз, бірақ әрдайым сын емес. Ал егер ол "аллергия жоқ" дегенді "аллергия" деп өзгертіп жіберсе немесе келісімшарт сомасын он есеге азайтса, процесс дұрыс бағыттан тайып кетеді. OCR алдында LLM үшін басты метрика — распоздаудан кейін қанша құжат қате қорытындыға, қате маршрутқа немесе адамның қате әрекетіне әкеледі.
Тексеру үшін жинақты қалай құрау керек
Егер тек тегіс әрі таза скандарды алсаңыз, тексеру тым әдемі нәтиже береді. OCR алдында LLM үшін 50–100 нақты құжаттан тұратын әртүрлі сападағы жинақ жасаған дұрыс. Мұндай жиын OCR әріпті шатастырып, жолдарды кесіп, мәтін модельге жетпей тұрып мағынаны жоғалтатын жерлерді бірден көрсетеді.
Құжаттарды үлгі файлдар тұрған папкадан емес, нақты ағыннан алыңыз. Телефонмен түсірілген фотоларды, бозғылт көшірмелерді, қисайған беттерді, мөрлері, қолтаңбалары, бүктемелері және нашар жарығы бар парақтарды қосыңыз. Келісімшарттар мен медформаларда дәл осындай жағдайлар көбіне соңғы жауапты бұзады.
Әр файлды бірден қарапайым белгілермен белгілеңіз:
- құжат түрі
- тіл немесе тілдердің араласуы
- скан сапасы, мысалы 1–3 шкаласы
- дереккөз: сканер, телефон, архив, сыртқы жүйе
- қолмен жазылған белгі, мөр немесе қатты қисайып түсу бар ма
Мұндай белгілеу кейін көп уақыт үнемдейді. Сіз OCR-дің жалпы қатесін ғана емес, оның қай жерде өмір сүретінін де көресіз: ескі архивтерде ме, мобильді жүктеуде ме, әлде екітілді формаларда ма.
Командаға әр беттегі бүкіл мәтінді қолмен қайта көшірудің қажеті жоқ. Ең маңызды өрістерге эталон жасаған дұрыс. Келісімшартта бұл көбіне нөмір, дата, сома, тараптар, ИИН немесе БИН. Медициналық формада — ФИО, қабылдау күні, қызмет коды, диагноз, доза. Егер белгілеуші өрісті сенімді оқи алмаса, солай деп белгілеуі керек. Болжауға болмайды.
Құжаттарды бірден екі жинаққа бөліңіз. Біріншісі OCR-ді баптауға, мәтінді тазартуға және шығару ережелеріне керек. Екіншісін финалдық тексеруге бөлек сақтаңыз. Алғашқы сынақтардан кейін құжаттарды екі жиын арасында ауыстыра бермеңіз, әйтпесе команда таныс скандарға бейімделіп, дәлдік бар деген жалған сезімге түседі.
Тәжірибеде шамамен 70 құжатты баптауға, 30 құжатты финалдық тексеруге қалдыру ыңғайлы. Егер дерек аз болса, қиын мысалдарды құрбан етпеңіз. Бір нашар оқылатын келісімшарт пен бір ауыр медформа көбіне бес мінсіз беттен пайдалырақ.
Адам тексерісін қадамдап қалай қою керек
Адам бүкіл құжатты қайта оқып шықпауы керек. Оған тек OCR қатесі мағынаны өзгерте алатын жерлерді көрсету жеткілікті: сома, дата, келісімшарт нөмірі, ИИН, диагноз, доза. Сонда тексеру арзандайды және ағынды баяулатпайды.
OCR алдында LLM үшін құжаттың өзі емес, өрістермен жұмыс істеген ыңғайлырақ. Әр өрістің өз көзі болуы керек: мәтін бөлігі, беттегі координаттар және мүмкін болса, сканның қиындысы. Сонда тексеруші абстракт қате емес, тез растап не түзете алатын нақты жолды көреді.
Жұмыс схемасы
- Алдымен OCR-ді іске қосып, тек танылған мәтінді емес, блоктардың координаттарын, бет нөмірін және сенім бағасын да сақтаңыз. Координаттарсыз кейін сома не фамилия қай жерден шыққанын түсіну қиын.
- Содан кейін керек өрістерді бөліп алыңыз. Дата, келісімшарт нөмірі, ИИН немесе сома үшін көбіне қарапайым шаблон жеткілікті. LLM-ді құжатқа қарай қатты өзгеретін еркін тұжырымдарға қалдырған дұрыс.
- Белгіленген жиында нәтижені эталонмен өріс бойынша салыстырыңыз. Нөмір мен дата үшін символдан символға дейінгі дәл тексеру керек. ФИО мен мекенжай үшін сөз бойынша қателерді санаған дұрыс, сонда мағына қай жерде жоғалып, қай жерде тек тыныс белгі бұзылғаны көрінеді.
- Осыдан кейін құжатты адамға жіберетін ережелерді енгізіңіз. Әдетте бұл — OCR сенімі төмен болған жағдай, екі шығару тәсілі арасында қайшылық, міндетті өрістің бос қалуы немесе шешімге әсер ететін фрагмент.
- Тексерушіге бүкіл файлды емес, даулы жерді көрсетіңіз: сканның қиындысы, танылған мәтін, табылған мән және жанындағы контекст. Ол финалдық шешімге дейін өрісті түзетіп, ақаудың себебін белгілейді.
Тексеруден кейін нені сақтау керек
Қате себебі есеп үшін емес, келесі прогон үшін керек. Қысқа белгілерді ұстаған пайдалы: нашар скан, мөр мәтінді жапқан, OCR цифр мен әріпті шатастырған, шаблон дұрыс блокты алмаған, LLM көрші өрісті таңдаған.
Мысалы, келісімшартта "1 500 000" сомасы мен әрекет ету мерзімі OCR күмәнданса немесе формат шаблонмен сәйкес келмесе, қолмен тексеруге кетуі керек. Медформада кем дегенде бір өріс түсіп қалса, тексеруші пациенттің фамилиясын, диагнозын және дозасын көруі керек. Осындай бір фильтр жүйеге жүктелгеннен кейінгі қателерді талдауға кететін сағаттарды жиі үнемдейді.
Келісімшарт пен медформаға арналған бір ағын
OCR алдында LLM үшін ыңғайлы жұмыс ағыны былай көрінеді: скан алдымен OCR-ге түседі, содан кейін жүйе бірнеше өрісті шығарып, қате тәуекелін есептейді де, тек содан кейін мәтінді LLM-ге жібереді. Егер тәуекел жоғары болса, құжатты алдымен оператор көреді. Егер тәуекел төмен болса, модель бірден жұмыс істейді, ал адам тек кейбір жағдайларды іріктеп тексереді.
Жалдау келісімшартында қате көбіне ұсақ көрінеді, бірақ мағынаны қатты бұзады. Сканда ай сайынғы төлем 38 000 болса, ал OCR оны 33 000 немесе 88 000 деп оқыса, себебі цифрлар жабысып қалған, мөр жолға тиіп кеткен немесе скан тым қараңғы болған. Содан кейін LLM бұзылған мәтінге сүйеніп, келісімшарт карточкасын толтырады, төлемдерді есептейді, заңгерге қысқаша қорытынды жасайды. Егер суретті бөлек бермесеңіз, ол түпнұсқаның өзін көрмейді.
Медформамен тәуекел одан да жоғары. "Аллергия анықталған жоқ" деген жолда OCR кейде "жоқ" сөзін жұтып қояды. Модель үшін бұл мүлде басқа факт: ол аллергияны расталған деп белгілеп, қате флагты ары қарай жібере алады немесе істі артық қолмен эскалацияға жібереді.
Бүкіл құжатты түгел тексермеу үшін оператор ең қымбат қате кететін өрістерді ғана қарайды:
- келісімшартта: соманы, басталу күнін және әрекет ету мерзімін
- медформада: аллергия, қарсы көрсетілімдер және шұғыл белгілерді
- екі жағдайда да: OCR сенімі төмен жерлерді
Сонда команда аз уақыт жұмсайды. Әр сканды толық оқып шығудың орнына операторға көбіне тар тексеруге 20–30 секунд жеткілікті. Бұл әсіресе күніне жүздеген құжат өтетін ағындарда қатты сезіледі.
Кейін тәуекелі төмен жерлерде қолмен тексеруді алып тастауға болады. Мысалы, жаңа скандары бар бірдей шаблондағы келісімшарттар көбіне қиындықсыз өтеді. Тегіс бланкі бар медформалар да жүйе күмәнді жер таппаса және іріктелген бақылау сапаның төмендеуін көрсетпесе, міндетті тексерусіз жүре алады.
Мұндай ағынның мәні OCR-ді мінсіз ету емес. Міндет қарапайым: қандай қателерге жол беруге болатынын, ал қайсын адам модель жауабына дейін ұстап қалуы керек екенін алдын ала шешу.
Процестегі жиі қателер
OCR алдында LLM тізбегінде ең қымбаты — әдемі орташа санды емес, шешімді бұзатын қателер. Команда 97% дәлдікті көреді де, бәрі жақсы деп ойлайды. Сосын бір түсіп қалған "емес", бір сома не доза цифры — және құжат басқа жаққа кетеді.
Сондықтан жалпы распоздау пайызының өзі аз нәрсе айтады. Келісімшарттар мен медформалар үшін жоғары қымбат өрістерді бөлек санаған дұрыс: сомалар, даталар және мерзімдер; келісімшарт нөмірлері, ИИН, полистер және шоттар; "келісілмеген" сияқты терістеулер; дозалар, өлшем бірліктері және баспа формаларындағы диагноздар.
Тағы бір жиі қате — шекті таза PDF-терде баптап, сол нәтижені скандардан күту. Таза PDF үстелден түсірілген фотодай, мөрі бар көшірмедей немесе факстан кейінгі сұр скандай емес. Егер сенім шегі ұқыпты файлдарда ойластырылса, ол не қоқысты өткізіп жібереді, не қолмен тексеруге тым көп құжат жібереді.
OCR мен белгілеу қателерін шатастыру бүкіл сапа бағасын бұзады. Айталық, рецензент қате датаны белгіледі, бірақ өзі басқа беттегі қиылған фрагментке қарап отырды. Есепте бұл OCR құлдырауы сияқты көрінеді, ал шын мәнінде қозғалтқыш датаны дұрыс оқыған. Үш себепті бөлек ұстаңыз: распознау қатесі, белгілеу қатесі, LLM-нің дұрыс мәтінде кеткен қатесі. Әйтпесе сіз басқа қабатты жөндейсіз.
Адамдар да жиі бекер уақыт жұмсайды. Егер бүкіл құжатты тексеруге жіберсеңіз, тек бір даулы өріс үшін бес бетті оқиды. Бұл баяу әрі шаршатады. Оның орнына даулы орынды ғана көрсеткен дұрыс: сурет фрагменті, жанындағы OCR мәтіні және "сома 1 500 000 әлде 1 800 000 ба?" сияқты қарапайым сұрақ. Сонда адам жылдамырақ жауап береді және сирек қателеседі.
Соңғы тұзақ OCR не модель ауысқаннан кейін шығады. Команда бір компонентті жаңартып, бірнеше жаңа файлды қарап, бәрі жақсарды деп шешеді. Бір аптадан соң ескі шаблондарда, мөрлерде немесе қолмен жазылған белгілерде регрессия көрінеді. Әр жолы бірдей бақылау жинағын өткізіңіз, әйтпесе салыстыру болмайды.
Егер бір OCR ағынында бірнеше LLM-ді салыстырсаңыз, оларды бір OpenAI-үйлесімді шлюз арқылы ұстау ыңғайлы. Мысалы, AI Router-де base_url-ды api.airouter.kz-ке ауыстырып, бірдей құжаттар жиынын SDK, код және промпттарды қайта жазбай-ақ әртүрлі модельдерден өткізуге болады. Бұл қалған пайплайнды өзгертпей, модельдерді әділ салыстыруға көмектеседі.
Іске қоспас бұрын қысқа чек-парақ
Іске қоспас бұрын тек модель сапасын емес, процестің тәртібін де тексерген жөн. OCR алдында LLM көбіне қарапайым құжатта емес, бозғылт мөрі, қисайған беті, телефоннан түсірілген фотосы немесе қолмен жазылған белгісі бар құжатта бұзылады.
Базалық тексерулерді өткізіп алсаңыз, жүйе "дерлік дәл" болып көрінеді, бірақ қателер ең сезімтал өрістерге кетеді. Келісімшарт үшін бұл — сома немесе мерзім болуы мүмкін. Медформа үшін — дата, доза немесе зерттеу коды.
- Маңызды өрістерге эталон жинаңыз. Бүкіл құжатқа емес, шешімге әсер ететін нәрсеге: ФИО, дата, келісімшарт нөмірі, сома, диагноз, доза, ИИН.
- Құжат адамға кететін түсінікті шекті орнатыңыз. Бір шекті бүкіл файлға емес, қауіпті өрістерге бөлек және жалпы тану ұпайына бөлек қойған дұрыс.
- Құжат түрлері бойынша статистиканы қараңыз. Келісімшарттар, анкеталар, үзінділер және медформалар әртүрлі қателеседі, ал бүкіл ағын бойынша орташа сан мұны жасырып қояды.
- Әр қолмен түзетудің себебін журналда қалдырыңыз. Сонда команда не бұзылғанын тез көреді: OCR таңбаларды шатастырды, шаблон өрісті таппады немесе LLM мәтіннің бір бөлігін қате түсінді.
- Тексеру жинағын жаңа нашар скандармен толықтырып отырыңыз. Көлеңкесі бар, мәтіннің үстіндегі мөрі бар, контрасты төмен, ескі факстан шыққан және дұрыс кадрланбаған құжаттарды қосыңыз.
Мұндай тізім қарапайым көрінеді, бірақ ол бірінші айдың өзінде көп уақыт үнемдейді. Түзетулер журналы ұқыпты жүргізілсе, қай қателер қайталанатыны және қай құжаттарды бірден қолмен тексеруге жіберу керегі тез көрінеді.
Егер команда банк, клиника немесе мемлекеттік қызметте жұмыс істесе, бұл минимумды өткізіп алмаңыз. Ондай жерде бір үнсіз қателіктің бағасы артық тексерудің бағасынан жоғары.
Әрі қарай не істеу керек
Бүкіл архивті бірден қамтуға тырыспаңыз. Бір ғана сценарийден бастаған дұрыс, әсіресе қате ақшаға немесе тәуекелге әсер етсе: келісімшарт нөмірі, сома, аяқталу күні немесе медформадағы диагноз.
Жақсы алғашқы қадам — процестің әрі қарай жүруі үшін қажет 3–4 өрісті ғана қалдыру. Сонда команда OCR алдында LLM қай жерде көбірек бұзылатынын тез көреді: бозғылт мөрде, қолмен жазылған датасында, ұсақ қаріпте немесе факстан кейінгі қисық сканда.
Егер жиырма өрістен бастасаңыз, талас тез бөлшектерге кетеді. Төрт өрістен бастасаңыз, бір аптадан кейін қандай құжаттардың қанша пайызы қолмен тексеруді қажет ететінін және қай шектердің тым төмен не тым жоғары тұрғанын түсінуге болады.
Кейін тек модельмен емес, адамдармен де келісу керек. Даулы құжаттарды кім қарайды? Қай жағдайды даулы деп есептейміз? Тексеруші қанша минутта жауап беруі тиіс? Бұлар болмаса, қолмен тексеру тез арада ережесіз кезекке айналады.
Әдетте мынадай қарапайым тәртіп жеткілікті:
- OCR және LLM өрістерді шығарады және сенім бағасын қояды
- шектен төмен құжаттар адамға кетеді
- тексеруші бүкіл файлды емес, тек белгіленген өрістерді түзетеді
- түзетулер келесі қайта қарауға арналған мысалдар жинағына түседі
Мұндай цикл сирек үлкен талқылаулардан жақсырақ жұмыс істейді. Команда абстракт сапаны емес, тірі қателерді көреді: OCR "8" бен "3"-ті шатастырған жерді, модель "емес" бөлшегін өткізіп алған жерді, өрістің көрші жолға сырғып кеткен жерін.
Айына бір рет шектерді де, мысалдар жинағын да қайта қарап шыққан жөн. Бір айдың ішінде әдетте жаңа скан түрлері жиналады: басқа келісімшарт шаблоны, жаңа медициналық форма, баспа сапасының төмендеуі, телефоннан түскен фотолардың көбеюі. Жиынды жаңартпасаңыз, метрика тек ескі құжаттарда әдемі болып қалады.
Бірінші айға жоспар қарапайым: бір ағынды таңдау, қолмен тексеруді келісу, түзетулерді жинау және нақты құжаттармен шектерді бір рет қайта есептеу. Масштабтауға дейін ең қымбат қателерді алып тастауға осының өзі-ақ жетеді.
Жиі қойылатын сұрақтар
Неліктен OCR-дан кейінгі ұқыпты мәтін деректердің дұрыс екенін білдірмейді?
Өйткені OCR ұқыпты абзац шығарып, соның өзінде мағынаны жоғалтуы мүмкін. Ол жиі терістеулерді, сандарды, өріс шекараларын және жолдардың ретін шатастырады, ал LLM кейін сол қате мәтінге сүйеніп сенімді түрде жауап береді.
Қандай OCR қателері құжаттың мағынасын жиі өзгертіп жібереді?
Ең көп зиян келтіретіндері — бір ғана таңба шешімді өзгертіп жіберетін қысқа бөліктер. Бұған сомалар, даталар, дозалар, ИИН, келісімшарт нөмірлері, чекбокстардағы белгілер және «жоқ» немесе «емес» сияқты сөздер жатады.
OCR қателігін LLM-нің өз қатесінен қалай ажыратуға болады?
Бірдей құжаттар жинағында екі рет іске қосып салыстырыңыз. Алдымен модельге эталон мәтінді беріңіз, кейін сол мәтінді OCR-тен өткен күйінде беріңіз де, бірдей промпт қолданыңыз. Егер жауаптар ажыраса, шығын распознаудан келген, LLM-нен емес.
Келісімшарттар мен медформалар үшін қандай метрикаларды есептеген дұрыс?
Сандар, даталар, сомалар мен дозалар үшін таңба бойынша дәлдікті алыңыз. Келісімшарт тармақтары немесе дәрігер жазбалары сияқты ұзақ бөліктер үшін сөз бойынша дәлдікті қараңыз және жүйе керекті өрісті толық тапты ма, соны бөлек есептеңіз.
Алғашқы тексеру үшін қанша құжат керек?
Әдетте 50–100 әртүрлі сападағы нақты құжат жеткілікті. Тек тегіс скандарды емес, телефонмен түсірілген фотоларды, бозғылт көшірмелерді, штамп басылған, қисайған және қолмен белгі қойылған беттерді де қосыңыз.
Бірінші кезекте нені қолмен тексеруге берген дұрыс?
Алдымен қатесі қымбатқа түсетін өрістерді адамға жіберіңіз. Келісімшартта бұл — сома, басталу күні, әрекет ету мерзімі және нөмір; медформада — аллергия, диагноз, доза, қабылдау күні және шұғыл белгілер.
Тексеруші уақыт жоғалтпау үшін нені көруі керек?
Оған бүкіл файлды емес, даулы бөлікті көрсетіңіз. Скандалған фрагментті, жанындағы OCR мәтінін, табылған мәнді және аздап контекст берсеңіз, ол өрісті тез растай немесе түзете алады.
Бүкіл құжатқа бір сенім шегі жеткілікті ме?
Жоқ, бір ғана шек көбіне тәуекелді жасырып қояды. Қауіпті өрістерге бөлек ереже, ал бүкіл құжатқа бөлек жалпы балл ұстаған дұрыс, әйтпесе жүйе сома мен дозадағы үнсіз қателерді өткізіп жіберуі мүмкін.
Команда бүкіл құжатты белгілей алмаса, неден бастау керек?
Барлығын бірден белгілеуге тырыспаңыз. Процесс әрі қарай жүрмейтін 3–4 өрісті алыңыз, мысалы келісімшарт нөмірі, сома, аяқталу күні немесе диагноз, және тек соларға тексеру орнатыңыз.
Бір OCR ағынында әртүрлі LLM-дерді әділ қалай салыстыруға болады?
OCR, промпт және сынақ жинағын өзгеріссіз қалдырып, тек модельді ауыстырыңыз. Егер сіз AI Router сияқты бір OpenAI-үйлесімді шлюз қолдансаңыз, сол құжаттарды әртүрлі LLM арқылы SDK, код және промпттарды қайта жазбай-ақ тез өткізіп, нәтижені салыстыра аласыз.