Мазмұнға өту
2025 ж. 23 ақп.·7 мин оқу

LLM алдында келісімшарттар мен медкарталарды анонимдеу: мағынаны жоғалтпай

LLM алдында келісімшарттар мен медкарталарды анонимдеу нақты ережелерді талап етеді: қандай өрістерді жасыру, нені қалдыру және құқықтық не клиникалық мағынаны қалай бұзбау керек.

LLM алдында келісімшарттар мен медкарталарды анонимдеу: мағынаны жоғалтпай

Қауіп қай жерде туады

Қауіп бірден екі жерде пайда болады. Біріншісі - деректердің сыртқа шығып кетуі. Мәтінге ФИО, ИИН, полис нөмірі, мекенжай, телефон, реквизиттер, диагноз және адамды немесе компанияны анықтауға болатын басқа да мәліметтер түседі. Екіншісі - мағынаның жоғалуы. Егер тым көп нәрсені ауыстыра берсеңіз, модель кім кімге қарыз екенін, пациентпен не болғанын және оның неге маңызды екенін түсінбей қалады.

Бұл мәселелерді жиі араластырып жатады, бірақ олар екі бөлек нәрсе. Егер жеке деректерді қалдырып қойсаңыз, ақпаратты қорғау талаптарын бұзасыз. Егер артық жерді тым дөрекі түрде тазаласаңыз, LLM ресми немесе қате жауап береді. Келісімшартта бұл міндеттемелердің, мерзімдердің және айыппұлдардың логикасын бұзады. Медкартада шағым, диагноз, емдеу және динамика арасындағы байланыс жоғалады.

Әсіресе бос қалдырылған орындар зиян. Құжатта тек "[ӨШІРІЛДІ]" деген қатарлар немесе ұзын бос аралықтар қалса, модель нысандар арасындағы байланыстарды жоғалтады. Ол енді қайсысы келісімшарттың бір тарабы, қайсысы екіншісі екенін, қай емдеу эпизоды қай тексеруге қатысты екенін және қайсысы бұрын болғанын түсінбейді. Деректерді бос орынмен емес, түсінікті белгілермен ауыстырған дұрыс: "Пациент_1", "Ұйым_2", "Күні_3". Сонда мәтін құрылымы сақталады.

Құжат түрлерінің айырмашылығы бірден байқалады. Келісімшартта көбіне құқықтық мағына бұзылады: тараптардың рөлі, пәні, сомалар, мерзімдер, қабылдау тәртібі, бұзудың негіздері. Медкартада қайта сәйкестендіру қаупі маскировкадан кейін де жоғары болады, өйткені сирек диагноз, операция күні және бөлімше бірге белгілі бір адамды меңзеуі мүмкін.

Маскировканың тереңдігі міндетке байланысты. Егер модель ішкі юристке арналған қысқаша түйін жасаса, тараптардың рөлін, салыстырмалы даталарды және сома диапазондарын сақтауға болады. Егер міндет клиникалық жіктеу немесе МКБ кодтарын іздеу болса, әдетте жас, жыныс, шағым, талдау нәтижелері және емдеу барысы қалады, ал тікелей идентификаторлар мен уақыт пен орынға тым нақты байламдар алынып тасталады.

Тіпті сіз PII маскировкасы мен аудит-логтары бар шлюз арқылы жұмыс істесеңіз де, ауыстыру үлгісіндегі қате нәтижені бұзады. Қауіпсіз анонимдеу - деректерді барынша өшіру емес, жеке тұлғаны ашатын, бірақ тапсырма үшін қажет емес үзінділерді дәл ауыстыру.

Келісімшарттардан қандай өрістерді іздеу керек

Келісімшарттағы сезімтал деректер тек бас бөлімде тұрмайды. Олар көбіне соңында, қосымшаларда, тіпті колонтитулдарда қайталанады. Осындай бір үзіндіні байқамай қалсаңыз, LLM мәмілені кім жасасқанын бәрібір көріп қояды.

Келісімшартты жеке өрістер бойынша емес, құжаттың тұтас шаблоны арқылы тексерген дұрыс. Әйтпесе ИИН-ді жасырып, есепшот нөмірін, филиалдың мекенжайын немесе ашып жазылған қолтаңбаны қалдырып қою оңай.

Әуелі тараптардың тікелей идентификаторларын іздейді:

  • жеке тұлғалар мен қол қоюшылардың ФИО-сы
  • ИИН, БИН және басқа тіркеу нөмірлері
  • заңды және нақты мекенжайлар
  • телефондар, email, байланыс тұлғаларының аттары
  • банк реквизиттері: IBAN, БИК, шот нөмірлері, банк атауы

Бірақ тізім мұнымен бітпейді. Келісімшартта сырттай жеке дерекке ұқсамайтын, бірақ кім туралы екенін тез аңғартатын өрістер де бар. Бұлар - келісімшарт нөмірі, қосымша нөмірі, спецификация нөмірі, сенімхат нөмірі. Жеке тұрғанда бұлар қауіпсіз көрінуі мүмкін, бірақ күнмен, сома және тауар атауымен бірге нақты бір мәмілені көрсетіп қояды.

Егер келісімшарт LLM-ге тәуекелдерді тексеру немесе шарттарды шығару үшін жіберілсе, мұндай өрістерді бейтарап белгілермен ауыстырған дұрыс. Мысалы: "Келісімшарт № [DOC_ID]", "Сенімхат № [POA_ID]", "Сатып алушы [COMPANY_1]". Сонда модель мәтін құрылымын сақтап, құжат логикасын жоғалтпайды.

Деректер көбіне қайда жасырынып тұрады

Ең көп қалып қоятын жер - қол қою блогы. Онда толық ФИО, лауазым, өкілеттік негізі, телефон, email және кейде тіпті қол үлгісі тұрады. Мөрде БИН, компанияның толық атауы және мекенжайы болуы мүмкін.

Қосымшаларда мәселе қайтадан қайталанады. Спецификация, акт, жеткізу кестесі және сенімхат көбіне реквизиттерді түгел көшіріп алады, ал негізгі мәтінде сіз оларды әлдеқашан жасырып қойған боласыз.

Келісімшартты қайталанатын аймақтар жиыны ретінде қарастырған пайдалы: басы, тараптардың реквизиттері, қосымшалар, қолтаңбалар, мөрлер. Әр аймаққа өз ауыстыру үлгісі болса, құжат оқылымды күйінде қалады. Юрист әлі де мерзімдерді, жауапкершілікті, пән мен сомаларды көреді, ал жеке және корпоративтік идентификаторлар сыртқа шықпайды.

Медкарталардан қандай өрістерді іздеу керек

Медкартада жеке деректер тек бас бөлімде ғана жасырынбайды. Пациенттің атын алып тастасаңыз да, адамды жағдай нөмірі, нақты даталар және шағымдардың сирек жиынтығы арқылы тануға болады. Жиі кездесетін қате бірдей: анық көрінетін өрістер жабылады, бірақ оңай біріктіруге болатын бөлшектер қалады.

Әуелі тікелей идентификаторлар алынады:

  • пациент пен туыстарының ФИО-сы
  • ИИН
  • тұратын немесе тіркелген мекенжай
  • телефон, e-mail, сенім білдірілген тұлғалардың байланысы
  • полис нөмірі немесе сақтандыру деректері

Бұның өзі де жеткіліксіз. Көптеген жүйеде жазбаны сырттай зиянсыз көрінетін, бірақ іс жүзінде құжатты регистратурамен, сақтандыру базасымен немесе ішкі есеппен байланыстыратын қызметтік өрістер әшкерелейді. Бұлар - медкарта нөмірі, емдеу немесе госпитализация жағдайының нөмірі, МИС-тегі пациенттің ішкі ID-і, жолдама нөмірі, зерттеу немесе зертхана өтінімінің нөмірі, сондай-ақ госпитализация, талдау, операция және шығару даталарының нақтылығы.

Даталармен мұқият болу керек. LLM үшін көбіне күнтізбедегі нақты нүкте емес, оқиғалардың реті мен аралығы маңызды. Сондықтан 12.03.2025 және 19.03.2025 орнына 1-күн және 8-күн немесе госпитализациядан кейін 7 күн деп қалдырған жақсы. Сонда модель емдеу барысын түсінеді, бірақ белгілі бір адамға артық байланбайды.

Бөлек мәселе - квази-идентификаторлар. Бір өрістің өзі тұлғаны ашпайды, бірақ жиынтықта пациентті танымал етеді. 47 жастағы адам, сирек диагноз, 31 апта жүктілік, нақты бір бөлімшеден ауысу және препаратқа ерекше реакция - мұның бәрі әбден танылатын жиын.

Әсіресе сирек диагноздармен, сирек аурулармен, ерекше жарақаттармен және анамнездегі бөлшектермен абай болу керек. Кейде диагнозды алып тастауға болмайды, өйткені онсыз клиникалық мағына жоғалады. Ондайда көрші өрістерді жалпылаған дұрыс: нақты жастың орнына жас тобын қалдыру, даталарды ығыстыру, шағын қаланың атауын алып тастау, нақты бөлімшені және дәрігерлердің тектерін көрсетпеу.

Ереже қарапайым: егер өріс емдеуге, пациент маршрутын талдауға немесе дәрігер шешімін түсінуге көмектессе, оны жалпыланған түрде сақтайды. Егер өріс базадан нақты адамды табуға немесе оны құжаттан тыс тануға көмектессе, оны жасырады.

Мағына жоғалмауы үшін нені қалдыру керек

Жеке деректерді жасыру кезінде мақсат мәтінді бос қылып тастау емес. Модельге жұмыс істейтін контекст керек: кім кіммен байланысқан, не болды, қашан болды және қандай шарттар жүріп тұр.

Аттар мен атауларды рөлдермен ауыстырған дұрыс. Келісімшартта ТОО Альфа және Иванов И.И. орнына [тапсырыс беруші_1], [жеткізуші_1], [тапсырыс берушінің өкілі] деп қалдырыңыз. Медкартада пациент пен дәрігердің ФИО-сы орнына [пациент_1], [кардиолог_дәрігер_1], [неврология_бөлімшесі] сияқты белгілер жарайды. Сонда құжат логикасы сақталады.

Қатысушылар арасындағы байланысты жоғалтпау маңызды. Егер бір дәрігер зерттеу тағайындаса, ал екіншісі препаратты тоқтатса, модель сол тізбекті көруі керек. Егер келісімшартта бір тарап төлеп, екінші тарап тауар жеткізіп, үшіншісі оны акт бойынша қабылдаса, бұл рөлдерді шатастыруға болмайды. Әйтпесе жауап сырттай дұрыс көрінгенімен, шын мәнінде қате болады.

Даталармен де шектен шықпаған жөн. Егер модель мерзімдерді, оқиғалардың кезектілігін, кешігуін, талап қою мерзімін немесе емдеу ұзақтығын тексерсе, даталарды қорытынды үшін қажет формада қалдырған дұрыс. Кейде тек туған күнді немесе қабылдаудың нақты уақытын жасырып, ал қол қою, госпитализация, тағайындау және шығару даталарын сақтаған жеткілікті.

Кейбір деректерді көбіне сол күйінде қалдырған жөн:

  • дозалар мен өлшем бірліктері
  • сомалар, ставкалар, ҚҚС, айыппұлдар
  • тармақ, қосымша және акт нөмірлері
  • талдау нәтижелері, егер олар қорытынды үшін қажет болса
  • төлем, жеткізу, емдеу және бақылау кезеңдері

Тіпті осындай үзінділерді аздап өзгерту мағынаны ауыстырады. Егер 5 мг орнына [доза] деп қойсаңыз, модель артық дозалану қаупін түсінбейді. Егер п. 4.3 және п. 7.2 жасырылса, ол міндет, мерзім және жауапкершілікті байланыстырмайды.

Жақсы ереже мынау: тұлғаны жасырыңыз, бірақ логиканы жасырып тастамаңыз. Келісімшартта кім кімге не қарыз екені және қай мерзімде екені түсінікті болып қалуы керек. Медкартада - пациентті кім емдегені, қай кезеңде, қандай деректер бойынша және қандай нәтижемен. Сонда LLM мәтінді талдайды, ал сіз не кесіп тастағаныңызды шамалап отырмайды.

Анонимдеуді қадамдап қалай баптау керек

Деректерді Қазақстанда сақтау
Құпия құжаттармен LLM тапсырмалары үшін деректер ел ішінде сақталатын шлюзді қосыңыз.

Анонимдеу өрістер тізімінен емес, өңдеу мақсатын анықтаудан басталса, жақсырақ жұмыс істейді. Бір құжатты LLM-ге әртүрлі міндетпен жіберуге болады: келісімшарттағы тәуекелді табу, қысқаша түйін жасау, медкартадағы өтінім түрін белгілеу. Қай мақсатқа қолданатыныңыздан қандай деректі жасыруға болатыны, ал нені қалдыру керектігі тәуелді.

Жұмысқа жарайтын схема әдетте мынадай:

  1. Алдымен міндетті нақтылаңыз. Егер модель төлем кешігуін іздесе, оған сомалар, мерзімдер, тараптардың рөлі және оқиғалардың реті керек. Егер модель шығару бойынша түйін жасаса, оған диагноз, шағым, тағайындаулар және даталардың тізбегі керек.
  2. Екі тізім құрыңыз: тікелей және жанама идентификаторлар. Біріншісіне ФИО, ИИН, телефон нөмірі, мекенжай, полис нөмірі, келісімшарт нөмірі кіреді. Екіншісіне сирек лауазым, филиал атауы, госпитализацияның нақты күні, палата нөмірі, диагноз бен жастың ерекше комбинациясы жатады.
  3. Деректерді бос орынмен емес, шаблон бойынша ауыстырыңыз. [КЛИЕНТ_1], [ДӘРІГЕР_1], [КЕЛІСІМШАРТ_7], [КҮНІ_1], [ҰЙЫМ_2] деп жазған дұрыс. Егер бір нысан бес рет кездессе, белгі әр жерде бірдей болуы керек.
  4. Ережелерді шағын үлгіде тексеріңіз. Әртүрлі 10-20 құжат алыңыз: қысқа келісімшарт, қосымшасы бар келісімшарт, шығару қағазы, консультация, зертханалық нәтиже. Ауыстырғаннан кейін модельге әдеттегі жұмыс сұрауын қойып, жауабын түпнұсқамен салыстырыңыз.
  5. Нәтижені пәнді білетін адамға көрсетіңіз. Юрист ауыстырудан кейін кім айыппұл төлейтіні және қандай мерзімде екені түсініксіз болып қалғанын тез байқайды. Дәрігер анонимдеу клиникалық диагноз бен анамнездің айырмасын өшіріп тастағанын көреді.

Бір қарапайым бағдар бар: анонимдеуден кейін құжат түпнұсқаны көрмеген адамға да оқылатын болуы керек. Егер мәтін тесік-тесік болып қалса, ережелер тым дөрекі. Егер тұлға әлі де бөлшектердің жиынтығы арқылы танылып тұрса, ережелер тым жұмсақ.

Схема жұмыс істей бастағанда, шаблондар мен ережелердің нұсқаларын сақтап жүріңіз. Продакшнда бұл әсіресе маңызды: кейін қай маскировка нұсқасы жақсы нәтиже бергенін, ал қайсысы модель жауабын бұзғанын оңай түсінесіз.

Келісімшартты жеткізу мысалы

Екі заңды тұлға арасындағы қарапайым жеткізу келісімшартын алайық. Түпнұсқада әдетте тараптардың толық атауы, БИН, мекенжайлар, банк реквизиттері, қол қоюшылардың ФИО-сы және олардың өкілеттік негіздері болады. Мұндай мәтінді LLM-ге сол күйінде жіберсеңіз, модель мәміле шарттарын талдау үшін қажеттен әлдеқайда көп дерек алады.

Компания атауларын рөлдермен ауыстырған дұрыс: Жеткізуші және Сатып алушы. Сонда мәтін оқылымды болып қалады, ал міндеттемелер логикасы бұзылмайды. Егер құжатқа бірнеше заңды тұлға қатысса, бір рөл жеткіліксіз. Онда Жеткізуші_1, Жеткізуші_2, Сатып алушы деп жазады. Әйтпесе модель кім тауар жөнелтетінін, кім төлейтінін шатастырып алады.

Бастапқы сөйлем былай болуы мүмкін: ТОО 'Альфа Снаб' обязуется поставить товар АО 'ГородСтрой' в течение 15 календарных дней с даты заявки. Ауыстырғаннан кейін оны былай қалдырған дұрыс: Жеткізуші Сатып алушыға өтінім берілген күннен бастап 15 күнтізбелік күн ішінде тауар жеткізуге міндеттенеді. Мағынасы сол күйінде қалады, бірақ артық реквизиттер болмайды.

Сонымен бірге қорытындыға әсер ететін сандарға тимеңіз. Егер келісімшартта оплата в течение 7 банковских дней деп тұрса, оны бір апта ішінде деп ауыстырмаңыз. Егер айыппұл 0,1% за каждый день просрочки, но не более 10% от суммы просроченного платежа болса, оны дөңгелектемей, сол күйінде сақтаңыз. Юрист үшін 7 бен 10 күннің немесе 0,1% бен 1% пайыздың айырмасы бүкіл нәтижені өзгертеді.

Келісімшарт ішіндегі сілтемелерді бөлек тексеріңіз. Ауыстырғаннан кейін атаулар қысқарып кетсе, редактор нөмірлеуді немесе жол ауысуын бұзып жібере алады. Модель 4.2-тармақтың 7.3-тармаққа сілтеме жасап тұрғанын, ал №2 қосымшаның жеткізу кестесіне емес, дәл спецификацияға қатысты екенін анық түсінуі керек.

Мұндай келісімшартты жіберер алдында төрт нәрсені тез тексерген пайдалы:

  • тараптардың рөлдері айырылған және араласпаған
  • сомалар, төлем мерзімдері, өсімпұл және лимиттер дәл сақталған
  • тармақтар, тармақшалар және қосымшалар екіұштылықсыз оқылады
  • реквизиттер, мекенжайлар, шоттар және ФИО, егер олар міндетке қажет болмаса, жасырылған

Егер анонимдеуден кейін модель әлі де кім кімге тауар жеткізіп тұрғанын, төлем қашан басталатынын және айыппұл қалай есептелетінін айта алса, құжат құрылымы сақталған.

Медкартадан үзінді мысалы

Интеграцияны бір API-ге жинау
500+ модельді біріктіріп, сұрауларды бір ғана эндпоинт арқылы бағыттаңыз.

Егер шығарма-мәтіннен тым көп нәрсені алып тастасаңыз, модель тек үзік-үзік фрагменттерді көріп, детальдарды өзі ойлап таба бастайды. Медкартада бұл қауіпті. Дәрігерге немесе талдаушыға диагноз бен тағайындау ғана емес, оқиғалардың реті, дозалар, даталар және аллергия жоқ сияқты қысқа терістеулер де маңызды.

Қысқа үзіндіні алайық: пациент жөтел мен температураға шағымданып келді, бір күннен кейін талдау тапсырды, кейін диагноз қойылып, ем тағайындалды. Мұндай мәтінде ФИО, телефон, мекенжай, карта нөмірі және басқа тікелей идентификаторларды жасыру керек. Бірақ клиникалық логикаға тимеу керек.

Пациент: Иванов Петр Сергеевич, 14.03.1986
ИИН: 860314300123
Номер медкарты: 4519-22
Телефон: +7 701 123 45 67
Жалобы: температура до 38.4, сухой кашель 3 дня, слабость.
02.05.2026 осмотр терапевта. Аллергии нет.
ОАК: лейкоциты 12.4 x10^9/л, CRP 28 мг/л.
Диагноз: внебольничная пневмония справа.
Назначено: амоксициллин 500 мг 3 раза в день 7 дней, парацетамол 500 мг при температуре выше 38.

Анонимдеуден кейін мәтін былай көрінуі мүмкін:

Пациент: [ФИО скрыто], дата рождения: [скрыто]
ИИН: [скрыто]
Номер медкарты: [скрыто]
Телефон: [скрыто]
Жалобы: температура до 38.4, сухой кашель 3 дня, слабость.
02.05.2026 осмотр терапевта. Аллергии нет.
ОАК: лейкоциты 12.4 x10^9/л, CRP 28 мг/л.
Диагноз: внебольничная пневмония справа.
Назначено: амоксициллин 500 мг 3 раза в день 7 дней, парацетамол 500 мг при температуре выше 38.

Мағына сақталды, өйткені шағымдар, қарау күні, талдау нәтижелері, диагноз және нақты тағайындаулар қалды. Модель әлі де алдымен не болғанын, диагнозды не растағанын және қандай ем тағайындалғанын түсінеді. Егер сіз қысқаша түйіндеу жасасаңыз, жазбаның толықтығын тексерсеңіз немесе диагноз бен ем арасындағы сәйкессіздікті іздесеңіз, бұл жеткілікті.

Жиі жіберілетін қате - барлық сандарды бірден өшіріп тастау. Сонда дозалар, курс ұзақтығы және зертханалық мәндер жоғалады. Басқа бір қате - аллергия нет, беременность отрицает, антибиотики не принимал сияқты қысқа фразаларды да тазарту. Олар екінші кезектегі нәрсе сияқты көрінгенімен, дәл солар жағдайды түсіндіруді өзгертеді.

Мұнда да ереже бірдей: кім екенін жасырыңыз, бірақ адаммен не болғанын жасырмаңыз. Егер мәтін кейін ішкі шлюз немесе API арқылы LLM-ге жіберілсе, әуелі тазартылған нұсқада клиникалық тізбек сақталғанын тексеріңіз: шағым, қарау, талдау, диагноз, тағайындау және шешімге әсер ететін терістеулер.

Мағынаны бұзатын қателер

Ең жиі мәселе - аз жасыру емес, тым дөрекі жасыру. Мұндай түзетуден кейін модель құжатты емес, оның бұрмаланған нұсқасын көреді. Жауап сенімді естіледі, бірақ бұзылған контекстке сүйенеді.

Бірінші қате - әртүрлі адамдарды [лицо] сияқты бір белгіге түсіріп жіберу. Келісімшартта бұл тараптарды, қол қоюшыларды, бенефициарларды және сенімхат бойынша өкілдерді шатастырады. Медкартада пациентті, туысты, емдеуші дәрігерді және консультантты оңай араластырып жібереді. Содан кейін модель кім не айтты және шешімді кім қабылдады - соны түсінбей қалады.

Терістеулерді жою да қауіпті. болған жоқ, анықталған жоқ, қабылдамайды, шағым жоқ деген тіркестер мағынаны түбегейлі өзгертеді. Егер анонимдеу кезінде не бөлшегі жоғалса, модель симптомның жоқтығын симптом ретінде, ал диагноздың жоқтығын расталған диагноз ретінде оқуы мүмкін.

Даталарда да сол жағдай. Оларды түгел алып тастау ыңғайлы, бірақ оқиғалардың реті көбіне жеке деректердің өзінен маңыздырақ. Келісімшартта жөнелтпей тұрып хабарлаған мен жөнелткеннен кейін хабарлаған дегеннің айырмасы дауды басқаша түсіндіреді. Медкартада тізбек маңызды: алдымен шағым, кейін талдау, одан соң тағайындау, содан кейін қайта қарау.

Сандарға да өте сақ болған дұрыс. Егер сома, мерзім, доза, температура, глюкоза деңгейі немесе түзіліс өлшемі қорытындыға әсер етсе, оларды кездейсоқ мәндермен алмастыруға болмайды. 10 күн, 3 миллион теңге немесе 38,5 градус шегі модельдің жауабын түгел өзгерте алады.

Дәрігердің мамандығын негізсіз жасыруға болмайды. Кардиолог, онколог, хирург және терапевттің қорытындысы формулировкасы ұқсас болса да, әртүрлі оқылады. Тек [дәрігер] деген белгі қалса, модель маңызды контексті жоғалтып, консультацияны профильдік қорытындымен шатастыруы мүмкін.

Жылдам тексеру қарапайым. Егер маскировкадан кейін төмендегі сұрақтардың кемінде біреуіне жауап өзгерсе, мәтін бұзылған:

  • нақты кім әрекет етіп немесе сөйлеп тұр
  • не жоқ, ал не расталған
  • оқиғалар қандай ретпен өтті
  • қандай сандар шекті шешімге әсер етеді
  • кімнің қорытындысы профильдік салмаққа ие

LLM үшін құжатты өшіріп тастағаннан гөрі, сезімтал өрістерді тұрақты әрі әртүрлі белгілерге ауыстырған дұрыс: [пациент_1], [дәрігер_кардиолог], [күні_1], [сома_1]. Сонда құпиялылық сақталады, ал мағына шашылып кетпейді.

LLM-ге жіберер алдындағы жылдам тексеріс

Бір шаблоннан пилот бастау
Бір құжат түрін алып, ауыстыру ережелерін жұмыс барысында тез тексеріңіз.

Тіпті жеке деректерді мұқият ауыстырсаңыз да, құжат бірнеше ұсақ нәрседен бүлініп қалуы мүмкін. Мәтінді модельге жіберер алдында оны көзбен қысқаша тексерген пайдалы. Бұл бірнеше минут қана алады, бірақ кейін LLM келісімшартта бір тарапты екіншісінің орнына көріп қойғанын немесе емдеу барысын шатастырып алғанын түсіндіріп отыруға тура келмейді.

Тексеру тек жасырылған өрістерге емес, ауыстырғаннан кейінгі мағынаға да қатысты. Мәтін оны түпнұсқасын көрмеген адам үшін де түсінікті болып қалуы керек.

Ыңғайлы чек-лист мынадай:

  • рөлдер мәтін ішінде "жылжып" кетпеуі керек. Егер басында Тапсырыс беруші_1 болса, үшінші бетте ол Сатып алушы_2 болып кетпеуі тиіс. Медкартада да сол қағида пациент, дәрігер, туыс және сақтандырушы үшін қолданылады
  • хронология оқылуы керек. Нақты даталарды алып тастасаңыз да, алдымен не болғаны түсінікті болуы керек: шағым, қарау, талдау, тағайындау, қайта қабылдау. Келісімшартта да кезеңдердің, төлемнің және жеткізудің реті сақталуы тиіс
  • сандарды бөлек тексеріңіз. Сомалар, дозалар, мерзімдер, пайыздар, өлшем бірліктері және тармақ нөмірлері ауыстыру кезінде жиі жоғалып кетеді
  • фактілер жиынтығы бойынша қайта тану қаупін бағалаңыз. Кейде ФИО болмаса да, сирек диагноз, жас, госпитализацияның нақты күні, қала, лауазым және компания атауы бір абзацтың өзінде адамды әшкерелеп қояды
  • мәтінді тақырыпты жақсы білетін адамға көрсеткен дұрыс. Юрист бірден келісімшарт пәні жоғалғанын немесе міндеттемелер логикасы бұзылғанын көреді. Дәрігер симптом, талдау және тағайындау арасындағы байланыс өшіп қалғанын байқайды

Жақсы тест одан да оңай: анонимделген нұсқаны алып, құжатты екі сөйлеммен қайта айтып көріңіз. Егер кім не істеуі керек, қанша, қашан және қандай шартпен екені немесе пациенттің шағымнан емге дейінгі жолы анық айтылса, мағына сақталған.

Егер құжат продакшнға API арқылы кетсе, бұл тек жоба басындағы тексеріспен шектелмеңіз. Жаңа келісімшарт шаблоны немесе жаңа шығару формасы пайда болса, ескі маскировка ережелері жұмысын бұза бастайды. Шағын таңдамадағы жылдам қолмен тексеріс мұндай қателерді кез келген автоматты метрикадан бұрын табады.

Әрі қарай не істеу керек

Бірден бүкіл архивті анонимдеуге ұмтылмаңыз. Одан да бір құжат түрін және қателігі оңай байқалатын бір қарапайым міндетті алыңыз. Мысалы, алдымен тек жеткізу келісімшарттары бойынша мерзімдер мен айыппұлдарды шығару немесе тек шығару қағаздары бойынша қысқаша клиникалық түйін жасау.

Осындай бастама маскировканың қай жерде мағынаны сақтайтынын, ал қай жерде оны бұзатынын тез көрсетеді. Аз көлемде Пациент А деп ауыстыру әлі жұмыс істейтінін, ал даталарды, дозаларды немесе тараптардың рөлдерін ауыстыру модель жауабын бұзып жіберетінін байқау оңайырақ.

Қысқа жұмыс циклін енгізген пайдалы:

  • бір құжат шаблонын және 20-30 нақты үлгіні таңдау
  • ауыстыру ережелерін ашық түрде жазып, оларға нұсқа беру
  • команда бірден шешпеген, не жасыру керек, не қалдыру керек болған күмәнді жағдайлардың журналын жүргізу
  • анонимдеуден кейін модель қателескен мысалдарды жинау
  • апта сайын бұл қателерге қарап ережелерді қайта қарау, сезімге сүйенбей

Күмәнді ауыстырулар журналы дерлік әрқашан қажет. Келісімшарттарда дау көбіне реквизиттерге, тараптардың рөліне, даталарға және қосымшаларға қатысты болады. Медкарталарда көбіне жас, сирек диагноз, госпитализация даталары, зерттеу нөмірлері және симптом - талдау - емдеу байланысы қиындық тудырады.

Егер модель тараптардың міндеттерін шатастыра бастаса немесе клиникалық логиканы жоғалтса, алдымен модельдің өзін кінәлай бермеңіз. Әуелі контексті ұстап тұрған тірек өрістерді алып тастап алмағаныңызды тексеріңіз. Ережелерге ең пайдалы мысалдар - сәтті жағдайлар емес, бұзылғандар: мерзім бойынша қате қорытынды, шатасқан емдеу эпизоды, жоғалған себеп-салдар байланысы.

Егер деректер Қазақстанның ішінде қалуы тиіс болса, процесті тек сапа жағынан ғана емес, деректермен жұмыс режимі жағынан да салыстырған дұрыс. Мысалы, AI Router OpenAI-үйлесімді API-шлюзді, деректерді ел ішінде сақтауды, PII маскировкасын және аудит-логтарды ұсынады. Команда үшін бұл ыңғайлы тексеріс нүктесі: деректермен жұмыс істеудің қажет режимі сақтала ма және өңдеу үстінен бақылау жоғалмай ма.

Интеграцияны бөлек тексерген жөн. Егер сіздің стекіңіз қазірдің өзінде OpenAI форматындағы SDK арқылы жұмыс істесе, үйлесімді шлюзді кодты қайта жазбай-ақ, тек base_url-ды api.airouter.kz-ке ауыстыру арқылы қосуға бола ма — соны алдын ала анықтаңыз. Бұл пилотқа кететін уақытты үнемдейді және анонимдеу ережелерін юристер, қауіпсіздік мамандары және әзірлеушілер арасындағы артық келісімсіз-ақ тексеруге көмектеседі.

Жиі қойылатын сұрақтар

Келісімшартта ең алдымен нені жасыру керек?

Алдымен тікелей идентификаторларды жабыңыз: ФИО, ИИН, БИН, мекенжайлар, телефондар, email, банк реквизиттері және ашып жазылған қолтаңбалар. Содан кейін қосымшаларды, колонтитулдарды, мөрлерді және реквизиттер блогын тексеріңіз — мұндай деректер жиі сол жерлерде қайталанады.

LLM үшін бұл үзінділерді қиып тастағаннан гөрі, оларды [Сатып алушы_1], [Жеткізуші_1], [DOC_ID] сияқты рөлдер мен белгілермен ауыстырған дұрыс. Сонда мәтін түсінікті болып қалады.

Медкартада қандай өрістер адамды жиі әшкерелейді?

Пациент пен туыстарының ФИО-сын, ИИН, мекенжайды, телефонды, полис нөмірін, медкарта нөмірін және ішкі ID-лерді алып тастаңыз. Одан кейін нақты даталарға, жағдай нөміріне, зерттеу нөміріне және жазбаны базамен байланыстыратын басқа қызметтік өрістерге қараңыз.

Егер тапсырма үшін диагноз бен емдеу барысы қажет болса, оларды қалдырыңыз. Пациенттің тұлғасын жасыру клиникалық көріністі өшіріп тастағаннан әлдеқайда дұрыс.

Неге жай ғана барлық сезімтал деректерді өшіріп тастауға болмайды?

Бос орындар мәтіндегі байланыстарды бұзады. Модель тек [ӨШІРІЛДІ] қатарын көргенде, тараптардың рөлін, оқиғалардың ретін және сөйлемдердің мағынасын жоғалтады.

Оның орнына [Пациент_1], [Ұйым_2], [Күні_3] сияқты тұрақты белгілерді қойған дұрыс. Бір нысан бүкіл құжат бойы бірдей белгі алуы керек.

Мағынаны жоғалтпау үшін даталармен қалай жұмыс істеген дұрыс?

Даталарды тек қажет мағынаға сай формада қалдырыңыз. Егер модель төлем мерзімін, кешігуін немесе емдеу барысын тексерсе, оқиғалардың ретін және аралықтарын сақтаңыз.

Көп жағдайда 1-күн, 8-күн немесе госпитализациядан кейін 7 күн өткен соң сияқты салыстырмалы формалар жеткілікті. Осылайша артық нақтылықтан құтыласыз, бірақ логиканы бұзбайсыз.

Келісімшартта нені сол күйінде қалдырған дұрыс?

Келісімшарттарда әдетте сомалар, ставкалар, ҚҚС, айыппұлдар, мерзімдер, тармақ және қосымша нөмірлері сақталады. Дәл осы деректер модельге кімнің кімге не қарыз екенін және қашан екенін түсінуге көмектеседі.

Егер 0,1%-ды жалпы белгіге ауыстырсаңыз немесе п. 4.3-ті жасырып тастасаңыз, жақсы промпттың өзінде жауап оңай қате болып шығады.

Шығарма немесе ауру тарихынан нені алып тастауға болмайды?

Шағымдарды, диагнозды, талдау нәтижелерін, дозаларды, емдеу курсының ұзақтығын, оқиғалардың ретін және аллергия жоқ сияқты қысқа терістеулерді сақтаңыз. Дәл осы үзінділер клиникалық мағынаны ұстап тұрады.

Барлық сандарды бірдей жасыруға болмайды. Егер дозаны, қабылдау мерзімін немесе зертханалық көрсеткішті алып тастасаңыз, модель жорамалдай бастайды.

Сирек диагноздар мен басқа да жанама белгілермен қалай жұмыс істеу керек?

Бір өріске емес, олардың байланысына қараңыз. Жас, сирек диагноз, бөлімше, операцияның нақты күні және шағын қала бірге адамның кім екенін оңай аңғартады.

Мұндай жағдайда көрші деректерді жалпылаған дұрыс: нақты жастың орнына жас тобын қалдыру, даталарды ығыстыру, нақты орынды алып тастау, дәрігерлердің тектерін көрсетпеу. Диагноздың өзін кейде сақтау керек, әйтпесе жазбаның мәні жоғалады.

Анонимдеу құжатты бұзып қойғанын қалай білуге болады?

Құжатты анонимдеу оны өз бетінше оқыған адамға түсінікті болып қала ма — соны тексеріңіз. Егер ауыстырғаннан кейін кім әрекет етіп тұрғаны, не расталғаны, не терістелгені және оқиғалар қандай ретпен болғаны түсініксіз болса, ережелер тым қатал.

Тағы бір жиі белгі — модель келісімшарт тараптарын, дәрігерлерді немесе емдеу кезеңдерін шатастыра бастайды. Әдетте бұл сіз жеке деректерді емес, тірек өрістерді де өшіріп тастағаныңызды білдіреді.

Іске қосар алдында анонимдеу ережелерін қалай тексеруге болады?

Шағын үлгідегі әртүрлі шаблондарды алып, команда жұмыста қолданатын сол сұраулардан өткізіңіз. Содан кейін модельдің түпнұсқаға және анонимделген нұсқаға берген жауабын салыстырыңыз.

Одан кейін нәтижені юристке немесе дәрігерге көрсетіңіз. Олар қай жерде мерзім жоғалғанын, рөлдер араласқанын немесе симптом, талдау мен емдеу арасындағы байланыс үзілгенін тез байқайды.

PII маскировкасы бар API-шлюз мәселені өзі-ақ шешіп бере ме?

Жоқ, оның орнын толық баспайды. PII маскировкасы және аудит-логтары бар шлюз деректердің сыртқа шығу қаупін азайтады және процесті бақылауда ұстауға көмектеседі, бірақ ауыстыру ережелеріңіздегі қате модельдің жауабын бәрібір бұзады.

Бір тапсырма мен бір құжат түрінен бастаңыз. Егер сіздің стекіңіз OpenAI-үйлесімді API-мен жұмыс істеп тұрса, үйлесімді шлюзді қосып, base_url-ды api.airouter.kz-ке ауыстырып, шаблондарыңыздың мағынаны қалай сақтайтынын бөлек тексеруге болады.