Мазмұнға өту
2024 ж. 30 жел.·7 мин оқу

Провайдердегі деректерді жою: сатып алуға дейін нені сұрау керек

Провайдердегі деректерді жоюды сөзге сүйеніп тексеруге болмайды. Сатып алуға дейін шарттағы тармақтарды, логтарды, тазарту мерзімдерін және аудит тәртібін сұраңыз.

Провайдердегі деректерді жою: сатып алуға дейін нені сұрау керек

Неге провайдердің сөзі жеткіліксіз

Провайдер деректерді қалай өшіретінін тексергенде, демо аяқталғаннан кейінгі қоңырауда немесе хатта айтылған уәде аздық етеді. Менеджер сенімді сөйлей алады, бірақ дауда шешетін нәрсе — келісімшарт, деректерді өңдеу қосымшасы, сақтау мерзімдері және жою тәртібі.

LLM-провайдерде тәуекел ойлағаннан жоғары. Қызмет сұраныс мәтінін негізгі жүйеде сақтамаса да, оның көшірмелері жиі жанама қабаттарда қалады. Бұл сирек ақау емес, кәдімгі пайдалану бөлігі. Дерек ізі access logs-та, error logs-та, трассировкаларда, мониторингте, резервтік көшірмелерде, қайта жіберу кезектерінде және уақытша дамптарда өмір сүре алады.

Сондықтан «біз ештеңе сақтамаймыз» деген сөз көбіне тым жалпы болады. Ол қандай дерек саналатынын, олардың қай жерде автоматты түрде пайда болатынын және әр көшірмені кім тазалайтынын түсіндірмейді. Сатып алу үшін бұл жеткіліксіз.

Жою мерзімін де бұлдыр қалдыруға болмайды. Егер провайдер «сұраныс бойынша жоямыз» немесе «ақылға қонымды мерзімде жоямыз» десе, нәтижені тексере алмайсыз. Бір жеткізуші деректі 24 сағатта тазалайды, екіншісі — 90 күннен кейін, бэкап циклімен бірге. Сіздің команда үшін бұл мүлде бөлек тәуекел.

Дәлел болмаса, дау тез сөзге тіреледі. Сіз деректер жойылуы керек еді дейсіз. Провайдер бәрін өшірдік деп жауап береді. Егер аудит-лог, сақтау саясаты, жою процедурасының іске қосылғанын көрсететін белгі немесе ең болмаса инцидент бойынша түсінікті акт болмаса, бірдеңені дәлелдеу қиын.

Бұл әсіресе API-шлюзді немесе продакшенге арналған модельді сатып алар алдында маңызды. Айталық, банк сұраныстарға клиенттердің өтініштерінің бөліктерін жібереді, ал жеткізуші кейін бәрін өшірдік дейді. Егер бір айдан кейін мәтін сынықтары қолдау логтарында немесе резервтік көшірмеде пайда болса, сату бөлімі «жою» дегенде нені меңзегенін кейіннен анықтау тым кеш болады.

Сенімді белгі қарапайым: провайдер алдын ала не жоятынын, қай жерде жоятынын, қандай мерзімде жоятынын және оны немен дәлелдейтінін бекітеді. Егер бұл қол қойылғанға дейін болмаса, іске қосқаннан кейін жағдай жақсармайды.

Нені дерек деп санау керек

Команда «біз деректерді жоямыз» деген уәдені естігенде, көбіне тек сұраныс мәтінін ғана ойлайды. Тексеру үшін бұл аз. LLM контурында дерек деп оқуға, қалпына келтіруге, журналдардан табуға немесе резервтік көшірмеден қайтаруға болатынның бәрін санау керек.

Бірінші қабат түсінікті: модельдің промпттары мен жауаптары. Бірақ мұнда да командалар көбіне жүйелік промптты, диалог тарихын, құрал шақыруларының нәтижелерін және RAG-тен келген контекст бөліктерін ұмытып кетеді. Қызметкер модельге келісімшарт жіберсе, ал модель қысқаша мазмұн қайтарса, жою бастапқы мәтінге де, жауапқа да, жүйе сұранысқа қосқан аралық үзінділерге де қатысты болуы керек.

Келесі қабат — файлдар мен қызметтік өрістер. Дерекке PDF, суреттер, аудио, CSV, сондай-ақ файл атаулары, user ID, project ID, request ID, IP-адрес, сұраныс уақыты, таңдалған модель, токендер және маршруттау тегтері жатады. Егер сіз API-шлюз арқылы жұмыс істесеңіз, бір сұраныс шлюзде де, соңғы модель провайдерінде де көрінуі мүмкін. Жою туралы уәдені тек негізгі интерфейс бойынша емес, бүкіл тізбек бойынша тексеру керек.

Жасырын тәуекел аймағы — логтар мен қателерді трассировкасы. Сұраныс сәтсіз болса, әзірлеушілер debug-логқа сұраныс мәтінінің бір бөлігін, файл атауын немесе модель жауабын жазып қояды. Кейін support осы жазбалар арқылы мәселені іздейді. Сөз жүзінде провайдер «контентті» сақтамауы мүмкін, бірақ сол контент логтарда, APM-де, ескерту жүйесінде немесе support тикеттерінде жатады.

Әлі байқалмайтын орындар да бар: кэштер, кезектер және уақытша қоймалар. Қызмет сұранысты қайта жіберу кезегінде, prompt cache-те, үлкен тіркемелерге арналған уақытша бакетте немесе алдын ала өңдеу түйінінде ұстап тұруы мүмкін. Мұндай көшірмелер қысқа уақыт өмір сүрсе де, бұл да сақтау. Деректі шығара алсаңыз, демек ол сақталған.

Соңғы қабат — бэкаптар мен снапшоттар. Команда жазбаны негізгі базадан өшіріп, істі жабық деп санайды, ал оның көшірмесі резервте әлі 30, 60 немесе 90 күн жатуы мүмкін. Мұндай мерзімнің өзі әрдайым проблема емес, егер тазарту тәртібі анық жазылса. Мәселе провайдер тек «active system»-нен жоюды айтып, қалғанының бәрі туралы үндемегенде басталады.

Пайдалы сұрақ қарапайым естіледі: бір сұраныс, файл немесе жауап қандай нақты орындарда, тіпті уақытша болса да, сақталып қалуы мүмкін. Провайдер бұл орындардың бәрін атамайынша, сурет толық емес.

Келісімшартта нені бекіту керек

Келісімшарт бір сұраққа жауап беруі тиіс: провайдер клиент деректері деп нені санайды. Егер бұл көрсетілмесе, дау бірінші инциденттен кейін немесе келісімшарт тоқтағанда басталады. Көп жеткізуші жалпы жазады да, кейін оны тым тар мағынада түсіндіреді.

Категорияларды тікелей мәтінде немесе қосымшада тізіп шыққан дұрыс. Әдетте оған модельдің промпттары мен жауаптары, жүктелген файлдар, кестелер, суреттер мен аудио, embeddings, дооқытуға арналған датасеттер, кэштер, сұраныс метадеректері және логтардағы контент кіреді, егер онда сұраныс мәтіні немесе жауап бөліктері болса.

Жою мерзімін бөлек бекітіңіз. Бір мерзім клиент сұрауынан кейін, екіншісі — келісімшарт аяқталғаннан кейін керек. «Ақылға қонымды мерзімде» деген тұжырым көмектеспейді. Сан керек. Мысалы, жұмыс жүйелері үшін 30 күн және резервтік көшірмелер үшін 90 күн, егер провайдер оларды тезірек тазарта алмаса.

Ең жиі мәселе бэкаптар мен логтарда жасырынады. Провайдер негізгі базадан деректерді жояды, бірақ оларды журналдарда, тапсырма кезектерінде немесе архивтік көшірмелерде қалдыруы мүмкін. Келісімшартта үш нәрсе көрсетілуі тиіс: мұндай дерек қайда қалуы мүмкін, қанша уақыт сақталады және мерзім өткен соң не болады — жойыла ма, әлде анонимдендіріле ме. Егер кейбір логтарды провайдер қауіпсіздік, есеп немесе заң талабы үшін сақтауға міндетті болса, сол логтардың нақты құрамын сұраңыз.

Жоюды растаудың түсінікті түрі де керек. «Сұраныс бойынша растаймыз» емес, нақты құжат: күні, жойылған деректер жиынының тізімі, қамтылған жүйелердің атауы және ерекшеліктер сипатталған хат немесе акт. Әйтпесе сізге кейін ештеңені дәлелдемейтін қысқа электрондық жауап қалады.

Қазақстаннан жұмыс істейтін командалар үшін бұл ерекше маңызды. Көбіне деректердің жойылған фактісін ғана емес, олардың инфрақұрылым ішіндегі жолын да көрсету керек.

Егер сіз LLM-ді AI Router сияқты шлюз арқылы қоссаңыз, жауапкершілік тізбегін бірден тексеріңіз. Деректерді шлюздің өзінде кім жояды, сыртқы модель провайдеріне кім жауап береді және сұраныс бірнеше жүйеден өтсе, кім растау береді.

Толық аудит бәріне керек емес. Іс жүзінде алдын ала келісілген дәлелдер жинағы жеткілікті: сақтау саясатының көшірмесі, сіздің жою сұранысыңыз бойынша аудит-логтың бір бөлігі, тапсырма немесе тикет идентификаторы, бэкаптар және олардың тазарту мерзімдері туралы растау, сондай-ақ провайдер жағындағы жауапты қызметкердің байланысы.

Егер жеткізуші мұның бәрін қағазға бекітуге дайын болмаса, оның жою туралы уәдесінің салмағы аз.

Қандай техникалық сигналдарды сұрау керек

Егер провайдер «біз деректерді сұраныс бойынша жоямыз» десе, уәде емес, нақты жұмыс іздерін сұраңыз. Слайд емес, тірі жүйеден алынған артефактілер керек. Солардан деректер қайда өтетінін, қайда кідіріп қалатынын және оларға кімнің қол жеткізе алатынын көресіз.

LLM-провайдер немесе API-шлюз үшін бұл әсіресе айқын. Деректер сирек бір базада ғана өмір сүреді. Олар API-логтарға, тапсырма кезегіне, кэшке, мониторинг жүйесіне, файл қоймасына, бэкаптарға және inference немесе support беретін мердігерге түсуі мүмкін.

Әдетте бес нәрсені сұрау жеткілікті:

  1. Кіріс сұраныстан бастап логтарға, бэкаптарға және сыртқы провайдерлерге дейінгі деректер қозғалысының сызбасы.
  2. Әр қабат бойынша сақтау мерзімдерінің кестесі, онда runtime-логтар, debug-логтар, кэш, файлдар, бэкаптар және аудит-лог бөлек көрсетілген.
  3. Әр подрядчиктің қарапайым рөлі бар тізім: кім сақтайды, кім өңдейді, кім метадеректерді көреді, ал кім толық сұранысты алады.
  4. Бір жазбаны жоюға арналған аудит-лог үлгісі, онда уақыт белгісі, сұраныс ID-і, жүйе, нәтиже және жоюды іске қосқан адам немесе сервис көрінеді.
  5. Логтардағы PII-ді маскировка жасау тәртібі: нақты не жасырылады, қай кезеңде және маскировкаға дейін толық мәтін debug-арнаға түсе ала ма.

Жақсы деректер қозғалысының сызбасы бір ғана «cloud» деген төртбұрышпен шектелмейді. Ол әр қабатты бөлек көрсетеді. Егер сіз LLM-провайдерді сатып алсаңыз, сызбада кіріс endpoint, маршрутизация, prompt cache, қате журналы, аналитика, тіркеме қоймасы және төменгі деңгейдегі модельдер болуы керек. Дәл осы орындарда негізгі жазба жойылып кеткеніне қарамастан, көшірмелер жиі қалады.

Сақтау кестесі де нақты болуы тиіс. «Логтарды шектеулі сақтаймыз» деген формулировка ештеңе бермейді. Әр қабат бойынша күнмен көрсетілген мерзім және бэкаптарға арналған ереже керек: жазба бірден жойыла ма, жоюға белгілене ме, әлде тек ротациядан кейін жоғала ма.

Аудит-лог үшін қарапайым тест бар. Бір жазбаны жою мысалын сұраңыз: сұраныс келді, жүйе объектіні тапты, керек қабаттарда жоюды іске қосты, қорытындыны және бір қабат жауап бермесе, қатені тіркеді. ID мен уақытсыз скриншот көп нәрсені дәлелдемейді.

PII маскировкасы бойынша да провайдер ашық жауап беруі керек. Телефон нөмірлері, email, ЖСН, карта нөмірлері және есімдер логқа жазылар алдында ма, әлде кейін бе — соны сұраңыз. Егер алдымен толық мәтінді сақтап, содан кейін ғана «тазартса», бұл әлсіз жер.

Егер провайдер мұндай материалдарды тез жинай алмаса, деректерді сақтауын тексеру іс жүзінде процеске емес, сөзге сүйеніп тұр.

Мұны қадамдап қалай тексеруге болады

Миграциясыз тестті іске қосыңыз
base_url-ды ауыстырып, SDK мен промпттарды қайта жасамай-ақ чек-листті іске қосыңыз.

Бір жалпы сауалнамадан бастаңыз. Оны сатып алу бөлімі, ақпараттық қауіпсіздік және заңгерлер бірге дайындауы тиіс, әйтпесе провайдер бір сұраққа үш түрлі жауап береді. Бір құжатта промпттар мен жауаптар қайда сақталатынын, логтар қанша өмір сүретінін, бэкаптарға не түсетінін, жазбаларды кім қалпына келтіре алатынын және жою сұранысы қалай берілетінін бекітіңіз.

Сосын жауаптарды презентациямен емес, құжаттармен салыстырыңыз. Егер хатта менеджер деректер 7 күнде жойылады десе, ал деректерді өңдеу туралы келісімшартта «ақылға қонымды мерзімде» делінсе, келісімшартқа сүйеніңіз. Контракттағы, сақтау саясатындағы, логтар сипаттамасындағы және SLA-дағы тұжырымдарды салыстырыңыз. Кез келген айырмашылықты сатып алуға дейін түзеген дұрыс, іске қосудан кейін емес.

Келесі қарапайым сценарий пайдалы:

  1. Бірыңғай сұрақтар тізімін жинап, провайдерге бір пакетпен жіберіңіз.
  2. Жауаптарды кестеге түсіріп, қайсысы келісімшартқа сай, қайсысы сәйкес емес екенін белгілеңіз.
  3. Қауіпсіз деректер жиынымен тест өткізіңіз. Іздеу оңай болу үшін сирек маркерлері бар синтетикалық жазбаларды алған дұрыс.
  4. Сол тест жазбаларын жоюға өтінім беріп, обращение нөмірін сұраңыз.
  5. Растау сұраңыз: қашан жойылды, не жойылды, бэкаптарда не қалды және ол қашан да жойылады.

Мұндай тест формалды болу үшін жасалмайды. Деректерді продакшенде қолданғыңыз келетін жолмен жіберіңіз: API арқылы, тиісті модельге, логтарға, кэшке және, егер болса, аралық шлюз арқылы. Қазақстандағы командалар үшін бұл өте маңызды. Деректердің бүкіл бағытын, соның ішінде ел ішіндегі сақтауды, PII маскировкасын және аудит ізін түсіну қажет.

Жақсы белгі — провайдер жай ғана «бәрі жойылды» деген хат емес, өтінім уақыты, орындау уақыты, қамтылған жүйелердің тізімі және бэкаптарды тазарту мерзімі көрсетілген қалыпты растау көрсеткенде. Егер сервисте сұраныс бойынша аудит-логтарды шығару мүмкіндігі болса, алдын ала мысал сұраңыз.

Егер жеткізуші растау формасын, бэкаптардан жою мерзімін немесе логтарды сақтау шегін түсіндіре алмаса, оның уәдесінің құны әзірге аз.

Командалар қай жерде жиі қателеседі

Ең жиі қате қарапайым: команда «біз сіздің деректеріңізбен модельді оқытпаймыз» дегенді естіп, оны деректерді жою деп қабылдайды. Бұл екі бөлек нәрсе. Провайдер сіздің промпттарыңызды оқытуға пайдаланбауы мүмкін, бірақ бәрібір оларды логтарда, кезектерде, кэште, объектілік қоймаларда және қызметтік көшірмелерде сақтайды.

Екінші қате интерфейсте көрінетін нәрсемен ғана шектелгенде шығады. Кабинетте жою батырмасы, disabled logging статусы немесе retention-ның қысқа баптауы болуы мүмкін. Бірақ сатып алуға экран емес, backend туралы жауап керек: API шақыруынан кейін сұраныспен не болады, ол қайда уақытша жатады, аудит-логтарды кім жазады, трассировкалар қанша өмір сүреді және қызметтік кестелер қалай тазаланады.

Командалар жиі бэкаптар мен апаттық көшірмелерді ұмытады. Провайдер жазбаны негізгі базадан адал жояды, ал бір күннен кейін ол әлі де 30 немесе 90 күндік сақтау циклі бар резервтік көшірмеде болып шығады. Банк, телеком және мемлекеттік сектор үшін бұл енді ұсақ нәрсе емес. Егер сізде data residency талабы болса, ол көшірмелер физикалық қайда жатқанын да сұраңыз.

Тағы бір типтік қате: нақты жауаптың орнына жалпы сертификатты немесе әдемі қауіпсіздік саясатын қабылдау. SOC 2, ISO немесе ішкі security deck пайдалы, бірақ олар тікелей сұраққа жауап бермейді: қандай деректер, қай жүйелерден, қандай мерзімде жойылады және ол қалай расталады. Егер провайдер кестелерді, қоймаларды, лог түрлерін және retention мерзімдерін атай алмаса, сізде тек уәде бар, тексеру жоқ.

Бесінші қате подрядчиктерге қатысты. Көп LLM-провайдерлер сұраныстарды әрі қарай өздері бағыттайды: модельге, бұлтқа, лог-пайплайнға, мониторинг жүйесіне немесе сыртқы қоймаға. Онда жоюды бір контрагентте емес, бүкіл тізбек бойынша тексеру керек. Әйтпесе негізгі провайдер өз жағында өшіреді, ал көшірме downstream-партнерде қалады.

Алаңдататын белгілер әдетте былай көрінеді: сізге тек «we do not train on your data» деп жауап береді; әр жүйе бойынша жою мерзімдерін бермейді; backup және disaster recovery саясатын сипаттамайды; subprocessors тізімін жасырады; жауаптың орнына compliance туралы жалпы PDF жібереді.

Қатаң, бірақ пайдалы ереже: егер жеткізуші деректер жолын сұраныстан жоюға дейін қадамдап көрсетіп, жүйелерді атымен атай алмаса, деректерді сақтауын тексеру өтпеді деп есептеңіз. Сатып алу үшін бұл мәмілені кідіртуге жеткілікті.

Сатып алуға дейінгі қарапайым сценарий

Келісімшартқа дейін тестті жеңілдетіңіз
Бір API пилот пен сақтау талаптарын қалай жеңілдететінін көріңіз.

Банк қолдау чатында операторға жауап ұсынатын LLM-сервисті сынап жатыр. Команда пилотқа тірі клиент өтініштерін қоспайды. Алдымен олар обезличенный диалогтар жиынтығын жинайды: аты-жөнді, шот нөмірлерін, телефондарды, мекенжайларды және адамды тануға болатынның бәрін алып тастайды.

Тіпті осындай жиында да дау көбіне жауап сапасынан емес, деректерді жоюдан басталады. Заңгерге «біз ештеңе сақтамаймыз» деген жалпы сөз жеткіліксіз. Оған келісімшарт тоқтағаннан кейінгі жою мерзімі, жоюды растау тәртібі және резервтік көшірмелер, уақытша файлдар мен логтар туралы тұжырым керек.

ИБ бұған басқа қырынан қарайды. Команда провайдерден пилот іздері қалуы мүмкін қоймалардың тізімін сұрайды: негізгі база, объектілік қойма, кэш, кезектер, бэкаптар, қолжеткізу журналдары. Сосын аудит-логтағы оқиғаның мысалын сұрайды: кім жойды, қашан болды, қай жиын бойынша және жүйе қандай статус қайтарды.

Тест алдында төрт шартты бекіту жеткілікті:

  • провайдер пилот аяқталғаннан кейін немесе келісімшарт тоқтаған соң жою мерзімін жазбаша растайды;
  • провайдер өңдеуге қандай қоймалар қатысатынын көрсетеді;
  • команда жою аудит-логының үлгісін алады;
  • тараптар жеке деректер жиынында жою тестіне алдын ала келіседі.

Тесттің өзі қарапайым көрінеді, бұл жақсы. Банк шағын бақылау диалогтар пакетін жүктейді, нақты уақыт пен сұраныс идентификаторларын белгілейді, ал келісілген мерзім өткен соң жою командасын жібереді. Осыдан кейін провайдер тек хатпен жауап беріп қоймай, операция іздерін көрсетуі тиіс: логтағы жазба, жою тапсырмасының статусы және деректер енді іздеу, қайта жүктеу немесе жұмыс контурынан қалпына келтіру арқылы қолжетімді емес екені туралы растау.

Егер провайдер шлюз арқылы жұмыс істесе, сұрақтар өзгермейді. Деректер қайда сақталатынын, аудит-логтарды кім жүргізетінін және команда жоюды қалай растайтынын дәл солай тексеру керек.

Сатып алу туралы шешімді осындай тесттен кейін ғана қабылдаған дұрыс. Егер провайдер жауаптарды созса, мерзімде шатасса немесе барлық қоймаларды атай алмаса, бұл да пилоттың нәтижесі.

Қол қоймас бұрынғы қысқа чек-лист

Қауіпсіз пилот өткізіңіз
Қауіпсіз деректер жиынын бір OpenAI-үйлесімді endpoint арқылы өткізіңіз.

Қол қоймас бұрын «бәрін өшіреміз» деген жалпы уәде сұрамаңыз. Тексерілетін қысқа пункттер жиынтығын сұраңыз. Егер жеткізуші бұлыңғыр жауап берсе немесе маркетингке кетсе, бұл қазірдің өзінде белгі.

LLM-провайдерді сатып алу үшін әдетте осы минимум команданың нақты процесі бар-жоғын түсінуге жетеді. Әсіресе сұраныстар бірнеше қабаттан өтсе: API-шлюз, логтар, мониторинг, бэкаптар және ішкі кезектер.

  • Келісімшартта күнмен көрсетілген жою мерзімі бар. «Ақылға қонымды мерзімде» емес, жұмыс деректері, логтар және уақытша файлдар үшін нақты сан болуы керек.
  • Провайдер деректер көшірмесі қалуы мүмкін жүйелердің тізімін береді: негізгі база, логтар, кэш, тапсырма кезектері, резервтік көшірмелер және тестік орта.
  • Бэкаптарды тазарту тәртібі сипатталған. Егер архивтен жазбаны бірден өшіру мүмкін болмаса, провайдер архив қашан қайта жазылатынын және оған дейін оған кім кіре алатынын ашық айтуы керек.
  • Клиент сұранысы бойынша әрекеттер журналы бар. Жою сұранысын кім қабылдады, процесті қашан бастады және ол немен аяқталды — соның жазбасы керек.
  • Жауапты адам мен эскалация арнасы көрсетілген. Егер сұрақ аккаунт-менеджер мен support арасында қалып қойса, жою мерзімінің мәні жоғалады.

Жақсы белгі — бірдей тәртіп келісімшартта да, техникалық материалдарда да жазылғанда. Жаман белгі — заңгерлер 30 күн десе, инженерлер бэкаптар 90 күн өмір сүреді деуі.

Қарапайым мысал: банк LLM API-ге клиенттердің өтініштерін жібереді, содан кейін нақты сұраныстар жиынын жоюды сұрайды. Егер жеткізуші бұл деректер қайда сақталуы мүмкін екенін және тазартуды кім растайтынын көрсете алмаса, деректерді сақтауын тексеру өтпеді.

Егер сіз сұраныстарды әртүрлі модельдерге бағыттайтын немесе модельдерін өз инфрақұрылымында ұстайтын сервисті алсаңыз, осы чек-листті әр қабатқа бөлек қолданыңыз. Көбіне мәселе бәрі ортақ тұжырымға сенген жерде шығады.

Әрі қарай не істеу керек

Провайдермен алғашқы кездесуден кейін финал тендерді күтпеңіз. Бірден өз сұрақтар үлгісін құрып, оны барлық кандидатқа қолданыңыз. Сонда жауаптарды салыстыру оңайырақ болады, ал жою туралы уәделер хаттар мен қоңырауларда жоғалмайды.

Мұндай үлгіде әдетте төрт блок жеткілікті: сұраныстар, жауаптар және логтар қайда сақталады; әдепкі сақтау мерзімі қандай және оны өзгертуге бола ма; провайдер PII-ді қалай маскировкалайды және бастапқы деректі кім көреді; жоюды қандай құжаттар растайды және бұл шарттарға кім қол қояды.

Сосын шағын пилот өткізіңіз, бірақ нақты деректермен емес. Персонал деректерсіз және коммерциялық құпиясыз қауіпсіз жиын алыңыз. Пилотта тек модель сапасын емес, сервистің мінез-құлқын да тексеріңіз: логтарға не түседі, аудитте қандай оқиғалар көрінеді, access-ті key бойынша шектеуге бола ма, support retention және deletion туралы сұрақтарға қаншалықты тез жауап береді.

Егер провайдер пилоттан өтсе, талаптарды келісімшартқа көшіріңіз. Менеджердің хаты немесе чаттағы хабарлама дау кезінде көмектеспейді. Деректерді өңдеу туралы келісімшартта, сақтау саясаты бар қосымшада және мүмкін болса, сұраныс бойынша жоюдың жеке тәртібінде нақты тұжырымдар керек.

Кандидаттарды салыстырғанда тек баға мен модельдер тізіміне қарамаңыз. LLM-провайдерді сатып алуда көбіне жергілікті сақтау, аудит-логтар және PII маскировкасы маңыздырақ болады. Дәл осы пункттерде банктерде, телекомда және мемлекеттік секторда жобалар жиі тоқтайды.

Қазақстан командалары үшін «аймақтық сақтау» мен деректерді ел ішінде сақтау арасындағы айырмашылық жиі шешуші. Сондықтан тура сұраңыз: деректер Қазақстанда қала ма, әлде басқа өңірге кете ме, AI-заңы талаптарына сай контент белгісі бар ма, аудит-логтар қолжетімді ме, PII маскировкасын қосуға бола ма.

Егер сіз AI Router сияқты шлюздерді салыстырып жатсаңыз, сол нәрселерді де құжат бойынша да, тест бойынша да тексеріңіз, жалпы уәдемен емес. airouter.kz деректерді Қазақстан ішінде сақтау, PII маскировкасы, аудит-логтар, key деңгейіндегі rate limits және бір OpenAI-үйлесімді endpoint ұсынады деп көрсетеді, бірақ мұнда да түпкі шешімді келісімшарттың нақты шарттары мен растайтын артефактілер береді.

Мұндағы жақсы аяқталу қарапайым: бір сұрақтар үлгісі, бір қауіпсіз пилот және сақтау мерзімдері мен жою тәртібі екіұшты емес түрде жазылған бір келісімшарт.

Жиі қойылатын сұрақтар

Неге «біз ештеңе сақтамаймыз» дегенге сенуге болмайды?

Өйткені мұндай сөз іс жүзінде ештеңе дәлелдемейді. Провайдер сұраныс мәтінін негізгі базаға сақтамауы мүмкін, бірақ көшірмелер логтарда, трассировкаларда, кезектерде, кэште және резервтік көшірмелерде қалып қояды.

Нақты жауап сұраңыз: нені жояды, қай жүйелерден, қандай мерзімде және оны немен растайды.

Провайдер клиент деректері ретінде нені санауы керек?

Промптпен ғана шектелмеңіз. Клиент деректеріне әдетте сұраныстар мен жауаптар, жүйелік промпттар, диалог тарихы, файлдар, RAG үзінділері, embeddings, сұраныс метадеректері және логтарға түскен контент бөліктері жатады.

Егер сервис оны оқи алса, таба алса немесе қалпына келтіре алса, бұл да дерек. Провайдер оны ашық атауы керек.

Деректерді жою туралы келісімшартта нені міндетті түрде жазу керек?

Деректердің санаттарын, сұраудан кейін және келісімшарт тоқтағаннан кейін жою мерзімдерін, логтар мен бэкаптарды тазарту тәртібін, сондай-ақ жоюды растау формасын бірден бекітіңіз. «Ақылға қонымды мерзімде» сияқты тұжырымдарды қалдырмаңыз.

Жақсы келісімшарт жүйелерді және күнмен көрсетілген мерзімді атайды. Сонда инциденттен немесе жобаны жабудан кейін дау азаяды.

Қандай жою мерзімін қабылдауға болады?

Баршаға ортақ бір сан жоқ, бірақ мерзім нақты болуы керек. Көп провайдерлер жұмыс жүйелері үшін және резервтік көшірмелер үшін бөлек мерзім қояды.

Егер сізге сансыз жауап берсе, мерзім жоқ деп есептеңіз. Сатып алу үшін бұл жеткіліксіз.

Логтар мен резервтік көшірмелер туралы бөлек сұрау керек пе?

Иә, оны бөлек сұраған дұрыс. Дәл сол жерде негізгі жүйеден жойылғаннан кейін көшірмелер жиі қалып қояды.

Сервис қандай лог жүргізетінін, олар қанша сақталатынын, backup-қа не түсетінін және архивтер қашан қайта жазылатынын сұраңыз. Провайдер бұл қабаттар туралы үнсіз қалса, сурет толық емес.

Провайдерден қандай техникалық дәлелдер сұраған дұрыс?

Иә, ал оған презентация емес, тірі жүйеден алынған іздер керек. Әдетте деректер ағынының сызбасы, сақтау мерзімдерінің кестесі, жоюға қатысты аудит-лог үлгісі, подрядчиктер тізімі және PII маскировкасының сипаттамасы жеткілікті.

Үлгіде уақыт, сұраныс ID-і, қамтылған жүйелер және операция нәтижесі болса, бұл жақсы белгі. Тек скриншоттың өзі онша көмектеспейді.

Жою уәдесін қол қоймай тұрып қалай тексеруге болады?

Қауіпсіз, сирек маркерлері бар шағын тест жасаңыз. Оларды жұмыста қолданғыңыз келетін жолмен жіберіп, кейін жою сұранысын беріңіз де, өтінім нөмірін сұраңыз.

Содан кейін растауды тексеріңіз: не жойылды, қашан жойылды, бэкаптарда не қалды және ол қашан да жойылады.

«Біз сіздің деректеріңізбен оқымаймыз» деген нені білдіреді?

Бұл екі түрлі нәрсе. Провайдер сіздің деректеріңізді оқыту үшін пайдаланбауы мүмкін, бірақ бәрібір оларды логтарда, кэште, файлдарда және қызметтік көшірмелерде сақтап қоюы мүмкін.

Сіз үшін тек оқыту емес, сақтаудың өзі де маңызды. Сондықтан екі сұрақты бөлек қойыңыз.

Сұраныс API-шлюз арқылы өтіп, кейін сыртқы модельге барса, не істеу керек?

Мұндай схема болса, тек бір экранды немесе бір келісімшартты емес, бүкіл тізбекті тексеріңіз. Сұраныс шлюзден, сыртқы модель провайдерінен, лог-пайплайннан және қолдау жүйесінен өтуі мүмкін.

Әр кезеңде кім деректерді өшіретінін, downstream-партнерлер үшін кім жауап беретінін және соңғы растауды кім беретінін бірден анықтаңыз.

Қашан мәмілені тоқтатып, уәделерге сенбеу керек?

Егер жеткізуші жүйелерді атаумен атамаса, әр қабат бойынша мерзім бермесе, subprocessors-ты жасырса немесе compliance туралы жалпы сөздерге кетсе, кідіріс жасаңыз. Мұндай жауап дауда көмектеспейді.

Тағы бір жаман белгі — менеджер бір нәрсе уәде етіп, келісімшарт пен техникалық команда басқа нәрсе айтуы. Сатып алуға дейін тоқтатқан дұрыс.