Мазмұнға өту
2025 ж. 12 шіл.·7 мин оқу

Прайс-листтерден атрибуттарды қолмен тазаламай шығару

Прайс-листтерден атрибуттарды шығару бірліктерді, брендтерді және қаптама көлемдерін бір қалыпқа келтіруге көмектеседі, тіпті жеткізушілер Excel, PDF және CSV-ді әртүрлі түрде жіберсе де.

Прайс-листтерден атрибуттарды қолмен тазаламай шығару

Неліктен прайс-листтер каталогты бұзады

Каталог әдетте бір үлкен қателіктен емес, әр жаңа жеткізуші файлы әкелетін жүздеген шағын сәйкессіздіктен бұзылады. Адам үшін бұл жай ғана жазудың әртүрлі тәсілі. Жүйе үшін бұл — мүлде бөлек тауарлар.

Бір позиция «Кофе Jacobs Monarch 95 г», «Jacobs Monarch кофе 95гр» және «Монарх Якобс 0,095 кг» болып келуі мүмкін. Мағынасы бір, бірақ жолдар сәйкес келмейді. Егер мұндай деректерді дайындықсыз жүктесеңіз, каталогта дубльдер пайда болады, бағалар шашырайды, ал қалдықтар ұқсас карточкаларға бөлініп кетеді.

Мәселе тек атауда емес. Жеткізушілер бір өрісте өлшем бірліктерін араластырады: кг, гр, g, уп, шт. Біреу салмақты бос орынмен жазады, біреу оны санға жапсырады, біреу граммды килограммға айналдырады. Тіпті тауарларды салыстырудың өзі бұзыла бастайды, өйткені «500 г», «0.5 кг» және «500гр» әртүрлі көрінеді.

Бренд те көбіне бір орында тұрмайды. Бір жолда ол алдына шығады, басқасында мәтіннің ортасына жасырынады, үшіншісінде дәмнен, түстен немесе сериядан кейін соңына кетеді. Егер каталог брендті қалған мәтіннен ажырата алмаса, іздеу мен сүзгілердің мәні тез жоғалады.

Қаптамада одан да көп шатасу бар. Жеткізуші «12x500 мл», «0,5 л х 12», «12 шт по 500 мл» немесе «уп 12 бут 0.5л» деп жаза алады. Сатып алушы үшін бұл үйреншікті жазу. Импорт үшін бұл — бөліктер жиынтығы, мұнда бір дана көлемі нені білдіретіні, қайсысы қораптағы санына қатысты екені, ал қайсысы қаптама түрін сипаттайтыны анық емес.

Баған атаулары да кем өзгермейді. Бүгін бұл «Атауы» және «Бағасы», ертең — «Номенклатура», «Жеткізуші артикулы», «ҚҚС-пен баға», «Өлшем бірлігі». Ертеңіне кейбір өрістер тіпті бір бағанның ішіне жиналып кетеді. Импорт жүйесі қай жерде не жатқанын өзі болжап таба алмайды.

Нәтижесінде каталог бірдей проблемаларды алады: карточка дубльдері, сүзгілер мен іздеудегі қателер, брендтер мен қаптамалар бойынша бұзылған аналитика және әр жүктеуден кейінгі қолмен сұрыптау.

Прайс-листті ешқашан дайын дерек деп санауға болмайды. Бұл — мәні бар, бірақ формасы әр жолы өзгеретін шикі мәтін.

Қандай өрістерді бір қалыпқа келтіру керек

Жеткізушілер бәрін бір жолға жазғанда, каталог тез дубльдерге шашырайды. Файлдан мәтінді жай ғана алып шығу жеткіліксіз. Оны кейін салыстыруға, сүзуге және тексеруге болатын өрістерге бөлу керек.

Алдымен брендті тауардың жалпы атауынан бөліп алыңыз. «Сахар Белый Almaz 1 кг» жолында «сахар» тауар түрін сипаттайды, ал Almaz — бренд. Егер мұны бірге сақтасаңыз, категория бойынша іздеу мен бірдей позицияларды біріктіру шатаса бастайды. Бір жеткізуші брендті басына жазады, екіншісі соңына, үшіншісі оны латын қарпімен қосады.

Кейін өлшем бірліктерінің базалық түрлерін таңдаңыз да, оларды файлдан файлға ауыстырмаңыз. Әдетте қарапайым жинақ жеткілікті: л, мл, кг, г, шт. Мұндағы ең пайдалы ереже мынау: сан бірліктен бөлек сақталады. Сонда «0,5 л», «500 мл» және «0.500 L» бір түрге келтіріліп, бірдей тауар ма, жоқ па деп болжап отырмайсыз.

Минималды өрістер жиыны әдетте былай көрінеді: түзетусіз бастапқы жол, тауардың жалпы атауы, бренд, сандық мән және өлшем бірлігі, қаптамадағы саны. Кейде осының өзі-ақ дубльдерден құтылуға жеткілікті.

Қаптаманы бірден бөлек өрістерге шығарған дұрыс. «Алма шырыны 1 л 12 шт» кемінде екі әртүрлі белгіні қамтиды: бір дананың көлемі және қораптағы дана саны. Егер мұны бір өріске біріктірсеңіз, жүйе 12 қаптамаға қатысты ма, әлде литрге қатысты ма — түсінбей қалады.

Екі деңгейлі дерек ұстаған ыңғайлы. Біріншісі бір тауар бірлігін сипаттайды: 1 л, 500 мл, 250 г. Екіншісі жеткізілім қаптамасын сипаттайды: 6 шт, 12 шт, 24 шт. Бұл сатып алу мен қалдықтардағы қателерді қатты азайтады. Әйтпесе «вода 0,5 л x 12» оңай-ақ 12 литрге немесе 12 бөлек карточкаға айналып кетеді.

Бастапқы жолды әрқашан сақтап қойыңыз. Брендті, бірлікті және қаптаманы бөліп алғанның өзінде, шикі жазба күмәнді жағдайларды тексеру, ережелерді үйрету және сатып алушылардың шағымдарын қарау үшін керек. Нормализация қателессе, қай жерде талдау бұзылғанын дәл сол көрсетеді.

Қысқасы, бір қалыпқа бүкіл тауарды емес, оның бөліктерін келтіру керек. Сонда каталог ұзақ өмір сүреді және қолмен тазалауды аз талап етеді.

Сөздік пен ережені қадамдап қалай жинау керек

Нормализацияға арналған сөздікті есте сақтап жазбайды. Оны жеткізушілер қазір нақты жіберіп отырған свежий файлдардан жинайды. Ескі экспорттар көбіне кедергі ғана: онда енді жоқ брендтер, қаптамалар мен өлшем бірліктері қалады.

Алдымен барлық жеткізушіден соңғы прайс-листтерді алып, бір жұмыс жиынына жинаңыз. Тек кездейсоқ бірнеше жол емес, қалыпты үлгі керек: Excel, CSV, OCR-ден өткен PDF, қосымшасы бар хаттар. Бастапқы жиын неғұрлым кең болса, іске қосылғаннан кейін тосын жағдайлар соғұрлым аз болады.

Сосын өрістерді қарап шығып, шикі түрде кездесетін барлық нұсқаларды тізіп жазыңыз. Ең жылдам бастауға болатын үш топ: өлшем бірліктері, брендтер және қаптамалар. Осы кезеңнің өзінде ең көп шу қай жерде екенін көресіз: «мл», «ml», «мл.», «литр», «л», «L»; «Nestle», «NESTLE», «Нестле»; «12x500 мл», «12 шт по 0,5 л», «уп 12».

Кейін бірдей мәндерді бір тізімге біріктіріп, әр нұсқаға бір канондық мән беріңіз. Егер барлық көлемді миллилитрмен сақтаймын деп шешсеңіз, кейбір жолдарды «ыңғайлы болсын» деп литрде қалдырмаңыз. Егер каталогта бренд «Nestle» болып жазылса, «Нестле» мен «NESTLE» де сол жерге түсуі керек, үш бөлек жазба болып өмір сүрмеуі тиіс.

Даулы жағдайларды бірден түсінікті жағдайлардан бөліп алған жөн. Егер жүйе сенімді болмаса, бір жолды қолмен тексеруге жіберген арзанырақ, ал үнсіз қате бренд немесе қаптама тағайындап қою әлдеқайда қымбат. Бір күмәнді жолдың құны, әдетте, жүз бұзылған карточкадан төмен.

Тағы бір маңызды нәрсе — ережелердің реті. Алдымен жолды тазалаңыз: артық бос орындарды алып тастаңыз, регистрді біріздендіріңіз, сандардағы үтірді нүктеге ауыстырыңыз, қажет болса қызметтік шуды жойыңыз. Содан кейін ғана брендті, бірліктерді және қаптаманы талдаңыз. Кері ретпен жасасаңыз, талдау қоқысқа жабысып, жалған сәйкестіктер береді.

Жақсы сөздікті оңай тануға болады: жаңа файл схеманы бұзбайды, тек кейде бұрыннан түсінікті жүйеге бір-екі жаңа нұсқа қосады.

Өлшем бірліктерін қалай қалыпқа келтіру керек

Алдымен әр өлшем түрі үшін бір базалық форма таңдаңыз да, оны тек тауар атауында емес, деректердің өзінде сақтаңыз. Салмақ үшін әдетте грамм, көлем үшін миллилитр, санау үшін дана қолданылады. Сонда «0,5 кг», «500 гр» және «0.500 kg» бір ғана мәнге — 500 г-ға айналады.

Прайс-листтерді талдау көбіне дәл осы жерде бұзылады. Бір жеткізуші «1 л» деп жазады, екіншісі — «1000мл», үшіншісі — «1,0 литр». Егер бәрін сол күйі қалдырсаңыз, каталогта дубльдер мен сүзгі қателері пайда болады.

Төрт нәрсені бөлек сақтау пайдалы: базалық бірліктегі сандық мән, файлдан келген бастапқы бірлік, бірлік түрі — салмақ, көлем, дана немесе қаптама — және каталогқа арналған қалыпқа келтірілген жазба. Сонда бастапқы мәтін жоғалмайды және күмәнді жағдайларды тексере аласыз.

Салмақ үшін кг мен г-ды бір логикаға келтіріп жіберген дұрыс. Егер тауар «2 кг» болып келсе, жүйе оны 2000 г-ға аударады. Жолда «250гр» немесе «250 гр.» тұрса, нәтиже бәрібір 250 г болады. «гр», «г», «kg», «кг» және «g» сияқты қысқартуларды алдын ала сөздікке жинап қойыңыз.

Көлем үшін де ереже дәл сондай. «1 л», «1л», «1000 мл», «1000ml» және «1.0 l» бәрі бірдей, мысалы 1000 мл болып сақталуы керек. Витринада кейін «1 л» деп көрсетуге болады, бірақ ішкі жүйеде бір сан мен бір базалық бірлік тұрғаны дұрыс.

Ондық сандармен де дауласпау керек. Прайс-листтерде «0,5» те, «0.5» те кездеседі. Егер талдау тек бір нұсқаны оқыса, мәндердің бір бөлігі түсіп қалады. Қарапайым ереже: алдымен үтірді нүктеге ауыстырыңыз, содан кейін санды жол ретінде емес, сандық өрісте сақтаңыз.

Жеке мәселе — «шт» және «уп». Оларды араластырмау керек, тіпті жеткізуші өзі солай жазса да. «12 шт», «1 уп», «упак», «pcs» және «2 уп по 6 шт» әртүрлі мағына білдіреді. Бір жағдайда бұл сату бірлігі, екіншісінде — қаптама, үшіншісінде — қаптаманың құрылымы. Мұның бәрін бір өріске құйсаңыз, кейін не сатылып жатқанын түсіну қиын.

Күмәнді жазбалар үшін қарапайым ереже жұмыс істейді: сату бірлігі мен қаптаманы бөлек сақтаңыз. Сонда «2 уп x 6 pcs» жолы түсінікті құрылымға айналады: 2 қаптама, әрқайсысында 6 данадан. Осындай ұсақ ережелер кейін қолмен тазалауға кететін талай сағатты үнемдейді.

Брендтер мен қаптаманы қалай талдау керек

Деректер Қазақстанда қалады
Егер деректерді ел ішінде сақтау маңызды болса, AI Router модельдерін жергілікті инфрақұрылымда пайдаланыңыз.

Бренд пен қаптама көбіне жеткізуші тауарды өз менеджері үйренгендей жазған жерде бұзылады. Бір жолда «Coca-Cola 12x500 мл», екіншісінде «Кока кола 0,5л х 12», үшіншісінде «ТОО Ромашка / Coca Cola regular 6 по 1 л» болады. Егер бұны бөліп талдамасаңыз, каталог тез-ақ дубльдерге шашырайды.

Брендтер үшін синонимдер мен жиі қателер сөздігінен бастаған дұрыс. Ол тіпті танымал маркалар үшін де керек. Жеткізушілер «Coca-Cola», «Coca Cola», «CocaCola» және жай ғана «Кока-кола» деп жазады. Бұл нұсқалардың бәрі бір қалыпқа келтірілген мәнге түсуі керек, ал бастапқы мәтінді тексеру үшін бөлек сақтаған дұрыс.

Брендтегі заңды формалар көбіне кедергі жасайды. «ООО», «ТОО», «ИП», «LLP» және соған ұқсас бөліктер әдетте құжат бойынша сатушыға немесе өндірушіге қатысты болады, сатып алушы тауар іздегенде емес. Брендті салыстырмас бұрын оларды алып тастаған дұрыс. Әйтпесе «ТОО Apple City» жалған брендке айналып кетуі мүмкін.

Бренд пен өнім желісінің шекарасы қай жерде өтетінін бөлек шешу керек. «Nestle NAN Optipro 3 800 г» жолында бренд «Nestle» де болуы мүмкін, «NAN» да болуы мүмкін — бұл каталог моделіне байланысты. Ал «Optipro 3» серия немесе нұсқа болып қалады. Егер мұндай ереже болмаса, бір ғана өнім желісі каталогта бренд, серия, тіпті модель болып үшке бөлініп кетеді.

Қаптамамен шаблондар арқылы жұмыс істеу жеңіл. «12x500 мл», «6 по 1 л», «4*250 г» және «2 шт x 5 кг» сияқты жазбалар бір нәрсені сипаттайды: қаптамада қанша бірлік бар және әр бірліктің көлемі не салмағы қандай. Бұл бөліктерді бөлек сақтау керек. «12x500 мл» үшін ыңғайлы жазу мынадай: саны — 12, базалық көлем — 500 мл, жалпы көлем — 6000 мл. Жалпы көлемді кейін есептеуге болады, бірақ бастапқы бөліктерді жоғалтпаған жөн.

Мұндай тәсіл іздеу мен салыстыруды қатты жеңілдетеді. Сонда «6 по 1 л» мен «12x500 мл» тек жазылу формасы үшін әртүрлі тауар болып көрінбейді. Егер жолда бренд те, серия да, қаптама да болса, оны ретімен талдаған дұрыс: алдымен қызметтік шуды алып тастаңыз, сосын сөздік бойынша брендті табыңыз, одан кейін серияны бөліп алыңыз да, ең соңында қаптаманы талдаңыз.

Бір тауардың үш файлдағы мысалы

Тек бастапқы жолдарға қарасаңыз, бұл үш бөлек тауар сияқты көрінеді. Бір жеткізуші «BrandX вода 0,5л 12 шт» деп жазады, екіншісі — «Вода Brand X 500 мл уп.12», үшіншісі — «BrandX water 12x0.5 L». Нормализациясыз каталог көбіне үш карточка жасайды, ал сатып алу бөлімі кейін дубльдер мен баға шатасуын алады.

Талдаудың мәні — тауарды жазылу формасынан ажырату. Осы үш жолда сөздердің реті, тіл, брендтегі бос орындар және қаптаманы жазу тәсілі өзгеріп тұр. Ал тауардың өзі біреу-ақ.

Алдымен жүйе брендті бөліп алады. «BrandX» пен «Brand X» бір түрге келтірілуі керек, әйтпесе бренд екі жазбаға бөлініп кетеді. Әдетте бұған жиі жазылатын нұсқалар сөздігі және белгілі атаулар ішіндегі бос орындарды біріктірудің қарапайым ережесі жеткілікті.

Сосын жүйе көлемді бір өлшемге келтіреді. «0,5л», «500 мл» және «0.5 L» бір көлемді — 500 мл-ді — білдіреді. Одан кейін қаптама талданады: «12 шт», «уп.12» және «12x0.5 L» шаблонының бәрі 12 дана, әрқайсысы 500 мл болатын қаптаманы көрсетеді.

Талдаудан кейін не шығады

Нормализациядан кейін карточка енді прайс-листтегі бір жол сияқты емес, өрістер жиыны сияқты көрінеді:

  • бренд: BrandX
  • тауар түрі: су
  • бір дананың көлемі: 500 мл
  • қаптама: 12 шт

Мұндағы «water» жазбасы да кедергі емес. Егер сізде синонимдер сөздігі болса, жүйе «water» мен «вода»-ны бір тауар тобына сәйкестендіреді. Онсыз бір позиция әртүрлі категорияларға оңай кетіп қалады.

Практикада мұндай талдау өте қарапайым тапсырманы шешеді: үш жолдың бәрін бір тауар карточкасына келтіруге болады. Содан кейін сіз жеткізушілердің бағаларын бір позиция бойынша салыстырасыз, ал «Brand X» қай жерде «BrandX»-пен сәйкес келетінін қолмен іздемейсіз.

Командалар көбіне қай жерде қателеседі

Күдікті жазбаларды соқыр түзетпеңіз
Күмәнді жолдарды AI Router арқылы жіберіп, әр сұрау бойынша аудит журналдарын қараңыз.

Көптеген сәтсіздік күрделі жолдардан емес, тым батыл болжамдардан басталады. Команда «Бренд» немесе «Көлем» деген бағанды көріп, ішінде дәл соның бар екеніне сеніп қалады. Іс жүзінде «Көлем» ішіне оңай-ақ «6 шт» түсіп кетуі мүмкін, ал «Комментарий» бағанында қажетті атрибуттардың жартысы жатады. Нақты жолдарды көрмей тұрып, талдау схемасы қате жорамалдарға сүйеніп құрылады.

Тағы бір жиі қате — тауар өлшемін және тасымал қаптамасын шатастыру. «вода 1,5 л x 6» жазбасы 1,5 литрлік бөтелкені және 6 данадан тұратын қорапты сипаттайды, 9 литрлік тауарды емес. Егер жүйе мұның бәрін бір өріске жинаса, каталог тез бұзылады: сүзгілер оғаш қаптамаларды көрсетеді, сатып алу салыстыруға келмейтін позицияларды салыстырады, ал қоймаға артық қораптар түседі.

Нашар әдет — тазалаудан кейін бастапқы мәтінді қайта жазып тастау. Мысалы, «0,5л/12 шт» жолын «500 мл» деп өзгертіп қойдыңыз делік. Сыртынан қарағанда әдемі, бірақ қателік ізі жоғалып кетті: «12 шт» қайда кеткені және неге тауар енді дана сияқты көрінетіні белгісіз. Шикі мәтін, талдау нәтижесі және түзету себебі бір-бірінің орнына емес, қатар өмір сүруі керек.

Күмәнді жолдарды тексеру кезегінсіз автоматты түзету де қымбатқа түседі. Модель не ереже брендті 95% жағдайда дұрыс табуы мүмкін, бірақ қалған 5% көбіне ең жағымсыздары болады. Егер талдауды AI Router сияқты OpenAI-үйлесімді шлюз арқылы LLM жасаса да, ереже өзгермейді: модель сенімі төмен жолды үнсіз түзетпеуі керек.

Қайталанатын қателерден сақтайтын қарапайым минимум бар:

  • бастапқы жолды өзгеріссіз сақтаңыз;
  • тауар бірлігін және қорапты бөлек ұстаңыз;
  • күмәнді талдауларды сенімділік деңгейімен белгілеңіз;
  • күмәнді жолдарды тексеру кезегіне жіберіңіз;
  • әр жүктеу үшін сөздік пен ереженің нұсқасын жазып отырыңыз.

Соңғы мәселе қарапайым көрінеді, бірақ қатты соғады. Команда бренд сөздігін өзгертеді, «гр», «g» және «гр.» үшін жаңа ереже қосады, ал бір аптадан кейін не өзгергенін ешкім есіне түсіре алмай қалады. Нұсқаларсыз қай қадамнан кейін қателер өскенін де, сәтсіз түзетуді қалай кері қайтаруға болатынын да түсіну мүмкін емес.

Файлға соқыр сенбеңіз. Нақты жолдарды қараңыз, әр шешімнің ізін сақтаңыз және күмәнді жағдайды адамға тексерту құқығын қалдырыңыз. Бұл каталогты кейін қолмен жөндегеннен арзанырақ.

Жүктеуге дейінгі жылдам тексеріс

Жүздеген модельді бірден салыстырыңыз
AI Router ішінде жүздеген модельді салыстырып, қайсысы сіздің прайс-листтеріңізде брендтерді, қаптаманы және өлшем бірліктерін жақсырақ талдайтынын көріңіз.

Импорт алдында тек соңғы бағандарға емес, әр жол үшін «бұрын қалай еді» және «қазір қалай болды» деген жұпқа қараған пайдалы. Егер жүйе «12 шт х 0,5 л» жолын жинақы өрістерге айналдырса, адам әр бөліктің қайдан шыққанын тез түсінуі керек. Әйтпесе қателер тауар каталогқа кіріп кеткен кезде ғана байқалады.

Жақсы тексеріс бірнеше минут алады және сәтсіздіктердің көп бөлігін ұстап қалады. Бес нүкте бойынша қарап шығу жеткілікті:

  • бастапқы мәтінді нормаланған нәтиже жанында сақтаңыз;
  • барлық өлшем бірліктерін әртүрлі файлдардағы ережелерде емес, бір анықтамалықта ұстаңыз;
  • брендтерді синонимдер сөздігі арқылы өткізіңіз, сонда «P&G», «Procter and Gamble» және орысша жазылған нұсқа бір мәнге келеді;
  • қаптаманы саны және базалық бірлікке бөлек ажыратыңыз;
  • күмәнді жолдарды таза жолдармен араластырмай, бөлек тізімге жинаңыз.

Көбіне дәл қаптама бұзылады. «6х1.5л», «6 x 1,5 l» және «уп. 6 бут по 1,5 л» жолдары әртүрлі көрінеді, бірақ мағынасы бір. Егер 6 санын және 1,5 л базалық бірлігін бөлек сақтасаңыз, кейін литр бағасын есептеу, тауарларды салыстыру және дубль табу оңайырақ болады.

Бірліктерге де сол ереже жүреді. «кг», «kg», «килограмм», «гр», «g» және басқа нұсқалар үшін бір сөздік шуылдың жартысын алып тастайды. Модельді немесе ережелерді қайта-қайта болжатпаңыз. Оларға сіз бұрын қабылдаған мәндерге келтіруді ғана қалдырыңыз.

Күмәнді жолдар тізімі есеп үшін керек емес. Ол оператордың уақытын үнемдейді. Адам бүкіл файлды қарамайды, тек жүйе күмәнданған 3-7% жолды ашады: брендті таппаған, екі ықтимал қаптама көрген немесе жаңа бірлік кездескен жерді ғана.

Соңғы тексеру экраны жүйе қанша жолды қолмен түзетусіз талдағанын көрсететін қарапайым санды беруі тиіс. Егер кеше бұл 92% болса, бүгін 61% болса, файлды жүктемеген дұрыс. Мұндай белгі ұзын есептен пайдалырақ, өйткені не өзгергенін бірден көрсетеді: ережелер ме, сөздік пе, әлде жеткізуші форматы ма.

Бірінші іске қосудан кейін не істеу керек

Бірінші прогоннан кейін бүкіл каталогты бірден қамтуға тырыспаңыз. Тақырыпты тарылтқан дұрыс: бір тауар санатын және ең жиі кездесетін 1000 жолды алыңыз. Сонда жүйе қай жерде жақсы істейтінін, ал қай жерде брендті, бірлікті және қаптаманы шатастыратынын тез көресіз.

Мұндай бастау шынайы сурет береді. Егер осы 1000 жолда қолмен түзетулер көп болса, қалған файлдарда қателер одан да көп болады. Егер жиі кездесетін позициялар анық талданса, артық шудысыз әрі қарай жүруге болады.

Аптасына бір рет жүктемелерден кейін жиналған барлық жаңа белгісіз нұсқаларды қарап шыққан пайдалы. Мұны бір айға қалдырмаңыз. Бір апта ішінде тізім әдетте әлі қысқа болады және команда жаңа жазбалар қайдан шыққанын түсінеді: жаңа жеткізуші ме, түсініксіз қысқарту ма, атаудағы артық мәтін бе, әлде басқа қаптама ма.

Бұл жерде қарапайым цикл көмектеседі: талдаудан өтпеген немесе сенімділігі төмен жолдарды жинау, оларды қате түрі бойынша топтау, жаңа ережелер мен синонимдер қосу, содан кейін тек проблемалы жиынды қайта прогоннан өткізу. Осыдан кейін дубльдер саны өспегенін тексеру керек.

Ең лас жолдарда екі тәсілді салыстырған жөн: ережелер мен LLM. Ережелер түсінікті шаблондарда жақсы жұмыс істейді, ал модель «Сахар белый меш 25кг ГОСТ» немесе «Coca Cola ж/б 0,33 x12» сияқты ретсіз атаулардан мәнді жақсырақ шығарады. Практикада сирек біреуі ғана жеңеді. Көбіне жақсы нәтиже былай шығады: алдымен қарапайым ережелер, содан кейін күрделі жағдайларға модель.

Метрикаларды алғашқы күннен сақтаған дұрыс, процесс әлі шикі болса да. Минималды жиын мынадай: талдаудан кейінгі қателер үлесі, қолмен түзетулер үлесі, нормализациядан кейінгі дубльдер саны және жүйе талдай алмаған жолдар үлесі. Егер екі аптадан кейін бұл сандар төмендемесе, мәселе әдетте дерек көлемінде емес, әлсіз ережелерде немесе сирек форматтардың нашар талдануында.

Егер команда бірнеше модельді тексерсе, бір OpenAI-үйлесімді API арқылы бірдей жолдар жиынын өткізіп, нәтижені журналдар бойынша салыстырған ыңғайлы. Мысалы, AI Router бір endpoint арқылы әртүрлі модельдерді сынауға және таныс SDK мен кодты өзгертпей аудит журналдарын жүргізуге мүмкіндік береді. Бұл бірдей жиында сапаны салыстыру керек болғанда, сезімге сүйеніп дауласпауға көмектеседі.

Жиі қойылатын сұрақтар

Прайс-листтерді каталогқа сол күйі жүктей салуға бола ма?

Жоқ. Алдымен атауды, брендті, бірліктерді және қаптаманы бір қалыпқа келтіріңіз. Әйтпесе каталогта дубльдер пайда болады, бағалар әр жаққа кетеді, ал қалдықтар ұқсас карточкаларға бөлініп кетеді.

Алдымен қандай өрістерді бөліп алған дұрыс?

Әдетте бастапқы жол, тауардың жалпы атауы, бренд, сан мен өлшем бірлігі, сондай-ақ қаптамадағы саны жеткілікті. Осындай жинақтың өзі бірдей позицияларды біріктіруге және импорттағы қателерді ұстауға көмектеседі.

Салмақ пен көлемді қандай бірліктерге ауыстырған дұрыс?

Салмақ үшін граммды, көлем үшін миллилитрді, санау үшін дана санын сақтаған ыңғайлы. Сонда 0,5 кг, 500 г және 0.500 kg бір мәнге айналады да, салыстыру артық шарттарсыз жұмыс істейді.

Нормализациядан кейін бастапқы жолды неге сақтау керек?

Ол күмәнді жағдайларды тексеру үшін керек. Егер ереже қате жіберсе, жеткізушіден не келгенін және талдау қай жерде бұрылғанын бірден көресіз.

Тауар көлемін және тасымал қаптамасын қалай шатастырмауға болады?

Оларды бірден бөлу керек. Тауардың өз салмағы немесе көлемі болады, ал жеткізілімнің қораптағы не қаптамадағы саны болады. 1,5 л x 6 сияқты жол үшін бұл бір 1,5 литрлік бөтелке және 6 данадан тұратын қорап деген сөз, 9 литрлік тауар емес.

Жүйе сенімсіз талдаған жолдармен не істеу керек?

Ондай жолдарды үнсіз түзетпеңіз. Күмәнді жолдарды сенімділік деңгейімен белгілеп, бөлек тексеру кезегіне жіберіңіз. Сонда бірнеше күрделі жазбаны қолмен түзетіп, жүздеген карточканы бұзбайсыз.

Брендтерге бөлек сөздік керек пе?

Иә, онсыз брендтер тез-ақ Nestle, NESTLE және Нестле сияқты нұсқаларға бөлініп кетеді. Сөздікке синонимдерді, жиі қателерді қосып, егер іздеуге кедергі болса, ТОО немесе ООО сияқты заңды формаларды алып тастаған дұрыс.

Қай кезде ережелерді, қай кезде LLM-ді қолданған дұрыс?

Алдымен ережелерден бастаңыз. Олар 12x500 мл немесе 250 гр сияқты түсінікті шаблондарды жақсы талдайды. Модельді атаулар лас болып, сөздердің реті құбылған жерде қосыңыз. Егер модель күмәнданса, жолды каталогқа емес, адамға беріңіз.

Жүктемес бұрын талдау сапасын қалай тез тексеруге болады?

Қалай болды және қалай болды жұптарын жолдар үлгісінде қарап шығыңыз. Егер жүйе файлды әдеттегіден нашар талдаса, импортты тоқтатып, сөздікті, ережелерді немесе жеткізушінің жаңа пішімін тексерген дұрыс.

Бірінші іске қосудан кейін неден бастау керек?

Бүкіл каталогтан бастамаңыз. Бір категория мен жиі кездесетін жолдардан бастаған жеңіл. Содан кейін апта сайын жаңа белгісіз нұсқаларды қарап отырыңыз. Қатарында қолмен түзетулердің, дубльдердің және талданбаған жолдардың үлесін есептеп жүріңіз — сол сандар жақсару бар-жоғын көрсетеді.