Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства

dc.contributor.authorНосов, Валерій Олександровичuk_UA
dc.contributor.authorОстровська, Катерина Юріївнаuk_UA
dc.date.accessioned2026-05-07T10:21:09Z
dc.date.issued2026
dc.descriptionВ. Носов: ORCID 0009-0003-5841-8995; К. Островська: ORCID 0000-0002-9375-4121uk_UA
dc.description.abstractUKR: У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Credit Card Transactions Fraud Detection Dataset, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3.04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.uk_UA
dc.description.abstractENG: The study addresses the problem of preparing training data for machine learning-based fraud detection systems in e-commerce transactions. Due to the strict confidentiality of real transaction data, researchers often rely on publicly available datasets that typically suffer from limited attribute schemas, anonymized features, and a focus on specific national markets. An analysis of existing open datasets revealed the necessity of creating a specialized dataset, as none of the available sources provide a sufficient combination of realistic fraud labels, semantic transparency of features, and domain-specific attributes required for training a multi-component fraud detection system. An automated pipeline for integrating three open Kaggle datasets (IEEE-CIS, Credit Card Transactions Fraud Detection Dataset, Fraudulent E-Commerce) is proposed. The pipeline preserves authentic fraud labels and original transaction amounts while enriching records with synthetic attributes adapted to the specifics of the Ukrainian payment market. The methods developed include: uniform normalization of timestamps based on quantile rank transformation to eliminate dataset shift artifacts while preserving intra-day patterns, synthetic generation of authentication attributes according to the EMV 3D-Secure 2.0 standard with payment network distributions based on National Bank of Ukraine statistics, formation of aggregated client behavioral profiles, and generation of “entity-IP” pairs for IP Insights model training. Both auxiliary datasets are derived exclusively from the training subset to prevent data leakage. The resulting dataset comprises 500000 transactions spanning 24 months with a fraud rate of 3.04%, designed for training a model pipeline that includes LightGBM, an autoencoder, and IP Insights. The chronological split simulates real-world deployment conditions where models are trained on historical events and evaluated on future ones.en
dc.identifier.citationНосов В. О., Островська К. Ю. Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства. Системні технології. Дніпро, 2026. Т. 3, № 164. С. 36–47. DOI: https://doi.org/10.34185/1562-9945-3-164-2026-03.uk_UA
dc.identifier.doihttps://doi.org/10.34185/1562-9945-3-164-2026-03en
dc.identifier.issn1562-9945 (Print)
dc.identifier.issn2707-7977 (Online)
dc.identifier.urihttps://journals.nmetau.edu.ua/index.php/st/article/view/2315en
dc.identifier.urihttps://crust.ust.edu.ua/handle/123456789/22185en
dc.language.isouk
dc.publisherУкраїнський державний університет науки і технологій, ННІ ≪ Дніпровський металургійний інститут ≫, ІВК ≪Системні технології≫, Дніпроuk_UA
dc.rightsCreative Commons Attribution 4.0 International Licenseen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subjectдатасетuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectтранзакціяuk_UA
dc.subjectелектронна комерціяuk_UA
dc.subjectLightGBMen
dc.subjectавтоенкодерuk_UA
dc.subjectсинтетичні даніuk_UA
dc.subjectdataseten
dc.subjectmachine learningen
dc.subjecttransactionen
dc.subjecte-commerceen
dc.subjectautoencoderen
dc.subjectIP Insightsen
dc.subjectEMV 3D-Secureen
dc.subjectfraud detectionen
dc.subjectsynthetic dataen
dc.subjectКІТСuk_UA
dc.subject.classificationTECHNOLOGYen
dc.subject.classificationTECHNOLOGY::Information technologyen
dc.titleАвтоматизований конвеєр формування датасету для навчання моделей виявлення шахрайстваuk_UA
dc.title.alternativeAutomated Pipeline for Building a Fraud Detection Training Dataseten
dc.typeArticleen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Nosov.pdf
Size:
922.68 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: