Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства

Носов, Валерій Олександрович; Островська, Катерина Юріївна

doi:https://doi.org/10.34185/1562-9945-3-164-2026-03

Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства

dc.contributor.author	Носов, Валерій Олександрович	uk_UA
dc.contributor.author	Островська, Катерина Юріївна	uk_UA
dc.date.accessioned	2026-05-07T10:21:09Z
dc.date.issued	2026
dc.description	В. Носов: ORCID 0009-0003-5841-8995; К. Островська: ORCID 0000-0002-9375-4121	uk_UA
dc.description.abstract	UKR: У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Credit Card Transactions Fraud Detection Dataset, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3.04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.	uk_UA
dc.description.abstract	ENG: The study addresses the problem of preparing training data for machine learning-based fraud detection systems in e-commerce transactions. Due to the strict confidentiality of real transaction data, researchers often rely on publicly available datasets that typically suffer from limited attribute schemas, anonymized features, and a focus on specific national markets. An analysis of existing open datasets revealed the necessity of creating a specialized dataset, as none of the available sources provide a sufficient combination of realistic fraud labels, semantic transparency of features, and domain-specific attributes required for training a multi-component fraud detection system. An automated pipeline for integrating three open Kaggle datasets (IEEE-CIS, Credit Card Transactions Fraud Detection Dataset, Fraudulent E-Commerce) is proposed. The pipeline preserves authentic fraud labels and original transaction amounts while enriching records with synthetic attributes adapted to the specifics of the Ukrainian payment market. The methods developed include: uniform normalization of timestamps based on quantile rank transformation to eliminate dataset shift artifacts while preserving intra-day patterns, synthetic generation of authentication attributes according to the EMV 3D-Secure 2.0 standard with payment network distributions based on National Bank of Ukraine statistics, formation of aggregated client behavioral profiles, and generation of “entity-IP” pairs for IP Insights model training. Both auxiliary datasets are derived exclusively from the training subset to prevent data leakage. The resulting dataset comprises 500000 transactions spanning 24 months with a fraud rate of 3.04%, designed for training a model pipeline that includes LightGBM, an autoencoder, and IP Insights. The chronological split simulates real-world deployment conditions where models are trained on historical events and evaluated on future ones.	en
dc.identifier.citation	Носов В. О., Островська К. Ю. Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства. Системні технології. Дніпро, 2026. Т. 3, № 164. С. 36–47. DOI: https://doi.org/10.34185/1562-9945-3-164-2026-03.	uk_UA
dc.identifier.doi	https://doi.org/10.34185/1562-9945-3-164-2026-03	en
dc.identifier.issn	1562-9945 (Print)
dc.identifier.issn	2707-7977 (Online)
dc.identifier.uri	https://journals.nmetau.edu.ua/index.php/st/article/view/2315	en
dc.identifier.uri	https://crust.ust.edu.ua/handle/123456789/22185	en
dc.language.iso	uk
dc.publisher	Український державний університет науки і технологій, ННІ ≪ Дніпровський металургійний інститут ≫, ІВК ≪Системні технології≫, Дніпро	uk_UA
dc.rights	Creative Commons Attribution 4.0 International License	en
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/	en
dc.subject	датасет	uk_UA
dc.subject	машинне навчання	uk_UA
dc.subject	транзакція	uk_UA
dc.subject	електронна комерція	uk_UA
dc.subject	LightGBM	en
dc.subject	автоенкодер	uk_UA
dc.subject	синтетичні дані	uk_UA
dc.subject	dataset	en
dc.subject	machine learning	en
dc.subject	transaction	en
dc.subject	e-commerce	en
dc.subject	autoencoder	en
dc.subject	IP Insights	en
dc.subject	EMV 3D-Secure	en
dc.subject	fraud detection	en
dc.subject	synthetic data	en
dc.subject	КІТС	uk_UA
dc.subject.classification	TECHNOLOGY	en
dc.subject.classification	TECHNOLOGY::Information technology	en
dc.title	Автоматизований конвеєр формування датасету для навчання моделей виявлення шахрайства	uk_UA
dc.title.alternative	Automated Pipeline for Building a Fraud Detection Training Dataset	en
dc.type	Article	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Nosov.pdf
Size:: 922.68 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Том 3 № 164 (СТ ДМетІ)
Статті КІТС (ДМетІ)