Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції

Носов, Валерій Олександрович; Островська, Катерина Юріївна

doi:https://doi.org/10.34185/1991-7848.itmm.2026.01.084

Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції

dc.contributor.author	Носов, Валерій Олександрович	uk_UA
dc.contributor.author	Островська, Катерина Юріївна	uk_UA
dc.date.accessioned	2026-06-16T14:02:09Z
dc.date.issued	2026
dc.description	В. Носов: ORCID 0009-0003-5841-8995; К. Островська: ORCID 0000-0002-9375-4121	uk_UA
dc.description.abstract	UKR: У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Sparkov, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3,04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.	uk_UA
dc.description.abstract	ENG: This study addresses the problem of preparing training data for machine learning-based fraud detection systems in e-commerce transactions. Based on the analysis of existing open sources, the necessity of creating a specialized dataset is justified. An automated pipeline is proposed for merging three open datasets from the Kaggle platform (IEEE-CIS, Sparkov, Fraudulent E-Commerce), preserving real fraud labels and enriching records with synthetic attributes adapted to the specifics of the Ukrainian payment market. Methods for the uniform normalization of timestamps, generation of authentication data, partitioning by payment systems, and the formation of aggregated customer profiles and pairs for training the IP Insights model have been developed. The result is a dataset comprising 500,000 transactions over a 24-month period with a fraud rate of 3.04%, designed to train a model pipeline that includes LightGBM, an autoencoder, and IP Insights.	en
dc.identifier.citation	Носов В. О., Островська К. Ю. Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції. Інформаційні технології в металургії та машинобудуванні – ІТММ’2026 : тези доп. Міжнародної наук.-техн. конф. (м. Дніпро, 21-23 березня 2026 р.). Дніпро, 2026. C. 469–473. DOI: https://doi.org/10.34185/1991-7848.itmm.2026.01.084.	uk_UA
dc.identifier.doi	https://doi.org/10.34185/1991-7848.itmm.2026.01.084	en
dc.identifier.issn	2708-0102 (Online)
dc.identifier.uri	https://journals.nmetau.edu.ua/index.php/itmm/uk/article/view/2468	en
dc.identifier.uri	https://crust.ust.edu.ua/handle/123456789/22405	en
dc.language.iso	uk
dc.publisher	Український державний університет науки і технологій, ІВК «Системні технології», Дніпро	uk_UA
dc.rights	Creative Commons Attribution 4.0 International License	en
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/	en
dc.subject	датасет	uk_UA
dc.subject	машинне навчання	uk_UA
dc.subject	транзакція	uk_UA
dc.subject	електронна комерція	uk_UA
dc.subject	автоенкодер	uk_UA
dc.subject	dataset
dc.subject	machine learning
dc.subject	transaction
dc.subject	e-commerce
dc.subject	LightGBM
dc.subject	autoencoder
dc.subject	IP Insights
dc.subject	КІТС	uk_UA
dc.subject.classification	TECHNOLOGY	en
dc.subject.classification	TECHNOLOGY::Information technology	en
dc.title	Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції	uk_UA
dc.title.alternative	Methodology of Dataset Preparation for Training E-Commerce Fraud Detection Models	en
dc.type	Thesis	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Nosov.pdf
Size:: 308.43 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 159 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Міжнародна науково-технічна конференція «Інформаційні технології в металургії та машинобудуванні. ІТММ'26»
Інші праці КІТС (ДМетІ)