Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції

dc.contributor.authorНосов, Валерій Олександровичuk_UA
dc.contributor.authorОстровська, Катерина Юріївнаuk_UA
dc.date.accessioned2026-06-16T14:02:09Z
dc.date.issued2026
dc.descriptionВ. Носов: ORCID 0009-0003-5841-8995; К. Островська: ORCID 0000-0002-9375-4121uk_UA
dc.description.abstractUKR: У дослідженні розглянуто проблему підготовки тренувальних даних для систем виявлення шахрайства в транзакціях електронної комерції на основі методів машинного навчання. За результатами аналізу існуючих відкритих джерел обґрунтовано необхідність створення спеціалізованого набору даних. Запропоновано автоматизований конвеєр об’єднання трьох відкритих наборів даних з платформи Kaggle (IEEE-CIS, Sparkov, Fraudulent E-Commerce) зі збереженням реальних міток шахрайства та збагаченням записів синтетичними атрибутами, адаптованими до специфіки українського платіжного ринку. Опрацьовано методи рівномірної нормалізації часових міток, генерації автентифікаційних даних та розбиття на платіжні системи, формування агрегованих профілів клієнтів та пар для навчання моделі IP Insights. Результатом є набір із 500000 транзакцій за 24 місяці з рівнем шахрайства 3,04%, призначений для навчання конвеєра моделей, до яких входять LightGBM, автоенкодер та IP Insights.uk_UA
dc.description.abstractENG: This study addresses the problem of preparing training data for machine learning-based fraud detection systems in e-commerce transactions. Based on the analysis of existing open sources, the necessity of creating a specialized dataset is justified. An automated pipeline is proposed for merging three open datasets from the Kaggle platform (IEEE-CIS, Sparkov, Fraudulent E-Commerce), preserving real fraud labels and enriching records with synthetic attributes adapted to the specifics of the Ukrainian payment market. Methods for the uniform normalization of timestamps, generation of authentication data, partitioning by payment systems, and the formation of aggregated customer profiles and pairs for training the IP Insights model have been developed. The result is a dataset comprising 500,000 transactions over a 24-month period with a fraud rate of 3.04%, designed to train a model pipeline that includes LightGBM, an autoencoder, and IP Insights.en
dc.identifier.citationНосов В. О., Островська К. Ю. Методологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерції. Інформаційні технології в металургії та машинобудуванні – ІТММ’2026 : тези доп. Міжнародної наук.-техн. конф. (м. Дніпро, 21-23 березня 2026 р.). Дніпро, 2026. C. 469–473. DOI: https://doi.org/10.34185/1991-7848.itmm.2026.01.084.uk_UA
dc.identifier.doihttps://doi.org/10.34185/1991-7848.itmm.2026.01.084en
dc.identifier.issn2708-0102 (Online)
dc.identifier.urihttps://journals.nmetau.edu.ua/index.php/itmm/uk/article/view/2468en
dc.identifier.urihttps://crust.ust.edu.ua/handle/123456789/22405en
dc.language.isouk
dc.publisherУкраїнський державний університет науки і технологій, ІВК «Системні технології», Дніпроuk_UA
dc.rightsCreative Commons Attribution 4.0 International Licenseen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subjectдатасетuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectтранзакціяuk_UA
dc.subjectелектронна комерціяuk_UA
dc.subjectавтоенкодерuk_UA
dc.subjectdataset
dc.subjectmachine learning
dc.subjecttransaction
dc.subjecte-commerce
dc.subjectLightGBM
dc.subjectautoencoder
dc.subjectIP Insights
dc.subjectКІТСuk_UA
dc.subject.classificationTECHNOLOGYen
dc.subject.classificationTECHNOLOGY::Information technologyen
dc.titleМетодологія підготовки датасету для навчання моделей виявлення шахрайства в електронній комерціїuk_UA
dc.title.alternativeMethodology of Dataset Preparation for Training E-Commerce Fraud Detection Modelsen
dc.typeThesisen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Nosov.pdf
Size:
308.43 KB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
159 B
Format:
Item-specific license agreed upon to submission
Description: