Створення датасету на основі подій класифікованих системою виявлення мережевих вторгнень

dc.contributor.authorГорбатов, Віталій Сергійовичuk_UA
dc.contributor.authorЖурба, Анна Олексіївнаuk_UA
dc.date.accessioned2026-05-07T10:48:50Z
dc.date.issued2026
dc.descriptionВ. Горбатов: ORCID 0009-0000-9061-8207; А. Журба: ORCID 0000-0002-4367-385Xuk_UA
dc.description.abstractUKR: У статті представлено підхід до формування датасету для навчання моделей машинного навчання в контексті мережевої системи виявлення вторгнень Snort 3. На відміну від класичних датасетів, запропонований набір даних будується на основі нормалізованих байтових буферів інспектора та легкої телеметрії пакета, доступних під час онлайн-обробки трафіку. Ground truth задається контрольованим походженням трафіку (attack/benign PCAP), тоді як спрацювання правил Snort розглядаються як “teacher”-сигнал для подальшої побудови ризик-скорингу. Датасет сформовано для Fast Pattern-групи SIP/2.0 і містить десятки тисяч подій зі стандартизованим поділом на train/validation/test. Додатково виконано аналіз інформативності байтових позицій (на основі дивергенції Jensen–Shannon та ентропії) і кореляційний аналіз телеметрії, що підтверджує наявність локалізованого дискримінативного сигналу та відсутність тривіальних витоків через padding. Отриманий датасет може слугувати основою для нейромережевих моделей реального часу, які доповнюють сигнатурну детекцію оцінкою ризику.uk_UA
dc.description.abstractENG: This paper presents an approach to building a dataset for training machine-learning models in the context of the Snort 3 network intrusion detection system. Unlike conventional NIDS datasets, the proposed dataset is constructed from normalized inspector byte buffers and lightweight packet telemetry that are available during real-time traffic processing. Ground truth is defined by the controlled origin of traffic (attack/benign PCAP), while Snort rule triggers are treated as a “teacher” signal to support subsequent risk-scoring models. The dataset is generated for the SIP/2.0 Fast Pattern group and contains tens of thousands of events with a standardized train/validation/test split. In addition, we analyze byte-position informativeness using Jensen–Shannon divergence and entropy, and perform correlation analysis of telemetry features. The results indicate that the discriminative signal is largely localized in the early parts of the message (header and initial payload) and that padding does not introduce trivial information leakage between classes. The resulting dataset can serve as a foundation for real-time neural models that complement signature-based detection with probabilistic risk assessment.en
dc.identifier.citationГорбатов В. С., Журба А. О. Створення датасету на основі подій класифікованих системою виявлення мережевих вторгнень. Системні технології. Дніпро, 2026. Т. 3, № 164. С. 14–35. DOI: https://doi.org/10.34185/1562-9945-3-164-2026-02.uk_UA
dc.identifier.doihttps://doi.org/10.34185/1562-9945-3-164-2026-02en
dc.identifier.issn1562-9945 (Print)
dc.identifier.issn2707-7977 (Online)
dc.identifier.urihttps://journals.nmetau.edu.ua/index.php/st/article/view/2314en
dc.identifier.urihttps://crust.ust.edu.ua/handle/123456789/22186en
dc.language.isouk
dc.publisherУкраїнський державний університет науки і технологій, ННІ ≪ Дніпровський металургійний інститут ≫, ІВК ≪Системні технології≫, Дніпроuk_UA
dc.rightsCreative Commons Attribution 4.0 International Licenseen
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/en
dc.subjectдатасетuk_UA
dc.subjectбайтові даніuk_UA
dc.subjectтелеметрія пакетаuk_UA
dc.subjectентропіяuk_UA
dc.subjectнейронні мережі реального часуuk_UA
dc.subjectprecision/recallen
dc.subjectSnort 3en
dc.subjectNIDSen
dc.subjectdataseten
dc.subjectSIP/2.0en
dc.subjectFast Patternen
dc.subjectbyte-level featuresen
dc.subjectpacket telemetryen
dc.subjectentropyen
dc.subjectrisk scoringen
dc.subjectreal-time neural networksen
dc.subjectКІТСuk_UA
dc.subject.classificationTECHNOLOGYen
dc.subject.classificationTECHNOLOGY::Information technologyen
dc.titleСтворення датасету на основі подій класифікованих системою виявлення мережевих вторгненьuk_UA
dc.title.alternativeTowards Creating a Dataset Based on Events Classified by a Network Intrusion Detection Systemen
dc.typeArticleen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Gorbatov.pdf
Size:
1.01 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: