Створення датасету на основі подій класифікованих системою виявлення мережевих вторгнень

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Український державний університет науки і технологій, ННІ ≪ Дніпровський металургійний інститут ≫, ІВК ≪Системні технології≫, Дніпро

Abstract

UKR: У статті представлено підхід до формування датасету для навчання моделей машинного навчання в контексті мережевої системи виявлення вторгнень Snort 3. На відміну від класичних датасетів, запропонований набір даних будується на основі нормалізованих байтових буферів інспектора та легкої телеметрії пакета, доступних під час онлайн-обробки трафіку. Ground truth задається контрольованим походженням трафіку (attack/benign PCAP), тоді як спрацювання правил Snort розглядаються як “teacher”-сигнал для подальшої побудови ризик-скорингу. Датасет сформовано для Fast Pattern-групи SIP/2.0 і містить десятки тисяч подій зі стандартизованим поділом на train/validation/test. Додатково виконано аналіз інформативності байтових позицій (на основі дивергенції Jensen–Shannon та ентропії) і кореляційний аналіз телеметрії, що підтверджує наявність локалізованого дискримінативного сигналу та відсутність тривіальних витоків через padding. Отриманий датасет може слугувати основою для нейромережевих моделей реального часу, які доповнюють сигнатурну детекцію оцінкою ризику.


ENG: This paper presents an approach to building a dataset for training machine-learning models in the context of the Snort 3 network intrusion detection system. Unlike conventional NIDS datasets, the proposed dataset is constructed from normalized inspector byte buffers and lightweight packet telemetry that are available during real-time traffic processing. Ground truth is defined by the controlled origin of traffic (attack/benign PCAP), while Snort rule triggers are treated as a “teacher” signal to support subsequent risk-scoring models. The dataset is generated for the SIP/2.0 Fast Pattern group and contains tens of thousands of events with a standardized train/validation/test split. In addition, we analyze byte-position informativeness using Jensen–Shannon divergence and entropy, and perform correlation analysis of telemetry features. The results indicate that the discriminative signal is largely localized in the early parts of the message (header and initial payload) and that padding does not introduce trivial information leakage between classes. The resulting dataset can serve as a foundation for real-time neural models that complement signature-based detection with probabilistic risk assessment.

Description

В. Горбатов: ORCID 0009-0000-9061-8207; А. Журба: ORCID 0000-0002-4367-385X

Citation

Горбатов В. С., Журба А. О. Створення датасету на основі подій класифікованих системою виявлення мережевих вторгнень. Системні технології. Дніпро, 2026. Т. 3, № 164. С. 14–35. DOI: https://doi.org/10.34185/1562-9945-3-164-2026-02.

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license

Except where otherwised noted, this item's license is described as Creative Commons Attribution 4.0 International License