Дослідження ефективності роботи алгоритмів стиснення на різних типах даних
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: Магістерська робота виконана на 120 сторінках, містить 46 рисунків, 10 таблиць, 5 додатків та 35 використаних джерел. У магістерській роботі було розглянуто та реалізовано набір сучасних алгоритмів безвтратного стиснення даних, зокрема DEFLATE, Brotli, LZ4, Zstandard, LZMA та Snappy, а також техніки попередньої обробки даних (delta-кодування, бітове пакування, транспонування). Дослідження проводилось на різних типах даних: цілих і дійсних числах, булевих масивах, рядках, часових рядах та розріджених послідовностях. У межах роботи було розроблено програмну дослідницьку платформу мовою C#, яка забезпечує генерацію синтетичних наборів даних, бенчмаркінг алгоритмів та візуалізацію результатів у вигляді графіків і теплових карт. Проведено порівняльний аналіз ефективності алгоритмів за показниками коефіцієнта стиснення, швидкості роботи та економії обчислювальних ресурсів. На основі статистичних характеристик даних (ентропія, автокореляція, розрідженість) побудовано адаптивну систему передбачення, використання та ефективність такого підходу також досліджувались у ході роботи. У результаті дослідження визначено найбільш ефективні стратегії стиснення для різних типів даних та встановлено, що комбінований адаптивний підхід дозволяє суттєво підвищити коефіцієнт стиснення та зменшити витрати ресурсів без втрат інформації.
ENG: The master’s thesis comprises 120 pages and includes 46 figures, 10 tables, 5 appendices, and 35 references. In the master’s thesis, a set of modern lossless data compression algorithms was studied and implemented, including DEFLATE, Brotli, LZ4, Zstandard, LZMA, and Snappy, as well as data preprocessing techniques such as delta encoding, bit packing, and transposition. The research was conducted on various data types: integers and real numbers, boolean arrays, strings, time series, and sparse sequences. Within the scope of the work, a research software platform was developed in C#, which provides synthetic data generation, algorithm benchmarking, and visualization of results in the form of graphs and heat maps. A comparative analysis of algorithm efficiency was carried out using compression ratio, processing speed, and computational resource savings as evaluation metrics. Based on statistical characteristics of the data (entropy, autocorrelation, sparsity), an adaptive prediction system was developed, and the use and effectiveness of this approach were also investigated during the study. As a result of the research, the most effective compression strategies for different data types were identified, and it was established that a combined adaptive approach makes it possible to significantly increase the compression ratio and reduce resource consumption without information loss.