Дослідження оптимізації пам’яті в роботі з великими наборами даних засобами Python
| dc.contributor.author | Ковальчук, Руслан Русланович | uk_UA |
| dc.date.accessioned | 2026-03-24T12:17:20Z | |
| dc.date.issued | 2026 | |
| dc.description | НАУКОВИЙ КЕРІВНИК: Клименко Іван Вікторович | uk_UA |
| dc.description.abstract | UKR: Кваліфікаційна робота: 136 с., 16 рис., 62 джерела. Об’єкт дослідження: процес обробки великих наборів даних засобами мови програмування Python за умов обмеженого обсягу оперативної пам’яті. Предмет дослідження: методи та інструменти оптимізації споживання оперативної пам’яті при роботі з великими наборами даних у Python (обсягом від кількох гігабайт до терабайт), включаючи бібліотеки Pandas, Dask, Vaex, Polars та техніки chunking, downcasting, стиснення і паралельну обробку. Мета дослідження: розробити та експериментально обґрунтувати комплекс рекомендацій щодо ефективної обробки великих наборів даних у Python з мінімальним використанням оперативної пам’яті без виникнення помилок типу MemoryError. Методи дослідження: теоретичні – огляд і порівняльний аналіз науково-технічної літератури, систематизація сучасних підходів; практичні – експериментальне тестування на реальних (наприклад, NYC Taxi) та синтетичних датасетах, використання бібліотек Pandas, Dask, Vaex, Polars, NumPy; моніторинг споживання пам’яті (psutil), вимірювання часу виконання (timeit), візуалізація результатів (Matplotlib, Seaborn). Теоретичне значення роботи полягає у систематизації та порівняльній характеристиці сучасних бібліотек і технік оптимізації пам’яті в Python, що розширює уявлення про можливості out-of-core обчислень та паралельної обробки даних у data science. Практичне значення роботи полягає у розробці чітких, готових до впровадження рекомендацій і прикладів коду, які дозволяють зменшити споживання RAM на 30–90 % та прискорити обробку в 2–10 разів залежно від типу даних і обраного інструменту. Галузь використання: data science, бізнес-аналітика, машинне навчання, обробка логів, фінансові системи, IoT-аналітика, наукові обчислення – будь-які проєкти, де обсяг даних перевищує доступну оперативну пам’ять. | uk_UA |
| dc.description.abstract | ENG: The qualification work consists of an introduction, 4 sections, findings, a list of references The qualification work volume is 136 pages long. There are 16 illustrations. Object of research: the process of handling large-scale datasets using Python under limited RAM conditions. Subject of research: methods and tools for optimizing memory consumption when processing large datasets in Python (ranging from several gigabytes to terabytes), including libraries Pandas, Dask, Vaex, Polars, and techniques such as chunking, downcasting, compression, and parallel processing. Purpose of research: to develop and experimentally validate a comprehensive set of recommendations for efficient processing of large datasets in Python with minimal RAM usage while avoiding MemoryError exceptions. Research methods: literature review, comparative analysis, systematization of modern approaches, experimental testing on real-world (e.g., NYC Taxi) and synthetic datasets, implementation using Pandas, Dask, Vaex, Polars, NumPy; memory monitoring (psutil), execution time measurement (timeit), result visualization (Matplotlib, Seaborn). The theoretical significance of the work lies in systematization and comparative evaluation of modern Python libraries and memory optimization techniques, expanding understanding of out-of-core computing and parallel data processing in data science. The practical significance of the work lies in the development of ready-to-use recommendations and code examples that reduce RAM usage by 30–90 % and accelerate processing 2–10 times depending on data type and selected tool. Field of application: data science, business intelligence, machine learning, log processing, financial systems, IoT analytics, scientific computing — any project where data volume exceeds available RAM. | en |
| dc.identifier.citation | Ковальчук, Р. Р. Дослідження оптимізації пам’яті в роботі з великими наборами даних засобами Python : дипломна робота на здобуття кваліфікаційного ступеня магістра: спец. 121 – Інженерія програмного забезпечення / наук. керівник І. В. Клименко ; Укр. держ. ун-т науки і технологій. Дніпро, 2026. 136 с. | uk_UA |
| dc.identifier.uri | https://crust.ust.edu.ua/handle/123456789/21915 | |
| dc.language.iso | uk | |
| dc.publisher | Український державний університет науки і технологій, Дніпро | uk_UA |
| dc.subject | магістерська робота | uk_UA |
| dc.subject | оптимізація пам’яті | uk_UA |
| dc.subject | великі набори даних | uk_UA |
| dc.subject | out-of-core обчислення | en |
| dc.subject | dask | en |
| dc.subject | vaex | en |
| dc.subject | polars | en |
| dc.subject | parquet | en |
| dc.subject | chunking | en |
| dc.subject | downcasting | en |
| dc.subject | python | en |
| dc.subject | master’s thesis | en |
| dc.subject | memory optimization | en |
| dc.subject | big data | en |
| dc.subject | out-of-core computing | en |
| dc.subject | ВКР | uk_UA |
| dc.subject | КІТ | uk_UA |
| dc.subject.classification | TECHNOLOGY | en |
| dc.subject.classification | TECHNOLOGY::Information technology | en |
| dc.title | Дослідження оптимізації пам’яті в роботі з великими наборами даних засобами Python | uk_UA |
| dc.title.alternative | Memory Optimization Techniques for Processing Large-Scale Datasets in Python | en |
| dc.type | Master’s Thesis | en |