Статистичний аналіз тексту та дослідження динаміки точності класифікації

Островська, Катерина ЮріївнаФененко, Тетяна МихайлівнаГлущенко, ОлександрСтатистичний аналіз тексту та дослідження динаміки точності класифікаціїStatistical Text Analysis and Study of the Dynamics of Classification AccuracyУкраїнський державний університет науки і технологій, ННІ ≪Інститут промислових та бізнес технологій≫, ІВК ≪Системні технології≫, Дніпро2022машинне навчаннястатистичний аналіз текставизначення авторствааналіз данихобробка природної мовиmachine learningstatistical text analysisauthorship determinationdata analysisnatural language processingКІТСMy UniversityMy University2023-05-062023-05-062022uk-UAArticleОстровська К. Ю., Фененко Т. М., Глущенко О. О. Статистичний аналіз тексту та дослідження динаміки точності класифікації. Системні технології. Дніпро, 2022. Т. 5. № 142. С. 60–68. DOI: 10.34185/1562-9945-5-142-2022-06.1562-9945 (Print)2707-7977 (Online)https://journals.nmetau.edu.ua/index.php/st/issue/view/126https://journals.nmetau.edu.ua/index.php/st/issue/view/126/99https://crust.ust.edu.ua/handle/123456789/16943Creative Commons Attribution 4.0 International Licensehttps://creativecommons.org/licenses/by/4.0/Т. Фененко: ORCID 0000-0002-7631-3148; К. Островська: ORCID 0000-0002-9375-4121UKR: Робота присвячена статистичному аналізу тексту та дослідженню динаміки точності класифікації. У роботі проводиться відбір статистичних ознак тексту, класифікація текстів, що належать різним авторам, та дослідження динаміки точності класифікації в залежності від довжини текстових фрагментів. Для вирішення поставленого завдання використовувалися: методи обробки природної мови; статистичні характеристики текстів; методи машинного навчання; методи зниження розмірності для можливості візуалізації. На основі отриманої динаміки зміни точності класифікації в залежності від довжин текстових фрагментів було зроблено відповідні висновки щодо оптимальної довжини текстів, що використовуються для навчання та тестування моделей. Завдання вирішувалося у програмному середовищі Jupyter Notebook дистрибутива Anaconda, який дозволяє одразу встановити Python та необхідні бібліотеки.ENG: The work is devoted to the statistical analysis of the text and the study of the dynamics of classification. In the work, the selection of statistical features of the text, the classification of texts belonging to different authors, and the study of the dynamics of classification accuracy depending on the length of text fragments are carried out. To solve the problem, the following methods were used: natural language processing methods; statistical characteristics of texts; machine learning methods; dimensionality reduction methods for visualization capability. On the basis of the obtained dynamics of changes in classification accuracy depending on the lengths of text fragments, appropriate conclusions were drawn regarding the optimal length of texts used for training and testing models. The task was solved in the Jupyter Notebook software environment of the Anaconda distribution, which allows you to immediately install Python and the necessary libraries.