Статистичний аналіз тексту та дослідження динаміки точності класифікації

dc.contributor.authorОстровська, Катерина Юріївнаuk_UA
dc.contributor.authorФененко, Тетяна Михайлівнаuk_UA
dc.contributor.authorГлущенко, Олександрuk_UA
dc.date.accessioned2023-05-06T15:33:46Z
dc.date.available2023-05-06T15:33:46Z
dc.date.issued2022
dc.descriptionТ. Фененко: ORCID 0000-0002-7631-3148uk_UA
dc.description.abstractUKR: Робота присвячена статистичному аналізу тексту та дослідженню динаміки точності класифікації. У роботі проводиться відбір статистичних ознак тексту, класифікація текстів, що належать різним авторам, та дослідження динаміки точності класифікації в залежності від довжини текстових фрагментів. Для вирішення поставленого завдання використовувалися: методи обробки природної мови; статистичні характеристики текстів; методи машинного навчання; методи зниження розмірності для можливості візуалізації. На основі отриманої динаміки зміни точності класифікації в залежності від довжин текстових фрагментів було зроблено відповідні висновки щодо оптимальної довжини текстів, що використовуються для навчання та тестування моделей. Завдання вирішувалося у програмному середовищі Jupyter Notebook дистрибутива Anaconda, який дозволяє одразу встановити Python та необхідні бібліотеки.uk_UA
dc.description.abstractENG: The work is devoted to the statistical analysis of the text and the study of the dynamics of classification. In the work, the selection of statistical features of the text, the classification of texts belonging to different authors, and the study of the dynamics of classification accuracy depending on the length of text fragments are carried out. To solve the problem, the following methods were used: natural language processing methods; statistical characteristics of texts; machine learning methods; dimensionality reduction methods for visualization capability. On the basis of the obtained dynamics of changes in classification accuracy depending on the lengths of text fragments, appropriate conclusions were drawn regarding the optimal length of texts used for training and testing models. The task was solved in the Jupyter Notebook software environment of the Anaconda distribution, which allows you to immediately install Python and the necessary libraries.en
dc.identifierDOI: 10.34185/1562-9945-5-142-2022-06
dc.identifier.citationОстровська К. Ю., Фененко Т. М., Глущенко О. О. Статистичний аналіз тексту та дослідження динаміки точності класифікації. Системні технології. Дніпро, 2022. Т. 5. № 142. С. 60–68. DOI: 10.34185/1562-9945-5-142-2022-06.uk_UA
dc.identifier.issn1562-9945 (Print)
dc.identifier.issn2707-7977 (Online)
dc.identifier.urihttps://journals.nmetau.edu.ua/index.php/st/issue/view/126en
dc.identifier.urihttps://journals.nmetau.edu.ua/index.php/st/issue/view/126/99en
dc.identifier.urihttp://eadnurt.diit.edu.ua/jspui/handle/123456789/16943en
dc.language.isouk_UA
dc.publisherУкраїнський державний університет науки і технологій, ННІ ≪Інститут промислових та бізнес технологій≫, ІВК ≪Системні технології≫, Дніпроuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectстатистичний аналіз текстаuk_UA
dc.subjectвизначення авторстваuk_UA
dc.subjectаналіз данихuk_UA
dc.subjectобробка природної мовиuk_UA
dc.subjectmachine learningen
dc.subjectstatistical text analysisen
dc.subjectauthorship determinationen
dc.subjectdata analysisen
dc.subjectnatural language processingen
dc.subjectКІТСuk_UA
dc.titleСтатистичний аналіз тексту та дослідження динаміки точності класифікаціїuk_UA
dc.title.alternativeStatistical Text Analysis and Study of the Dynamics of Classification Accuracyen
dc.typeArticleen
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Ostrovska.pdf
Size:
309.33 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: