Дослідження методів на основі нейронних мереж для аналізу тональності корпусу текстів
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: Об'єктом дослідження є методи з урахуванням нейронних мереж для аналізу тональності корпусу текстів. Для досягнення поставленої в роботі мети необхідно вирішити такі завдання: вивчити теоретичний матеріал для навчання глибинних нейронних мереж та їх особливості стосовно обробки природної мови; вивчити документацію бібліотеки Tensorflow; розробити моделі згорткової та рекурентної нейронних мереж; розробити реалізацію лінійних та нелінійних методів класифікації на моделях мішка слів та Word2Vec; порівняти точність та інші показники якості реалізованих нейромережевих моделей із класичними методами. Для візуалізації навчання використовується Tensorboard. У роботі показано перевагу класифікаторів на основі глибоких нейронних мереж над класичними методами класифікації, навіть якщо для векторних уявлень слів використовується модель Word2Vec. Найвищу точність для даного корпусу текстів має модель рекурентної нейронної мережі з LSTM-блоками.
ENG: The object of the study is methods based on neural networks for analyzing the tonality of a corpus of texts. To achieve the goal set in the work, it is necessary to solve the following tasks: study the theoretical material for learning deep neural networks and their features in relation to natural language processing; study the documentation of the Tensorflow library; develop models of convolutional and recurrent neural networks; to develop the implementation of linear and non-linear classification methods on bag of words and Word2Vec models; to compare the accuracy and other quality indicators of implemented neural network models with classical methods. Tensorboard is used for learning visualization. The work shows the superiority of classifiers based on deep neural networks over classical classification methods, even if the Word2Vec model is used for vector representations of words. The model of recurrent neural network with LSTM blocks has the highest accuracy for this corpus of texts.
