Автоматизоване відновлення продукційних граматик на основі структурного аналізу математичних формул у форматі LaTeX
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: Досліджено проблему семантико-структурного аналізу математичних виразів у наукових текстах, поданих у форматі LaTeX. Проведено аналіз існуючих підходів у галузі Математичного інформаційного пошуку та виявлено їхні недоліки, пов'язані із залежністю від статичних словників або низькою інтерпретованістю. Запропоновано метод автоматизованого відновлення продукційних граматик на основі принципів конструктивно-продукційного моделювання. Розроблено алгоритм, який здійснює динамічний лексичний аналіз, побудову абстрактного синтаксичного дерева з урахуванням префіксних операторів, а також висхідне згортання дерева для генерації правил. Відмінністю підходу є динамічне виділення термінального носія і сигнатури конструкторів без попередньо заданих шаблонів. Результати є базовим етапом для створення прозорих алгоритмів кластеризації наукових документів на основі їхнього математичного апарату.
ENG: The problem of semantic-structural analysis of mathematical expressions in scientific texts presented in LaTeX format is investigated. The analysis of existing approaches in the field of Mathematical Information Retrieval is carried out and their shortcomings associated with dependence on static dictionaries or low interpretability are revealed. A method of automated restoration of production grammars based on the principles of constructive-production modeling is proposed. An algorithm is developed that performs dynamic lexical analysis, construction of an abstract syntactic tree taking into account prefix operators, as well as upward tree folding for rule generation. The difference of the approach is the dynamic selection of the terminal carrier and signatures of constructors without predefined templates. The results are a basic stage for creating transparent algorithms for clustering scientific documents based on their mathematical apparatus.
