Kuropiatnyk, Olena S.Shynkarenko, Viktor I.2020-07-022020-07-022020Kuropiatnyk O., Shynkarenko V. Text Borrowings Detection System for Natural Language Structured Digital Documents. CEUR Workshop Proceedings. Vol. 2604 : 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020), Lviv, Ukraine, 23–24 April 2020. Lviv, 2020. P. 294–305.1613-0073http://eadnurt.diit.edu.ua/jspui/handle/123456789/12024http://ceur-ws.org/Vol-2604/paper23.pdfhttps://ceur-ws.org/Vol-2604/O. Kuropiatnyk: ORCID 0000-0003-2286-884X; V. Shynkarenko: ORCID 0000-0001-8738-7225,ENG: Interpretation of results is an important stage in text borrowings detection systems. Necessary to take into consideration the tree structure of the document and the general content of structural elements (sections) is the reason for that. In article method comparison of structured document is developed. Formalization of comparison document process is based on constructive-synthesizing modeling. Document structure is processed using templates. They contain information about section and subsections titles and keywords sets. The base of natural language text comparison is text graph representation model. It represents a text as graphs set for improving borrowings retrieval in texts of database. On base of these models and method text borrowings detection system is developed for comparison digital structured natural language documents. The paper presents the features of the system and its advantages. System architecture is described and its time efficiency investigated.UKR: Інтерпретація результатів є важливим етапом у системах виявлення текстових запозичень. Необхідно враховувати структуру дерева документа та загальний зміст структурних елементів (розділів). У статті розроблено метод порівняння структурованого документа. Формалізація процесу порівняльного документа базується на конструктивно-продукційному моделюванні. Структура документа обробляється за допомогою шаблонів. Вони містять інформацію про заголовки розділів та підрозділів та набори ключових слів. Основою порівняння тексту на природній мові є модель представлення текстових графів. Вона представляє текст у вигляді графів для покращення пошуку запозичень у текстах бази даних. На основі цих моделей і методу розроблена система виявлення запозичень тексту для порівняння електронних структурованих природомовних документів. У роботі представлені особливості системи та її переваги. Описана архітектура системи та досліджено її часова ефективність.RUS: Интерпретация результатов является важным этапом в системах обнаружения текстовых заимствований. Причиной этого является необходимость учитывать древовидную структуру документа и общее содержание структурных элементов (разделов). В статье разработан метод сравнения структурированного документа. Формализация процесса сравнения документов основана на конструктивно-продукционном моделировании. Структура документа обрабатывается с использованием шаблонов. Они содержат информацию о заголовках разделов и подразделов, а также наборы ключевых слов. Основой сравнения текста на естественном языке является модель представления текстового графа. Она представляет текст в виде графов для улучшения поиска заимствований в текстах базы данных. На основе этих моделей и метода разработана система обнаружения заимствований текста для сравнения электронных структурированных документов на естественном языке. В статье представлены особенности системы и ее преимущества. Описана архитектура системы и исследована ее временная эффективность.ennatural language textstructured documenttext borrowings detectionplagiarismconstructive-synthesizing modelingconstructorприродомовний текстструктурирований документвиявлення текстових запозиченьплагіатконструктивно-продукційне моделюванняконструктортекст на естественном языкеструктурированный документвыявление текстовых заимствованийплагиатконструктивно-продукционное моделированиеКІТText Borrowings Detection System for Natural Language Structured Digital DocumentsСистема виявлення запозичень для природномовних структуровних електронних документівСистема обнаружения заимствований для естественноязыковых структурированных электронных документовArticle