DOI: 10.14489/vkit.2020.11.pp.023-032

Бутенко Ю. И.
(с. 23-32)

Аннотация. Предложена модель текста стандарта для информационного поиска в коллекции документов нормативной базы. Обосновано, что стандартные средства информационного поиска в коллекции текстов стандартов малоэффективны из-за композиционных особенностей текстов и широкого употребления обобщенно-отвлеченной лексики. Показаны отличительные стилистические признаки текстов нормативной базы, проявляющиеся в композиционной структуре, логичности представления материала, компактности. Отмечено, что тексты стандартов имеют одинаковую для всех текстов данного класса структуру изложения материала, а также содержат ограниченный набор структурных элементов. Представлено описание особенностей структурной организации текстов стандарта, а также возможное содержание каждого из элементов структуры. Обосновано наличие значительного влияния композиционной структуры текста стандарта на информационный поиск. Представлена композиционная структура стандарта в нотациях Бекуса–Наура. Предложена модель текста стандарта в виде графа, вершины и ребра которого – полноценные структурные элементы стандарта, значимые как для содержания текста стандарта, так и для информационного поиска. Обосновано, что представление текста стандарта в виде графа дает возможость (благодаря подаче стандарта в виде конечного множества его составных частей) в процессе его компьютерного анализа определить тип структурного элемента и степень вложенности.

Ключевые слова:  стандарт; иерархически структурированный текст; модель; структурный элемент; информационный поиск.


Butenko Yu. I.
(pp. 23-32)

Abstract. The article proposes a model of the standards’ texts for information retrieval in the collection of documents the regulatory framework. It is proved that the standard means of information retrieval in the collection texts of standards are ineffective due to the compositional features of the texts and the wide use of generalized and abstract vocabulary. Distinctive stylistic features of standards’ texts in normative base are shown in compositional structure, logic of material representation, compactness. It is noted that the standards’ texts have the same structure of material presentation for all texts of this class, and also contain a limited set of structural elements. The description of structural elements of standards is given. It is proved that the compositional structure of the standard’s text has a significant impact on the results of information retrieval in the collection of documents the regulatory framework. The compositional structure of the standard in the Backus-Naur notations is presented. It is developed the model of the standards’ text in the form of a graph, the vertices and edges of which are full-fledged structural elements of the standard, significant both for the content of the text as a whole, and in terms of information retrieval. It is proved that the presentation of the standard’s text in the form of a graph makes it possible in the process of computer analysis the standard’s text to determine the type of structural element, the degree of nesting, by submitting the standard in the form of a finite set of its components.

Keywords: Standard; Hierarchically structured text; Model; Structural element; Information retrieval.


Ю. И. Бутенко (Московский государственный технический университет имени Н.Э. Баумана, Москва, Россия)  


Yu. I. Butenko (Bauman Moscow State Technical University, Moscow, Russia)  


