| Русский Русский | English English |
   
Главная Current Issue
19 | 12 | 2024
10.14489/vkit.2015.07.pp.016-022

DOI: 10.14489/vkit.2015.07.pp.016-022

Хруничев Р. В.
МОДЕРНИЗАЦИЯ МОДЕЛИ ДУБЛИНСКОГО ЯДРА ДЛЯ АНАЛИЗА ПРЕДМЕТНО-ОРИЕНТИРОВАННОЙ КОЛЛЕКЦИИ ДОКУМЕНТОВ ПОСРЕДСТВОМ ПРИМЕНЕНИЯ МЕТОДА ПОПОЗИЦИОННОГО ВЗВЕШИВАНИЯ
(с. 16-22)

Аннотация. Рассмотрена возможность применения модели метаданных Дублинского ядра в сочетании с методами частотного анализа и попозиционного взвешивания для обеспечения поиска в хранилищах данных, содержащих предметно-ориентированную коллекцию документов. Приведены анализ и выбор наиболее удовлетворяющих атрибутов исходя из поставленной задачи. Осуществлена интеграция модели Дублинского ядра с методом частотного анализа текста. Обоснована эффективность такого подхода с точки зрения усложнения алгоритма и увеличения числа величин, составляющих вектор, что позволяет представить документ в хранилище данных и позиционировать вектор, описывающий его в векторном пространстве единственно верным образом. Приведены оценки весов в методе попозиционного взвешивания и сложности полученного алгоритма в сравнении с другими алгоритмами. Сформирован компонент итогового вектора, описывающего документ. Рассмотрены ранжирование результатов поиска и обработка результатов запроса при применении косинусной метрики посредством обработки весов термов представленного алгоритма.

Ключевые слова:  хранилище данных; предметно-ориентированная коллекция документов; векторное пространство; попозиционное взвешивание; модель метаданных Дублинское ядро; частотный анализ текста.

 

Khrunichev R. V.
MODERNIZATION THE DUBLIN CORE MODEL FOR ANALYSIS OBJECT-ORIENTED COLLECTION DOCUMENTS BY USING THE METHOD OF POSITIONAL WEIGHTING
(pp. 16-22)

Abstract. The article discusses the possibility of using Dublin Core metadata model in conjunction with the methods of frequency analysis and weighing position for searching the data repository containing object-oriented collection of documents. Provides an analysis and selection of the most satisfying attributes based on the task at hand. Integrates the Dublin Core model with the method of frequency analysis of the text. Substantiates the effectiveness of this approach in terms of the complexity of the algorithm and increase the number of variables that make up the vector. This allows one to describe the document in a data warehouse and position vector describing it in a vector space the only true way. Also provides an assessment of the balance in the method of weighing pozition. Carried out the formation of the final component of the vector describing the document. The evaluation of the complexity of this algorithm compared with other algorithms. Also consider the ranking of search results. We consider the processing of query results when applying the cosine metric by processing the weights of the terms presented algorithm.

Keywords: Data Warehouse; Subject-oriented collection of documents; Vector space; Positional weighing; Dublin Core metadata model; Frequency analysis.

Рус

Р. В. Хруничев (Рязанский государственный радиотехнический университет) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

R. V. Khrunichev (Ryazan State Radio Engineering University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Основы технологии поиска в современных информационно-поисковых системах: лекция 1 [Электронный ресурс]. URL: www.fa-kit.ru/users/admin/Lect-IPS-01.htm (дата обращения: 05.05.2015).
2. Ландэ Д. В. Поиск знаний в INTERNET. Профес-сиональная работа: пер. с англ. М.: Вильямс, 2005. 272 с.
3. Тактаев С. А. Поиск информации в компьютерных сетях: новые подходы [Электронный ресурс]. URL: http://www.getinfo.ru/article631.html (дата обращения: 05.05.2015).
4. Zipf G. Selected Studies of the Principle of Relative Frequency in Language. Harvard University Press, Cambridge, 1932.
5. Zipf G. Human Behaviour and the Principle of Least-Effort. Addison-Wesley, Cambridge, MA, 1949.
6. Разработка рекомендаций по созданию и использованию единой системы объединенных государственных и муниципальных информационных ресурсов: отчет о НИР № 21 (заключит.). URL: http://do.gendocs.ru/docs/index-19318.html?page=11 (дата обращения: 05.05.2015).
7. ГОСТ 7.70–2003. СИБИД. Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик. Введ. 2004-07-01. М.: Изд-во стандартов, 2004. 11 с.
8. ГОСТ Р ИСО 15836–2011. Информация и доку-ментация. Набор элементов метаданных Dublin Core (Information and Documentation. The Dublin Core Metadata Element Set.) [Электронный ресурс]. Введ. 2013-09-01. М.: Стандартинформ, 2014. URL: http://docs.cntd.ru/document/ gost-r-iso-15836-2011 (дата обращения: 05.05.2015).
9. ГОСТ Р 7.0.10–2010 (ИСО 15836:2003) СИБИД. Набор элементов метаданных «Дублинское ядро». [Электронный ресурс]. URL: http://docs.cntd.ru/document/1200084835 (дата обращения: 21.05.2015).
10. Сычев А. В. Информационно-поисковые сис-темы. Воронежский ГУ. Кафедра информационных сис-тем, 2006. Презентация: Информационный поиск в веб [Электронный ресурс]. URL: http://www.myshared.ru/slide/370967/ (дата обращения: 21.05.2015).
11. Хруничев Р. В. Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов // Вестник АГТУ. Сер. Управление, вычислительная техника и информатика. 2012. № 1. С. 136 – 141.
12. Библиографическое описание электронного документа [Электронный ресурс]. В кн. Интернет в профессиональной информационной деятельности. URL: http:// textbook.vadimstepanov.ru/chapter7/glava7-2.html (дата обращения: 05.05.2015).
13. DCMI Metadata Terms // Dublin Core Metadata Interactive [Электронный ресурс]. URL: http://dublincore.org/ documents/2012/06/14/dcmi-terms/ (дата обращения: 05.05.2015).
14. Маннинг К. Д., Рагхаван П., Шютце Х. Введе-ние в информационный поиск: пер. с англ. М.: Вильямс, 2011. 528 с.

Eng

1. The basics of search techniques in modern information search engines: lecture 1. Available at: www.fa-kit.ru/users/admin/Lect-IPS-01.htm (Accessed: 05.05.2015).
2. Lande D. V. (2005). Searching for knowledge in the INTERNET. Professional work. Moscow: Williams.
3. Taktaev S. A. Information search in computer net-works: new approaches. Available at: http://www.getinfo.ru/ article631.html (Accessed: 05.05.2015).
4. Zipf G. (1932). Selected studies of the principle of relative frequency in language. Cambridge: Harvard University Press.
5. Zipf G. (1949). Human behaviour and the principle of least-effort. Cambridge: Addison-Wesley.
6. Development of recommendations on creation and use of a common system of the interconnected state and municipal information resources. Report on R&D No. 21. Available at: http://do.gendocs.ru/docs/index-19318.html?page=11 (Accessed: 05.05.2015).
7. SIBID. Description of databases and machine-readable data. The composition and designation of characteristics. (2003). Ru Standard No. GOST 7.70–2003. Moscow: Izdatel'stvo standartov.
8. Information and Documentation. The Dublin Core Metadata Element Set. (2014). International Standard No. GOST R ISO 15836–2011. Moscow: Standartinform. Avail-able at: http://docs.cntd.ru/document/gost-r-iso-15836-2011 (Accessed: 05.05.2015).
9. SIBID. The set of metadata elements «Dublin core». Ru Standard No. GOST R 7.0.10–2010 (International Stan-dard No. ISO 15836:2003) Available at: http://docs.cntd.ru/ document/1200084835 (Accessed: 21.05.2015).
10. Sychev A. V. (2006). Search engines. Presentation: information search in World Wide Web. Voronezh University. The Department of information systems. Available at: http://www.myshared.ru/slide/370967/ (Accessed: 21.05.2015).
11. Khrunichev R. V. (2012). Principles of multidimen-sional space of terms in the analysis of domain-specific document collection. Vestnik AGTU. Seriia Upravlenie, vychislitel'naia tekhnika i informatika, (1), pp. 136-141.
12. Bibliographic description of an electronic document. In the book Internet in the professional information field. Available at: http:// textbook.vadimstepanov.ru/chapter7/glava7-2.html (Ac-cessed: 05.05.2015).
13. DCMI Metadata Terms. Dublin Core Metadata Interactive. Available at: http://dublincore.org/ docu-ments/2012/06/14/dcmi-terms/ (Accessed: 05.05.2015).
14. Manning K. D., Ragkhavan P., Shiuttse Kh. (2011). Introduction to information search. Moscow: Williams.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа статьи заполните форму:

{jform=1,doi=10.14489/vkit.2015.07.pp.016-022}

.

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please fill out the form below:

{jform=2,doi=10.14489/vkit.2015.07.pp.016-022}

 

 

 

 

 

.

.

 

 

 
Search
Rambler's Top100 Яндекс цитирования