10.14489/vkit.2016.05.pp.021-028

DOI: 10.14489/vkit.2016.05.pp.021-028

Дроговоз П. А., Садовская Т. Г., Шиболденков В. А.
КОНЦЕПЦИЯ КАСКАДА ЭМЕРДЖЕНТНЫХ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ
(c. 21-28)

Аннотация. Дано описание процесса извлечения звука из потока и предобработки сигнала. Показаны закономерности в частотном представлении данных. Рассмотрен процесс разделения потока речи на серии, механизмы вычленения в них информативных частей и особенности выявления акустических признаков. Проведена функциональная классификация характеристик речевого потока, проанализированы категории параметров речи для выбора оптимального набора конкретной задачи, обоснована акустическая амплитудно-частотная модель распознавания неэмоциональной русской речи на основе каскада эмерджентных самоорганизующихся карт Кохонена. Представлена сущность и методы работы нейроалгоритма карты Кохонена. Предложены компонентные плоскости для полученных фонетических множеств. Приведены результаты кластеризации и дана оценка группировки по фонетическим классам русского языка. Проведены тестирование на множестве основного фонетического алфавита и проверка адекватности результатов кластеризации. Рассмотрены принципы работы второй нейрокарты Кохонена на лексическом уровне и методики сравнения звуковой расшифровки, а также грамматически правильных конструкций. Дано описание модели многоуровневого подхода к распознаванию речи в виде отдельно произнесенных слов, исследованы операции обработки фонетического набора и коррекции результата. Проведена оценка эффективности рассмотренных принципов улучшения точности распознавания и их результативности, а также выявлены практические трудности для их использования.

Ключевые слова: нейросети; карта Кохонена; распознавание речи; акустическая модель; кластеризация; добыча знаний; разведывательный анализ данных.

Drogovoz P. A., Sadovskaya T. G., Shiboldenkov V. A.
CASCADE EMERGENT KOHONEN SELF-ORGANIZING MAPS FOR RUSSIAN SPEECH RECOGNITION
(pp. 21-28)

Abstract. In this paper describes the process of extracting audio from the stream and signal preprocessing, regularities in the frequency data representation. Elaborated the process of separation in the speech flow in the series, the mechanisms for selecting them informative parts and the identifying acoustic features. Elaborated functional classification characteristics of the speech stream, analyzed the category of the speech parameters for selecting an optimal set for a specific task, proved an acoustic amplitude-frequency unemotional Russian speech recognition model based on a self-organizing Kohonen cascade maps. Presents the essence and methods of neural Kohonen maps work. Presents the component planes for the resulting phonetic sets. The clustering results and ex post group assessment on the phonetic classes of the Russian language. Tested on the set of the basic phonetic alphabet, and the adequacy of the clustering results. Presents the operation principles of the second neuromap Kohonen at lexical level and comparison audio decoding methods, and grammatically correct structures. The model describes a layered approach to speech recognition in the separately spoken words form, investigated the phonetic dialing processing and the correction result. Evaluated the effectiveness of the discussed improving principles recognition accuracy and efficiency, as well as practical problems for their use.

Keywords: Neural network; Kohonen map; Speech recognition; Acoustic model; Clustering; Extraction of knowledge; Intelligence analysis.

+ - Информация об авторах (About the Authors) Click to collapse

Рус

П. А. Дроговоз, Т. Г. Садовская, В. А. Шиболденков (Московский государственный технический университет им. Н. Э. Баумана) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

Eng

P. A. Drogovoz, T. G. Sadovskaya, V. A. Shiboldenkov (Bauman Moscow State Technical University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

+ - Библиографический список (References) Click to collapse

Рус

1. Волков А. В. Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора // Изв. ТулГУ. Технические науки. 2014. Вып. 9, ч. 2. С. 11 – 16.
2. Huang X., Acero A., Hon H.-W. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall PTR, 2001. 980 р.
3. Кипяткова И. С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. 2011. № 4. С. 53 – 59.
4. Малькова Е. С., Шабалина О. А. Методы распознавания речи в задаче автоматизированного выявления дефектов произношения // Изв. ВолгГТУ. 2015. № 2(157). С. 65 – 71.
5. Kohonen T. Self-Organizing Maps. Third Extended Ed. New York: Springer – Verlag, 2001. 501 р.
6. Бондарко А. В. Принципы функциональной грамматики и вопросы аспектологии. М.: Либроком, 2013. 208 с.
7. Фланаган Дж. Л. Анализ, синтез и восприятие речи: пер. с англ. М.: Книга по требованию, 2012. 394 с.
8. Чесебиев И. А. Компьютерное распознавание и порождение речи: пособие для программистов. М.: Спорт и культура, 2008. 128 с.
9. Оппенгейм А., Шафер Р. Цифровая обработка сигналов: пер. с англ. М.: Техносфера, 2006. 865 с.
10. Мещеряков Р. В. Структура систем синтеза и распознавания речи // Изв. Томск. политехн. ун-та. 2009. Т. 315, № 5. С. 121 – 126.
11. Воробьев С. Цифровая обработка сигналов: учебник для студ. учреждений высш. проф. образования. М.: Академия, 2013. 320 с. (Сер. Бакалавриат).
12. Хайкин С. Нейронные сети: полный курс: пер. с англ. 2-е изд., испр. М.: Вильямс, 2006. 1104 с.
13. Гапочкин А. В. Нейронные сети в системах распознавания речи // Science Time. 2014. № 1. С. 29 – 36.
14. Васильев Е. М., Меренков В. В. Система распознавания фонетических образов на основе нейросетевой модели восприятия речи // Вестн. Воронежского гос. техн. ун-та. 2009. Т. 5, № 10. С. 130 – 134.
15. Митянок В. В. Метод аппроксимации для определения числовых характеристик некоторых низкочастотных звуков человеческой речи [Электронный ресурс] // Электр. журн. Техническая акустика. 2008. № 8. 11 с. URL: http://ejta.org/ru/node/380 (дата обращения: 10.03.2016).
16. Ахмад Х. М., Жирков В. Ф. Введение в цифровую обработку речевых сигналов: учеб. пособие. Владимир: Изд-во Владим. гос. ун-та, 2008. 192 с.

Eng

1. Volkov A. V. (2014). The analysis of existing methods of recognition on the invariance to background noise and speaker diction. Izvestiia TulGU. Tekhnicheskie nauki, 9, part 2, pp. 11-16.
2. Huang X., Acero A., Hon H.-W. (2001). Spoken language processing: a guide to theory, algorithm and system development. New Jersey: Prentice Hall PTR.
3. Kipiatkova I. S. (2011). Software complex of processing and recognition of spoken Russian speech. Informatsionno-upravliaiushchie sistemy, (4), pp. 53-59.
4. Mal'kova E. S., Shabalina O. A. (2015). Methods of speech recognition in the problem of automated detection of defects pronunciation. Izvestiia VolgGTU, 157(2), pp. 65-71.
5. Kohonen T. (2001). Self-organizing maps. 3rd Ed. (extended). New York: Springer – Verlag.
6. Bondarko A. V. (2013). Principles of functional grammar and questions of aspectology. Moscow: Librokom.
7. Flanagan Dzh. L. (2012). Analysis, synthesis and perception of speech. Moscow: Kniga po Trebovaniiu.
8. Chesebiev I. A. (2008). Computer recognition and generation of speech: guide for programmers. Moscow: Sport i kul'tura.
9. Oppengeim A., Shafer R. (2006). Digital signal processing. Moscow: Tekhnosfera.
10. Meshcheriakov R. V. (2009). The structure of synthesis systems and voice recognition. Izvestiia Tomskogo politekhnicheskogo universiteta, 315(5), pp. 121-126.
11. Vorob'ev S. (2013). Digital signal processing: textbook for high school students. Moscow: Akademiia.
12. Khaikin S. (2006). Neural networks: full course. 2nd (revised and supplemented). Moscow: Williams.
13. Gapochkin A. V. (2014). Neural network in speech recognition systems. Science Time, (1), pp. 29-36.
14. Vasil'ev E. M., Merenkov V. V. (2009). Phonetic images recognition system based on neural network model of speech perception. Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta, Vol. 5, (10), pp. 130-134.
15. Mitianok V. V. (2008). Approximation technique for numerical description of some low-frequency sounds of human speech. Tekhnicheskaia akustika, (8). Available at: http://ejta.org/ru/node/380 (Accessed: 10.03.2016).
16. Akhmad Kh. M., Zhirkov V. F. (2008). Introduction to digital processing of speech signals: textbook. Vladimir: Izdatel'stvo Vladimirskogo gosudarstvennogo universiteta.

+ - Заказать электронную версию статьи (Purchase digital version of a single article) Click to collapse

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа статьи заполните форму:

{jform=1,doi=10.14489/vkit.2016.05.pp.021-028}

Eng

This article is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please fill out the form below:

{jform=2,doi=10.14489/vkit.2016.05.pp.021-028}