10.14489/vkit.2016.05.pp.021-028 |
DOI: 10.14489/vkit.2016.05.pp.021-028 Дроговоз П. А., Садовская Т. Г., Шиболденков В. А. Аннотация. Дано описание процесса извлечения звука из потока и предобработки сигнала. Показаны закономерности в частотном представлении данных. Рассмотрен процесс разделения потока речи на серии, механизмы вычленения в них информативных частей и особенности выявления акустических признаков. Проведена функциональная классификация характеристик речевого потока, проанализированы категории параметров речи для выбора оптимального набора конкретной задачи, обоснована акустическая амплитудно-частотная модель распознавания неэмоциональной русской речи на основе каскада эмерджентных самоорганизующихся карт Кохонена. Представлена сущность и методы работы нейроалгоритма карты Кохонена. Предложены компонентные плоскости для полученных фонетических множеств. Приведены результаты кластеризации и дана оценка группировки по фонетическим классам русского языка. Проведены тестирование на множестве основного фонетического алфавита и проверка адекватности результатов кластеризации. Рассмотрены принципы работы второй нейрокарты Кохонена на лексическом уровне и методики сравнения звуковой расшифровки, а также грамматически правильных конструкций. Дано описание модели многоуровневого подхода к распознаванию речи в виде отдельно произнесенных слов, исследованы операции обработки фонетического набора и коррекции результата. Проведена оценка эффективности рассмотренных принципов улучшения точности распознавания и их результативности, а также выявлены практические трудности для их использования. Ключевые слова: нейросети; карта Кохонена; распознавание речи; акустическая модель; кластеризация; добыча знаний; разведывательный анализ данных.
Drogovoz P. A., Sadovskaya T. G., Shiboldenkov V. A. Abstract. In this paper describes the process of extracting audio from the stream and signal preprocessing, regularities in the frequency data representation. Elaborated the process of separation in the speech flow in the series, the mechanisms for selecting them informative parts and the identifying acoustic features. Elaborated functional classification characteristics of the speech stream, analyzed the category of the speech parameters for selecting an optimal set for a specific task, proved an acoustic amplitude-frequency unemotional Russian speech recognition model based on a self-organizing Kohonen cascade maps. Presents the essence and methods of neural Kohonen maps work. Presents the component planes for the resulting phonetic sets. The clustering results and ex post group assessment on the phonetic classes of the Russian language. Tested on the set of the basic phonetic alphabet, and the adequacy of the clustering results. Presents the operation principles of the second neuromap Kohonen at lexical level and comparison audio decoding methods, and grammatically correct structures. The model describes a layered approach to speech recognition in the separately spoken words form, investigated the phonetic dialing processing and the correction result. Evaluated the effectiveness of the discussed improving principles recognition accuracy and efficiency, as well as practical problems for their use. Keywords: Neural network; Kohonen map; Speech recognition; Acoustic model; Clustering; Extraction of knowledge; Intelligence analysis.
РусП. А. Дроговоз, Т. Г. Садовская, В. А. Шиболденков (Московский государственный технический университет им. Н. Э. Баумана) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngP. A. Drogovoz, T. G. Sadovskaya, V. A. Shiboldenkov (Bauman Moscow State Technical University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Волков А. В. Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора // Изв. ТулГУ. Технические науки. 2014. Вып. 9, ч. 2. С. 11 – 16. Eng1. Volkov A. V. (2014). The analysis of existing methods of recognition on the invariance to background noise and speaker diction. Izvestiia TulGU. Tekhnicheskie nauki, 9, part 2, pp. 11-16.
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа статьи заполните форму: {jform=1,doi=10.14489/vkit.2016.05.pp.021-028} . EngThis article is available in electronic format (PDF). The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please fill out the form below: {jform=2,doi=10.14489/vkit.2016.05.pp.021-028}
. .
|