DOI: 10.14489/vkit.2014.03.pp.030-037
Савченко А. В. ОЦЕНКА НЕОПРЕДЕЛЕННОСТИ СЛОВАРЯ ДЛЯ МЕТОДА ФОНЕТИЧЕСКОГО ДЕКОДИРОВАНИЯ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ (с. 30 – 37)
Аннотация. Рассмотрен подход к решению задачи распознавания изолированных слов русской речи для систем голосового управления на основе метода фонетического декодирования. В рамках теоретико-информационного подхода предложено нахождение неопределенности рабочего словаря как величины условной энтропии канала с шумами, на вход которого поступает некоторое слово из словаря, а на выходе появляется распознаваемый речевой сигнал. На основе свойств информационного рассогласования Кульбака–Лейблера представлена оценка неопределенности, для вычисления которой достаточно наличия фонетических базы данных и транскрипции всех слов из словаря. Экспериментально показано, что качество распознавания слов достигается предложенной оценкой неопределенности рабочего словаря.
Ключевые слова: автоматическое распознавание речи; неопределенность словаря; метод фонетического декодирования.
Savchenko A. V. VOCABULARY CONFUSABILITY ESTIMATION OF THE PHONETIC DECODING METHOD IN ISOLATED WORDS RECOGNITION PROBLEM (pp. 30 – 37)
Abstract. The problem of isolated words recognition in voice control applications is discovered. The phonetic decoding method on the basis of the Kullback–Leibler minimum information discrimination principle and isolated syllable pronunciation is explored. By exploiting the theoretical-information approach, the definition of the vocabulary confusability is proposed as the conditional entropy of the noisy channel. The channel's input is a word from the vocabulary, and the output is the recognized utterance. The confusability evaluation requires to estimate the probability of phonemes confusion. The Kullback–Leibler discrimination between objects from different classes is known to have the normal distribution in asymptotic. Hence, the phonemes confusion probability is proposed to be evaluated on the basis of the minimum of independent normal random variables distribution. Our confusability calculation demands an availability of the speaker phonetic database and transcription of each word in the vocabulary. Experimental study results in isolated words recognition problem for Russian language are presented. On the basis of these results we draw the following conclusions. First, the quality of recognition is mainly determined not by the vocabulary size, but by it's confusability. Second, the recognition accuracy of the phonetic decoding method exceeds the accuracies of known recognition systems due to isolated syllable mode requirement. Third, proposed vocabulary confusability evaluation gives the user an information the most confusable words from the vocabulary and lets him clarify these words to decrease the error rate of speech recognition.
Keywords: Automatic speech recognition; Vocabulary confusability; Method of phonetic decoding.
А. В. Савченко (Нижегородский филиал Национального исследовательского университета «Высшая школа экономики») E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
A. V. Savchenko (Nizhny Novgorod Branch of the National Research University «Higher School of Economics») E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
1. Benesty J., Sondhi M. M., Huang Y. Springer Handbook of Speech Processing. NY: Springer, 2008. 1159 p. 2. Hartmann W., Fosler-Lussier E. Investigating Phonetic Information Reduction and Lexical Confusability // Proc. of Interspeech. Brighton. UK. 2009. P. 1659 – 1662. 3. Detection of Confusable Words in Automatic Speech Recognition / J. Anguita et al. // IEEE Signal Processing Letters. 2005. V. 12(8). P. 585 – 588. 4. Karanasou P., Yvon F., Lamel L. Measuring the Confusability of Pronunciations in Speech Recognition // Proc. of the 9th International Workshop on Finite State Methods and Natural Language Processing (FSMNLP’11). Blois. France. 2011. P. 107 – 115. 5. Huo Q., Li W. An Active Approach to Speaker and Task Adaptation Based on Automatic Analysis of Vocabulary Confusability // Proc. of Interspeech. 2007. P. 1569 – 1572. 6. Савченко А. В. Адаптивный алгоритм распознавания речи на основе метода фонетического декодирования слов в задаче голосового управления // Информационные технологии. 2013. № 4. С. 34 – 39. 7. Савченко В. В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования // Изв. вузов России. Радиоэлектроника. 2009. Вып. 5. С. 41 – 49. 8. Kullback S. Information Theory and Statistics // Dover Publications. NY, 1997. 399 p. 9. Савченко А. В. Программный комплекс фонетического декодирования слов в задаче распознавания русской речи // Системы управления и информационные технологии. 2013. № 1(51). С. 71 – 75. 10. Савченко А. В. Автоматическое построение фонетической транскрипции речи на основе принципа минимума информационного рассогласования // Вестник компьютерных и информационных технологий. 2012. № 8. С. 14 – 19. 11. Hill J. E. The Minimum of n Independent Normal Distributions. URL: http://www.untruth.org/~josh/math/normal-min.pdf (дата обращения: 11.01.2014). 12. Савченко Л. В., Савченко А. В. Алгоритм автоматического распознавания фонем на основе логики нечетких множеств в информационной метрике Кульбака–Лейблера // Вестник компьютерных и информационных технологий. 2013. № 3. С. 36 – 41. 13. Сорокин В. Н., Цыплихин А. И. Сегментация и распознавание гласных // Информационные процессы. 2004. Т. 4, № 2. С. 202 – 220.
1. Benesty J., Sondhi M. M., Huang Y. (2008). Springer handbook of speech processing. NY: Springer. 2. Hartmann W., Fosler-Lussier E. (2009). Investigating Phonetic Information Reduction and Lexical Confusability. Proc. of Interspeech. Brighton. UK, pp. 1659 – 1662. 3. Anguita J. et al. (2005). Detection of confusable words in automatic speech recognition. IEEE Signal Processing Letters, 12(8), pp. 585-588. doi: 10.1109/LSP.2005.851256 4. Karanasou P., Yvon F., Lamel L. (2011). Measuring the Confusability of Pronunciations in Speech Recognition. Proc. of the 9th International Workshop on Finite State Methods and Natural Language Processing (FSMNLP’11). Blois. France, pp. 107 – 115. 5. Huo Q., Li W. (2007). An Active Approach to Speaker and Task Adaptation Based on Automatic Analysis of Vocabulary Confusability. Proc. of Interspeech, pp. 1569 – 1572. 6. Savchenko A. V. (2013). Adaptive algorithm for speech recognition based on the method of phonetic decoding words in the task of voice control. Informatsionnye tekhnologii, (4), pp. 34-39. 7. Savchenko V. V. (2009). Method of phonetic decoding words in the problem of automatic speech recognition on the basis of the principle of minimum information discrimination. Izvestiia vuzov Rossii. Radioelektronika, 5, pp. 41-49. 8. Kullback S. (1997). Information theory and statistics. NY: Dover Publications. 9. Savchenko A. V. (2013). Software complex of phonetic decoding of words in the problem of Russian speech recognition. Sistemy upravleniia i informatsionnye tekhnologii, 51(1), pp. 71-75. 10. Savchenko A. V. (2012). Automatic speech transcription based on minimum information discrimination principle. Vestnik komp'iuternykh i informatsionnykh tekhnologii, (8), pp. 14-19. 11. Hill J. E. (2014). The Minimum of n Independent Normal Distributions. Available at: http://www.untruth.org/ ~josh/math/normal-min.pdf (Accessed: 11.01.2014). 12. Savchenko L. V., Savchenko A. V. (2013). Algorithm of automatic phoneme recognition based on the fuzzy sets theory in the Kullback–Leibler information metric. Vestnik komp'iuternykh i informatsionnykh tekhnologii, (3), pp. 36-41. 13. Sorokin V. N., Tsyplikhin A. I. (2004). Segmentation and recognition of vowels. Informatsionnye protsessy, 4(2), pp. 204-220.
Статью можно приобрести в электронном виде (PDF формат).
Стоимость статьи 250 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.
После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.
Для заказа статьи заполните форму:
{jform=1,doi=10.14489/vkit.2014.03.pp.030-037}
.
This article is available in electronic format (PDF).
The cost of a single article is 250 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.
After depositing your payment on our bank account we send you file of the article by e-mail.
To order articles please fill out the form below:
{jform=2,doi=10.14489/vkit.2014.03.pp.030-037}
.
.
|