10.14489/vkit.2016.05.pp.029-033 |
DOI: 10.14489/vkit.2016.05.pp.029-033 Мельников С. Ю., Пересыпкин В. А. Аннотация. Предложена система коррекции искаженных текстов с использованием вероятностных моделей языка. Рассмотрены два вида случайных искажений текста: посимвольное (символ алфавита заменяется на другой с вероятностью р) и пословное (слово заменяется на другое случайное слово из своей окрестности в метрике Левенштейна так, что посимвольная доля искажений близка к р). Приведены результаты экспериментов по оценке уровня обнаружения ошибок предложенной системой в зависимости от вида и уровня искажений для английского и французского языков. Ключевые слова: автоматическая коррекция; модель языка; коррекция текстов; искажения текстов; метрика Левенштейна.
Melnikov S. Yu., Peresypkin V. A. Abstract. Spelling errors correction for alphabetic languages is relevant for several domains. Garbled characters in the text can lead to two types of errors at the word level: nondictionary (distorted word does not belong to the language dictionary) and vocabulary (distorted word belongs to the language dictionary). In practice there are both types of errors, but with the development of recognition systems operating at the level of words and phrases, the main trouble is caused by vocabulary mistakes. The garbled text correction system by using language probabilistic model is described. We deal with two types of random garbling: character-level (the alphabet character is replaced with a different character with probability p) and word-level (the word is replaced with another random word from its neighborhood at Levenshtein distance, so that distortion rate on character-level is close to p. The results of the experiments on the spelling error detection quality of the proposed system, depending on the type and level of distortion for the texts in English and the French languages, are presented. The results show that the used trigram model is sensitive to garbling of both the first and second types. Specific values of the sensitivity thresholds depend on the number of characters in the alphabet and the morphological features of the language in question. Garbling of the second type at the Levenshtein distance, equal to two, is distinguished by this model better than garbling at the Levenshtein distance equal to one. Keywords: Automatic correction; Language model; Text correction; Garbled text; Levenstein distance.
РусS. Yu. Melnikov (“Language and Information Technologies” Ltd., Moscow) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
EngS. Yu. Melnikov (“Language and Information Technologies” Ltd., Moscow) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Logan F. A. Errors in Copy Typewriting // Journal of Experimental Psychology: Human Perception and Performance. 1999. V. 25. P. 1760 – 1773. Eng1. Logan F. A. (1999). Errors in copy typewriting. Journal of Experimental Psychology: Human Perception and Performance, 25, pp. 1760 – 1773. doi: 10.1037/0096-1523.25.6.1760
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа статьи заполните форму: {jform=1,doi=10.14489/vkit.2016.05.pp.029-033} . EngThis article is available in electronic format (PDF). The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please fill out the form below: {jform=2,doi=10.14489/vkit.2016.05.pp.029-033}
. .
|