Впервые разработчики вплотную подошли к созданию промышленной системы распознавания русской речи

Author:

Intel, 28.11.2001

МОСКВА, 28 ноября 2001 года — Компании Intel и Cognitive Technologies объявили о результатах инвестиционного проекта, направленного на развитие систем распознавания русской речи. Полученные данные показывают, что обе организации приблизились к созданию промышленной системы распознавания русской речи, а также к разработке новых сфер применения подобных систем в мобильной связи, голосовых порталах и голосовом управлении.

В ходе проекта впервые в России был создан масштабный инструментарий для разработки систем распознавания речи, включающий обширный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи в реальном времени. Сложности создания корпуса связаны в первую очередь с особенностями грамматики и фонетики русского языка, а его объем может соперничать с мировыми ведущими речевыми корпусами, предназначенными для распознавания речи. RuSpeech представляет собой базу речевых данных, которая позволяет компьютеру сопоставлять речь диктора, распознавая не только слова из базы, но и отдельные фонемы и их последовательности, что снижает количество ошибок при распознавании новых, отсутствующих в корпусе слов.

Тексты для речевого корпуса были записаны 220 дикторами, каждый из которых произнёс в среднем более 250 предложений. Речевой корпус включает свыше 50 тысяч фраз с фонетической разметкой каждого предложения. Объем RuSpeech составляет около 50 часов непрерывной речи, что эквивалентно примерно 15 Гб данных, размещённых на более чем 30 компакт-дисках. Этот корпус значительно превосходит по объёму популярные английские речевые базы WSJ Speech и TIMIT.

Фактически был создан инструмент для разработки дикторонезависимой системы распознавания русского языка. Совмещение полученного инструментария с современными технологиями анализа и распознавания речи позволит решить эту задачу в ближайшем будущем.

Результаты данной разработки могут быть внедрены в следующих областях:

— голосовые порталы;
— голосовое управление в телефонии (справочные службы, голосовой доступ к электронной почте, набор номера голосом);
— системы диктовки.

Разработкой технологий распознавания речи научная группа, на базе которой была создана компания Cognitive Technologies, занимается с середины 1970-х годов в рамках исследований искусственного интеллекта. С 1993 года велась активная работа по распознаванию речи наряду с разработкой систем распознавания графических изображений. Однако из-за технических ограничений — необходимости подгонки системы под голос конкретного пользователя, зависимости от оборудования, ограниченного словарного запаса — проекты имели в основном научный и перспективный характер и были далёки от промышленного применения. Более того, практическая сфера их использования оставалась неочевидной как в России, так и на мировом уровне.

За последние годы основные технические проблемы, включая дикторозависимость и требования к аппаратному обеспечению, были существенно преодолены. Мировой рынок подобных систем только в 2001 году оценивался в 650 миллионов долларов. Ожидается, что в течение следующих пяти лет он вырастет почти в десять раз и достигнет 5,6 миллиарда долларов. По прогнозам маркетингового отдела Cognitive Technologies, российский рынок речевых технологий к 2006 году может составить около 200 миллионов долларов, что объясняется растущим спросом на такие технологии, особенно в мобильной телефонии и голосовых порталах. Именно эти рыночные условия и перспективы развития речевых технологий, а также отсутствие систем распознавания русской речи послужили причиной инвестиций Intel в создание русскоязычных речевых систем.

Информация о компании Intel

Intel является крупнейшим в мире производителем микропроцессоров и одним из ведущих разработчиков оборудования для персональных компьютеров, компьютерных сетей и средств связи.

Информация о компании Cognitive Technologies

Cognitive Technologies Ltd. представляет собой ведущего интегратора и поставщика прикладных решений в области корпоративных информационных систем, финансовых систем, реестров и баз данных, делопроизводства, документооборота, а также технологий искусственного интеллекта, интернет/интранет решений, Business Intelligence, оптического распознавания (OCR/ICR), архивирования и обработки документов, поиска и извлечения данных, а также потокового ввода информации.

Компания была основана в 1993 году на базе лаборатории искусственного интеллекта Института системного анализа РАН (ранее ВНИИСИ АН СССР), которой руководит профессор, доктор технических наук Владимир Л. Арлазаров. Под его руководством были разработаны программы «Каисса» (первый в мире компьютерный чемпион по шахматам) и система управления базами данных «ИНЭС», широко используемая в государственных структурах Советского Союза.

В компании работают три доктора наук и пятнадцать кандидатов наук. На сегодняшний день численность сотрудников достигает 297 человек.