Распознавание русской речи становится реальностью

Author:

Вячеслав Ансимов

В среду в Москве российская компания Cognitive Technologies и корпорация Intel представили речевую базу данных RuSpeech, предназначенную для построения мощных систем распознавания речи промышленного масштаба.

Несмотря на то, что в данной сфере в России уже достаточно давно работает целый ряд компаний и организаций, реальный продукт, достаточный для распознавания естественной речи говорящего в реальном времени, создан впервые. Лучшие зарубежные технологии, лидером которых после недавнего банкротства бельгийской Lernout & Hauspie стала IBM, в своих законченных решениях тоже пока еще не дошли до промышленных масштабов.

Заказчиком проекта выступила Intel, размеры инвестиций не разглашаются. К разработке Cognitive Technologies привлекала специалистов филологического факультета МГУ.

RuSpeech является базой данных, с которой компьютер сможет “сверять” естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в базе данных слов.

Тексты для базы создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тысяч предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гбайт, размещаемых на 30 c лишним компакт-дисках. Объем этого речевого корпуса в несколько раз превышает популярные речевые базы английского языка WSJ Speech и TIMIT.

Фактически это означает, что впервые появился инструмент для создания дикторонезависимой системы распознавания русской речи. Разработчики считают, что интеграция созданного инструментария с имеющимися передовыми технологиями анализа и распознавания речи приведут к решению этой задачи в самое ближайшее время.

Результаты разработки могут быть использованы в голосовых порталах, голосовом управлении в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера, системы диктовки).

Как сообщил “Нетоскопу” директор по маркетингу Cognitive Technologies Николай Никольский, их компания, являясь поставщиком корпоративных информационных решений, уже обсуждает возможные заказы с телефонными компаниями. Речь идет о решениях, в которых задача распознавания естественной непрерывной речи будет решена с различной степенью глубины.

Полностью решить эту задачу по прогнозам самой компании удастся не раньше начала следующего десятилетия. Распознавание непрерывной речи тесно связано с пониманием естественного языка, что является интеллектуальной задачей. Однако именно RuSpeech стал реальной основой для оптимистических ожиданий в этом направлении.

Компания Cognitive Technologies была создана в 1993 году на базе лаборатории искусственного интеллекта Института системного анализа РАН (бывший ВНИИСИ АН СССР). С середины 70-х годов этот научный коллектив занимался технологиями распознавания в рамках исследования систем искусственного интеллекта. С 1993 года компания вела разработки в области распознавания речи наряду с системами распознавания графических изображений. Тем не менее, в связи с целым рядом существовавших технических проблем – необходимость обучать систему голосу конкретного пользователя, зависимость от оборудования, малый словарный запас – разработки носили скорее научный, перспективный характер и были далеки от промышленного применения. Сфера практического применения такого рода систем была не вполне ясна как в России, так и в мире в целом.

За последние годы большая часть технических проблем, в том числе, дикторозависимости и аппаратных требований, была в значительной мере снята, а мировой объем рынка таких систем только в 2001 году оценивается компанией Datamonitor в 650 миллионов долларов. По прогнозам Datamonitor, в ближайшие 5 лет этот рынок увеличится почти в 10 раз и составит 5,6 миллиардов долларов. По оценкам департамента маркетинга Cognitive Technologies, объем рынка речевых технологий в России к 2006 году может составить порядка 200 миллионов долларов. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах.

Именно это, по заявлению Intel, побудило корпорацию инвестировать в проект создания русскоязычных речевых систем. Дальнейшая судьба RuSpeech в данный момент решается в Intel. Как сообщили “Нетоскопу” в Cognitive Technologies, достаточно велика вероятность, что продукт будет выложен в Интернете в открытый доступ. Его смогут использовать все желающие на правах open source.

ССЫЛКИ ПО ТЕМЕ


Cognitive Technologies

Intel

Впервые разработчики вплотную подошли к созданию промышленной системы распознавания русской речи v Нетоскоп, 28.11.01

МАТЕРИАЛЫ ПО ТЕМЕ


Банковский компьютер узнает клиента по голосу23.10.01


Карманные компьютеры заговорили12.10.01