Кто такая ALICE, или Откуда у робота русская грусть

Author:

Алексей Андреев

В этом году программа искусственного интеллекта ALICE не только получила первую премию Лебнера за наиболее «человечные» диалоги, но и смогла обмануть одного из судей, заставив его поверить, что она — человек. Когда об этом сообщали в «Нетоскопе», ещё не знали, что Ноэл Буш, один из основателей ALICE AI Foundation, живёт буквально рядом со студией в Санкт-Петербурге и готов поделиться подробностями своего уникального бизнеса.

История создания диалоговых систем, которые могут общаться на естественном языке, во многом похожа на освоение космоса, в частности Луны. Первое оживление интереса к этой области искусственного интеллекта наблюдалось в середине 60-х годов. «Элиза», разработанная в 1966 году в MIT и имитировавшая беседу посредством простого преобразования фраз собеседника в вопросы, вызвала у военных восхищение, что поддерживало ажиотаж вокруг подобных программ еще около двадцати лет.

Казалось, осталось немного глубже понять структуру предложений и расширить базы данных, и компьютеры смогут говорить хотя бы на языке Шекспира. Однако время шло, а кроме улучшенных версий «Элизы» прогресса не наблюдалось. Вспоминая тест Тьюринга, предложенный ещё в 50-х, по которому машину считают разумной, если человек не сможет отличить её от другого человека в диалоге, становится понятно, что такого уровня интеллектуальных систем достичь так и не удалось. Многие дорогостоящие проекты в области обработки естественного языка были закрыты.

Тем не менее, в 90-х с развитием Интернета «говорящие» программы вновь начали появляться в технологических обзорах. Более того, появились компании, специализирующиеся на продаже таких ботов. Это объяснимо: благодаря Интернету роботы получили возможность «быть ближе» к пользователям и использовать глобальную базу данных.

Интересно, что подход к тесту Тьюринга изменился — его стали понимать более корректно. В знаменитой статье Тьюринга «Могут ли машины мыслить?» речь шла не о различении машины и человека, а о понятии разумности. Сам тест предлагался в шутливой форме, чтобы подчеркнуть спорность определения «теста разумности». В этом тесте человек задаёт условия: машина должна говорить на человеческом языке и показывать человеческие знания. Если бы испытание проходило на языке машины, например при умножении больших чисел, человек бы давно проиграл.

Современные пользователи Интернета общаются на языке машин — можно вспомнить спутанный язык и ошибки в синтаксисе в чатах, формальные псевдодиалоги в ICQ без приветствий и прощаний, часто без реальных собеседников. Пользователь иногда принимает вопрос в ICQ за запрос поисковой системе. И если ответ точен, ему может быть безразлично, кто был на другом конце линии.

В таком контексте «говорящие» программы приобрели практическую ценность. Их теперь воспринимают прагматично: ботам необязательно полностью имитировать человека и решать философский вопрос «может ли машина мыслить?». Важно, что бот способен выполнять полезные функции, заменяя человека в определённых задачах.

Тем не менее тест Тьюринга не забыт — ведь важен критерий уровня машинного интеллекта. В 1990 году Хью Лебнер, активист за легализацию проституции, учредил премию Лебнера с призом в 100 000 долларов и золотой медалью для программы, успешно проходящей тест Тьюринга. Также была создана ежегодная премия в 2000 долларов и бронзовая медаль для лучшей программы года, даже если полный тест не удалось пройти.

До сих пор ни одна программа не смогла обмануть жюри и получить главный приз. Однако в этом году ALICE, ставшая победителем конкурса как лучшая в демонстрации разговорных навыков, смогла ввести в заблуждение, по меньшей мере, одного судью, оценившего её выше, чем одного из людей в контрольной группе.

Сообщая об этом в октябре, тогда ещё не было известно, что один из основателей ALICE Artificial Intelligence Foundation живёт неподалёку в Санкт-Петербурге. В интервью «Нетоскопу» Ноэл Буш, бывший технический вице-президент Artificial Life, рассказал о своём необычном бизнесе.

— Как ты оказался в России?

— Я переехал сюда, потому что мы с Никой решили пожениться. До этого я работал в Artificial Life и жил в Петербурге около года.

— Ты учился программированию до работы с ботами?

— Нет, я изучал музыку и не имею образования в компьютерных науках. Тем не менее давно интересовался искусственным интеллектом и писал разные программы, включая помощь в написании музыки. После этого работал в издательстве и участвовал в создании систем поддержки пользователей.

— Как это связано с искусственным интеллектом?

— Как и в многих сферах, ИИ применяется для решения практических задач. В службе поддержки это было особенно важно: ежедневно поступают тысячи разных вопросов. Например, редактор может позвонить и сказать, что не может воспользоваться функцией в MS Word. Ответить быстро на все вопросы сотрудники не всегда успевали, хотя необходимые знания были у экспертов или в базе данных.

Так я стал интересоваться, существует ли программа с интерфейсом на естественном языке, которую можно встроить в такие приложения. Познакомился с Artificial Life, основанной в 1998 году. В ней работало всего около семи человек, и искали специалиста на позицию knowledge engineer — инженера знаний. Я устроился к ним, а позже, когда компания выросла, перешёл в бизнес-организацию и стал вице-президентом по технологиям.

— Когда ALife открыло отделение в России?

— После кризиса 1998 года. В России появилось много талантливых специалистов, а кризис оставил многих без работы.

— Были ли у ALife российские клиенты?

— Нет, компания не стремилась работать на российском рынке, сосредоточившись на США и Европе с крупными заказчиками.

— Не помогло это компании остаться на плаву?

— Об этом можно судить по официальным пресс-релизам: были потрачены значительные средства, и все отделения закрыли.

— Странно, идея кажется прибыльной, а компания невелика. В чем причина?

— Мне трудно сказать точно. Возможно, цены были слишком высоки. Технология кажется простой, но на практике сложна. Например, банки могут быть прибыльными клиентами, но крайне требовательными. Перенос всех операций в Интернет убирает живое общение с клиентами, что меняет условия взаимодействия…

— В интернете встречаются назойливые боты, которые не только отвечают, но и сами пытаются что-то навязать.

— Конечно, можно запрограммировать что угодно. Однако возникает вопрос, насколько такое общение должно быть персонифицированным. Отпугнёт ли это клиентов или привлечёт? Банки очень бережно относятся к своей репутации.

Ещё одна сложность — невозможность полностью структурировать диалог на естественном языке. Даже с готовым списком вопросов беседа может пойти неожиданно — поменяются темы, вернутся уточнения, потеряется нить разговора. При этом клиенты хотят быть уверены, что бот справится с заданием.

Таким образом, продажа ботов — серьёзная задача. Возможно, до сих пор нет успешной стратегии. Для этого требуется сочетание технологий и психологии. Именно с такими сложностями столкнулась ALife.

— Расскажи, как ты подключился к проекту ALICE.

— После ухода из ALife я искал проекты в области «говорящих» программ, которые мне были интересны. Естественно, обратил внимание на ALICE, которая на премии Лебнера превосходила многих других ботов, включая продукты ALife. Я связался с создателем ALICE — Ричардом Уоллесом.

— Для него это бизнес?

— Нет, для него это скорее образ жизни. Он учёный, а не бизнесмен. Раньше как профессор робототехники работал в Нью-Йорке, занимаясь проектами, связанными с «spherical pointing motors».

— Это моторы для телескопов?

— Точно не знаю. Это проект для Министерства обороны. Смысл в том, что моторы, обеспечивающие движение в разные стороны, связаны с визуальными сенсорами и реагируют на их сигналы. Задача — распознавание образов при передаче сигналов. Проблема в том, что если между мотором и сенсорами слишком много вычислений в компьютере, реакция замедляется, хотя моторы работают быстро. Например, когда Sony представила робота, ходящего на двух ногах, двадцать лет назад похожего не было, хоть модель движения и знали.

— Возможно, это связано с тем, что человек управляет ходьбой распределённой системой, а не одним «компьютером».

— Конечно. В локте нет единого управляющего, рассчитывающего движение мышц — это слишком медленно. В робототехнике существует философия минимализма — создавать максимально прямую связь между сенсорами и механизмами.

В 1994–95 годах, когда Всемирная паутина была ещё молодой, Ричард Уоллес создал сайт, через который любой мог видеть мир глазами телеробота и управлять им мышью. Позже добавил окно для текстовых команд, вроде «посмотри влево» или «посмотри вправо». Так появилась ALICE.

Позже виртуальный глаз убрали, так как Уоллес сосредоточился на диалоговой системе с позиций минимализма.

— То есть у него собственный взгляд на искусственный интеллект?

— У него серьёзная математическая подготовка, и он хорошо понимает ИИ. Но благодаря опыту в робототехнике смотрит на задачи иначе, пользуясь «вирусом минимализма». Ты знаешь проект CYC?

— Это проект огромного компьютерного мозга, собирающего знания из Интернета?

— Наверное, ты имеешь в виду MindPixel. CYC — гораздо старше, представляет собой большую базу формальных логических утверждений о мире, собираемую уже 17 лет. Задача — создать систему для логических выводов. Например, если Чикаго находится между Нью-Йорком и Лос-Анджелесом, а Цинциннати — между Чикаго и Нью-Йорком, можно логично сделать вывод, что Чикаго между Цинциннати и Лос-Анджелесом. В проекте участвуют лингвисты, социологи и психологи для формализации понятий, например, морали. Потрачены миллионы, но диалоги CYC не лучше, чем у ALICE.

Поэтому создатели ALICE считают, что сложное структурирование знаний и детальный лингвистический, семантический, онтологический анализ — бессмысленны с позиции минимализма. Это не сокращает путь между сенсором и механизмом. Когда человека спрашивают, сколько будет один плюс один, он отвечает «два» не из-за калькулятора в голове, а потому что знает ответ. ALICE основана на этом простом принципе: есть шаблоны, и при их распознавании возникает определённый ответ.

— Значит, аналогично «Элизе»?

— В отличие от классической «Элизы», основанной на 200 встроенных правилах, ALICE использует язык AIML, позволяющий дополнять инструкции боту.

— Если «Элиза» имитировала школу психоанализа, то ALICE скорее напоминает нейролингвистическое программирование. Ведь там тоже не интересуются сложными мотивами, а считают, что у каждого есть «язык», определяющий внутреннюю «карту», которую можно расширять и соотносить.

— Возможно, отличие в том, что НЛП претендует на понимание структуры мышления, а ALICE — нет. У неё нет структуры мышления, есть только сам язык.

— Какие задачи ставит ALICE Foundation?

— Когда я связался с Уоллесом, он как раз думал о создании некоммерческой организации для развития ALICE как открытога проекта. ALICE выпущена под лицензией GNU GPL, как Linux. Это означает, что любой может получить исходный код, менять и распространять его, бесплатно или за деньги, при условии сохранения той же свободы для последующих поколений.

После победы ALICE на премии Лебнера в 2000 году появилось много интереса и инвесторов. Тогда Уоллес понял, что для защиты программного обеспечения, созданного с участием сотен людей по всему миру, одной лицензии GNU недостаточно. Мы с Никой решили заняться этим: зарегистрировали ALICE AI Foundation в Калифорнии и затем оформили некоммерческую организацию в США.

— Как фонд планирует развивать проект ALICE?

— Главная цель — формализовать спецификации AIML. Ещё — создать единственную «эталонную» версию ALICE. Сейчас существует несколько реализаций — на Java, C, Visual Basic. Нужно разработать стандарт для коммерческих компаний, которые хотят создавать более быстрые и функциональные варианты.

Кроме того, фонд намерен сотрудничать с компаниями, заинтересованными в сервисах на базе ALICE. Уже есть десятки фирм, предлагающих такие услуги. В целом цель ALICE AI Foundation — стать своего рода справочным центром. Существует множество версий AIML и движков ALICE, но для коммерческого использования необходимы стандарты — этим мы и занимаемся.

— Судя по всему, проект актуален и в России?

— Да, мы ориентируемся на российский рынок. Ника уже разместила одного бота на нескольких российских сайтах. Пока он говорит на английском, но готовится версия с русским языком.

— Расскажи про проект русского бота с участием школьников.

— Я веду курс в Классической гимназии, обучая ребят писать на AIML и создавать ботов. В ходе курса они создают бота, способного говорить на русском и английском. В конце года планируется провести подобие «теста Тьюринга» для проверки их работы.

— А как справляетесь с грамматикой русского — ведь ошибки выдадут машинное происхождение бота?

— Люди тоже ошибаются. Интересна история конкурса Лебнера: сначала учёные в течение трёх лет решали, прошла ли программа тест или нет. В 1996 году Лебнер усложнил требования, добавив оценку речи и видео. Это нарушило изначальный замысел и вызвало отставку оргкомитета. Тест Тьюринга часто неверно понимают даже участники конкурса. Важен социальный контекст — что происходит, когда человека заменяет машина в общении, но никто об этом не знает? Этот контекст может стать «неизменной величиной» настоящего научного эксперимента.

— Однако чтобы выразить знания, язык должен использоваться относительно правильно. Мне, например, пришлось учить английскую грамматику.

— Интересно, что общаться можно даже без знания грамотности! Вся история обработки естественного языка — история неудач. Проекты, основанные на полном анализе языка и преобразовании его в искусственные форматы с последующей сборкой, нередко не работают. ALICE не следует этому пути. Её «мозг» содержит около 40 000 категорий для распознавания шаблонов — этого хватает для приличного диалога на английском, чуть хуже — на немецком и французском. Есть итальянские, испанские и индонезийские версии, а также боты на каталонском и других языках. Минималистский подход действительно работает.

— Значит, всё зависит от «опыта» бота, а не от его начальных способностей?

— В ALICE применяется оба подхода. Главная проблема коммерческих ботов — показать клиентам, что бот знает всё нужное. Многие перспективные проекты проваливались из-за отсутствия чёткого процесса обучения.

В ALICE обучение прозрачно. Представьте ребёнка, которого сначала обучают в семье, а потом он приходит из школы и говорит: «Сегодня мне задали вопрос, на который я не ответил». Тогда родители объясняют ему снова. С ботом происходит то же.

Сначала загружаются знания о бизнесе. Потом запускается процесс «targeting» — тестирование и обучение одновременно. Пользователи общаются с ботом, а при ошибках он отправляет подробный отчёт управляющему ботом (bot master), который сразу вносит правки.

Например, за обучением главного бота ALICE на сайте alicebot.org следит сам Ричард Уоллес: утром он открывает программу нацеливания и добавляет нужное. Компании могут пользоваться этой системой, упрощая управление проектом. Создание большой базы знаний требует проработки множества теоретических вопросов и практически невозможно без команды учёных.

— Возможны ли кардинальные изменения в развитии ИИ с учётом возможностей Интернета?

— Да, одна из перспектив — объединение ботов. Запуская ALICE, можно указать, чтобы она использовала знания другого бота. AIML, производный от XML, позволяет файлы свободно обмениваться в сети, как HTML. Если есть бот, специализирующийся на собаках, и другой — на кошках, третий может объединить их знания, ссылаясь на них.

— Значит, весь Интернет можно превратить в базу знаний для одного большого ИИ?

— Именно так. В ALICE есть механизм «symbolic reduction», который связывает паттерны и строит распределённые базы AIML. Например, сайт компании с её описанием может включать AIML-теги, а бот на другом ресурсе, ссылаясь на этот код, даст актуальную информацию.

— Получается, это не просто бот, а нечто вроде умной поисковой системы?

— По сути, да. Это напоминает концепцию Semantic Web, над которой работает Тим Бернерс-Ли — структурированную, организованную сеть, призванную заменить текущий WWW.

— Но как это будет работать на практике? Раньше многие думали, что WWW станет большой ассоциативной памятью, если владельцы тематических сайтов будут активно ссылаться друг на друга, но в итоге мы получили хаос и рекламные сети.

— Согласен, я тоже сомневаюсь в успехе Semantic Web, хоть она и порождает интересные идеи и технологии. Проблема в том, что сегодня почти невозможно заставить всех правильно писать HTML, и многие страницы содержат элементы, используемые не по назначению.

— Вы работаете с open-source проектом по созданию единых стандартов для ботов. Это напоминает борьбу Microsoft и Linux: открытость кода должна была донести победу Linux, но доминирует Microsoft с его стандартами.

— Думаю, деятельность ALICE Foundation будет больше похожа на W3C — координационный центр для компаний, создающих веб-приложения. До появления W3C Microsoft, Netscape и другие спорили о стандартах HTML, каждый продвигал свои варианты. Тем не менее именно W3C задаёт стандарты и рекомендует производителям, как их поддерживать.

— Последний вопрос: трудно ли заниматься этим в России? Не проще ли было работать в Бостоне?

— Наоборот, сейчас мои проекты в Европе вызывают больше интереса, чем в Америке. А Россия находится ближе к Европе.