Сеть, которая умнее людей

Алексей Андреев

Тех, кто называет WWW «кучей мусора», можно понять лишь с точки зрения их страха перед поразительной «немусорной» мощью этой сети. На самом деле World Wide Web представляет собой интеллектуальную платформу для продвинутых пользователей. С развитием Semantic Web в ближайшие годы она обещает стать ещё более интеллектуальной, как отмечает её создатель Тимоти Бернерс-Ли.

Агенты научного коммунизма

«Я думаю, что мы увидим более интернациональную и, возможно, более развитую Сеть, когда она окончательно охватит весь мир, а те, кто пришёл ради быстрой наживы и не добился успеха, уйдут с поля игры».

Джефри Зельдман

Распространённым заблуждением является утверждение, что Интернет был создан военными. Это не соответствует действительности. Вполне возможно, что военные изобретали нечто ещё в древнем Китае, но в XX веке создание инноваций в военной сфере требовало участия специалистов из естественных наук. Учёные различных направлений часто служили на военную машину, которая затем передавала свои технологии гражданской промышленности, а та — потребителям за деньги.

Однако ситуация с главной надстройкой интернета — World Wide Web — оказалась гораздо интереснее. Она создавалась не просто учёными, а для учёных и согласно их принципам. Этот проект ускользнул из рук тех, кто обычно первыми использует новые технологии в своих целях. В итоге получился своего рода замедленный взрыв, который подрывным образом воздействует как на военную машину, так и на гражданскую индустрию.

Для начала — немного истории, которая, кстати, опровергает распространённые стереотипы. Несмотря на то, что Интернет у многих ассоциируется с США, ключевую надстройку WWW изобрёл британский компьютерный консультант, работавший в Швейцарии. В марте 1989 года Тимоти Бернерс-Ли, сотрудник Европейской организации по ядерным исследованиям (CERN) в Женеве, предложил руководству создать распределённую информационную систему для обмена научными результатами между учёными из разных стран и учреждений. В проекте под названием «World Wide Web: Proposal for HyperText Project» он предложил собрать все информационные ресурсы CERN в единую систему, позволяющую легко переходить между документами при помощи гиперссылок.

Массовое развитие WWW приобрело характер общественного движения под влиянием идеологии открытого кода. Для построения Сети не требовалась специализированная индустрия или государственное вмешательство — её создавали сами люди. Хотя и другие сети — ФИДО, Usenet — развивались снизу вверх, у них отсутствовала та особенность WWW, которая стала настоящей революцией.

Речь идёт о том, что универсальная система URL и технология гипертекста в сочетании с поисковиками породили среду, где информация не просто передаётся, а интеллектуально обрабатывается. Под интеллектуальной обработкой понимаются не только технические преобразования (например, шифрование), но и процессы, похожие на человеческое мышление: автоматическое группирование объектов по признакам, установление связей между группами (распознавание образов) и прочее. Несколько лет назад математик Дмитрий Манин ввёл занимательный термин «платонова метрика» для описания таких механизмов — своего рода «расстояние между идеями». В сети она заменяет привычную Евклидову метрику. Физическое расстояние между двумя серверами может быть огромным, но если оба сайта посвящены, скажем, кошкам, то при поиске слова «кошка» они окажутся близки по смыслу, словно две гиперссылки, расположенные на одной странице.

Таким образом, Интернет с надстройкой WWW — это не просто система связи и массив данных, а эффективный инструмент для получения знаний, огромный искусственный интеллект с персональным интерфейсом для каждого пользователя.

Для научного сообщества это стало настоящим сокровищем: в современных теоретических науках практически невозможно создать что-то новое без опоры на работы предшественников. Многие тратили годы исследований, чтобы в итоге обнаружить, что аналогичные результаты уже имеются. Именно поэтому в научной среде возникла необходимость в открытом обмене знаниями. Коммунизм в научном сообществе строился в изолированной академической среде, и по этой причине воспринимался терпимо.

Но, когда WWW вышла за пределы академических кругов, она обнажила этот скрываемый ранее научный коммунизм. Такая общедоступная система доступа к знаниям была невыгодна военным, стремящимся сохранять информацию в секрете. Индустрия, ценящая патенты и авторские права, столкнулась с неожиданным вызовом, смысл которого раскрылся позднее.

В 2001 году исполняется десять лет World Wide Web. За этот период традиционная идеология «средств массовой информации» начала уступать место концепции «средств персонального доступа к знаниям». Старый мир сопротивлялся — многие офлайн-модели индустрии, распространяющей продукты на основе знаний, были перенесены в Сеть. Иногда даже гиперссылки искусственно сдерживались (например, редакторам в некоторых агентствах запрещено не только размещать ссылки, но и упоминать источники новостей).

Однако идея, что «медиа — это сообщение», не теряет своей актуальности. Если доступ к информации встроен в базовые механизмы сети, а сама сеть стала глобальной, обмануть такую систему очень сложно. Любой пользователь с помощью простого поиска за считанные минуты может найти первоисточники новостей, опубликованные другими. Можно собирать собственные новостные ленты или даже генерировать новости лучше, чем крупные агентства — в отдельных случаях предсказывая события ещё до их наступления.

Поэтому аналитики предсказывают скорый конец власти традиционных масс-медиа (телеканалов, музыкальных лейблов, газет). Персонализированные сетевые сервисы, такие как поисковые системы, P2P-сервисы и интерактивное телевидение, будут вытеснять устаревшие форматы, позволяя пользователям создавать собственные плей-листы, телепередачи и новостные подборки.

Следующий шаг: мыслящая Сеть

«Semantic Web развивается так же снизу вверх, как и World Wide Web десять лет назад. Разнообразные люди создают для неё программное обеспечение с открытым кодом. В следующие десять лет это приведёт к революции в бизнесе, обществе и образовании.»

(Тимоти Бернерс-Ли)

Современный WWW вместе с поисковыми и другими сервисами уже представляет собой «мыслящую Сеть», хотя сами веб-страницы остаются пассивными, а интеллект реализуют поисковые системы. Они индексируют страницы, анализируют их, создавая базы знаний. Контроль над поисковиком равнозначен контролю над знаниями.

Долгое время поисковые системы были бесплатными, поскольку бизнес концентрировался на владении информацией. Однако данная модель умирает, и уже в 2002 году сетевые сервисы обработки информации, которые ранее предоставлялись бесплатно, начнут коммерциализироваться. Это вновь ограничит доступ к знаниям.

Кроме того, централизация знаний не всегда оказывается эффективной. Собирать все данные в одном центре и обслуживать миллионы пользователей непросто. Их немного, и сбои или блокировки поисковиков могут привести к тому, что WWW превратится в «тело без мозга».

Бернерс-Ли предлагает выход: сделать WWW умнее, чтобы она хранила не только документы, но и их «смысл». Для этого в описания страниц следует добавить семантические метаданные на языке, столь же удобном для обработки компьютером, как и HTML.

Речь идёт о простых мета-элементах, которые уже применяются в некоторых системах. Например, ещё в 1999 году на новостных сайтах использовались теги Author и Title для выделения автора и заголовка новости. Эти данные применяются роботами для верстки сайта, экспорта заголовков, поиска по авторам и прочего.

В Семантической Сети представитель метаданных — универсальный XML, который позволяет создавать новые гипертекстовые теги. С помощью Resource Description Framework (RDF) описываются отношения между объектами. RDF отображает связи в виде троек, подобно конструкции «подлежащее-глагол-дополнение». Например, «(Париж) (является столицей) (Франции)». Все элементы тройки — это ссылки, направляющие к определениям соответствующих терминов.

Третьим элементом Семантической Сети являются «онтологии» — универсальные базы знаний, задающие понятия и связи между классами и множествами. К примеру, онтология может описывать «столицу» как особый тип «города». По ссылке на онтологию становится возможным определить смысл терминов в XML-документе. Это помогает интеллектуальному боту искать, например, не просто «все туры», а «туры по столицам», автоматически выбирая нужные варианты.

Идентификаторы-ссылки могут указывать не только на веб-страницы, но и на реальные объекты — например, бытовую технику. Настоящее же чудо начнётся, когда Семантическая Сеть объединится с Сенсорной Сетью. Тогда умные боты смогут управлять материальными объектами: снижать громкость телевизора при звонке, парковать сотни автомобилей одновременно.

Хотя это кажется фантастикой, работа над Семантической Сетью идёт полным ходом. В проекте участвуют крупные компании, включая Hewlett-Packard и Nokia. Министерство обороны США направило значительные средства на исследования собственного языка разметки для такой Сети (DARPA Agent Markup Language).

Битва за стандарты

«Доступность Сети — её главная сила. Если разделить её на части, каждая из них потеряет способность ставить ссылки на что угодно… Только при сохранении целостности и универсальности среда служит источником индивидуальных, региональных и глобальных знаний».

Тимоти Бернерс-Ли

Издательская компания IDG включила язык XML (Extensible Markup Language) в перечень двадцати технологий, способных изменить компьютерную жизнь в ближайшем будущем, выделяя его как одно из главных достижений. По гибкости и универсальности XML превосходит традиционный HTML и становится платформой, способной заменить разнородные стандарты и диалекты.

Следует отметить, что стандарт XML был закреплён ещё в 1998 году. В 2001 году революционных изменений в языках веб-программирования или браузерах не произошло (за исключением появления языка Curl, который пока не получил широкого распространения). Вместе с тем год стал ареной борьбы за стандарты, необходимые для упорядочивания многообразия веб-приложений.

Проблема стала очевидной большинству пользователей с массовым распространением Macromedia Flash, из-за которого многие сайты невозможно было просмотреть без дополнительных плагинов.

По словам Бернерс-Ли, ещё в 1992 году он почувствовал необходимость контролировать поддержание принципов универсальности WWW. Возглавляемый им консорциум World Wide Web Consortium (W3C) на протяжении всех лет стремился обеспечить общедоступность новых технологий в Сети вне зависимости от аппаратуры, программного обеспечения, провайдеров или культурных различий пользователей.

Джефри Зельдман из Web Standards Project отмечал, что W3C достигла заметного прогресса в области стандартов — в частности, сейчас разрабатываются сложные технологии, чьё внедрение ещё впереди. Вместе с тем компании-разработчики стали всё менее охотно поддерживать даже простые стандарты. В 2001 году консорциум столкнулся с давлением индустрии: Microsoft, к примеру, ограничила доступ на сайт MSN.com только для браузеров последней версии Internet Explorer.

Нельзя утверждать, что W3C решила все возникающие задачи. С одной стороны, была создана специальная рабочая группа, занимающаяся архитектурой Интернета. С другой — в 2001 году прекратила деятельность организация Web Standards Project — три года продвигавшая идеи консорциума среди лидеров отрасли. Кроме того, W3C выдвинул новые правила, допускающие включение в сетевые стандарты запатентованных технологий, использование которых требует оплаты. Если эти правила будут приняты, платить смогут лишь крупные компании, а разработчики ПО с открытым кодом столкнутся с дилеммой — либо прекращать разработки, либо использовать альтернативные стандарты. В данный момент принятие новых правил отложено на доработку.

Очевидно, что в дальнейшем эти вопросы будут только обостряться, а вместе с ними усложнится борьба за стандарты при развитии Семантической Сети. Бернерс-Ли уверен, что Семантическая Сеть должна оставаться максимально децентрализованной, чтобы снизить ризик монополизации баз знаний (онтологий). Хотя развитие сети происходит как общественное движение, крупные компании и даже военное ведомство США играют в этом процессе значительную роль.

Боты, которые ботают

«Мозг ALICE включает около 40 000 различных «категорий», на основе которых она распознаёт речевые паттерны. Это позволяет вести приличный диалог на английском, немного хуже — на немецком и французском. Уже существуют версии на итальянском, испанском и даже индонезийском. Известно о ботах на каталонском и других языках.»

Ноэл Буш

Интерфейсы интеллектуальных агентов и ботов Семантической Сети становятся всё более приближенными к естественному языку. 2001 год оказался важной вехой: несмотря на возросший интерес к говорящим ботам, коммерческое применение этих решений остаётся спорным. Например, известная компания Artificial Life в этом году прекратила деятельность.

Тем не менее в 2001 году была основана AI ALICE Foundation — некоммерческая организация, курирующая open-source проекты по развитию говорящих роботов по аналогии с тем, как W3C координирует развитие WWW. Искусственный интеллект ALICE получил премию Лебнера за наиболее человекоподобные диалоги и сумел убедить одного из судей конкурса в том, что он — человек. Благодаря открытому коду сотни разработчиков по всему миру создают собственных роботов на базе ALICE. Язык AIML, применяемый ALICE, является производным от XML, что позволяет файлам AIML быть общедоступными через WWW, превращая всю сеть в базу знаний для бота. Подробнее о проекте можно узнать из интервью Ноэля Буша — одного из основателей AI ALICE Foundation.

Приватность: возьми сколько надо

«Если бы появилась возможность начать всё заново, я встроил бы механизм защиты приватности пользователя непосредственно в протокол HTTP.»

Тимоти Бернерс-Ли

В стремлении к знаниям учёные часто рисковали собственной безопасностью. Устройство WWW полностью отражает эту особенность. Создавая сеть для обмена научными работами, не предполагали, что её смогут использовать для слежки. Это логично: если WWW — инструмент получения знаний, то она может служить и для изучения пользователей, выявления их привычек, вкусов и моделей поведения с целью их контроля.

Поскольку механизм защиты приватности, о котором говорил Бернерс-Ли, не был интегрирован в HTTP, он может обеспечиваться только программами и сервисами более высокого уровня. Одним из разочарований 2001 года стало закрытие известных сервисов анонимизации — Zero Knowledge и SafeWeb. Специалисты связывают это главным образом с финансовыми трудностями и ужесточением мер национальной безопасности в США после терактов. В этот период ФБР установило у провайдеров систему Carnivore для слежки и начало разработку ещё более продвинутого инструмента — «Волшебного фонаря».

Положительной новостью стало появление в браузере Internet Explorer 6 поддержки формата защиты личных данных P3P. Теперь сайты, собирающие информацию о пользователях, обязаны представлять свою политику в машиночитаемом формате (на XML). Браузер проверяет эти данные и предупреждает пользователя, если сайт запрашивает чрезмерно много информации.

Однако забота о приватности — не заслуга Microsoft, ведь в том же году компания запускала слежку за пользователями интерактивного телевидения. Формат P3P, разработанный консорциумом W3C под руководством Бернерс-Ли, стал первым шагом к построению «распределённой» политики защиты личных данных. Если знания распределены, то и личная безопасность должна обеспечиваться самим пользователем без «доброго дяди».

Некоторые считают систему идентификации Microsoft Passport куда более изощрённой системой шпионажа, чем сбор cookies. Тем не менее поддержка P3P показывает, что идея децентрализованного контроля в сети начинает распространяться и на защиту приватности. Пользователи смогут выбирать подходящий им уровень «умной Сети».

Примечательно, что автор, готовивший этот материал, не встретил ни одного баннера. Это связано не с намеренным игнорированием рекламы — просто та часть сети, где он работает, уже умнее рекламных механизмов и не пропускает ненужный контент. И она станет ещё умнее в будущем, если потребуется.

Похожие записи: