Алексей Андреев
[email protected]
Те, кто называет WWW “кучей мусора”, говорят так лишь потому, что чувствуют очень даже “немусорную” силу этой Сети. И боятся ее. Потому что на самом деле WWW – это умная машина для умных людей. И в ближайшие годы, с развитием Semantic Web, она станет еще умнее, обещает ее изобретатель Тимоти Бернерс-Ли.
Агенты научного коммунизма
-
“Я думаю, что мы увидим более интернациональную, и возможно, более смышленую Сеть, когда она окончательно распространится по всему миру, а люди, которые пришли быстро обогатиться и не обогатились, покинут игровое поле”.
Джефри Зельдман
Одно из массовых заблуждений по поводу Интернета состоит в том, что его создали военные. Это, конечно, не так. Военные могли еще что-то придумывать в древнем Китае. Но в XX веке для создания чего-либо нового в военной сфере требовались люди, работающие в чистых науках. Другое дело, что труд ученых во многих областях науки сначала использовала военная машина. А уже затем она бросала обглоданные кости технологий в руки гражданской индустрии, которая, еще немного обглодав их, отдавала нормальным людям за отдельные деньги.
Но с главной надстройкой Интернета – Word Wide Web – все получилось гораздо интереснее. Она была создана не только учеными, но и для ученых, по их собственным принципам. И проскользнула между пальцами тех, кто привык поедать новые технологии первым. То, что получилось в результате, стало бомбой замедленного действия, подрывающей и военную машину, и гражданскую индустрию.
Но сначала немного истории – которая, кстати, тоже начинается с опровержения стереотипа. Хотя Интернет и ассоциируется у многих с США, его главную надстройку World Wide Web придумал компьютерный консультант британского происхождения, работавший в Швейцарии. В марте 1989 года Тимоти Бернерс-Ли, сотрудник Европейской лаборатории физики элементарных частиц (CERN) в Женеве, обратился к руководству CERN с идеей создания распределенной информационной системы для обмена результатами исследований между учеными, находящимися в разных учреждениях и разных странах. В своем проекте “World Wide Web: Proposal for HyperText Project” Бернерс-Ли предложил объединить все информационные ресурсы CERN в систему, которая бы позволила легко переходить от одного документа к другому посредством гипер-ссылок.
Дальше развитие WWW носило характер массового общественного движения, чему очень способствовала идеология “открытого кода”. Не требовалось ни специальной индустрии, ни специальных государственных мер, чтобы развивать эту Сеть – люди строили ее сами. И хотя распространение других сетей – ФИДО, Usenet – тоже шло снизу, в них не было той черты WWW, которая стала бомбой.
Речь идет о том, что универсальная система URL-адресов и технология гипертекста в сочетании с поисковыми программами образовали среду, где информация не только передается, но и интеллектуально обрабатывается. Под интеллектуальной обработкой имеется в виду не просто техническое преобразование информации (например, шифрование), а такие процессы, которые аналогичны человеческому мышлению. Например, автоматизированное собирание объектов в множества по определенным признакам, установление отношений между этими множествами (распознавание образов) и т.п. Несколько лет назад математик Дмитрий Манин придумал для описания этих механизмов забавный термин “платонова метрика” – своего рода “расстояние между идеями”. В Сети платонова метрика заменяет метрику Евклида. Физическое расстояние между двумя серверами может быть огромно, но если оба сайта посвящены, например, кошкам, то при наборе слова “кошка” в поисковой системе эти сайты окажутся очень близки по идее – как две гиперссылки, стоящие на одной странице.
Таким образом, Интернет с надстройкой WWW – это не только система связи и большая база данных, но и система получения знаний, огромный искусственный интеллект с персональным интерфейсом для каждого желающего.
Для людей науки это был просто клад: в современной теоретической физике, например, просто невозможно создать что-либо “с нуля”, не опираясь на работы предшественников. А уж сколько было случаев, когда люди тратили годы на исследования – и затем выясняли, что аналогичные результаты уже давно получены кем-то другим! В результате научное сообщество просто вынуждено было прийти к идее более-менее свободного обмена знаниями. Построение коммунизма имело место в отдельно взятом и страшно далеком от народа сообществе, поэтому его терпели.
Но когда птичка WWW выпорхнула из академического мира, она вынесла на публику этот тщательно скрываемый научный коммунизм. Нечего и говорить, всенародная система получения знаний вряд ли могла быть полезна военным, которые предпочитают скрывать знания. Да и индустрия, с ее любовью к “патентам”, “авторским правам” и прочим “эксклюзивам”, получила подарочек, смысл которого стал ясен гораздо позднее.
В 2001 году отмечается 10 лет World Wide Web. В течение этих десяти лет старая идеология “средства массовой информации” медленно, но верно подтачивалась новой концепцией “средства персонального доступа к знаниям”. Нельзя сказать, чтобы старый мир особенно сдавался. В Сеть были искусственно привнесены многие офлайновые модели той самой индустрии, которая предпочитает распространять не знания, а продукты использования этих знаний. Дошло даже до того, что механизм гиперссылок стал искусственно подавляться (этим славится, например, агентство “Росбизнесконсалтинг”, редакторам которого запрещено не только ставить ссылки, но и вообще упоминать источники новостей).
Однако Маклюэн не зря сказал, что “the media is the message”. Если ориентация на доступ к знаниям встроена в сам механизм, а механизм получил всемирное распространение – то надурить такую систему уже непросто. Любой желающий с помощью элементарного поиска по Yahoo! может за пару минут найти оригиналы тех новостей, которые РБК публикует как свои. Любой желающий с помощью тех же поисковиков может составить собственную новостную ленту. Более того, в конце концов любой желающий, пользуясь все той же системой, может сам писать новости
Именно в связи с этим
Следующий шаг: мыслящая Сеть
-
“Semantic Web начала развиваться на основе такого же общественного движения “снизу”, как World Wide Web десять лет назад. Самые разные люди создают для нее ПО с открытым кодом. В течение следующих 10 лет это произведет новую революцию в нашем бизнесе, общественной жизни и образовании.”
(Тимоти Бернерс-Ли)
В нынешнем виде WWW – вместе с поисковыми системами и другими сервисами – уже представляет собой “мыслящую Сеть”. Однако нетрудно понять, что сами веб-страницы здесь пассивны, а “мыслящей частью” являются именно поисковые машины. Они не только индексируют страницы Сети, но и всячески анализируют их, организуя собственные базы знаний. Тот, кто контролирует поисковую систему – контролирует знания.
До сих пор поисковики были бесплатными, поскольку бизнес по старинке концентрировал свое внимание на обладании информацией. Но как уже сказано, эта модель умирает. И уже по опыту этого года видно, что в 2002 году сетевые сервисы обработки информации, которые ранее были бесплатными,
Кроме того, сама по себе централизация – не очень полезная вещь. Неэффективно собирать знания со всей Сети в одном месте, и в том же одном месте обслуживать миллионы пользователей. Сейчас число хороших поисковиков можно пересчитать по пальцам. Их сбои (а то и планомерное блокирование) запросто могут привести к тому, что вся WWW превратится в “тело без мозга”.
У Бернерса-Ли уже есть решение этой проблемы: нужно сделать более умной саму WWW, чтобы она хранила не только документы, но и их “смысл”. Для этого семантика, то есть определенная информация о смысле документов, должна быть добавлена в описание самих веб-страниц на языке, который может так же легко обрабатываться компьютерами, как обрабатываться гипертекстовая разметка HTML.
Для начала речь идет самых простых семантических элементах, или мета-данных – которые, кстати, уже используются отдельными системами. Например, во внутренней верстке новостей Lenta.ru (а до этого – в Gazeta.ru) уже в 1999-м году использовались такие “метки”, как .Author или .Title, которые помечают, соответственно, автора новости и заголовок новости. Эти данные используются роботом, который верстает сайт – например, каждый новый заголовок автоматически выносится на главную станицу сайта как гиперссылка. Эти же данные могут использовать другие боты, выполняющие экспорт заголовков на другие сайты, поиск по авторам и т.д.
В случае
Третьим элементом Семантической Сети являются “онтологии” – универсальные базы знаний, которые собственно и определяют используемые термины в рамках классов и множеств. Например, в онтологии может быть описано, что “столица” – это особый тип “города”. Для определения терминов, используемых в разметке XML-документа, достаточно сослаться на онтологию. Этой же ссылкой воспользуется и интеллектуальный бот-поисковик, который, например, ищет не просто “все туры”, а “туры по столицам”. С помощью онтологии бот сам поймет, что на сайте туров по Франции ему нужно выбрать именно тур по Парижу, так как это – столица.
Идентификаторы-гиперссылки могут ссылаться не только на веб-страницы, но и на определенные физические объекты – например, на домашнюю электронную аппаратуру. И самое интересное начнется, когда Семантическая Сеть объединится с
Все это кажется довольно сумасшедшим проектом. Однако развитие Семантической Сети идет полным ходом, причем разработки ведут многие крупные компании, включая Hewlett-Packard и Nokia. Министерство обороны США, а точнее, его научное агентство DARPA, выделило уже десятки миллионов долларов на развитие своего языка разметки для Семантической Сети (DARPA Agent Markup Language).
Битва за стандарты
“Вседоступность Сети – вот ее сила. Разбей ее на две половины, и каждая из частей потеряет главную силу WWW – возможность поставить ссылку на что угодно… Только в том случае, если среда остается неделимой и универсальной, она будет являться средством для получения индивидуального, регионального или глобального знания”.
Тимоти Бернерс-Ли
Издательская компания IDG в своей
Показательно, что стандарт XML был окончательно оформлен еще в 1998 году. Да и вообще в 2001 году не произошло ничего особенно нового в плане языков для веб-программирования или веб-браузеров (если не считать
Простым пользователям в 2001 году эта проблема стало особенно близка с распространением Macromedia Flash, в результате чего появилось множество сайтов, которые просто нельзя увидеть обычным браузером без дополнительного плагина.
По словам самого Бернерса-Ли, уже в 1992 году он почувствовал, что от популяризации WWW пора переходить к контролю за сохранением ее принципов универсальности. Возглавляемый им World
Как отмечает Джефри Зельдман из
Нельзя сказать, что W3C смог полностью решить эти проблемы. С одной стороны, в нем
Очевидно, что в будущем году эти проблемы только усилятся, и в работе над Семантической Сетью тоже будет идти война за стандарты. Сам Бернерс-Ли считает, что Семантическая Сеть, так же как WWW, должна быть максимально децентрализована – в этом случае будет меньше шансов, что-то один станет контролировать базы сетевых знаний (онтологии). Но как сказано выше, хотя развитие Семантической Сети вовсю идет как общественное движение, существенную роль в этом процессе играют крупные компании и даже Минобороны США.
Боты, которые ботают
“Мозг ALICE содержит около 40.000 различный “категорий”, на основе которых происходит распознавание паттернов речи. Это позволяет вести вполне приличный диалог на английском, несколько хуже – на немецком и французском. Уже есть итальянская, испанская и даже индонезийская версии. Я слышал о ботах, которые говорят на каталонском и других языках.”
Ноэл Буш
Интерфейс интеллектуальных агентов-ботов Семантической Сети будет все больше приближаться к естественному языку. В это смысле 2001 год тоже стал переломным. Хотя развитие Интернета повлекло за собой новое
Однако в этом же году создана
Приватность: возьми сам, сколько надо
“Если бы у меня была возможность все сделать снова, я бы вписал механизм защиты приватности пользователя прямо в протокол HTTP”.
Тимоти Бернерс-Ли
В борьбе за знания ученые нередко рискуют собственной безопасностью. Устройство WWW вполне отражает этот факт. Создавая сеть для связывания научных работ, они действительно не думали о том, что ее можно использовать и для слежки. В общем-то ничего удивительного: если WWW – это система получения знаний, то она может быть направлена и на получение знаний о том, кто ею пользуется.
Для выявления вкусов, привычек и паттернов поведения отдельных пользователей, для моделирования их поведения – и манипулирования ими с помощью этих данных.
Поскольку технология защиты приватности, о которой говорит Бернерс-Ли, не была прописана в протоколе HTTP, обеспечить ее могут только программы и сервисы более высокого уровня. В этом смысле разочарованием года стало закрытие сразу двух известных сервисов анонимизации –
Позитивным же событием года стало то, что в новом браузере Internet Explorer 6 оказалась реализована поддержка формата защиты личных данных P3P. Теперь сайты, которые собирают информацию о пользователях, должны описать свою политику и выложить ее в корневой каталог сайта в машиночитаемом виде (на языке XML). Браузер проверяет этот файл, и в зависимости от настроек пользователя начинает “ругаться” в том случае, если сайт хочет узнать о пользователе больше, чем нужно.
Такая забота о пользователе – едва ли заслуга компании Microsoft, которая в этом же году уже
Конечно, P3P – не панацея от всех бед. Некоторые считают, что система идентификации Passport, которую продвигает сейчас Microsoft,
Кстати, собирая ссылки для этой статьи, я не видел ни одного баннера. Не то чтобы я каждый раз специально закрывал глаза, проклиная рекламщиков. Нет, я даже не задумывался об этих несчастных! Просто та часть Сети, в которой я работаю, уже умнее этих людей. И она сама не пускает ко мне то, чего я не просил. И будет еще умнее, если понадобится.
ССЫЛКИ ПО ТЕМЕ |
МАТЕРИАЛЫ ПО ТЕМЕ |
Алексей Андреев
Кто такая ALICE, или Откуда у робота русская грусть – 13.12.01
День рожденья World Wide Web – 12.12.01
Вячеслав Ансимов
“Рамблер” и SpyLOG готовы к IE 6, обрезающему cookies – 28.08.01