Алексей Андреев
[email protected]
Те, кто называет WWW «кучей мусора», говорят так лишь потому, что чувствуют очень даже «немусорную» силу этой Сети. И боятся ее. Потому что на самом деле WWW — это умная машина для умных людей. И в ближайшие годы, с развитием Semantic Web, она станет еще умнее, обещает ее изобретатель Тимоти Бернерс-Ли.
Агенты научного коммунизма
-
«Я думаю, что мы увидим более интернациональную, и возможно, более смышленую Сеть, когда она окончательно распространится по всему миру, а люди, которые пришли быстро обогатиться и не обогатились, покинут игровое поле».
Джефри Зельдман
Одно из массовых заблуждений по поводу Интернета состоит в том, что его создали военные. Это, конечно, не так. Военные могли еще что-то придумывать в древнем Китае. Но в XX веке для создания чего-либо нового в военной сфере требовались люди, работающие в чистых науках. Другое дело, что труд ученых во многих областях науки сначала использовала военная машина. А уже затем она бросала обглоданные кости технологий в руки гражданской индустрии, которая, еще немного обглодав их, отдавала нормальным людям за отдельные деньги.
Но с главной надстройкой Интернета — Word Wide Web — все получилось гораздо интереснее. Она была создана не только учеными, но и для ученых, по их собственным принципам. И проскользнула между пальцами тех, кто привык поедать новые технологии первым. То, что получилось в результате, стало бомбой замедленного действия, подрывающей и военную машину, и гражданскую индустрию.
Но сначала немного истории — которая, кстати, тоже начинается с опровержения стереотипа. Хотя Интернет и ассоциируется у многих с США, его главную надстройку World Wide Web придумал компьютерный консультант британского происхождения, работавший в Швейцарии. В марте 1989 года Тимоти Бернерс-Ли, сотрудник Европейской лаборатории физики элементарных частиц (CERN) в Женеве, обратился к руководству CERN с идеей создания распределенной информационной системы для обмена результатами исследований между учеными, находящимися в разных учреждениях и разных странах. В своем проекте «World Wide Web: Proposal for HyperText Project» Бернерс-Ли предложил объединить все информационные ресурсы CERN в систему, которая бы позволила легко переходить от одного документа к другому посредством гипер-ссылок.
Дальше развитие WWW носило характер массового общественного движения, чему очень способствовала идеология «открытого кода». Не требовалось ни специальной индустрии, ни специальных государственных мер, чтобы развивать эту Сеть — люди строили ее сами. И хотя распространение других сетей — ФИДО, Usenet — тоже шло снизу, в них не было той черты WWW, которая стала бомбой.
Речь идет о том, что универсальная система URL-адресов и технология гипертекста в сочетании с поисковыми программами образовали среду, где информация не только передается, но и интеллектуально обрабатывается. Под интеллектуальной обработкой имеется в виду не просто техническое преобразование информации (например, шифрование), а такие процессы, которые аналогичны человеческому мышлению. Например, автоматизированное собирание объектов в множества по определенным признакам, установление отношений между этими множествами (распознавание образов) и т.п. Несколько лет назад математик Дмитрий Манин придумал для описания этих механизмов забавный термин «платонова метрика» — своего рода «расстояние между идеями». В Сети платонова метрика заменяет метрику Евклида. Физическое расстояние между двумя серверами может быть огромно, но если оба сайта посвящены, например, кошкам, то при наборе слова «кошка» в поисковой системе эти сайты окажутся очень близки по идее — как две гиперссылки, стоящие на одной странице.
Таким образом, Интернет с надстройкой WWW — это не только система связи и большая база данных, но и система получения знаний, огромный искусственный интеллект с персональным интерфейсом для каждого желающего.
Для людей науки это был просто клад: в современной теоретической физике, например, просто невозможно создать что-либо «с нуля», не опираясь на работы предшественников. А уж сколько было случаев, когда люди тратили годы на исследования — и затем выясняли, что аналогичные результаты уже давно получены кем-то другим! В результате научное сообщество просто вынуждено было прийти к идее более-менее свободного обмена знаниями. Построение коммунизма имело место в отдельно взятом и страшно далеком от народа сообществе, поэтому его терпели.
Но когда птичка WWW выпорхнула из академического мира, она вынесла на публику этот тщательно скрываемый научный коммунизм. Нечего и говорить, всенародная система получения знаний вряд ли могла быть полезна военным, которые предпочитают скрывать знания. Да и индустрия, с ее любовью к «патентам», «авторским правам» и прочим «эксклюзивам», получила подарочек, смысл которого стал ясен гораздо позднее.
В 2001 году отмечается 10 лет World Wide Web. В течение этих десяти лет старая идеология «средства массовой информации» медленно, но верно подтачивалась новой концепцией «средства персонального доступа к знаниям». Нельзя сказать, чтобы старый мир особенно сдавался. В Сеть были искусственно привнесены многие офлайновые модели той самой индустрии, которая предпочитает распространять не знания, а продукты использования этих знаний. Дошло даже до того, что механизм гиперссылок стал искусственно подавляться (этим славится, например, агентство «Росбизнесконсалтинг», редакторам которого запрещено не только ставить ссылки, но и вообще упоминать источники новостей).
Однако Маклюэн не зря сказал, что «the media is the message». Если ориентация на доступ к знаниям встроена в сам механизм, а механизм получил всемирное распространение — то надурить такую систему уже непросто. Любой желающий с помощью элементарного поиска по Yahoo! может за пару минут найти оригиналы тех новостей, которые РБК публикует как свои. Любой желающий с помощью тех же поисковиков может составить собственную новостную ленту. Более того, в конце концов любой желающий, пользуясь все той же системой, может сам писать новости
Именно в связи с этим
Следующий шаг: мыслящая Сеть
-
«Semantic Web начала развиваться на основе такого же общественного движения «снизу», как World Wide Web десять лет назад. Самые разные люди создают для нее ПО с открытым кодом. В течение следующих 10 лет это произведет новую революцию в нашем бизнесе, общественной жизни и образовании.»
(Тимоти Бернерс-Ли)
В нынешнем виде WWW — вместе с поисковыми системами и другими сервисами — уже представляет собой «мыслящую Сеть». Однако нетрудно понять, что сами веб-страницы здесь пассивны, а «мыслящей частью» являются именно поисковые машины. Они не только индексируют страницы Сети, но и всячески анализируют их, организуя собственные базы знаний. Тот, кто контролирует поисковую систему — контролирует знания.
До сих пор поисковики были бесплатными, поскольку бизнес по старинке концентрировал свое внимание на обладании информацией. Но как уже сказано, эта модель умирает. И уже по опыту этого года видно, что в 2002 году сетевые сервисы обработки информации, которые ранее были бесплатными,
Кроме того, сама по себе централизация — не очень полезная вещь. Неэффективно собирать знания со всей Сети в одном месте, и в том же одном месте обслуживать миллионы пользователей. Сейчас число хороших поисковиков можно пересчитать по пальцам. Их сбои (а то и планомерное блокирование) запросто могут привести к тому, что вся WWW превратится в «тело без мозга».
У Бернерса-Ли уже есть решение этой проблемы: нужно сделать более умной саму WWW, чтобы она хранила не только документы, но и их «смысл». Для этого семантика, то есть определенная информация о смысле документов, должна быть добавлена в описание самих веб-страниц на языке, который может так же легко обрабатываться компьютерами, как обрабатываться гипертекстовая разметка HTML.
Для начала речь идет самых простых семантических элементах, или мета-данных — которые, кстати, уже используются отдельными системами. Например, во внутренней верстке новостей Lenta.ru (а до этого — в Gazeta.ru) уже в 1999-м году использовались такие «метки», как .Author или .Title, которые помечают, соответственно, автора новости и заголовок новости. Эти данные используются роботом, который верстает сайт — например, каждый новый заголовок автоматически выносится на главную станицу сайта как гиперссылка. Эти же данные могут использовать другие боты, выполняющие экспорт заголовков на другие сайты, поиск по авторам и т.д.
В случае
Третьим элементом Семантической Сети являются «онтологии» — универсальные базы знаний, которые собственно и определяют используемые термины в рамках классов и множеств. Например, в онтологии может быть описано, что «столица» — это особый тип «города». Для определения терминов, используемых в разметке XML-документа, достаточно сослаться на онтологию. Этой же ссылкой воспользуется и интеллектуальный бот-поисковик, который, например, ищет не просто «все туры», а «туры по столицам». С помощью онтологии бот сам поймет, что на сайте туров по Франции ему нужно выбрать именно тур по Парижу, так как это — столица.
Идентификаторы-гиперссылки могут ссылаться не только на веб-страницы, но и на определенные физические объекты — например, на домашнюю электронную аппаратуру. И самое интересное начнется, когда Семантическая Сеть объединится с
Все это кажется довольно сумасшедшим проектом. Однако развитие Семантической Сети идет полным ходом, причем разработки ведут многие крупные компании, включая Hewlett-Packard и Nokia. Министерство обороны США, а точнее, его научное агентство DARPA, выделило уже десятки миллионов долларов на развитие своего языка разметки для Семантической Сети (DARPA Agent Markup Language).
Битва за стандарты
«Вседоступность Сети — вот ее сила. Разбей ее на две половины, и каждая из частей потеряет главную силу WWW — возможность поставить ссылку на что угодно… Только в том случае, если среда остается неделимой и универсальной, она будет являться средством для получения индивидуального, регионального или глобального знания».
Тимоти Бернерс-Ли
Издательская компания IDG в своей
Показательно, что стандарт XML был окончательно оформлен еще в 1998 году. Да и вообще в 2001 году не произошло ничего особенно нового в плане языков для веб-программирования или веб-браузеров (если не считать
Простым пользователям в 2001 году эта проблема стало особенно близка с распространением Macromedia Flash, в результате чего появилось множество сайтов, которые просто нельзя увидеть обычным браузером без дополнительного плагина.
По словам самого Бернерса-Ли, уже в 1992 году он почувствовал, что от популяризации WWW пора переходить к контролю за сохранением ее принципов универсальности. Возглавляемый им World
Как отмечает Джефри Зельдман из
Нельзя сказать, что W3C смог полностью решить эти проблемы. С одной стороны, в нем
Очевидно, что в будущем году эти проблемы только усилятся, и в работе над Семантической Сетью тоже будет идти война за стандарты. Сам Бернерс-Ли считает, что Семантическая Сеть, так же как WWW, должна быть максимально децентрализована — в этом случае будет меньше шансов, что-то один станет контролировать базы сетевых знаний (онтологии). Но как сказано выше, хотя развитие Семантической Сети вовсю идет как общественное движение, существенную роль в этом процессе играют крупные компании и даже Минобороны США.
Боты, которые ботают
«Мозг ALICE содержит около 40.000 различный «категорий», на основе которых происходит распознавание паттернов речи. Это позволяет вести вполне приличный диалог на английском, несколько хуже — на немецком и французском. Уже есть итальянская, испанская и даже индонезийская версии. Я слышал о ботах, которые говорят на каталонском и других языках.»
Ноэл Буш
Интерфейс интеллектуальных агентов-ботов Семантической Сети будет все больше приближаться к естественному языку. В это смысле 2001 год тоже стал переломным. Хотя развитие Интернета повлекло за собой новое
Однако в этом же году создана
Приватность: возьми сам, сколько надо
«Если бы у меня была возможность все сделать снова, я бы вписал механизм защиты приватности пользователя прямо в протокол HTTP».
Тимоти Бернерс-Ли
В борьбе за знания ученые нередко рискуют собственной безопасностью. Устройство WWW вполне отражает этот факт. Создавая сеть для связывания научных работ, они действительно не думали о том, что ее можно использовать и для слежки. В общем-то ничего удивительного: если WWW — это система получения знаний, то она может быть направлена и на получение знаний о том, кто ею пользуется.
Для выявления вкусов, привычек и паттернов поведения отдельных пользователей, для моделирования их поведения — и манипулирования ими с помощью этих данных.
Поскольку технология защиты приватности, о которой говорит Бернерс-Ли, не была прописана в протоколе HTTP, обеспечить ее могут только программы и сервисы более высокого уровня. В этом смысле разочарованием года стало закрытие сразу двух известных сервисов анонимизации —
Позитивным же событием года стало то, что в новом браузере Internet Explorer 6 оказалась реализована поддержка формата защиты личных данных P3P. Теперь сайты, которые собирают информацию о пользователях, должны описать свою политику и выложить ее в корневой каталог сайта в машиночитаемом виде (на языке XML). Браузер проверяет этот файл, и в зависимости от настроек пользователя начинает «ругаться» в том случае, если сайт хочет узнать о пользователе больше, чем нужно.
Такая забота о пользователе — едва ли заслуга компании Microsoft, которая в этом же году уже
Конечно, P3P — не панацея от всех бед. Некоторые считают, что система идентификации Passport, которую продвигает сейчас Microsoft,
Кстати, собирая ссылки для этой статьи, я не видел ни одного баннера. Не то чтобы я каждый раз специально закрывал глаза, проклиная рекламщиков. Нет, я даже не задумывался об этих несчастных! Просто та часть Сети, в которой я работаю, уже умнее этих людей. И она сама не пускает ко мне то, чего я не просил. И будет еще умнее, если понадобится.
ССЫЛКИ ПО ТЕМЕ |
МАТЕРИАЛЫ ПО ТЕМЕ |
Алексей Андреев
Кто такая ALICE, или Откуда у робота русская грусть — 13.12.01
День рожденья World Wide Web — 12.12.01
Вячеслав Ансимов
«Рамблер» и SpyLOG готовы к IE 6, обрезающему cookies — 28.08.01