Архив Интернета: 40 терабайт за 5 лет

Author:


Спустя годы после возникновения цифровых носителей стало ясно, что сохранение информации в цифровом виде — дело куда более сложное, чем казалось вначале. Дискеты изнашиваются быстрее книг, а от целых сайтов не остается и следа после нажатия одной клавиши. Тем не менее, вот уже пять лет в специальном архиве сохраняются «копии Интернета».

Архив Интернета основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США. Архив обновляется каждые два месяца (общепринято, что средний срок жизни страницы в Интернете — именно два месяца). Сейчас объем архива — 40 терабайт. Для сравнения: примерно вдвое больше места нужно для сохранения на цифровых носителей текстовых материалов, хранящихся в Библиотеке Конгресса. 2 терабайта заняли только архивы интернет-материалов, связанных с президентскими выборами 2000 года. Архив Интернета планирует переписывать собираемые материалы на новые носители каждые 5 лет, чтобы предотвратить потерю данных.

До 1996 года Интернет никем не архивировался. Это не беспрецедентный случай в истории: так бывает с ранними версиями любых новых средств информации, будь то книги, кино, телевидение, радио. Как любит напоминать сам Брюстер Кейл, даже самая известная средневековая попытка заархивировать знания человечества — Александрийская библиотека — больше известна фактом своего последовательного уничтожения (сначала римлянами, потом христианами, и еще позже — мусульманами).

В декабре 2000 года Конгресс США выделил Библиотеке Конгресса 100 миллионов долларов для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы, и знает все об их сохранности и долговечности. С цифровыми данными все иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. И хотя исторически существенных потерь цифровых данных пока не зарегистрировано, сотрудники архивов свидетельствуют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя.

Кроме того, цифровые носители постоянно меняются, как меняются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных CD, а также DVD, которые тоже стареют год от года.

Не стоит на месте и ПО, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты в архивном деле стараются хранить данные в таких стандартных форматах, как HTML и ASCII.

Данные проблемы актуальны и для домашних пользователей. Дискеты и компакт-диски показали себя нестабильными носителями данных. Они часто становятся нечитабельными, причем это скорее вопрос лет, а не десятилетий и столетий. Тут есть лишь одна позитивная тенденция — цифровые носители год от года дешевеют.

Архивация Интернета — дело вообще новое, и помимо изнашиваемости носителей, здесь имеются дополнительные трудности. Некоторые издатели, специализирующиеся на распространении цифрового контента, защищенного законом о копирайте, не отдают свою информацию на хранение библиотекам и архивам (книжные издатели такого позволить себе не могли). В частности, Архив Интернета Брюстера Кейла не имеет в своем распоряжении архивов New York Times, так как доступ к онлайновым материалам этой газеты для бесплатного использования заблокирован.

И как же быть в этом случае историкам? Особенно с учетом того, что архивы могут быть изменены задним числом, что в Интернете встречается повсеместно. После внесения изменений в архивы восстановить реальную картину можно лишь с большим трудом.

Актуальность архивов Интернета повысилась в последнее время и в связи с разорением большого числа доткомов. Обанкротившиеся компании продают свои сайты, уничтожая находившуюся на них информацию — как это случилось на днях с сайтом российского журнала «Интернет».

ССЫЛКИ ПО ТЕМЕ


Internet Archieve

Библиотека Конгресса США

Recording History — ABCNews, 11.07.01

Internet Archive — Scientific American, 11.04.96

МАТЕРИАЛЫ ПО ТЕМЕ


Журнал «Internet» стерт с лица Сети06.07.01


IBM и Sony оцифруют видеоархив CNN23.04.01


Google не отдает архивы Usenet людям22.02.01