Архив Интернета

Author:

Через несколько лет после начала использования цифровых носителей стало ясно, что сохранение данных в электронном формате значительно сложнее, чем это предполагалось изначально. Дискеты выходят из строя быстрее, чем традиционные книги, а целые веб-сайты могут исчезнуть после нажатия всего одной кнопки. Тем не менее, уже на протяжении пяти лет в специализированном архиве сохраняются «копии Интернета».

Архив Интернета был основан в 1996 году Брюстером Кейлом, который активно сотрудничает с Библиотекой Конгресса США. Обновления архива происходят каждые два месяца, что соответствует средней продолжительности жизни веб-страницы в Сети. В данный момент объем данных в архиве достигает 40 терабайт. Для сравнения, вся текстовая коллекция Библиотеки Конгресса занимает примерно вдвое меньше места. Архивы, связанные с президентскими выборами, составили около 2 терабайт. Запланировано каждые пять лет переносить материалы на новые носители для предотвращения утраты информации.

До 1996 года архивирование Интернета не осуществлялось. Такая ситуация не является уникальной в истории развития новых информационных технологий — подобное происходило и с книгами, кино, телевидением, радио. По словам самого Брюстера Кейла, даже Александрийская библиотека, один из средневековых проектов по сохранению знаний, известна прежде всего своим поочерёдным разрушением — римлянами, христианами и мусульманами.

В декабре 2000 года Конгресс США выделил Библиотеке Конгресса сто миллионов долларов на создание национальной программы по сохранению цифровых данных. Эти средства будут использованы не только для хранения информации, но и для изучения надёжности цифровых носителей. На протяжении многих веков человечество выработало методы долговременного хранения бумажных материалов и глубоко изучило их долговечность. В цифровой же сфере ситуация иная. В первые годы компьютерной эры считалось, что электронные данные могут сохраняться без повреждений десятилетиями. Несмотря на отсутствие значительных потерь цифровых данных, специалисты архивов замечают, что магнитные ленты и гибкие диски, на которых хранят информацию, со временем теряют работоспособность.

Кроме того, цифровые носители постоянно развиваются, как и оборудование для их воспроизведения. Многие библиотеки и архивы накопили значительные коллекции CD и DVD, которые также подвержены старению с течением времени.

Программное обеспечение непрерывно совершенствуется, что ведёт к появлению множества различных форматов, часто несовместимых между собой. Поэтому специалисты по архивированию предпочитают сохранять данные в универсальных форматах, таких как HTML и ASCII.

Трудности, связанные с цифровыми носителями, касаются и частных пользователей. Дискеты и компакт-диски оказались ненадёжными, зачастую становясь непригодными уже через несколько лет. Однако одной из положительных сторон является постоянное снижение стоимости электронных носителей.

Архивирование Интернета — сравнительно новая область, которая помимо износа носителей сталкивается с дополнительными проблемами. Некоторые издатели цифрового контента, защищённого авторским правом, отказываются предоставлять свои материалы для хранения в библиотеках и архивах, в отличие от традиционных книгоиздателей. Так, Архив Интернета Брюстера Кейла не располагает архивами New York Times, поскольку доступ к онлайн-материалам этой газеты для бесплатного использования заблокирован.

Возникает вопрос, как историки смогут работать с такими материалами? Особенно учитывая, что в Интернете редактирование архивов задним числом — распространённая практика. После внесения изменений восстановить первоначальное состояние становится крайне затруднительно.

Интерес к интернет-архивам вырос и на фоне краха множества доткомов. Обанкротившиеся компании продают свои сайты, уничтожая размещённую на них информацию — подобное недавно произошло с сайтом российского журнала «Интернет».