Через несколько лет после внедрения цифровых носителей стало очевидно, что сохранение данных в цифровом виде оказалось значительно более сложной задачей, чем предполагалось изначально. В отличие от книг, дискеты быстро изнашиваются, а целые веб-сайты могут исчезнуть после нажатия всего одной клавиши. Тем не менее, уже свыше пяти лет существует специализированный архив, в котором хранятся «снимки Интернета».
Архив Интернета был создан в 1996 году Брюстером Кейлом и тесно взаимодействует с Библиотекой Конгресса США. Обновление архива производится каждые два месяца, что соответствует средней продолжительности жизни одной веб-страницы. На данный момент его размер достигает примерно 40 терабайт. Для сравнения, около вдвое большего объёма пространства требует хранение текстовых материалов Библиотеки Конгресса. Архивы, связанные с президентскими выборами 2000 года, занимают 2 терабайта памяти. Планируется, что каждые пять лет все накопленные данные будут переноситься на новые носители, чтобы предотвратить потерю информации.
До 1996 года Интернет не подвергался сбору и архивированию. Такая ситуация была типична для ранних этапов любых новых информационных технологий, включая книги, кино, телевидение и радио. По словам Брюстера Кейла, одна из наиболее известных средневековых попыток сохранить знания человечества — Александрийская библиотека — прославилась главным образом своим постепенным разрушением, которое происходило по разным причинам и под властью различных правителей.
В конце 2000 года Конгресс США выделил Библиотеке Конгресса 100 миллионов долларов на создание национальной программы по сохранению цифровой информации. Финансирование направляется не только на хранение данных, но и на научные исследования, изучающие устойчивость цифровых носителей. В то время как долговечность бумажных материалов хорошо изучена, ситуация с цифровыми данными значительно сложнее. В первые годы использования компьютеров считалось, что цифровые файлы смогут сохраняться без изменений на протяжении десятилетий. Хотя серьёзных потерь на сегодняшний день не зафиксировано, специалисты отмечают выход из строя магнитных лент и гибких дисков, на которых хранятся данные.
Цифровые носители постоянно обновляются, как и устройства для их чтения. В современных библиотечных фондах имеются крупные коллекции музыкальных и других CD, а также DVD-дисков, которые со временем также утрачивают свои свойства.
Развитие программного обеспечения приводит к появлению множества форматов, зачастую несовместимых между собой. Поэтому архивисты стараются сохранять данные в стандартизированных форматах, таких как HTML и ASCII.
Проблемы сохранения цифровых данных актуальны и для обычных пользователей. Дискеты и компакт-диски оказались ненадёжными носителями информации — они становятся нечитаемыми спустя несколько лет, тогда как для бумажных документов сроки измеряются столетиями. Однако существует позитивная тенденция: ежегодно снижается стоимость цифровых носителей.
Архивирование Интернета — это довольно новая отрасль, и помимо нестабильности цифровых носителей, здесь возникают и другие сложности. Некоторые издатели цифрового контента, защищённого авторским правом, не предоставляют материалы библиотекам и архивам, в отличие от традиционных издательств. Так, Архив Интернета Брюстера Кейла не располагает архивами газеты New York Times, поскольку доступ к её онлайн-материалам для бесплатного использования закрыт.
Это вызывает вопросы у историков, особенно учитывая возможность задним числом изменять интернет-архивы, что в сети встречается довольно часто. После таких редактирований восстановить подлинное историческое состояние дел становится чрезвычайно трудно.
В последнее время значение интернет-архивов значительно возросло на фоне банкротства множества «доткомов». Компании, объявившие о несостоятельности, продают или удаляют свои сайты, стирая содержащуюся на них информацию — как это недавно произошло с сайтом российского журнала «Интернет».