• am
  • ru
  • en
Версия для печати
11.07.2017

ЖИЗНЬ И СМЕРТЬ В ЦИФРЕ

   

О проблеме архивации и резервирования информации

Евгений Механцев

30 июня 2017 года

По оценкам исследователей International Data Corporation, количество информации удваивается в мире каждые два года. На данный момент ее объем составляет несколько тысяч эксабайт, и лишь один процент из этого объема так или иначе проанализирован. Однако даже эта информация сохранена ненадежно: хрупкость аналоговых носителей и развитие ПО увеличивают риски ее потери.

Сумасшедшие оценки экспертов воспринимаются уже как статистические выкладки из учебника астрономии: миллиарды звёзд и планет складываются во вселенскую бесконечность, которую невозможно себе представить. Но пока что среди известных науке галактик нас главным образом волнует судьба родного Млечного Пути. Вот и среди астрономических цифр Big Data нам в первую очередь интересна сохранность сравнительно небольшого количества данных: литературы, музыки, фильмов, живописи – наиболее ценных достижений человеческой культуры.

В отличие от ситуации со статистическими данными, объёмы даже крупнейших мировых библиотечных фондов воображение не поражают: например, более 150 миллионов единиц хранения Библиотеки Конгресса США в оцифрованном виде будут «весить» смешные по меркам «больших данных» 20 терабайт. Однако для оцифровки даже этих объемов информации требуются очень большие усилия.

Исторический контекст

Разнообразные программы по оцифровке аналоговых носителей появились в 1990-х годов. Чуть позже были запущены национальные программы оцифровки в странах Европы, Северной Америке, Новой Зеландии, Австралии, Китае. Появились и частные инициативы, такие как Open Library и Google Books. Казалось бы, дожившим до компьютерного века произведениям уже ничего не угрожает. Но в 2003 году ЮНЕСКО приняла Хартию цифрового наследия, основной посыл которой – не расслабляться: несмотря на удобство цифровой копии, вариантов гибели для неё ещё больше, чем для аналоговой – от банального сбоя на носителе до атаки зловредным вирусом. Живучесть электронной книги зависит главным образом от возможности хранить множество копий (желательно – в разных странах или даже на разных континентах).

Ситуация усложняется еще и тем, что оцифровка – дело небыстрое: за один рабочий день специалисты успевают обработать не более нескольких сотен носителей. Процесс растягивается на многие десятилетия, и случайного пожара или наводнения достаточно, чтобы миллионы уникальных произведений пропали безвозвратно – что уж говорить о более крупных техногенных катастрофах.

Ещё большая опасность грозит аналоговым видео- и аудиозаписям: их носители – плёнки, магнитные ленты, пластинки – разрушаются даже без внешнего воздействия, просто от старости. Так, 80% фильмов, снятых в 1920-е годы, до нашего времени просто не дожили, потому что не дождались своей очереди на оцифровку. И с каждым годом таких записей становится больше.

Ресурсы для сохранения наследия

Один из способов ускорить процесс оцифровки – распределить фронт работ между библиотеками разных городов и стран. Однако, как показывает практика, человечество справляется с этим плохо: даже запущенная с 2009 года при поддержке ООН Мировая Цифровая Библиотека содержит всего лишь 16 тысяч неочевидно подобранных файлов. Например, по запросу «Лев Толстой» посетитель найдёт несколько фотографий из Ясной Поляны начала XX века, но не текст «Анны Карениной».

Отдельную сложность представляет сохранение веб-ресурсов – они не нуждаются в оцифровке, но при этом постоянно обновляются, меняются и исчезают. В начале 2000-х годов возник Северный веб-архив, объединивший библиотеки Дании, Швеции, Финляндии, Норвегии и Исландии. Позже к нему присоединились библиотеки США, Франции, Великобритании, Австралии и Канады, образовав Международный консорциум сохранения интернета.

Впрочем, в области архивации веб-сайтов пионером стал не государственный ресурс, а некоммерческая организация «Архив интернета», создатель которой, Брюстер Кейл, с 1996 года пытается сохранить веб-страницы, формируя своеобразный «слепок» состояния всемирной паутины. «Архив» действует по принципу поисковой системы, сканируя сеть, добавляя страницы в своё хранилище и периодически их обновляя – но, в отличие от поисковиков вроде Google и «Яндекса», не удаляя старые версии. В результате пользователь «Машины времени» может наблюдать, как менялось содержимое сайта, перемещаясь не только по ссылкам, но и между датами в календаре.

В 2005 году «Архив интернета» запустил проект по сканированию бумажных изданий Open Library, фонд которого уже сейчас составляет более 1 миллиона книг. Кроме того, доступна функция сохранения конкретной страницы в конкретный момент по запросу пользователя.

Сохранение по запросу предоставляют и другие частные проекты, например, Archive.is и WebCite – алгоритмы их работы отличаются друг от друга, поэтому если у вас не получилось сделать качественную копию на одном из сервисов, имеет смысл попробовать другой.

Ответственность каждого

Поддержка глобального библиотечного проекта, кроме денег и заинтересованности, требует ещё и преодоления множества юридических трудностей. Во многих странах действующие нормы авторского права не только закрывают доступ к произведению, но мешают даже простому копированию и архивации. Немудрено, что каждый из перечисленных выше сервисов не раз подвергался блокировкам не только со стороны обеспокоенных правообладателей, но и по политическим причинам. В эпоху «постправды» и информационных войн подобные проекты работают не только «на вечность», но и позволяют противодействовать любой цензуре и сохранять многообразие точек зрения по остросоциальным проблемам. Блокировку обойти при минимальном желании может любой, но проекты с централизованным хранением данных на собственных серверах в принципе потенциально уязвимы. Поэтому борцы за свободу обмена информацией в сети создают веб-архивы нового поколения, основанные на принципе p2p («от пользователя к пользователю»), где информация хранится во множестве копий. Идея таких сервисов, как LOCKSS и LBRY, проста: не стоит ждать, пока государство или могучая организация сохранит информацию за тебя. Если то или иное произведение необходимо людям – они сами способны его сохранить во множестве копий, защитив таким образом от небытия.

В то же время бумажная книга, глиняная табличка или царапины на камне можно прочитать, пока жив хотя бы один человек, владеющий языком, на котором они написаны. Цифровая информация – лишь набор нулей и единиц, для чтения которого требуется определённое программное обеспечение и аппаратная составляющая. Технологии эволюционируют стремительно, и обратная совместимость сохраняется не всегда – чтобы просто прочитать данные с пятидюймовой дискеты или запустить программу двадцатилетней давности, требуется совершить множество действий. Форматы устаревают, и многие аналитики всерьёз опасаются не столько за физическую сохранность данных, сколько за саму возможность работы с ними в будущем.

В 2010 году в швейцарских Альпах участники научного проекта PLANETS заложили "капсулу времени", содержащую файлы распространённых сейчас форматов, записанные на современных носителях. К файлам приложены инструкции по чтению форматов и копия операционной системы, к носителям – оборудование для воспроизведения. Но при этом сами исследователи задачей эксперимента называют даже не проверку надёжности цифровых методов хранения информации, а демонстрацию того, как быстро они устаревают. Надеяться остаётся лишь на то, что разработчики операционных систем будущего позаботятся о совместимости ПО с «древними» форматами JPG или PDF.

В любом случае, сохранность цифровых данных зависит в первую очередь от человеческих усилий – а значит, от ценности информации для потребителей. Жизнь произведения в этом случае становится делом не только международных консорциумов и национальных библиотек, но и конкретных людей. Скан редкой книжки из бабушкинрй библиотеки сегодня потребует пары часов личного времени – но как знать, вдруг этот файл станет единственным источником текста завтра.

Публикация в рамках проекта «Ноосфера. Запуск». При реализации проекта используются средства государственной поддержки, выделенные в качестве гранта в соответствии c распоряжением Президента Российской Федерации от 05.04.2016 №68-рп и на основании конкурса, проведенного Общероссийской общественной организацией «Российский Союз Молодежи».

http://www.chaskor.ru/article/zhizn_i_smert_v_tsifre_42138


Возврат к списку