HDA/Library: Backups

Под бэкапами подразумеваются цифровые копии разных книг, подвергшиеся минимально возможной обработке. Этот файл описывает конвенции, применяемые к хранимым копиям.

  1. Все изображения хранятся в исходном разрешении и цвете. 02. Изображения по возможности никак дополнительно не фильтруются и не обрабатываются:

    • Изображения могут обрезаться при помощи Crop (с заданным aspect ratio),
    • Изображения могут обрезаться при помощи Perspective crop (с заданными длинами сторон, aspect ratio при этом может изменяться).
  2. Файлы хранятся в формате TIFF с lossless-сжатием ZIP.

  3. Все полученные копии нарезаются на страницы, страницы могут иметь разное соотношение сторон. 05. Именем файла является номер страницы (в каждом изображении хранится ровно одна страница):

    • Номер предваряется нужным количеством нулей до ширины в 4 символа. Нумерация может начинаться с 0 в случае наличия в книге форзацей и фронтисписов.
    • В случае манускриптов файлы нумеруются номером листа и буквенным идентификатором страницы - r (от латинского recto) или v (от латинского verso).
    • В случае наличия в книге нескольких блоков с независимой нумерацией страниц, каждый такой блок нумеруется отдельно, предваряется буквой латинского алфавита.
    • В случае наличия в источнике нескольких параллельных нумераций, для именования страниц используется любая произвольно выбранная. Информация об остальных нумерациях заносится в примечания.
    • В случае наличия в источнике ненумерованных иллюстраций, вплетённых между нумерованными страницами, для их нумерации используются суффиксы из латинских букв. Первая страница в последовательности получает суффикс a.
  4. В случае, когда отсутствует страница из середины книги, на её место копируется белый TIF-файл размером 32x32 пикселя, а в имя файла добавляется суффикс missing.

  5. Копии разных экземпляров одного издания хранятся в различных директориях.
  6. Если в книге отсутствует небольшое количество страниц (например, потому, что копии в библиотеках не полны или потому, что в процессе копирования книга была скопирована неточно), допускается сборки электронной копии из нескольких физических экземпляров. Добавленные страницы получают суффикс outsource, в метаданных в свободной форме описываются известные дефекты.
  7. Если на странице отсутствуют различимые глазами знаки (рукописные и печатные), страница всё равно сохраняется в архиве, соответствующий файл именуется $PAGE.blank.tif.
  8. Если страница в процессе обработки была повёрнута на 90°, соответствующий файл именуется $PAGE.rotated.tif.
  9. Если страница имеет соотношение сторон, отличное от основной массы страниц книги, соответствующий файл именуется $PAGE.foldout.tif.
  10. Иерархия директорий совпадает с иерархией файлов в HDA/Library. Совпадение иерархий валидируется.
  11. Есть бэкап потерял свою актуальность, его стоит переместить в директорию Useless, без сохранения дальнейшей иерархии. Эта директория будет исключена из валидации.
  12. Метаданные о бэкапах либо хранятся в файле !!description.md в бэкапной директории (устаревший подход), либо в общей таблице Backups.md в корне бэкапной иерархии (новый, более правильный подход), либо в базе данных PostgreSQL (сверхновый, ещё не реализованный подход).