HDA/Library: Backups
Под бэкапами подразумеваются цифровые копии разных книг, подвергшиеся минимально возможной обработке. Этот файл описывает конвенции, применяемые к хранимым копиям.
-
Все изображения хранятся в исходном разрешении и цвете. 02. Изображения по возможности никак дополнительно не фильтруются и не обрабатываются:
- Изображения могут обрезаться при помощи
Crop
(с заданным aspect ratio), - Изображения могут обрезаться при помощи
Perspective crop
(с заданными длинами сторон, aspect ratio при этом может изменяться).
- Изображения могут обрезаться при помощи
-
Файлы хранятся в формате TIFF с lossless-сжатием ZIP.
-
Все полученные копии нарезаются на страницы, страницы могут иметь разное соотношение сторон. 05. Именем файла является номер страницы (в каждом изображении хранится ровно одна страница):
- Номер предваряется нужным количеством нулей до ширины в 4 символа. Нумерация может начинаться с 0 в случае наличия в книге форзацей и фронтисписов.
- В случае манускриптов файлы нумеруются номером листа и буквенным идентификатором страницы -
r
(от латинского recto) илиv
(от латинского verso). - В случае наличия в книге нескольких блоков с независимой нумерацией страниц, каждый такой блок нумеруется отдельно, предваряется буквой латинского алфавита.
- В случае наличия в источнике нескольких параллельных нумераций, для именования страниц используется любая произвольно выбранная. Информация об остальных нумерациях заносится в примечания.
- В случае наличия в источнике ненумерованных иллюстраций, вплетённых между нумерованными страницами, для их нумерации используются суффиксы из латинских букв. Первая страница в последовательности получает суффикс
a
.
-
В случае, когда отсутствует страница из середины книги, на её место копируется белый TIF-файл размером
32x32
пикселя, а в имя файла добавляется суффиксmissing
. - Копии разных экземпляров одного издания хранятся в различных директориях.
- Если в книге отсутствует небольшое количество страниц (например, потому, что копии в библиотеках не полны или потому, что в процессе копирования книга была скопирована неточно), допускается сборки электронной копии из нескольких физических экземпляров. Добавленные страницы получают суффикс
outsource
, в метаданных в свободной форме описываются известные дефекты. - Если на странице отсутствуют различимые глазами знаки (рукописные и печатные), страница всё равно сохраняется в архиве, соответствующий файл именуется
$PAGE.blank.tif
. - Если страница в процессе обработки была повёрнута на 90°, соответствующий файл именуется
$PAGE.rotated.tif
. - Если страница имеет соотношение сторон, отличное от основной массы страниц книги, соответствующий файл именуется
$PAGE.foldout.tif
. - Иерархия директорий совпадает с иерархией файлов в HDA/Library. Совпадение иерархий валидируется.
- Есть бэкап потерял свою актуальность, его стоит переместить в директорию
Useless
, без сохранения дальнейшей иерархии. Эта директория будет исключена из валидации. - Метаданные о бэкапах либо хранятся в файле
!!description.md
в бэкапной директории (устаревший подход), либо в общей таблицеBackups.md
в корне бэкапной иерархии (новый, более правильный подход), либо в базе данных PostgreSQL (сверхновый, ещё не реализованный подход).