DjVu - DjVu

DjVu
Djvu icon.svg
Расширения имени файла
.djvu, .djv
Тип интернет-СМИ
изображение / vnd.djvu, изображение / x-djvu
Магическое число AT&T
Разработано AT&T Labs - Исследования
Первый выпуск 1998 ; 23 года назад ( 1998 )
Последний релиз
Версия 3.5.28
(8 января 2021 г . ; 9 месяцев назад ) ( 2021-01-08 )
Тип формата Форматы файлов изображений
Содержится Формат файла обмена
Открытый формат ? GNU GPLv2 для справочной библиотеки DjVu и DjVuLibre-3.5;
Предоставление лицензий под GNU GPL на несколько патентов, которые охватывают аспекты библиотеки.

DjVu ( / ˌ д ʒ ɑ v ¯u / DAY -zhah- VOO , как французский « дежавю ») представляет собой компьютерный формат файла предназначен в основном для хранения отсканированных документов , особенно те , которые содержат комбинацию текста, чертежей, индексированный цвет изображения и фотографии. Он использует такие технологии, как разделение слоев изображения текста и фона / изображений, прогрессивная загрузка , арифметическое кодирование и сжатие с потерями для битональных ( монохромных ) изображений. Это позволяет хранить высококачественные читаемые изображения на минимальном пространстве, чтобы их можно было сделать доступными в Интернете .

DjVu рекламировался как предоставляющий файлы меньшего размера, чем PDF, для большинства отсканированных документов. Разработчики DjVu сообщают, что страницы цветных журналов сжимаются до 40–70 кБ, черно-белые технические статьи сжимаются до 15–40 кБ, а древние рукописи сжимаются примерно до 100 кБ; для удовлетворительного изображения JPEG обычно требуется 500 КБ. Как и PDF, DjVu может содержать текстовый слой OCR , что упрощает выполнение операций копирования и вставки, а также текстового поиска.

Доступны бесплатные создатели, манипуляторы, конвертеры, плагины для веб-браузеров и программы просмотра на рабочем столе. DjVu поддерживается рядом программ для просмотра многоформатных документов и программ для чтения электронных книг в Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) и Android (FBReader, EBookDroid, PocketBook).

История

Технология DjVu была первоначально разработана Яном ЛеКуном , Леоном Ботту , Патриком Хаффнером , Полом Г. Ховардом , Патрисом Симардом и Йошуа Бенжио в AT&T Labs с 1996 по 2001 год.

До стандартизации PDF в 2008 году DjVu считался лучшим из-за того, что это открытый формат файла, в отличие от проприетарного характера PDF в то время. Заявленная более высокая степень сжатия (и, следовательно, меньший размер файла) и заявленная легкость преобразования больших объемов текста в формат DjVu были другими аргументами в пользу превосходства DjVu над PDF в технологическом ландшафте 2004 года. Независимый технолог Брюстер Кале в своем выступлении в 2004 году. on IT Conversations обсудили преимущества упрощения доступа к файлам DjVu.

Библиотека DjVu, распространяемая как часть пакета с открытым исходным кодом DjVuLibre , стала эталонной реализацией формата DjVu. DjVuLibre поддерживается и обновляется оригинальными разработчиками DjVu с 2002 года.

Спецификация формата файла DjVu претерпела ряд изменений, последняя из которых была внесена в 2005 году.

Лист регистраций изменений
Версия Дата выхода Примечания
Старая версия, больше не поддерживается: 1–19 1996–1999 Разработанные лабораторией AT&T версии, предшествующие продаже формата LizardTech .
Старая версия, больше не поддерживается: Версия 20 Апрель 1999 г. DjVu версии 3. Формат DjVu изменен с одностраничного на многостраничный формат.
Старая версия, но все еще поддерживается: Версия 21 Сентябрь 1999 г. Заменен косвенный формат хранения. Добавлен текстовый слой с возможностью поиска.
Старая версия, но все еще поддерживается: Версия 22 Апрель 2001 г. Ориентация страницы, цвет JB2
Старая версия, больше не поддерживается: Версия 23 Июль 2002 г. Чанк CID
Старая версия, больше не поддерживается: Версия 24 Февраль 2003 г. LTAnno chunk
Старая версия, но все еще поддерживается: Версия 25 Май 2003 г. Чанк NAVM. Добавлена ​​поддержка закладок (контуров) DjVu. Изменения, внесенные в Версии 23 и 24, устарели.
Текущая стабильная версия: Версия 26 Апрель 2005 г. Текстовые / строчные аннотации
Легенда:
Старая версия
Старая версия, все еще поддерживается
Последняя версия
Последняя предварительная версия
Будущий выпуск

Роль в экосистеме программного обеспечения

Основным использованием формата DjVu было электронное распространение документов с качеством, сопоставимым с качеством печатных документов. Поскольку эта ниша также является основным направлением использования PDF-файлов, эти два формата неизбежно стали конкурентами. Однако следует отметить, что эти два формата подходят к проблеме доставки документов с высоким разрешением по-разному: PDF в первую очередь кодирует графику и текст как векторизованные данные, тогда как DjVu в первую очередь кодирует их как изображения растровых изображений. Это означает, что PDF возлагает бремя рендеринга документа на читателя, тогда как DjVu возлагает это бремя на создателя.

В течение ряда лет, значительно совпадающих с периодом разработки DjVu, не существовало программ просмотра PDF для бесплатных операционных систем - особым камнем преткновения была визуализация векторизованных шрифтов, которые необходимы для сочетания файлов небольшого размера с высоким разрешением в PDF. Поскольку отображение DjVu было более простой задачей, для решения которой было доступно бесплатное программное обеспечение, были предложения, что движение за свободное программное обеспечение должно использовать DjVu вместо PDF для распространения документации; рендеринг для создания DjVu в принципе не сильно отличается от рендеринга для драйвера принтера для конкретного устройства, и DjVu в крайнем случае может быть сгенерирован из сканированных бумажных носителей. Однако, когда FreeType 2.0 в 2000 году начал предоставлять рендеринг всех основных форматов векторизованных шрифтов, это конкретное преимущество DjVu начало исчезать.

В 2000-х годах, с ростом всемирной паутины и до широкого распространения широкополосного доступа , DjVu часто принимался цифровыми библиотеками в качестве предпочтительного формата благодаря его интеграции с таким программным обеспечением, как Greenstone и Internet Archive , подключаемыми модулями браузера, которые позволяли расширять возможности расширенного доступа. просмотр в Интернете, меньший размер файла для сопоставимого качества сканирования книг и других документов с большим количеством изображений, а также поддержка встраивания и поиска полного текста с помощью OCR . Некоторые функции, такие как предварительный просмотр эскизов, были позже интегрированы в BookReader Интернет-архива, и просмотр DjVu был объявлен устаревшим в его пользу, поскольку примерно в 2015 году некоторые основные браузеры перестали поддерживать плагины NPAPI и DjVu с ними.

DjVu.js Viewer пытается заменить отсутствующие плагины.

Технический обзор

Файловая структура

Формат файла DjVu основан на формате файла обмена и состоит из иерархически организованных блоков. Структуре IFF предшествует 4-байтовое AT&T магическое число . Ниже приведен один FORMфрагмент с вторичным идентификатором либо DJVUили DJVMдля одной страницы или нескольких страниц документа, соответственно.

Все фрагменты могут содержаться в одном файле в случае так называемых связанных документов или могут содержаться в нескольких файлах: один файл для каждой страницы плюс несколько файлов с общими фрагментами.

Типы чанков

Типы чанков в файлах DjVu
Идентификатор чанка Содержится Описание
ФОРМА: DJVU ФОРМА: DJVM Описывает одну страницу. Может быть либо в корне документа и быть одностраничным документом, либо ссылаться на него из DIRMблока.
ФОРМА: DJVM N / A Описывает многостраничный документ. Корневая часть документа.
ФОРМА: DJVI ФОРМА: DJVM Содержит данные, совместно используемые несколькими страницами.
ФОРМА: THUM ФОРМА: DJVM Содержит эскизы.
ИНФОРМАЦИЯ ФОРМА: DJVU Должен быть первый кусок. Описывает ширину, высоту, версию формата, разрешение , гамму и поворот страницы .
DIRM ФОРМА: DJVM Должен быть первый кусок. Ссылки на другие FORMкуски. Эти фрагменты могут либо следовать за этим фрагментом внутри FORM:DJVMфрагмента, либо содержаться во внешних файлах. Эти типы документов называются связанными или косвенными , соответственно.
NAVM ФОРМА: DJVM Если присутствует, должен сразу следовать за DIRMчанком. Содержит сжатую структуру документа BZZ.
АНТА, АНЦ ФОРМА: DJVI или ФОРМА: DJVU Аннотации.
TXTa, TXTz ФОРМА: DJVU Текст в Юникоде и информация о макете.
INCL ФОРМА: DJVU Идентификатор включенного FORM::DJVIфрагмента.
Sjbz ФОРМА: DJVU BZZ-сжатые битовые данные JB2, используемые для хранения маски.
Djbz ФОРМА: DJVI или ФОРМА: DJVU Таблица общих фигур.
WMRM ? Данные JB2 необходимы для удаления водяного знака.
CIDa ФОРМА: DJVU Устаревший фрагмент с неизвестным содержимым.

Сжатие

DjVu разделяет одно изображение на множество разных изображений, а затем сжимает их по отдельности. Чтобы создать файл DjVu, исходное изображение сначала разделяется на три изображения: фоновое изображение, изображение переднего плана и изображение маски. Фоновые изображения и изображения переднего плана обычно представляют собой цветные изображения с более низким разрешением (например, 100 точек на дюйм); изображение маски представляет собой двухуровневое изображение с высоким разрешением (например, 300 точек на дюйм), и обычно это место, где хранится текст. Затем изображения фона и переднего плана сжимаются с использованием алгоритма сжатия на основе вейвлетов под названием IW44. Изображение маски сжимается с использованием метода JB2 (аналогично JBIG2 ). Метод кодирования JB2 идентифицирует почти идентичные формы на странице, например, несколько вхождений определенного символа с заданным шрифтом, стилем и размером. Он сжимает растровое изображение каждой уникальной формы отдельно, а затем кодирует места, где каждая фигура появляется на странице. Таким образом, вместо того, чтобы сжимать букву «е» в заданном шрифте несколько раз, он сжимает букву «е» один раз (как сжатое растровое изображение), а затем записывает каждое место на странице, где оно встречается.

При желании эти формы могут быть сопоставлены с кодами UTF-8 (вручную или потенциально с помощью системы распознавания текста ) и сохранены в файле DjVu. Если это сопоставление существует, можно выделить и скопировать текст.

Поскольку JB2 (также называемый DjVuBitonal) является разновидностью JBIG2, работающей по одним и тем же принципам, оба метода сжатия имеют одинаковые проблемы при выполнении сжатия с потерями. В 2013 году выяснилось, что копировальные аппараты и сканеры Xerox заменяли цифры на похожие на вид, например, заменяя 6 на 8. Документ DjVu был замечен в дикой природе с заменой символов, например, n с просвечивающими засечками, превращающимися в au. и o с пятном внутри, переходящим в e. Информация о том, произошло ли сжатие с потерями, не сохраняется в файле, и приложение просмотра DjView не предупреждает пользователя о возможной замене глифов ни при открытии сжатого файла с потерями, ни в диалоговых окнах «Информация» или «Метаданные».

Лицензирование формата

DjVu - это открытый формат файла с патентами. Публикуется спецификация формата файла, а также исходный код справочной библиотеки. Первоначальные авторы распространяют реализацию с открытым исходным кодом под названием « DjVuLibre » под Стандартной общественной лицензией GNU . Права на коммерческую разработку программного обеспечения для кодирования на протяжении многих лет передавались различным компаниям, включая AT&T Corporation , LizardTech , Celartem и Cuminas .

Celartem приобрела LizardTech и Extensis.

Служба поддержки

Программное обеспечение для сканирования и просмотра широко не поддерживает DjVu. Хотя программы просмотра могут быть загружены, открытие файлов DjVu по умолчанию не реализовано в большинстве операционных систем. Основное исключение составляет большинство дистрибутивов Linux .

В 2002 году формат файла DjVu был выбран Интернет-архивом в качестве формата, в котором его проект «Миллион книг» предоставляет отсканированные общедоступные книги в Интернете (наряду с TIFF и PDF). В феврале 2016 года Internet Archive объявил, что DjVu больше не будет использоваться для новых загрузок.

Wikimedia Commons , медиа-репозиторий, используемый, среди прочего, Wikipedia , условно разрешает медиафайлы PDF и DjVu.

Смотрите также

использованная литература

внешние ссылки