Хто такий DjVu?
DjVu — графічний формат розроблений компанією AT&T Labs у далекому 1996 році та призначений для збереження відсканованої графічної інформації незалежно рукописи це чи друкований текст чи може клинопис?.
Перш за все, потрібно розуміти, що існує два способи зберігання літератури в електронному виді:
1) Можна відсканувати книгу та розпізнати програмою типу FineReader’а, в результаті отримуємо текстовий варіант з можливістю пошуку по ньому, крім того текст займає надзвичайно мало місця і може бути стиснений програмою-архіватором у добрий десяток разів. Крім того дана метода практично неможлива коли потрібно швидко зробити електронні копії не 1-2ох книжок, а кількох десятків томів, у зв’язку із тим, що для цього потрібно встигнути перечитати усі ці томи. Наукова література взагалі практично не дається до розпізнавання, якщо таблички ще так-сяк, то усі, скажімо, хімічні формули доведеться набирати власноруч, при цьому пам’ятаючи єдина помилка і той хто користуватиметься вашим набором може лишитись без очей… Що робити з рукописними текстами? Повністю перенабирати?
2) Можна зберегти відскановане у виді картинок. Недолік – картинки займають дуже багато місця (1 сторінка А4 300dpi у форматі tif займає ~30Мб, відповідно «Словник синонімів у двох томах» це вже добрих 5Ґб), крім того по картинках не можна здійснювати машинний пошук – тільки гортати улюбленим ACDSee і видивлятись потрібну статтю. Розмір можна зменшити використовуючи формати типу JPG, JPEG2000, PNG, GIF. Але-але.. Усі JPG* – на жаль псують зображення, PNG та GIF в принципі використовувати можна, але вони взагалі-то розроблялись для зовсім інших речей тому також неоптимальні.

DjVu це своєрідна суміш обох цих методів, інновація полягає в тому, що подані на вхід сторінки спочатку діляться на окремі символи тоді ці символи аналізуються і впорядковуються, з них кодер-DjVu створює словник символів для використання всередині формату, але цей словник ніяк до людської мови не прив’язаний. Надзвичайно спрощений приклад: є сторінка тексту написаного азбукою Морзе. На сторінці зустрічаються тільки 2 види символів «крапка» і «тире». Наш кодер аналізує перший символ – «крапка», бачить що в словнику подібних символів ще нема і записує туди стиснене графічне зображення «крапка», наступний символ – «тире» його теж раніше не було в словнику тому графічне зображення тире також записується в словник, тепер починається найцікавіше… «Тире» - порівнюється із зображенням яке вже є у словнику… точно – подібне є, нічого не робим… ще тире – є, крапка – вже є, і так далі – усі символи уже записані в словник. Тепер кодер просто записує у файл: 1) Словник у форматі: стиснене графічне зображення - його код 2) власне текст, оскільки віднайдено всього два символи то достатньо лише одного біта щоб записати символ (біт може приймати два значення «1» або «0», в даному випадку «точка» або «тире»). Що ми маємо? Словник (кілька кілобайт) + власне текст (ще кілька кілобайт), це саме зображення у JPG займатиме добрих півмегабайта і буде сильно спотворене артефактами. Програма-читачка відкриває відразу текст і тоді замість умовного біта «1» чи «0» зображує користувачу на екрані «точка» або «тире» відповідно. У практиці все складніше у мульйон разів, по-перше символів не 2, а щонайменше 50 – алфавіт+цифри+розділові знаки… як правило на багато більше. По-друге через дефекти друку 2 символи можуть бути зовсім не схожими один на одний, тому машина розпізнаватиме їх як різні. Машина може, навпаки, вважати 2 різні символи одним і тим же.. це так звана проблема «ИНь» коли «И» та «Н» стають в тексти одним «Н» або «і» та «ї» стають виключно «і».Крім того потрібно записати місцезнаходження кожного символа на сторінці. Є ще дуже цікавий хід – зображення ділиться на шари і кожен шар кодується окремо, таким чином ви можете задавати пріоритет – краще кодувати текст чи задній план? Технічних деталей досить – самі знайдете на багато більше якщо справді цікаво. Крім того не обов’язково знати як конкретно буде кодуватись конкретна книжка щоб створювати власні бібліотеки.
Що сучасний DjVu дає користувачу?
Як ви вже зрозуміли це спеціальний «текстовий» формат і кодуються ним тільки тексти.
Перш за все чим відкривати? Для Windows-систем це WinDjView з відкритим вихідним кодом, домашня сторінка windjview.sourceforge.net/ru/, поточна версія 1.0.3. Для Макінтошів – MacDjView, дом.сторінка – та ж, остання версія 1.0.2. Unix’оїди можуть собі поставити надзвичайно швидкий DjVuLibre з djvu.sourceforge.net, нині 3.5.22.
Тепер з WinDjView покажу основні можливості формата. Відкриваю двотомник Уїлкі Колінза видавництва Дніпро який сам же колись і сканував (якщо захочете – знайдете ґуґлям
) Перше, що бачу – кольорова обкладинка першого тома з нашкрябаним на ній «цифрував...».. Праворуч –зміст книги. Том 1 і Том 2 із плюсами (тобто їх можна розгорнути), Cm0k.info – без плюса, тобто не розгортається, якщо кляцьнути по ній -відкриється відповідна сторінка в інтернеті. Кляцяємо на плюс біля Тома 1 і бачимо його зміст: про книгу, Детективні романи Уїлкі Колінза, Роман «Жінка в білому» нарешті «Зміст». Роман «Жінка в білому» має 3 розділи. Простіше кажучи… перед вам досить проста та зручна система навігації по книгах. Побудована за принципами гіперпосилань (по-суті це вони і є).
Можна переключитись в режим Thumbnails –матимете справу із значно зменшеними зображеннями сторінок, відповідно й можливість переміщатись по них.
Гіперпосилання можуть бути прямо на сторінках книги… на приклад прямо у текстовому змісті – кляцяєте на потрібний розділ і негайно переходите до нього. Така штука є, на приклад, у цифровій версії книги «Культура слова» Олександра Пономарева, коли її відкриваєш відразу бачиш зміст забарвлений у жовто-синій (кольори можуть бути іншими або навіть взагалі ніяким, тобто посилання можна буде побачити тільки за зміною форми вказівника миші), кляцьнувши по відповідному пункту – опиняємось на потрібні сторінці.
Йдемо далі… читаючи знаходите якийсь цікавий уривок який, можливо, буде цікавий вашим друзям. Берете інструмент «select tool» і просто виділяєте цей уривок, тепер правою кнопкою і копіюєте його куди потрібно… аська-блоги… після цього трохи підправляєте переноси і можна відсилати. Точно так само можна працювати з науковими текстами, підручниками – скопіював і в диплом… скопіював і в диплом його рідненького.
Пошук… він є
Ctrl+F або в меню Edit\Find і прописуєте, що шукаєте... особливо зручно коли користуєтесь словниками.
Якщо раптом потрібно зробити експорт сторінки чи її частин – правою кнопкою миші на сторінку і «Export page». З експортованого простим паінтом можна вирізати потрібний графік, формулу, ілюстрацію. Як ви вже здогадались – книжку можна видрукувати і читати подалі від комп’ютера бережучи цим свої очі або, навіть, експортувати текстовий шар у простий txt-файл.
Що ще цікавого? Кілька років тому Vitaly1 вигадав досить цікаву систему управління словниками у DjVu – DjVuDIC ідея полягала у тому що набравши шукане слово ви отримували саме ту сторінку словника де воно має бути (хоча не обов’язково є). При цьому пошук ЗНАЧНО швидший ніж простий Ctrl+F, а додати словник до системи порівняно просто.
Розмір файлів. Маленький – навіть дуже, якщо робилось грамотно. Великий Тлумачний Словник Бусела (250 000 слів) на 1728 сторінок А4 дрібного тексту займає 52.2Мб. Тобто кілобайт по 30 на 1 сторінку в середньому. При цьому я вважаю, що це щось забагато…
Це основне, що можна знайти в Книгах DjVu (про кольорові, сірі чи б.я. інші ілюстрації навіть говорити не варто – є ), але для того щоб це все було потрібно щоб людина яка займається скануванням усе це забезпечила певними маніпуляціями. Фактично щоб хтось витратив свій час щоб ви зекономили потім ваш. Як це все робиться розкажу пізніше, знайте головне – робиться заморочено =)
Завантажити DjVu-книги можна
www.madslinger.com/bookvault/ - література з мови і про мову.. головним чином українську, доступ ускладнений на стільки на скільки його взагалі можна було ускладнити... але архів дуже добрий.
chytanka.com.ua – дитячі книжки виданням до 1991 року
torrents.ru – російський національний торрент-трекер, дивіться книжкові розділи
biblioteki.net – гарний трекер що спеціалізується виключно на книжках
bookland.net.ua – тут можна офіційно купити в тому числі DjVu версію книги (автори отримаються відсоток – перевірена інформація), хоча там краще брати FB2.
