5. Закладки в DjVu
Після текстового шару і пошуку, що можна ще вдосконалити? Ну, на приклад, ввести закладки для миттєвого переходу в потрібний розділ.
Для цього беремо BookmarkTool. Це невеличка утилітка буквально з трьома кнопками.
Щоб працювати з нею потрібно написати невеличкий хтмл-файлик з потрібними нам закладками. В документації з програмкою є один приклад.
4. Текстовий шар
Прочитавши минулі статті і спробувавши все на практиці ви навчились кодувати паперові книжки в DjVu. Більше того – лежить у вас така книжечка на жорсткому диску. Залишаються останні штрихи – в DjVu нема пошуку по тексту, ми його зараз зробимо.
Потрібні програми: DjvuOCR (остання версія на момент написання: 2.4 beta) та Fine Reader 8 (знаю, що є новіші версії, але краще користуйте 8 – він перевірений і з ним буде найменше проблем. До речі купувати не потрібно – достатньо демонстраційного функціоналу.)
3. Конвертування у DjVu
Після обробки кромсачем на жорсткому диску у нас лежить течка з купою чорно-білих тіфф-файлів. Залишилось безпосередньо останній пункт у створенні нашої djvu-книги – власне закодувати все. Далі вже буде додавання текстового шару, посилань, іменування… але головне – власне книга, решта – просто зручності, до яких швидко звикаєш і без яких з рештою буде вже ніяк
Для цього я рекомендую LizardTech DjVu Document Express Editor Pro (офіційна сторінка http://www.lizardtech.com ).
Встановлення
Windows
Завантажити Ruby 1.8.7-p334 (md5: 64e30e63e16028282fcfe3ec57b561dc) Stable version (recommended)
Встановити.
В командному рядку виконати команди з watir.com/installation:
gem update --system
gem install watir
Встановити плагін для ФФ3.6. (без цього плагіна не можна буде використовувати ФФ з допомогою fire-watir, а для watir-webdriver це не обов'язково. Крім того останній працює з ФФ4)
hello_world.rb
#Скрипт, що запускає вогнелиса, в ньому відкриває Google.com. В пошуковий рядок вводить "Hello World!" і тисне кнопку пошуку.
#Що цікаво - у ФФ3 шукає 'hello world php' (пов'язано із тим, що google пропонує різні варіанти пошукового рядка), а у ФФ4 як і повинен просто 'Hello World!'
#Крім того, на жаль, досить довго запускається оглядач. На моїй машині ~10-20 сукунд
require "rubygems"
require "watir-webdriver"
browser = Watir::Browser.new(:firefox)
browser.goto("http://www.google.com")
browser.text_field(:name => "q").set "Hello World!"
browser.button(:name => "btnG").click
2. ScanKromsator
У минулій статті я розповів за програму для пакетного сканування VueScan. Після роботи з нею ви повинні отримаєте теку з купою *.tif файлів. Тепер наступна фаза нескінченої історії – ScanKromsator
Обробка сканів
Використовуємо програму Scan Kromsator 5.91 (автор: Bolega)
Завантажити останню версію можна з http://www.cm0k.info/2010/02/02/scan-kromsator/
Авторську сторінку не даю – на ній нічого нема
. По безкоштовним хостингам ганяти теж не хочу – ненавиджу їх.
Вам потрібно скачати 2 архіви: Skan Kromsator 5.91 ( ім’я файла: sk-5.91.7z ) та CRDE2001.dll + ISP2000.dll ( ім’я файла: sk-dll.7z ). Створіть теку «ScanKromsator» та розпакуйте обидва архіви в неї WinRar’ом або 7z’іпом. Таким чином там буде лежати 3 файли: sk-5.91.exe, ISP2000.dll, CRDE2001.dll.
Після першого запуска в теці створяться: sk.ini (тут зберігаються налаштування програми), та течка Tempsk (для тимчасових файлів). Отже:
0. Хто такий DjVu
DjVu — графічний формат розроблений компанією AT&T Labs у далекому 1996 році та призначений для збереження відсканованої графічної інформації незалежно рукописи це чи друкований текст чи може кланопис?.
Перш за все, потрібно розуміти, що існує два способи зберігання літератури в електронному виді:
- Можна відсканувати книгу та розпізнати програмою типу FineReader’а, в результаті отримуємо текстовий варіант з можливістю пошуку по ньому, крім того текст займає надзвичайно мало місця і може бути стиснений програмою-архіватором у добрий десяток разів. Крім того дана метода практично неможлива коли потрібно швидко зробити електронні копії не 1-2ох книжок, а кількох десятків томів, в зв’язку із тим, що для цього потрібно встигнути перечитати усі ці томи. Наукова література взагалі практично не дається до розпізнавання, якщо таблички ще так-сяк, то усі, скажімо, хімічні формули доведеться набирати власноруч, при цьому пам’ятаючи єдина помилка і той хто користуватиметься вашим набором може лишитись без очей… Що робити з рукописними текстами? Повністю перенабирати?
- Можна зберегти відскановане у виді картинок. Недолік – картинки займають дуже багато місця (1 сторінка А4 300dpi у форматі tif займає ~30Мб, відповідно «Словник синонімів у двох томах» це вже добрих 5Ґб), крім того по картинках не можна здійснювати машинний пошук – тільки гортати улюбленим ACDSee і видивлятись потрібну статтю. Розмір можна зменшити використовуючи формати типу JPG, JPEG2000, PNG, GIF. Але-але.. Усі JPG* – на жаль псують зображення, PNG та GIF в принципі використовувати можна, але вони взагалі-то розроблялись для зовсім інших речей тому також неоптимальні.
1. Сканування. VueScan
При збереженні текстів DjVu має великі переваги порівняно іншими форматами. По-перше не потрібно перечитувати книжку і виправляти хиби розпізнавання щоб зберегти її точну копію в цифровому вигляді та водночас значно меший розмір порівняно із аналогічним файлом PDF зробленим практично з тими ж налаштуваннями (на скільки це можливо).
На жаль проблема цього формату в іншому – не існує одної простої універсальної програми з однією-єдиною кнопкою натиснувши на яку можна отримати повністю готовий результат. Діяльность усіх подібних утиліт практично завжди викликають бажання прибити релізера за головний біль від розбору скаліченого напіврозмитого шрифта, що зливається з фоном... з іншого боку якщо книженцію більше ніде взяти – доводиться, часом, качати з інтернету кілька cот метрів такої художньо творчости і потім всеж робити вигляд, що це можна читати.
«Правильний» DjVu – це чистий білий фон, на якому чистий чорний текст, серед якого можуть зустрічатись кольорові або ч/б ілюстрації. Розділ 600 dpi.
«Неправильний» DjVu – той на якому видно, що саме їли читачі книги та в якій послідовності, сірі-розмиті літери та тьмяні ілюстрації (частіше просто психоделічні плями замість них) Цікаво, що займає він у десятки разів більше місця ніж «правильний». Так, якщо «правильний» 10 мб, то «неправильний» кількасот, хоч, як правило, роздільна здатність там у кілька разів менша.