Смоча ничка вперед у ніщо

15Apr/112

Якщо ви працюєте більше 50 годин на тиждень - ви щоcь робите не так.

Filed under: Uncategorized 2 Comments
12Apr/111

5. Закладки в DjVu

Після текстового шару і пошуку, що можна ще вдосконалити? Ну, на приклад, ввести закладки для миттєвого переходу в потрібний розділ.

Для цього беремо BookmarkTool. Це невеличка утилітка буквально з трьома кнопками.

Щоб працювати з нею потрібно написати невеличкий хтмл-файлик з потрібними нам закладками. В документації з програмкою є один приклад.

12Apr/113

4. Текстовий шар

Прочитавши минулі статті і спробувавши все на практиці ви навчились кодувати паперові книжки в DjVu. Більше того – лежить у вас така книжечка на жорсткому диску. Залишаються останні штрихи – в DjVu нема пошуку по тексту, ми його зараз зробимо.

Потрібні програми: DjvuOCR (остання версія на момент написання: 2.4 beta) та Fine Reader 8 (знаю, що є новіші версії, але краще користуйте 8 – він перевірений і з ним буде найменше проблем. До речі купувати не потрібно – достатньо демонстраційного функціоналу.)

12Apr/112

3. Конвертування у DjVu

Після обробки кромсачем на жорсткому диску у нас лежить течка з купою чорно-білих тіфф-файлів. Залишилось безпосередньо останній пункт у створенні нашої djvu-книги – власне закодувати все. Далі вже буде додавання текстового шару, посилань, іменування… але головне – власне книга, решта – просто зручності, до яких швидко звикаєш і без яких з рештою буде вже ніяк :)

Для цього я рекомендую LizardTech DjVu Document Express Editor Pro (офіційна сторінка http://www.lizardtech.com ).

10Apr/110

Посилання

Ruby для QA-специалистов: Часть 1 + Часть 2.

9Apr/110

Встановлення

Windows

Завантажити Ruby 1.8.7-p334 (md5: 64e30e63e16028282fcfe3ec57b561dc) Stable version (recommended)

Встановити.

В командному рядку виконати команди з watir.com/installation:

gem update --system

gem install watir

gem install watir-webdriver

 

Встановити плагін для ФФ3.6. (без цього плагіна не можна буде використовувати ФФ з допомогою fire-watir, а для watir-webdriver це не обов'язково. Крім того останній працює з ФФ4)

9Apr/110

hello_world.rb

#Скрипт, що запускає вогнелиса, в ньому відкриває Google.com. В пошуковий рядок вводить "Hello World!" і тисне кнопку пошуку.

#Що цікаво - у ФФ3 шукає 'hello world php' (пов'язано із тим, що google пропонує різні варіанти пошукового рядка), а у ФФ4 як і повинен просто 'Hello World!'

#Крім того, на жаль, досить довго запускається оглядач. На моїй машині ~10-20 сукунд

require "rubygems"
require "watir-webdriver"

browser = Watir::Browser.new(:firefox)
browser.goto("http://www.google.com")
browser.text_field(:name => "q").set "Hello World!"
browser.button(:name => "btnG").click

6Apr/110

2. ScanKromsator

У минулій статті я розповів за програму для пакетного сканування VueScan. Після роботи з нею ви повинні отримаєте теку з купою *.tif файлів. Тепер наступна фаза нескінченої історії – ScanKromsator :)

 

Обробка сканів

Використовуємо програму Scan Kromsator 5.91 (автор: Bolega)

Завантажити останню версію можна з http://www.cm0k.info/2010/02/02/scan-kromsator/

Авторську сторінку не даю на ній нічого нема :) . По безкоштовним хостингам ганяти теж не хочу – ненавиджу їх.

Вам потрібно скачати 2 архіви: Skan Kromsator 5.91 ( ім’я файла: sk-5.91.7z ) та CRDE2001.dll + ISP2000.dll ( ім’я файла: sk-dll.7z ). Створіть теку «ScanKromsator» та розпакуйте обидва архіви в неї WinRar’ом або 7z’іпом. Таким чином там буде лежати 3 файли: sk-5.91.exe, ISP2000.dll, CRDE2001.dll.

Після першого запуска в теці створяться: sk.ini (тут зберігаються налаштування програми), та течка Tempsk (для тимчасових файлів). Отже:

6Apr/110

0. Хто такий DjVu

DjVu — графічний формат розроблений компанією AT&T Labs у далекому 1996 році та призначений для збереження відсканованої графічної інформації незалежно рукописи це чи друкований текст чи може кланопис?.

Перш за все, потрібно розуміти, що існує два способи зберігання літератури в електронному виді:

  1. Можна відсканувати книгу та розпізнати програмою типу FineReader’а, в результаті отримуємо текстовий варіант з можливістю пошуку по ньому, крім того текст займає надзвичайно мало місця і може бути стиснений програмою-архіватором у добрий десяток разів. Крім того дана метода практично неможлива коли потрібно швидко зробити електронні копії не 1-2ох книжок, а кількох десятків томів, в зв’язку із тим, що для цього потрібно встигнути перечитати усі ці томи. Наукова література взагалі практично не дається до розпізнавання, якщо таблички ще так-сяк, то усі, скажімо, хімічні формули доведеться набирати власноруч, при цьому пам’ятаючи єдина помилка і той хто користуватиметься вашим набором може лишитись без очей… Що робити з рукописними текстами? Повністю перенабирати?
  2. Можна зберегти відскановане у виді картинок. Недолік – картинки займають дуже багато місця (1 сторінка А4 300dpi у форматі tif займає ~30Мб, відповідно «Словник синонімів у двох томах» це вже добрих 5Ґб), крім того по картинках не можна здійснювати машинний пошук – тільки гортати улюбленим ACDSee і видивлятись потрібну статтю. Розмір можна зменшити використовуючи формати типу JPG, JPEG2000, PNG, GIF. Але-але.. Усі JPG* – на жаль псують зображення, PNG та GIF в принципі використовувати можна, але вони взагалі-то розроблялись для зовсім інших речей тому також неоптимальні.
6Apr/110

1. Сканування. VueScan

При збереженні текстів DjVu має великі переваги порівняно іншими форматами. По-перше не потрібно перечитувати книжку і виправляти хиби розпізнавання щоб зберегти її точну копію в цифровому вигляді та водночас значно меший розмір порівняно із аналогічним файлом PDF зробленим практично з тими ж налаштуваннями (на скільки це можливо).

На жаль проблема цього формату в іншому – не існує одної простої універсальної програми з однією-єдиною кнопкою натиснувши на яку можна отримати повністю готовий результат. Діяльность усіх подібних утиліт практично завжди викликають бажання прибити релізера за головний біль від розбору скаліченого напіврозмитого шрифта, що зливається з фоном... з іншого боку якщо книженцію більше ніде взяти – доводиться, часом, качати з інтернету кілька cот метрів такої художньо творчости і потім всеж робити вигляд, що це можна читати.

«Правильний» DjVu – це чистий білий фон, на якому чистий чорний текст, серед якого можуть зустрічатись кольорові або ч/б ілюстрації. Розділ 600 dpi.

«Неправильний» DjVu – той на якому видно, що саме їли читачі книги та в якій послідовності, сірі-розмиті літери та тьмяні ілюстрації (частіше просто психоделічні плями замість них) Цікаво, що займає він у десятки разів більше місця ніж «правильний». Так, якщо «правильний» 10 мб, то «неправильний» кількасот, хоч, як правило, роздільна здатність там у кілька разів менша.