<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Смоча ничка &#187; Книгосканування</title>
	<atom:link href="http://cm0k.info/category/%d0%ba%d0%bd%d0%b8%d0%b3%d0%be%d1%81%d0%ba%d0%b0%d0%bd%d1%83%d0%b2%d0%b0%d0%bd%d0%bd%d1%8f/feed/" rel="self" type="application/rss+xml" />
	<link>http://cm0k.info</link>
	<description>вперед у ніщо</description>
	<lastBuildDate>Tue, 13 Apr 2010 00:57:59 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>WinDJView-SubPix</title>
		<link>http://cm0k.info/2010/01/21/windjview-subpix/</link>
		<comments>http://cm0k.info/2010/01/21/windjview-subpix/#comments</comments>
		<pubDate>Thu, 21 Jan 2010 00:10:09 +0000</pubDate>
		<dc:creator>Cm0k</dc:creator>
				<category><![CDATA[Книгосканування]]></category>

		<guid isPermaLink="false">http://www.cm0k.info/?p=12</guid>
		<description><![CDATA[Завантажити новий оглядач DjVu для ОС Windows, заточений для LCD-екрана.

Оглядач містить можливість субпіксельного рендеренгу, подібну до CoolType чи ClearType технологій. Він може краще выдобразити будь-який тип матеріялів: ч/б текст, кольоровий текст, лайн-арт, діаграми, зображення, інше.
Розроблений на основі WinDjView - швидкого, компактного і потужного DjVu-оглядача для Windows із закладковим інтерфейсом, гортанням і розширеними налаштуваннями друку, написаного [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://code.google.com/p/windjview-subpix/downloads/list" target="_blank">Завантажити новий оглядач <strong>DjVu</strong> для ОС <strong>Windows</strong>, заточений для <strong>LCD</strong>-екрана.</a></p>
<p><a href="http://code.google.com/p/windjview-subpix/downloads/list" target="_blank"></a><span id="more-12"></span></p>
<p>Оглядач містить можливість субпіксельного рендеренгу, подібну до <strong>CoolType</strong> чи <strong>ClearType</strong> технологій. Він може краще выдобразити будь-який тип матеріялів: ч/б текст, кольоровий текст, лайн-арт, діаграми, зображення, інше.</p>
<p>Розроблений на основі <strong>WinDjView</strong> - швидкого, компактного і потужного <strong>DjVu</strong>-оглядача для <strong>Windows</strong> із закладковим інтерфейсом, гортанням і розширеними налаштуваннями друку, написаного на базі безкоштовної бібліотеки <strong>DjVuLibre</strong>.</p>
<p style="text-align: center;"><strong>Субпіксельний рендеринг:</strong></p>
<p><img class="aligncenter" title="comparison text zoom" src="http://www.cm0k.info/wp-content/uploads/2010/01/comparison_text_zoom_x41.png" alt="" width="384" height="116" /></p>
<p style="text-align: center;">Згори: <strong>WinDjView</strong>, Знизу: <strong>WinDjView-subpix</strong></p>
<p><strong>Встановлення</strong>:</p>
<ol>
<li>Запустіть встановлення.</li>
<li>Прийміть як стандартний оглядач DjVu-файлів.</li>
<li><span style="color: #ff0000;"><strong>Увага!</strong></span> Ввімкніть субпіксельний рендеринг в діалогах налаштувань.</li>
</ol>
<p><a href="http://www.cm0k.info/wp-content/uploads/2010/01/settings.png"><img class="size-full wp-image-15   alignleft" title="settings" src="http://www.cm0k.info/wp-content/uploads/2010/01/settings.png" alt="" width="215" height="227" /></a><strong><a href="http://www.cm0k.info/wp-content/uploads/2010/01/settings_ru.png"><img class="size-full wp-image-16   alignleft" title="налаштування WinDJView-subpix" src="http://www.cm0k.info/wp-content/uploads/2010/01/settings_ru.png" alt="" width="245" height="227" /></a></strong></p>
<p style="text-align: center;"><a href="http://code.google.com/p/windjview-subpix" target="_blank">Офіційна сторінка оглядача.</a></p>
]]></content:encoded>
			<wfw:commentRss>http://cm0k.info/2010/01/21/windjview-subpix/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Хто такий DjVu?</title>
		<link>http://cm0k.info/2010/01/20/%d1%85%d1%82%d0%be-%d1%82%d0%b0%d0%ba%d0%b8%d0%b9-djvu/</link>
		<comments>http://cm0k.info/2010/01/20/%d1%85%d1%82%d0%be-%d1%82%d0%b0%d0%ba%d0%b8%d0%b9-djvu/#comments</comments>
		<pubDate>Wed, 20 Jan 2010 23:25:27 +0000</pubDate>
		<dc:creator>Cm0k</dc:creator>
				<category><![CDATA[Книгосканування]]></category>

		<guid isPermaLink="false">http://www.cm0k.info/?p=3</guid>
		<description><![CDATA[DjVu — графічний формат розроблений компанією AT&#38;T Labs у далекому 1996 році та призначений для збереження відсканованої графічної інформації незалежно рукописи це чи друкований текст чи може клинопис?.
Перш за все, потрібно розуміти, що існує два способи зберігання літератури в електронному виді:
1)      Можна відсканувати книгу та розпізнати програмою типу FineReader’а, в результаті отримуємо текстовий варіант з [...]]]></description>
			<content:encoded><![CDATA[<p><strong>DjVu</strong> — графічний формат розроблений компанією <a href="http://en.wikipedia.org/wiki/AT&amp;T_Labs" target="_blank"><strong>AT&amp;T Labs</strong></a> у далекому 1996 році та призначений для збереження відсканованої графічної інформації незалежно рукописи це чи друкований текст чи може клинопис?.<span id="more-3"></span></p>
<p>Перш за все, потрібно розуміти, що існує два способи зберігання літератури в електронному виді:</p>
<p>1)      Можна відсканувати книгу та розпізнати програмою типу <a href="http://www.abbyy.ru/finereader/" target="_blank"><strong>FineReader</strong></a>’а, в результаті отримуємо текстовий варіант з можливістю пошуку по ньому, крім того текст займає надзвичайно мало місця і може бути стиснений програмою-архіватором у добрий десяток разів. Крім того дана метода практично неможлива коли потрібно <strong>швидко</strong> зробити електронні копії не 1-2ох книжок, а кількох десятків томів, у зв’язку із тим, що для цього потрібно встигнути перечитати усі ці томи. Наукова література взагалі практично не дається до розпізнавання, якщо таблички ще так-сяк, то усі, скажімо, хімічні формули доведеться набирати власноруч, при цьому пам’ятаючи єдина помилка і той хто користуватиметься вашим набором може лишитись без очей… Що робити з рукописними текстами? Повністю перенабирати?</p>
<p>2)      Можна зберегти відскановане у виді картинок. Недолік – картинки займають дуже багато місця (1 сторінка А4 300dpi у форматі <strong>tif</strong> займає ~30Мб, відповідно «Словник синонімів у двох томах» це вже добрих 5Ґб), крім того по картинках не можна здійснювати машинний пошук – тільки гортати улюбленим ACDSee і видивлятись потрібну статтю. Розмір можна зменшити використовуючи формати типу <strong>JPG</strong>, <strong>JPEG2000</strong>, <strong>PNG</strong>, <strong>GIF</strong>. Але-але.. Усі <strong>JPG*</strong> – на жаль псують зображення, <strong>PNG</strong> та <strong>GIF</strong> в принципі використовувати можна, але вони взагалі-то розроблялись для зовсім інших речей тому також неоптимальні.</p>
<p><a href="http://www.cm0k.info/wp-content/uploads/2010/01/coding.png"><img class="size-medium wp-image-7   alignleft" title="Словник DjVu" src="http://www.cm0k.info/wp-content/uploads/2010/01/coding-300x84.png" alt="" width="300" height="84" /></a><br />
<strong>DjVu</strong> це своєрідна суміш обох цих методів, інновація полягає в тому, що подані на вхід сторінки спочатку діляться на окремі символи тоді ці символи аналізуються і впорядковуються, з них <strong>кодер-</strong><strong>DjVu</strong> створює словник символів для використання всередині формату, але цей словник ніяк до людської мови не прив’язаний. Надзвичайно спрощений приклад: є сторінка тексту написаного азбукою Морзе. На сторінці зустрічаються тільки 2 види символів «крапка» і «тире». Наш кодер аналізує перший символ – «крапка», бачить що в словнику подібних символів ще нема і записує туди стиснене графічне зображення «крапка», наступний символ – «тире» його теж раніше не було в словнику тому графічне зображення тире також записується в словник, тепер починається найцікавіше… «Тире» - порівнюється із зображенням яке вже є у словнику… точно – подібне є, нічого не робим… ще тире – є, крапка – вже є, і так далі – усі символи уже записані в словник. Тепер кодер просто записує у файл: 1) Словник у форматі: стиснене графічне зображення - його код 2) власне текст, оскільки віднайдено всього два символи то достатньо лише одного біта щоб записати символ (біт може приймати два значення «1» або «0», в даному випадку «точка» або «тире»). Що ми маємо? Словник (кілька кілобайт) + власне текст (ще кілька кілобайт), це саме зображення у <strong>JPG</strong> займатиме добрих півмегабайта і буде сильно спотворене артефактами. Програма-читачка відкриває відразу текст і тоді замість умовного біта «1» чи «0» зображує користувачу на екрані «точка» або «тире» відповідно. У практиці все складніше у мульйон разів, по-перше символів не 2, а щонайменше 50 – алфавіт+цифри+розділові знаки… як правило на багато більше. По-друге через дефекти друку 2 символи можуть бути зовсім не схожими один на одний, тому машина розпізнаватиме їх як різні. Машина може, навпаки, вважати 2 різні символи одним і тим же.. це так звана проблема «ИНь» коли «И» та «Н» стають в тексти одним «Н» або «і» та «ї» стають виключно «і».Крім того потрібно записати місцезнаходження кожного символа на сторінці. Є ще дуже цікавий хід – зображення ділиться на шари і кожен шар кодується окремо, таким чином ви можете задавати пріоритет – краще кодувати текст чи задній план? Технічних деталей досить – самі знайдете на багато більше якщо справді цікаво. Крім того не обов’язково знати як конкретно буде кодуватись конкретна книжка щоб створювати власні бібліотеки.</p>
<p style="text-align: center;"><strong>Що сучасний DjVu дає користувачу?</strong></p>
<p>Як ви вже зрозуміли це спеціальний «текстовий» формат і кодуються ним тільки тексти.</p>
<p>Перш за все чим відкривати? Для Windows-систем це <strong><a href="http://windjview.sourceforge.net/ru/" target="_blank">WinDjView</a></strong> з відкритим вихідним кодом, домашня сторінка <a href="http://windjview.sourceforge.net/ru/" target="_blank">windjview.sourceforge.net/ru/</a>, поточна версія 1.0.3. Для Макінтошів – <strong>MacDjView</strong>, дом.сторінка – та ж, остання версія 1.0.2. Unix’оїди можуть собі поставити надзвичайно швидкий <strong><a href="http://djvu.sourceforge.net" target="_blank">DjVuLibre</a></strong> з <a href="http://djvu.sourceforge.net" target="_blank">djvu.sourceforge.net</a>, нині 3.5.22.</p>
<p>Тепер з <strong>WinDjView </strong>покажу основні можливості формата. Відкриваю двотомник <strong>Уїлкі Колінз</strong>а видавництва Дніпро який сам же колись і сканував (якщо захочете – знайдете ґуґлям <img src='http://cm0k.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  ) Перше, що бачу – кольорова обкладинка першого тома з нашкрябаним на ній «цифрував...».. Праворуч –зміст книги. <strong>Том 1</strong> і <strong>Том 2</strong> із плюсами (тобто їх можна розгорнути), <a href="http://Cm0k.info">Cm0k.info</a> – без плюса, тобто не розгортається, якщо кляцьнути по ній -відкриється відповідна сторінка в інтернеті. Кляцяємо на плюс біля Тома 1 і бачимо його зміст: про книгу, Детективні романи <strong>Уїлкі Колінза</strong>, Роман «<strong>Жінка в білому</strong>» нарешті «<strong>Зміст</strong>». Роман «<strong>Жінка в білому</strong>» має 3 розділи. Простіше кажучи… перед вам досить проста та зручна система навігації по книгах. Побудована за принципами гіперпосилань (по-суті це вони і є).</p>
<p style="text-align: center;"><a href="http://www.cm0k.info/wp-content/uploads/2010/01/WinDjVu_main_window.jpg"><img class="size-medium wp-image-6 aligncenter" title="WinDjVu вікно" src="http://www.cm0k.info/wp-content/uploads/2010/01/WinDjVu_main_window-300x249.jpg" alt="Уїлкі Коллінз Двотомник WinDjVu" width="300" height="249" /></a></p>
<p>Можна переключитись в режим <strong>Thumbnails</strong> –матимете справу із значно зменшеними зображеннями сторінок, відповідно й можливість переміщатись по них.</p>
<p>Гіперпосилання можуть бути прямо на сторінках книги… на приклад прямо у текстовому змісті – кляцяєте на потрібний розділ і негайно переходите до нього. Така штука є, на приклад, у цифровій версії книги «<strong>Культура слова</strong>» <strong>Олександра Пономарева</strong>, коли її відкриваєш відразу бачиш зміст забарвлений у жовто-синій (кольори можуть бути іншими або навіть взагалі ніяким, тобто посилання можна буде побачити тільки за зміною форми вказівника миші), кляцьнувши по відповідному пункту – опиняємось на потрібні сторінці.</p>
<p>Йдемо далі… читаючи знаходите якийсь цікавий уривок який, можливо, буде цікавий вашим друзям. Берете інструмент «<strong>select tool</strong>» і просто виділяєте цей уривок, тепер правою кнопкою і копіюєте його куди потрібно… аська-блоги… після цього трохи підправляєте переноси і можна відсилати. Точно так само можна працювати з науковими текстами, підручниками – скопіював і в диплом… скопіював і в диплом його рідненького. <img src='http://cm0k.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p>Пошук… він є <img src='http://cm0k.info/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  <strong>Ctrl+F</strong> або в меню <strong>Edit\Find</strong> і прописуєте, що шукаєте... особливо зручно коли користуєтесь словниками.</p>
<p>Якщо раптом потрібно зробити експорт сторінки чи її частин – правою кнопкою миші на сторінку і «<strong>Export page</strong>». З експортованого простим паінтом можна вирізати потрібний графік, формулу, ілюстрацію. Як ви вже здогадались – книжку можна видрукувати і читати подалі від комп’ютера бережучи цим свої очі або, навіть, експортувати текстовий шар у простий txt-файл.</p>
<p>Що ще цікавого? Кілька років тому <strong>Vitaly1</strong> вигадав досить цікаву систему управління словниками у <strong>DjVu</strong> – <strong>DjVuDIC</strong> ідея полягала у тому що набравши шукане слово ви отримували саме ту сторінку словника де воно має бути (хоча не обов’язково є). При цьому пошук ЗНАЧНО швидший ніж простий <strong>Ctrl+F</strong>, а додати словник до системи порівняно просто.</p>
<p>Розмір файлів. Маленький – навіть дуже, якщо робилось грамотно. <strong>Великий Тлумачний Словник Бусел</strong>а (250 000 слів) на 1728 сторінок А4 дрібного тексту займає 52.2Мб. Тобто кілобайт по 30 на 1 сторінку в середньому. При цьому я вважаю, що це щось забагато…</p>
<p>Це основне, що можна знайти в Книгах <strong>DjVu</strong> (про кольорові, сірі чи б.я. інші ілюстрації навіть говорити не варто – є ), але для того щоб це все було потрібно щоб людина яка займається скануванням усе це забезпечила певними маніпуляціями. Фактично щоб хтось витратив свій час щоб ви зекономили потім ваш. Як це все робиться розкажу пізніше, знайте головне – робиться заморочено =)</p>
<p style="text-align: center;"><strong>Завантажити DjVu-книги можна</strong></p>
<p><strong> </strong></p>
<p><a href="http://www.madslinger.com/bookvault/" target="_blank">www.madslinger.com/bookvault/</a> - література з мови і про мову.. головним чином українську, доступ ускладнений на стільки на скільки його взагалі можна було ускладнити... але архів дуже добрий.</p>
<p><a href="http://chytanka.com.ua" target="_blank">chytanka.com.ua</a> – дитячі книжки виданням до 1991 року</p>
<p><a href="http://torrents.ru" target="_blank">torrents.ru</a> – російський національний торрент-трекер, дивіться книжкові розділи</p>
<p><a href="http://biblioteki.net" target="_blank">biblioteki.net</a> – гарний трекер що спеціалізується виключно на книжках</p>
<p><a href="http://bookland.net.ua" target="_blank">bookland.net.ua</a> – тут можна офіційно купити в тому числі <strong>DjVu</strong> версію книги (автори отримаються відсоток – перевірена інформація), хоча там краще брати <strong>FB2</strong>.</p>
<p style="text-align: right;"><a href="http://Cm0k.info" target="_self">В.Смок</a></p>
]]></content:encoded>
			<wfw:commentRss>http://cm0k.info/2010/01/20/%d1%85%d1%82%d0%be-%d1%82%d0%b0%d0%ba%d0%b8%d0%b9-djvu/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
