» » Як швидко відсканувати книгу в формат PDF (використовуючи ClearScan)

Як швидко відсканувати книгу в формат PDF (використовуючи ClearScan)

Як швидко відсканувати книгу в формат PDF (використовуючи ClearScan)

ВСТУП

У цьому короткому посібнику я б хотів поділитися своїм думками про сканування книг у формат PDF і враженнями про технології ClearScan, доступної в Adobe Acrobat починаючи з версії 9.0. На мій погляд, це чудова технологія, яка робить (нарешті!) Формат PDF відповідним для відсканованого тексту.

Фактично, при деструктивному скануванні (книга розривається на листи і використовується листової сканер), процес сканування # 8594- чистки # 8594- перекладу в PDF # 8594- OCR можна виконати за трійку годин для чорно-білої книги середнього розміру. Якщо ж ви «скляр», тобто у вас достатньо терпіння сканувати книгу на склі сканера, сканування, очевидно, займе довше.

Треба сказати що добре відсканувати кольорову книгу складніше ніж чорно-білу: сканер псує кольору, і на їх виправлення в графічному редакторі йде час і потрібно певний навик. Можна уявити собі таку шкалу складності, на початку якої знаходяться найпростіші для сканування книги з чорно-білим текстом без іллюстрацій- поступово, ілюстрацій стає все більше, додається колір, так що на іншій стороні цієї шкали знаходяться найскладніші для сканування книги у яких кожна сторінка - кольорова ілюстрація.

Технологія ClearScan, про яку я розповім, розрахована на текст. Вона ніяк не впливає на ілюстрації, чорно-білі або кольорові. Якщо ви захочете дізнатися про сканування докладніше, і / або ви збираєтеся сканувати книги з великою кількістю кольорових ілюстрацій і хочете вміти виправляти їх кольору, то я можу дати посилання на посібник по скануванню книг у високій якості, розміщене в бібліотеці Twirpx.com, яке також включає в себе інструкції по роботі з програмою Photoshop:

https://www.twirpx.com/file/1437636/

Моє завдання скромніше. Я припускаю у вас наявність книги, де основні сторінки - текст. Це може бути підручник або документ, художня література чи технічна, але не дитяча книжка з картинками, не книжка-фоторепортаж. Я розраховую що ви хочете перевести таку книгу в PDF і отримати пристойну якість і невеликий розмір файлу.

ЯК скануючого ПОЧАТКІВЕЦЬ

Якщо є сканер, то хочеться що-небудь відсканувати! І слава Богу. Подивіться на велику кількість електронних бібліотек. Спасибі всім хто відсканував і виклав це для інших.

Сканери сьогодні продаються з пакетом програм, серед яких є і програма по перетворенню в PDF. В теорії (і в рекламних проспектах) це виглядає так: заложи в сканер листи, отримай їх на виході в електронному вигляді, у форматі PDF! І це іноді правда. Є велика кількість різних паперів (кількістю 1, 2, ... 10 аркушів) з якими я так і роблю. А чого з ними чикатися? Видно - буде. А більше й не потрібно. Але ось книга ... та ще для тих, хто любить книги ... хіба можна назвати вийшла косу погань з смугами, плямами, чорними точками, з розірваним шрифтом книгою? Де ж заритий собака? Яку опцію треба виставити, який важіль покриття, щоб все це стало схоже на оригінал?

У тому-то й справа що немає такого одного важеля. Є чотириступінчастий процес, кожна щабель якого вимагає деяких оптимальних рішень від оператора. Пакет програм для сканера, що працює за типом «одним махом усіх побивахом», приховує цей чотириступінчастий процес, роблячи з нього одну операцію: паперовий лист # 8594- електронний еквівалент. Але про те що насправді відбувається щось складне, все ж можна здогадатися. Наприклад, сканер вже закінчив сканувати, а комп'ютер ще не готовий продолжать- на ньому відкриваються і закриваються якісь програми- блимає лампочка доступу до жорсткого диска ... Щоб відсканувати книгу якісно, треба самому пройтися по щаблях цього процесу: сканування, чистка, переклад в потрібний формат і розпізнавання тексту (OCR).

1. СКАНИРОВАНИЕ

Завдання цієї ступені перевести паперові сторінки книги у відповідні їм файли у форматі TIFF з роздільною здатністю як мінімум 300dpi. Цей дозвіл достатньо для книжкового тексту звичайного («читабельною») розміру. Дрібний шрифт або бажання передати дрібні деталі ілюстрацій може зажадати більшого дозволу. Покопайтеся в налаштуваннях свого сканера. На виході, вам потрібно отримати графічні файли, у форматі TIFF. Один лист - один файл. І ніяких багатосторінкових TIFF-ів (де в одному TIFF файлі декілька сторінок)! Ніяких PDF-ів! Ніяких OCR-ів (распознаваний тексту)!

На цьому ступені також потрібно прийняти рішення про сканування книзі в кольорі (color) або у відтінках сірого (grayscale). Зазвичай не рекомендується сканувати книгу в строго чорно-білому варіанті (bw), навіть якщо книга чорно-біла, так як сканер повинен буде тоді вирішувати що робити чорним, а що білим. Скажімо, вигин на сторінці може бути переданий чорним і створить чорні смуги і плями, а ще того гірше, ці плями закриють чорний же текст. Вичистити потім таке «чорне на чорному» неможливо. Якщо ж пляма (смуга, інший дефект) сірого (або іншого, при кольоровому скануванні) кольору, а текст чорного (відмінного від дефекту) кольору, то дефект можна буде прибрати на стадії чистки шляхом видалення з зображення кольору плями. Тому книжки з пожовклими сторінками добре сканувати в кольорі, щоб мати можливість прибрати жовтий колір з отриманого ськана. Буває також, суворо чорно-біле сканування утоньшает і розриває лінії і шрифт (тобто коли буква, скажімо, «d» виглядає як «cl»). Тому, для якісного сканування, не варто сканувати в строго чорно-білому варіанті (bw). Ніхто не забороняє перевести сторінку в чорно-біле зображення потім, коли зображення почищено, якщо такий переклад потрібен. Як ми побачимо, для технології ClearScan такий переклад не потрібно: ClearScan прекрасно працює з текстом у відтінках сірого і з великою роздільною здатністю.

Для мого листового сканера, сканування починається з відрізання обкладинки. Звичайний кухонний ніж з коротким лезом і зручною ручкою цілком підійде. Для м'якої обкладинки, ніж просовується між обкладинкою і першою сторінкою (при закритій обкладинці) і обкладинка відрізається. Якщо у книги тверда обкладинка, то при відкритій обкладинці з неї вирізається сама книга. Сторінки потім або відриваються по одній, або відрізаються. Рвані краї потім можна буде видалити за допомогою програми на стадії чистки. Головне, щоб рвані краю не залазили на текст.

Пишу ці рядки, а в голові звучить вірш Маршака:

У Скворцова Гришки

Жили-були книжки ;

Брудні, кошлаті,

Рвані, горбаті ...

У мене є книжки, ще з дитинства, які я люблю і не буду різати. Але часто доводиться сканувати посібники, часто комп'ютерні, часто товсті, і макулатура - найкраще місце для них. І часу свого на сканування «на склі» шкода витрачати.

Ще раз про базові налаштуваннях сканера. Дозвіл - 300dpi або більше, колірний режим «відтінки сірого» (grayscale) або «кольорової» (color). Формат файлу - TIFF. Вимірявши сторінку книги в міліметрах, можна задати довжину і ширину. Звичайно, «на склі» це можна зробити лише приблизно, так як точно покласти книгу на скло неможливо. А листової сканер буде засмоктувати листи з рівною сторони (або зверху / знизу або, якщо збоку, треба покласти рівною стороною) і тут все буде точно аж до міліметра. На своєму листовому сканері я, останнім часом, через вродженої ліні, вибираю опцію «поліпшити текст» (text enhancement), яка «ужірняет» і «учерняет» текст і псує кольорові ілюстрації (згущує фарби) і опцію «вирівняти зображення» ( deskew) так як рівні листи легше потім обробити. Але можна взагалі ніяких інших опцій крім dpi і кольору не вибирати, і залишити все інше на стадію чистки.

2. ЧИСТКА

Завдання цієї щаблі - отримати на виході файли з чистими, красивими сторінками в тому ж форматі TIFF і в тій же кількості. Це «набір» майбутньої електронної книги. Годі й казати, що обробляти потрібно все (вірніше майже все) зображення по групах, тобто в «пакетному режимі» (batch processing). Крім обкладинок і деяких інших неординарних сторінок, возитися з кожним зображенням сторінки окремо в графічному редакторі практично неможливо (уявіть 700 сторінок тексту!) Та й не потрібно.

Для чистки, я раніше користувався програмою ScanKromsator v5.9. Її можна знайти в інтернеті.

Посилання на опис цієї програми:

https://ru.wikipedia.org/wiki/ScanKromsator

https://www.djvu-soft.narod.ru/kromsator/

https://www.twirpx.com/file/394016/

Програма, особливо для початківця, складна через незвичний інтерфейсу, великої кількості опцій і поганий документації. Не завжди зрозуміло який же результат буде в кінці. Останнім часом, я користуюся комбінацією програм Photoshop і Scan Tailor. Scan Tailor не намагається бути графічним редактором як ScanKromsator, але через це їм простіше користуватися. Об'єднавши ж можливості програм Photoshop і Scan Tailor, набирається значний інструментарій для виправлення сирих сканів. Документація до Scan Tailor є тут:

https://sourceforge.net/apps/mediawiki/scantailor/index.php?title=Main_Page

Яка б програма не використовувалася, потрібно

прибрати нахил сторінок (deskew)

відрізати нерівні краї

вирівняти освітленість (прибрати тіні від нерівномірної освітленості)

прибрати точки та інше сміття (despeckle)

окремо перевірити / виправити ілюстрації (включаючи обкладинку)

Можна поправити такі дефекти на станицях як нотатки на полях (якщо звичайно, немає мети їх зберегти), стерти олівцеві лінії, що підкреслюють текст (будуть заважати програмі OCR, яка прийме їх за графіком), прибрати смуги, плями, а іноді і задній фон. Я одного разу сканував книжку з синіми літерами на блакитному тлі- фон вийшов потворно, і я його просто прибрав, тобто поміняв на білий, благо він був трохи світліше тексту і від нього можна було позбутися, прибравши його кольору.

З вищесказаного ясно, що чистка - це найбільш технічно складна щабель. Якщо ви не працювали раніше з графічними редакторами, то годі й думати зробити все з першого разу на сто відсотків. Не впадайте у відчай! Навіть трохи облагороджений файл - це крок вперед на шляху до краще відсканованої книзі! Іншого разу буде ще краще. А потім, росіяни просто обожнюють чистку! На жаль, ми навіть любимо вичищати наше власне населення. Або, як кажуть тепер, «зачищати». Було вичищено стільки народу, що якщо б від цього дійсно залежало просування на шляху до раю, ми давно жили б в раю. Як тут не згадати Сергія Мироновича Кірова:

«ЧК-ГПУ - це орган, покликаний карати, а якщо просто зобразити цю справу, - не тільки карати, а карати по-справжньому, щоб на тому світі був помітний приріст населення, завдяки діяльності нашого ГПУ.»

На тому світі, стало бути прибуло, а на цьому вибуло. Але вони ж всі погані були, ті які убутку ... чого їх не розстріляти за плохоту? Вибачте за відступ, просто в нашому прагненні до крайнощів ми іноді вичищаємо самих себе. Потім дивуємося: «чому у нас режим авторитарний?» Тому що хочеться швидких, кардинальних, простих рішень для складних проблем. Подивіться скільки людей мислять в руслі «так взяти їх усіх та й [спосіб вичищення]», і ви погодитеся що ніякого іншого режиму, крім авторитарного, тобто який здатний «всіх взяти за ... і ...» нам не світить.

3. ПЕРЕКЛАД В КІНЦЕВИЙ ФОРМАТ

Отже ... переводимо книгу в потрібний формат. Я тут розглядаю тільки формат PDF як єдино просте, швидке, кардинальне рішення «форматного питання» ... стійте. Десь я вже це казав. Ах, так. Ну, добре, є багато форматів в які можна перевести книгу, в тому числі «текстові», тобто такі де розпізнаний текст відділяється від книги і публікується без неї. Програма з розпізнавання тексту помиляється, і такому відділений тексту потрібна хороша вичитка. Але подобається вам вичитувати книгу - вичитуйте. Тільки вже вичитуйте як слід, а то скачаєш з інтернету книжку в текстовому форматі - там друкарських помилок море.

Я ж поясню як зробити книгу в PDF, причому використовуючи технологію ClearScan. ClearScan - передова технологія. Якщо сам по собі формат PDF не ідеальний для зберігання відсканованого тексту (виходить або великого розміру файл, або, якщо стиснути побільше, неякісне зображення) то при застосуванні ClearScan, цей формат наближається до ідеального.

Насправді, принципових варіантів що робити з відсканованої книгою не так багато. Можна просто залишити її в TIFF файлах. До речі, ці файли можна залишити в будь-якому випадку. Як вже було сказано, TIFF файли - «набір» книги. З них потім можна ліпити інші формати. Мені ліньки їх зберігати, але потім не раз я покусав ліктики через те що оригіналів вже не було. Однак, TIFF файли не зручні для обміну. Вони займають багато місця, і дивитися їх треба в графічному редакторі. Можна перевести TIFF файли в формат JPEG, так вони займуть менше місця. Але формат JPEG не кращий варіант для чорно-білого тексту, особливо коли його кілька сот сторінок.

Можна перевести книгу в текстовій або змішаний формат: TXT, RTF, DOC нарешті, чи в HTML-ні та XML-ні EPUB і FB2. Але це - відокремити текст і перевидати книжку заново. І можливо, втратити все або частину оформлення книжки при перевиданні. Чи потрібно це, якщо книжка вже видана? Звичайно, вирішувати вам. Якщо оформлення небагато, то можна і перевидати. А якщо багато і його хочеться зберегти? Та й просто не хочеться втрачати час на перевидання? Тоді залишається або «грюкнути» книгу в DJVU, або в PDF (хтось «плескає» і в PowerPoint, але це вже, вибачте, «ваще»).

У теорії, до появи технології ClearScan, формат DJVU більше підходив для відсканованих книг ніж PDF, так як файли виходили менше. Але на практиці, PDF куди більш поширений (це факт), а програми дозволяють читати PDF куди більш привабливі (це моя думка) ніж те що створено для DJVU, що для мене вибір був ясний навіть до появи технології ClearScan. А тепер-то вже ....

Суть технології ClearScan полягає в заміні зображень літер на стадії OCR на справжній шрифт. Цей шрифт не є яким-небудь готовим (системним) шрифтом більш-менш схожим на оригінальний шрифт, а спеціальним шрифтом виготовляється програмою Acrobat «на льоту» під конкретну букву тексту.

В результаті, замість сторінки книги в графічному форматі, з'являється сторінка з (майже) справжнім текстом, за формою (майже) таким же як і оригінальний.

Посилання на статтю англійською мовою про технології ClearScan:

https://blogs.adobe.com/acrolaw/2009/05/better_pdf_ocr_clearscan_is_smal/

Як сказано в цій статті і перевірено на практиці, найкращі результати виходять при високому дозволі оригіналу (600dpi) і відсутності на оригіналі побічних перешкод (сміття, артефактів).

Де ж взяти Adobe Acrobat 9.0 і вище? У голові тут же починає крутитися одне [нехороше слово]. Але навіщо мені вчити вас нехорошим словам? Ви їх знаєте і без мене. Тому, як екзотичний альтернативний спосіб, я придумав зайти на який-небудь аукціон, скажімо E-bay, набрати adobe acrobat 9 pro і подивитися чи можна отримати те що хочеться за розумною ціною. Припустимо - можна. І Acrobat у вас.

Запустивши Acrobat, вибираємо все TIFF-и утворені після чистки. Для цього тиснемо на File # 8594- Combine # 8594- Merge Files into a Single PDF. Відкривається віконце в якому ми справа вгорі вибираємо опцію Single PDF (вона скоріше всього і так вибрана). Натискаємо Add Files # 8594- Add Files і додаємо всі TIFF-и. Щоб додати всі файли відразу, натискаємо мишкою на перший файл, потім тримаємо клавішу Shift і натискаємо на останній файл. Натискаємо Combine Files і терпляче чекаємо результату - одного файлу у форматі PDF.

4. OCR з опцією CLEARSCAN

Це найпростіша для нас щабель. Bo-перше, розпізнати текст (OCR) потрібно для того, щоб замінити зображення букв на шрифт (ClearScan). По-друге, якщо текст розпізнано, з'являється можливість пошуку за ключовими словами. Це зручно в підручниках, довідниках, та можливо і в художній літературі. OCR не працює на сто відсотків, і розпізнає текст не зовсім вірно. Але нам-то цього і не потрібно. Ми не збираємося відокремити цей розпізнаний текст від книги і опублікувати тільки його - це справа тих, хто вибрав текстової формат. Акуратність нам потрібна тільки для пошуку за ключовими словами, а для цієї мети акуратності OCR зазвичай вистачає. Уявіть собі який-небудь розділ в підручнику. Скажімо, про постійний струм. Спочатку піде назва - «постійний струм». Потім визначення постійного струму. Потім властивості постійного струму. Комбінація слів «постійний струм» зустрінеться в цьому розділі багато разів, і навіть якщо OCR помилиться одного разу, другий випадок вживання не залишиться непоміченим, і ваш пошук за ключовими словами «постійний струм» приведе в потрібний розділ.

Що ж, запускаємо OCR в тому ж Adobe Acrobat. Для цього робимо Document # 8594- OCR Text Recognition # 8594- Recognize Text Using OCR і в вікні, натискаємо Edit в розділі Settings. Вибираємо

Primary OCR Language - треба вказати основну мову документа

PDF Output Style - ставимо ClearScan

Downsample Images - зазвичай можна Low (300dpi)

Ця остання настройка відповідає за заключне дозвіл нерозпізнаних зображень. Припустимо, що ви відсканували книгу в 600dpi щоб текст після ClearScan виглядав найкращим чином. Але у вас в книзі є не тільки текст, а й ілюстрації. Вони теж виявилися відскановані в 600dpi. Припустимо також, що ви не хочете такого високого дозволу для ілюстрацій, так як вашим конкретним ілюстраціям це не потрібно, а місця при дозволі 600dpi вони будуть займати багато. Виставивши настройку Downsample Images, у вас є можливість знизити дозвіл ілюстрацій у документі.

Чекаємо ще терпляче колишнього, а краще йдемо відпочивати. На виході виходить шуканий PDF. Знайдіть у ньому якусь букву і почніть збільшувати. Ця буква повинна залишатися чіткою при будь-якому збільшенні.

Готово. Не забуваємо зберегти файл.

І ось що ще ... Не треба дотискати-пережимати цей файл в Acrobat-е заради економії місця на диску. Я навіть не буду розповідати як це зробити. Не треба псувати якість файлу, та й на мобільних пристроях, де процесор слабший, і програма для проглядання PDF не така розумна, дивитися таку пережатием книжку - мученье.

Спробуйте закинути вашу книжку на мобільний пристрій - для мене це буде iPad з читалкою iBooks. Як добре вона виглядає! Як швидко можна гортати сторінки! Є пошук за ключовими словами! Студенти! Відскануйте свої підручники! Мами і тата! Будь ласка, відскануйте гарні дитячі книжки з картинками!

І, не забудьте викласти їх в електронній бібліотеці.

написав товариш Кузнєцов, Іван Іванович,

зі слів товариша Петрова Філіпа Федоровича,

який почув все це від сірої мишки.

2012 - 2014 г.