Навіщо і як розпізнавати книги?
Багато хто досі ще не знають, навіщо книги розпізнавати (оцифровувати). Хоча, сподіваюся, питань, навіщо їх сканувати, вже немає. Так як перевага електронних книг над паперовими очевидно за багатьма показниками. Зупинюся саме на різниці розпізнаного і нерозпізнаного тексту, лише згадавши програми для такого «метаморфоза».
Традиційно вважається кращим спосіб розпізнавання тексту за допомогою програми ABBYY FineReader. Хоча така можливість є і в Acrobat Pro. На жаль, обидві програми платні, а безкоштовні аналоги типу CuneiForm, Scan kromsator та інших поки залишають бажати кращого. Але хотілося б вірити, що вже є або скоро з'явиться гідний безкоштовний аналог FineReader.
Чим же все-таки є розпізнаний і нерозпізнаний текст? Мені часто доводилося стикатися з людьми, які далекі від розуміння різниці. Чи то в комп'ютері вони використовують тільки кнопку «ВКЛ ВИКЛ», чи то книги читають виключно очима, нічого з ними більше не роблячи. А що з ними ще можна робити - виникне резонне питання. Ось його і розберу нижче.
Одна з заковик в тому, що розпізнаний і нерозпізнаний текст при погляді на екран зовні практично нічим не відрізняється. І в тому, і в тому видно букви, і той, і інший іноді навіть можна різними способами скопіювати. Та й деякі формати (файли) можуть містити одночасно як текст, так і картинку тексту. Але все ж різниця між ними суттєва.
Нерозпізнаний текст - це просто картинка. Букви в якій зафіксовані, як на звичайній фотографії. Що-небудь дописати, а тим більше, змінити, в такому тексті (без додаткової обробки) вкрай складно. Єдиним його перевагою є те, що він безпомилково відображає все, що було сфотографовано або сканувати. Якщо це гарна якість, то видно всі галочки, крапочки, відступи, малюнки, формули і багато іншого. Тому сканований текст так важливий, якщо в сканованою книзі багато різних складних елементів.
В принципі, на цьому переваги сканованих картинок перед тим же, але розпізнаним текстом, закінчуються. Далі йдуть одні недоліки. Це і більший розмір документа (чим розпізнаний), і незручність роботи з ним, і багато іншого. Але опишу ті ж недоліки у вигляді переваг розпізнаного тексту перед нерозпізнаним.
Отже, основні переваги розпізнаного (так званого OCR) тексту:
1) малий розмір;
2) більш проста можливість редагування;
3) зручне іноді автоматичне додавання закладок;
4) пошук по тексту (який не можливий, якщо текст є картинкою);
5) одне з найголовніших переваг, яким багато хто поки не користуються, можливість прослухати текст за допомогою синтезаторів мови, я так переслухав масу книг.
Звичайно, на цьому переваги розпізнаних текстів не кінчаються, але це для мене 5 основних.
Таким чином, щоб опрацювати книгу, мені не раз доводилося її або сканувати або фотографувати, або вже скановані викачані з Інтернету книги переводити в зрозумілі комп'ютеру літери, а не фотографії букв, які лише видно на екрані. Хоча в Інтернеті все більше з'являється добре опрацьованих книг, в яких є сам текст, а не тільки його фотографія, або спочатку цифрових.
Проте досить багато людей не вміють або не хочуть користуватися даними можливостями, незважаючи на всі їхні переваги. Але це вже інша соціальна проблема ...