| |

Это приложение дает краткий обзор методов сканирования книги с использованием трех различных типов сканеров. Здесь вы найдете сравнения и комментарии по поводу различных преимуществ и недостатков этих методов.
Применение
- Электронная библиотека; - Цент полиграфических услуг; - Книжный (документный) архив.
Обсуждаемые методы
- Планшетный сканер; - Планетарный сканер; - Сканер на основе цифровых фотокамер.
| Оцифровку книг условно можно разложить на три основных процесса (рис. 1):
• Получение образов изображений от используемого сканера; • Их пост-обработка с помощью ПО: кадрирование, поворот, изменение размера изображения, изменение его формата, регулировка яркости и контраста, устранение искажений, неровностей и проч. • Перевод изображений в редактируемый и доступный для поиска текстовый вид с помощью программных пакетов ОРС (оптического распознавания символов).
|
Сканирование планшетным сканером
На протяжении 10 последних лет для оцифровки книг и других сшитых документов дома или в офисе используются планшетные сканеры, хотя, будучи предназначенными для расшитых документов, для оцифровки книг оптимальным решением не являются и имеют ряд проблем:
Во-первых, при попытке сканировать сшитое издания на выходе получаются изображения с искажениями, размытиями и затемненной областью в районе корешка книги. Искажения и другие дефекты изображения в большинстве случаев можно исправить программным путем, однако это отнимает дополнительное время, особенно если требуется выполнять последовательную корректировку каждой страницы. Символы, попавшие в затемненную область, труднодоступны для прочтения и корректировки. Если же расшивка документов не представляет проблемы, то сканирование отдельных страниц книги несложно и занимает мало времени, а полученные изображения получаются естественными и схожими с оригиналом. Однако зачастую приходится иметь дело с ценными, раритетными изданиями, расшивать которые значит нанести книге непоправимый ущерб.
Второй этап оцифровки электронной книги представляет собой обработку полученных изображений программным способом – кадрирование, корректировка яркости/контраста, поворот изображений и устранение искажений. При высоком уровне искажений требуется ручная корректировка, в других случаях пользователь может обойтись пакетным режимом обработки.
Новички в области оцифровки книг чаще всего пытаются выполнять корректировку страниц по одной, однако затем отказываются от этого метода как от трудоемкого и занимающего много времени в пользу пакетного режима – параметры обработки вставляются для одной страницы, а затем применяются ко всем остальным.
Последняя операция – компоновка изображения в электронную книгу. Самый популярный формат электронной книги - PDF. Для создания изменяемых файлов необходимо приобрести профессиональную версию Adobe Acrobat. Некоторые пользователи также предпочитают конвертировать изображения с помощью программного обеспечения для ОРС (оптического распознавания символов). Для этого полученное изображение должно иметь разрешение не менее 300 dpi.
Основные проблемы, возникающие при сканировании книг различными типами сканеров:
Здесь представлены тестовые изображения от трех типов сканеров, до их последующей обработки программным способом.
Планшетный сканер | Планетарный сканер | Сканер на основе ЦФК | Рис. 2 | Рис. 3 | Рис. 4 | Рис. 5 | Рис. 6 | Рис. 7 | Рис. 8 | Рис.9
|
|
Планшетный сканер
| Решение:
| - Освещение сканера не достигает затемненной области у корешка книги, даже если используется редуцирующая линза большой резкости; информация, попавшая в данную область, не восстанавливается с помощью ПО.
- Необходимо, чтобы сканируемое издание оставалось в одном и том же положении, иначе оператору придется заниматься обрезкой страниц вручную, поскольку настройки пакетного режима не подойдут ко всем страницам, и распознавание текста в дальнейшем будет производиться с потерей качества (см. рис. 8).
| - Тщательно следить за тем, чтобы сканируемое издание находилось параллельно границам сканера; - Использовать ПО для устранения искажений.
| Планетарный сканер
| Решение:
| - Основной проблемой считается большое количество искажений. Их количество минимизируется, но не устраняется полностью, за счет прижимного стекла, используемого в некоторых моделях планетарных сканеров.
| - Использовать ПО для устранения искажений. Его неудобство заключается в очень низкой скорости обработки изображений, за счет чего значительно снижается общая скорость сканирования книг этим типом сканеров.
| Сканер на основе цифровых фотоаппаратов
| Решение:
| Эффект «Margin crawl», обусловленный толщиной бумаги издания, заставляет изображения по мере сканирования немного продвигаться по горизонтали (см. рис. 9).
| - При пост-обработке изображений менять настройки кадрирования каждые 100-200 страниц.
|
Устранение искажений, выравнивание
Если полученные после сканирования изображения не являются гладкими, или имеют неровные границы, необходимо их выровнять. Если отсканированное изображение имеет случайный наклон (чаще всего - с планшетного сканера), пользователю необходимо выполнить выравнивание постранично или с помощью автоматического выравнивания. Определения угла наклона и выравнивание параллельно границе занимает немного времени, однако увеличивается продолжительность самого процесса и снижается качество изображения. Рекомендуется сканировать изображения параллельно границе перед их обработкой.

| Планшетный сканер | Планетарный сканер
| Сканер с V-образной колыбелью | Уровень искажений
| Умеренный
| Высокий
| Низкий
| Уровень темных областей
| Высокий
| Низкий
| Низкий
| Время сканирования
| Быстро
| Медленно
| Медленно
| Размер устройства
| Небольшой
| Умеренный
| Большой
|
Данная проблема возникает в основном при использовании планшетных сканеров, поскольку книгу выпрямить очень сложно. Если пользователь кадрирует изображения без выравнивания искажений, это приведет к некорректной обрезке границ и потере качества электронного изображения. Некоторое программное обеспечение по распознаванию текста умеет распознавать наклон текста, но, если Вы хотите получить качественное распознавание, лучше распознавайте качественные изображения
Операция для предотвращения проблем с выравниванием:
- Сканирование изображений параллельно границам; - Использования программного обеспечения для устранения искажений изображений.
Размер изображения
Большинство отсканированных изображений сохраняются в растровом формате (BMP), JPEG (JPG). Растровые изображения содержат в себе много деталей, так как файл весит очень много. Изображение в формате JPEG весят меньше, но даже их небольшие файлы все еще слишком велики для оцифровки книги в целом. Качество изображений книги уменьшается с изменением размера изображения или цветовым режимом.
| | |
JPEG-файл |
Уменьшение размера до 70% |
Уменьшение размера до 50% |
На данном примере Вы видите, как изменение размера изображения влияет на его качество. В этом случае исходный JPEG-файл имеет очень высокое качество. Изменение его размера до 70 % снизило качество до среднего. Размер может быть уменьшен еще на 20% от оригинала, но это уменьшит лишь качество, а не размер файла. Пожалуйста, убедитесь, что изображения, размер которых Вы изменяете, подходят для распознавания текста. Шумы Конвертирование файлов из 24-битного режима в черно-белый создает шумы на изображениях, которые не могут полностью быть удалены. Даже использование лучших, высококачественных сканеров не спасает от появления шумов полностью. Шумы могут быть убраны с помощью ПО, обладающего функцией коррекции шумов. Эта функция позволит устранить шумы, содержащиеся в данном изображении без удаления текста или печати.

| | Необработанное изображение | Обработанное изображение |
Функция коррекции шумов позволит получить чистое изображение, содержащее только текст. Это лучшее решение для распознания текста и создания электронного архива книг. Черная граница Отсканированное изображение будет иметь черную границу. Особенно часто это происходит с планшетными сканерами. Она появляется, поскольку страница плохо освещена или не попадает в фокус сканера. Черная граница может быть удалена с помощью программного обеспечения, но информация, содержащаяся в затемненной области, неизвлекаема.
Разрешение
Некоторые специалисты по оцифровке книг озадачены датчиками изображений, использованных в цифровых фотокамерах и планшетных сканерах. Оба типа датчиков используют одну и ту же технологию. Разница между ними такова: планшетный сканер использует линейный датчик изображения, а цифровая фотокамера – полноформатный. Линейные датчики имеют маленькие размеры и высокое разрешение. Они двигаются вдоль сканируемого документа - это ограничивает скорость сканирования. Для того, чтобы заставить их передвигаться быстро, разработчикам придется добавлять механическую часть, сложную и дорогостоящую. Сканер с автоподачей в разы быстрее, чем планшетный, его датчик – экономичное решение.

С полноформатным датчиком изображение больше по размерам, но имеет низкое разрешение по сравнению с линейным датчиком. Для получения высококачественного изображения также требуется более сложные линзы. Пользователи, предпочитающие изображения высочайшего качества, могут использовать профессиональные цифровые зеркальные фотокамеры. Используя полноформатные датчики, Вам придется столкнуться с необходимостью иметь дополнительное пространство – решения для сканирования на базе цифровых фотоаппаратов требуют большое количество свободного пространства.

| Линейный датчик
| Полноформатный датчик
| Размер датчика
| Небольшой
| Большой
| Требуемое пространство
| Мало
| Много
| Время сканирования
| Долго
| Быстро
| Стоимость
| Низкая
| Высокая
| Разрешение
| Высокое
| Низкое
|
Тип планшетных сканеров
Существует два типа книжных сканеров - с редуцирующей линзой и контактным датчиком изображений. Оба типа используют линейные датчики. Это могут быть CCD или CMOS, в зависимости от производителя оборудования. У каждого типа есть свои преимущества и недостатки.
Тип CIS является более экономичной и небольшой альтернативой, так как линза и зеркала не включены и сборка не требуется.
Этот тип может быть уменьшен на один дюйм, так как используется оптический разветвлитель 1:1 и предназначен для оцифровки плоской, гладкой бумаги, где глубина резкости не проблема.
Редуцирующая линза намного дороже, чем CIS. Однако она обеспечивает лучшее разрешение и качество. В этой линзе используется объектив с зеркалом для отражения внутри сканера. Глубина для этого типа больше, чем у CIS, что делает сканер подходящим для объемных (3D) объектов, включая книги. Некоторые производители утверждают, что данный сканер разработан специально для оцифровки книг.
Утомительная работа оцифровщика
Представьте, Вы сканируете две книги (примерно 1000 страниц) на планшетном сканере. Вам необходимо место, чтобы сохранять позицию страницы и ждать, пока сканирующий элемент медленно двигается, оцифровывая нужную страницу. Во время сканирования книгу перемещать нельзя. Для ускорения сканирования уменьшить разрешение вы не можете, так как необходимо сканировать в 300 DPI. Вам также нужно повернуть все 1000 страниц одна за другой. Это неудобно и отнимает много времени. Вот почему для оцифровки книг планшетный сканер не подходит.
Планшетные сканеры обеспечивают сканирование «лицом вниз», что позволяет им мало весить и занимать мало места. Однако, эти преимущества бесполезны для оцифровки книг. Многие «пионеры» оцифровки книг использовали сканирование «лицом вверх», что облегчало работу и пользователи меньше уставали. Им лишь требовалось перевернуть страничку и ждать ее оцифровки.
Разрешение
Разрешение изображения означает определенное количество точек на определенную длину. Обычно используется количество точек на дюйм (DPI). Разрешение изображения зависит как от датчика изображения, так и от размера сканируемого объекта. Разрешение на планшетном сканере доходит до 2400 dpi (оптическое разрешение). Такое разрешение предназначено для пленки и маленьких объектов.
Высокое разрешение влечет за собой больший размер файла, увеличивает время обработки, размеры хранения и т.п. Для планшетного сканера увеличение разрешения приводит к увеличению времени сканирования. Для последующего распознавания нужно лишь 300 dpi, максимум не требуется.
Для цифровой фотокамеры разрешение обычно измеряется в общем количестве пикселов (мегапикселях). Фотокамеры с большим разрешением получают изображения лучшего качества. Пользователи, работающие с цифровой фотокамерой как с устройством по фиксированию изображений, должны переводить количество пикселов в DPI.
Пример
Цифровые зеркальные камеры Canon Rebel XT (EOS 350D)
Спецификация:
- 8.2 Мпиксела - Успользуемые пикселы = 3456 x 2304 - Пропорции 4:3
Разрешение:
- Приблизительно 300 точек на дюйм.
Это означает, что датчик имеет 3456 используемых пикселей по горизонтали и 2304 используемых пикселей по вертикали. Отношение между горизонталью и вертикалью называется пропорцией. У данной камеры пропорция 3:2. Разрешение в DPI зависит от расстояния между линзой и объектом. Большее расстояние означает большее разрешение.
Сканирование формата A4 (8,26 х 11,7 дюйма)
В этом примере пропорции книги и камеры не соответствуют друг-другу. У книги формата А4 пропорции меньше, чем у фотокамеры. Изображение книги подходит по вертикали, но не подходит по горизонтали. Пользователю необходимо высчитывать разрешение по вертикали, вместо вычисления обоих размеров.
Скорость
Многие пользователи задают вопросы о скорости сканирования, особенно о количестве отсканированных в час страницах. Но есть еще один важный показатель. Время между страницами (секунда/страница), во время которых пользователю необходимо закрепить свою книгу устойчиво на сканере. Это увеличивает процент ошибок, которые могут возникнуть, если книга случайно смещена во время самого сканирования.
| Планшетный сканер | Сканер на основе цифровых фотоаппаратов | Сканирование/снимок (300 dpi)
| 6
| 2
| Перелистывание страниц
| 2
| 0,5
| Установка книги
| 2
| 0,5
| Общее время
| 10
| 3
| Страниц в минуту
| 360
| 1200
|
Модель | Цена | Мпикселей | A2 | A3 | A4 | B4
| B5 | Стандарт (216*35) | Письмо | 0,5 газетного листа (279*432) | EOS 350D
| $440
| 8M
| 139
| 197
| 279
| 227
| 321
| 250
| 271
| 203
| EOS 400D
| $650
| 10M
| 157
| 222
| 313
| 256
| 362
| 281
| 305
| 229
| EOS 30D
| $660
| 8M
| 141
| 200
| 282
| 230
| 326
| 254
| 275
| 206
| EOS 5D
| $860
| 12.5M
| 176
| 249
| 352
| 287
| 406
| 316
| 343
| 257
| EOS 1 DMark II
| $4250
| 16.5M
| 201
| 285
| 402
| 328
| 464
| 361
| 392
| 294
|
Скорость сканирования устройств на основе цифровых фотоаппаратов не зависит от разрешения. Цифровая фотокамера обеспечивает более быструю оцифровку, чем обычный сканер при том же разрешении, но увеличить его не может.
Оптическое распознавание символов
Таблица результатов:
Количество | Планшетный сканер | Планетарный сканер | Сканер с V-образной колыбелью | Сомнительные символы
| 217
| 186
| 8
| Всего символов
| 2267
| 2214
| 2355
| Точность
| 90,42%
| 91,59%
| 99,66%
|
Скачать руководство по оцифровке книг (PDF)

Еще по теме:
Перевод в машинографический вид графических изображений. Мифы и реальность. Выбор решения.
| |