Софт

как распознать отсканированный текст

Рейтинг: 5.0/5.0 (13 проголосовавших)

Категория: Windows

Описание

Как распознать отсканированный текст? Ответ ЗДЕСЬ!

Сканированные страницы с текстом, представляют собой, по сути снимок этого самого текста. Кстати, в современных смартфонах есть так же возможность снять страницу с текстом на камеру, а потом распознать этот текст. Так вот, распознавание сканированного текста, это достаточно привычное для многих дело, и сейчас мы расскажем, как можно распознать такой текст.

И так, лидером среди программ распознавания, по крайней мере, в среде виндовс, является программа abby FineReader. Удобство этой программы заключается еще и в том, что она может и сканировать документы или другой текст. При наличии соответствующего сканера, разумеется.

В программе, очень удобно сканировать как одностраничные документы, так и многостраничные. И распознавание так же возможно для обеих типов документов. Есть встроенная проверка, а так же ряд других полезных функций.

Алгоритм распознавания, который применяется в описываемой программе, позволяет достигать отличных результатов, даже на достаточно простых сканерах.

Кстати, именно Abby FineReader позволяет работать с такими форматами документов, как pdf, а так же djvu. В тех случаях, когда там содержится изображение текстовых страниц.

Есть, конечно же, и другие программы, которые умеют распознавать текст, но они значительно уступают файнридеру, как по удобству работы, так и по качеству результатов. Так что, решать, конечно, вам, но особой альтернативы, увы, нет.

как распознать отсканированный текст:

  • Ссылка 1
  • Альтернативный сервер
  • Другие статьи, обзоры программ, новости

    Как распознать отсканированный текст? Ответ ЗДЕСЬ!

    Сканированные страницы с текстом, представляют собой, по сути снимок этого самого текста. Кстати, в современных смартфонах есть так же возможность снять страницу с текстом на камеру, а потом распознать этот текст. Так вот, распознавание сканированного текста, это достаточно привычное для многих дело, и сейчас мы расскажем, как можно распознать такой текст.

    И так, лидером среди программ распознавания, по крайней мере, в среде виндовс, является программа abby FineReader. Удобство этой программы заключается еще и в том, что она может и сканировать документы или другой текст. При наличии соответствующего сканера, разумеется.

    В программе, очень удобно сканировать как одностраничные документы, так и многостраничные. И распознавание так же возможно для обеих типов документов. Есть встроенная проверка, а так же ряд других полезных функций.

    Алгоритм распознавания, который применяется в описываемой программе, позволяет достигать отличных результатов, даже на достаточно простых сканерах.

    Кстати, именно Abby FineReader позволяет работать с такими форматами документов, как pdf, а так же djvu. В тех случаях, когда там содержится изображение текстовых страниц.

    Есть, конечно же, и другие программы, которые умеют распознавать текст, но они значительно уступают файнридеру, как по удобству работы, так и по качеству результатов. Так что, решать, конечно, вам, но особой альтернативы, увы, нет.

    Как бесплатно распознать отсканированный текст

    Как бесплатно распознать отсканированный текст

    В этом видео рассказано, как распознавать отсканированные тексты не прибегая к платным или пиратским программам. Особенно это актуально для офисных работников, которым начальство не может приобрести ABBYY Finereader, а использование пиратских версий грозит серьёзными штрафами.

    Comments to the video: Как бесплатно распознать отсканированный текст

    Темас батькович 6 months ago

    Данная продукция кусочек КИЗЯКА, распознаёт страшно, на каком-то своём китайском языке, книжки в формате Djvn вообщем признавать не желает, отсканированные документы распознаёт такими заклинаниями, что у меня аж на стенке пентаграмма нарисовалась и бесы вылизать начали, в общем сплошная ложь ребят, не насилуййте свои нервишки.?

    Лучший бесплатный софт (BestFREE) 6 months ago

    +Темас батькович, отчасти делю Ваше мировоззрение, однако, как досадно бы это не звучало, бесплатной программки с наилучшим качеством определения покамест в природе не существует :( Замечено, что на компьютерах с Windows XP программка работает лучше. Что же касается DjVu-формата, рекомендую Вам сначала сохранить отдельные странички в виде графических файлов (к примеру в JPG) с разрешением в 600 dpi, а потом подсунуть эти рисунки программке. Если там обычный текст без таблиц, формул и спецсимволов, то всё (либо практически всё :)) надлежит распознаться безо всяких заклинаний и проклятий ;)

    Александр Крутин 8 months ago

    а можно будто-нибудь поставить казахский стиль???

    Лучший бесплатный софт (BestFREE) 8 months ago

    +Александр Крутин, как досадно бы это не звучало, для казахского языка библиотек определения дудки.

    жасик мурзаханов 8 months ago

    а стопроцентно отсконированую книжку в формате пдф может ??

    жасик мурзаханов 8 months ago

    А вы понимаете будто с пдф файла изолировать странички позже в ворде их соединить, извените у меня не довольно познаний в этой облости, буду благодарин за всякую инфу.

    Лучший бесплатный софт (BestFREE) 8 months ago

    +жасик мурзаханов, может, однако не вечно. Возможно придётся распознавать по одной страничке, так как с пакетным режимом в программке имеются глюки.

    жасик мурзаханов 8 months ago

    +жасик мурзаханов в ворд

    LeXmen toli 1 year ago

    DamienMoroj 1 year ago

    Серега Крюков 2 years ago

    Супер. Спасибо! Вы меня выручили от ненадобных переплат! Не знаю отчего у других не вышло, видимо не точно следовали подробной аннотации Вашей!?

    Елена Бонд 2 years ago

    надувательство!На веб-сайт я зашла, а все другие переходы автоматом переводят на платные услуги подписки и при нажатии ОК с вас снимут средства. ?

    Руслан Богданов 2 years ago

    +Елена Бондарева.Андреева Сдаюсь! Я истина не знаю, в чём неувязка. )

    Елена Бонд 2 years ago

    ВОТ СКАЧАЛА Я ПРОГРАММУ Э А ПРИ СКАНИРОВАНИИ ВЫХОДИТ СООБЩЕНИЕ; НЕ МОГУ ЗАПИСАТЬ ИЗОБРАЖЕНИЕ, ЧТО ДЕЛАТЬ?

    Руслан Богданов 2 years ago

    +Елена Бондарева.Андреева Хм. Да, неясно. Тогда наверняка лучше попытайтесь по ровный ссылке скачать с Яндекс.Диск:

    Елена Бонд 2 years ago

    дудки, на различные места. Сначала основы будто вы растолковали. Нажала графические меня начали переводить и уже появилась страница, будто внезапно всё закрылось и перевели на ОК .А также надавливала и другие слова, однако не баннеры!

    Руслан Богданов 2 years ago

    Елена, быстрее итого Вы нажимаете на маркетинговые баннеры - на их нередко изображают огромные зелёные кнопки Скачать либо Download.

    Ника Азарова 2 years ago

    началось определение потом вышла такая промах: промах в модуле <ccom.dll>. Обратитесь в разработчику. Что мастерить??

    Как распознать отсканированный текст - Программы Антивирусы Windows

    Как распознать отсканированный текст ABBYY FineReader Express Edition for Mac

    только с TWAIN-интерфейсом

    Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться — неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе — надо следить за разрешением сканирования.

    Это связано с тем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет).

    Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англо-русский режим распознавания! На этом минусы заканчиваются :). Можно начинать установку.

    А теперь давайте запустим программу ABBYY FineReader. Процесс распознавания текста я буду показывать на примере последней, 11-ой, на данный момент версии.

    Например, нам нужно книгу в PDF формате конвертировать в обычный текст в страницы Word. Для этого в открывшемся окне программы выбираем задачу «Файл (PDF/изображение) в Microsoft Word».

    После того как программа загрузит ваши файлы, выставьте язык распознавания. Сразу после этого переходите к выделению областей для распознавания. Для этого удалите все области, автоматически выделенные программой, и выделите их вручную. Присвойте полю свойство "текст" либо "картинка", в зависимости от того, чем оно является.

    Запустите процесс распознавания. После завершения выберите формат, в котором вы будете сохранять и вид форматирования, которое хотите соблюсти при сохранении.


    Сервис распознавания изображений.
    Сервис на русском, совершенно бесплатный.
    Распознает онлайн достаточно быстро. Правда меня поставили в очередь, но я был в очереди первым.

    Проверил на предмет ошибок. Небольшой кусок текста отличного качества (сделал скриншот с их же сайта, куда качественнее?) выдало по 2 ошибке в каждом слове.

    Со сканами работает значительно лучше.


    В списке «Конвертировать в» выберите формат, в который будет сохранен отсканированный документ. Для последующего редактирования документа подходит формат Word. Если вы отсканировали таблицу, выбирайте «Microsoft Excel». Чтобы сохранить отсканированный документ на компьютере в виде картинки выберите «Файл изображения». Если вам необходимо перевести отсканированный и распознанный документ в файл формата PDF, выбирайте соответствующий пункт.


    Определившись с языком и форматом документа, займемся выделенными областями. На отсканированном документе текстовые области выделены зеленым цветом, картинки – красным, а таблицы - синим. Соответственно, каждая область будет распознана в зависимости от ее типа.
    Работать с областями позволяет раздел «2. Проверьте области» на панели инструментов в правой части окна FineReader. Так, чтобы удалить область нажмите «Удалить область» и щелкайте мышкой по областям, которые хотите удалить. Можно удалить все картинки и текстовые области кроме той, тест в которой вам нужно распознать и сохранить.
    Чтобы выделить текстовую область, щелкните по кнопке «Выделить область Текст» и обведите границы нужного текстового блока рамкой (двигайте мышь с нажатой левой кнопкой). Для выделения картинки выберите соответственно «Выделить область Картинка», а для таблицы – «Выделить область Таблица».
    В FineReader также можно изменять размеры выделенной области: на отсканированном изображении щелкните по нужной области мышкой, наведите курсор на границу области до появления стрелочки, нажмите левую кнопку мышки и, не отпуская её, перемещайте мышь.

    И все! Система сама распознает текст и отправляет его в Word

    Онлайн-сервисы для конвертирования PDF-файлов

    Вариант с онлайн-сервисами я уже описывал, единственно, что могу добавить еще пару подобных сервисов:

    Откроется окно выбора изображений. Откройте папку в которую Вы сохранили отсканированные изображения, нажмите CTRL + A (английское) на клавиатуре и нажмите на кнопку Открыть .

    После этого слева в окне FineReader’а появятся эскизы добавленных файлов, по центру — на данный момент выделенный эскиз в увеличенном виде, снизу — еще большее увеличение, а справа результат распознания:

    Далее нажимаете на значок Word вверху и документ сохранится в текстовый формат документа Microsoft Word. Разумеется нужно учитывать, что распознанный текст нужно обязательно перечитывать, ведь в любом случае возможны ошибки.

    Этот вариант хорош тем, что вы получите уже форматированный вариант текста. Т.е. отступов с "километр", которые возможно были в исходном документе - вы не встретите. Полезная опция, когда вы будете значительно редактировать информацию.

    Правда, не стоит выбирать, если вам важно сохранить стилистику оформления, шрифты, отступы. Иногда, если распознавание прошло не очень успешно - ваш документ может "перекосить" из-за измененного форматирования. В этом случае целесообразно выбрать точную копию.

    Вариант для тех, кому нужен просто текст со странице без всего остального. Подойдет для документов без картинок и таблиц.

    На этом статья по сканированию и распознаванию документа подошла к концу. Надеюсь, что при помощи этих простых советов вы сможете решить свои задачи.

    Как распознать отсканированный текст - Фото и подробные описания неисправностей

    Как распознать отсканированный текст Конвертировать PDF в Word

    Рассмотрев ранее, как можно создавать PDF-документ, разными способами: и онлайн, и оффлайн и даже средствами Microsoft Office, пришло время рассказать, как произвести обратное действие.

    Рассмотрим, как вытащить из PDF-документа текст, так чтобы можно было потом его редактировать в Word и подобных ему текстовых редакторах. То есть, попросту говоря, будем конвертировать PDF-файлы в Word.

    Для сканирования нам, конечно же, потребуется сканер. Его не обязательно покупать. Можно, например, на время взять на время у товарища. Я пользуюсь сканером CanoScan Lide 60. Это хоть и не самая новая модель, но мне очень нравится этот компактный, быстрый и удобный в работе “девайс”. Если Вы взяли на время сканер, для того чтобы он работал нужно сначала установить программу-драйвер. Драйвера и руководство по установке всегда можно найти на установочном диске, который прилагается к устройству или скачать на сайте у производителя. После установки драйвера, подключите сканнер к компьютеру с помощью соединительного шнура. Теперь можно уже непосредственно приступить к сканированию.

    Но сначала немного теории. Вы должны знать, что процесс сканирования состоит из двух этапов:

    1. Непосредственно сканирование документа. На этом этапе сканнер как бы фотографирует поверхность сканируемого документа и сохраняет полученное изображение на компьютер в виде обычного файла .jpg .gif или в другом формате;

    2. Распознавание документа. Это процесс преобразования текста из изображения сделанного сканером в обычный тест, который потом можно сохранить в Word и редактировать. Распознавание осуществляется без участия сканера, с помощью специальной программы (самая популярная Adobe FineReader). Таким образом, Вы можете сначала отсканировать несколько листов текста и сохранить их в виде изображения и только потом преобразовывать в текст.

    Погулив ещё несколько минут, нашел программу, называется ABBYY FineReader Professional. Наверняка Вы уже слышали про неё. Скачал её тут http://nnm-club.me/forum/viewtopic.php?t=851116. легко устанавливается и отлично работает.

    ABBYY FineReader может перевести сканированные документы не только в Word, но и в PDF и многие другие текстовые и журнальные форматы.

    Этот параметр очень сильно влияет на время сканирования (кстати, DPI тоже влияет, но те так сильно, и только когда пользователь ставит высокие значения).

    Обычно выделяют три режима:

    - черно-белый (отлично подойдет для простого текста);

    - серый ( подойдет для текста с таблицами и картинками);

    - цветной (для цветных журналов, книг, в общем, документов, где важна цветность).

    Обычно от выбора цветности зависит время сканирования. Ведь если документ у вас большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время.

    Документ вы можете получить не только сканированием, но и сфотографировав его. Как правило, в этом случае у вас будут некоторые другие проблемы: искажение картинки, смазанность. Из-за этого может потребоваться более длительная дальнейшая правка и обработка полученного текста. Лично я не рекомендую пользоваться фотоаппаратами для этого дела.

    Важно отметить, что не каждый такой документ получится распознать, т.к. качество сканирования у него может быть крайне низким.

    Можете воспользоваться их услугами в том случае, если нужно распознать текст из всего одной или нескольких картинок – не более. В таком случае, возможно и нет смысла устанавливать программы для распознания текста.

    Недостатки всех онлайн сервисов:

    • Нужно регистрироваться в системе
    • Лимит на количество документов для распознания
    • Нет возможности настроить процесс распознания. Если сложные страницы, где переплетены картинки формулы и текст на разных языках – очень сложно получить достойный результат распознания.
    • Зависим от интернета.

    Как распознать отсканированный текст при помощи программы.

    На этом сервисе есть регистрация, но можно обойтись и входом с помощью социальной сети Facebook, сервисов Google+, или Microsoft Account.

    Преимущество такого подхода в том, что созданные документы будут храниться в Вашем аккаунте в течении 14 дней, и даже если Вы их удалите из компьютера, можно будет вернуться на сервис, и опять их скачать.

    Онлайн сервис для бесплатного распознавания текста, на котором не нужна регистрация. Но для получения результата нужно будет вводить капчу. Распознает по одной странице файлы в формате PDF и изображения JPG, GIF, TIFF или BMP. Есть ограничения на распознавание не более 10 документов в час и размер изображения не должен превышать 5000 пикселей и объем 2 МБ. Распознанный текст можно скопировать и вставить в документ нужного вам формата.

    При распознавании текстов на этом онлайн сервисе рекомендуется, чтобы файлы изображений были высокого качества в формате JPG (хотя принимает к распознаванию и другие форматы). Можно распознать только пять страниц текста в неделю, и сохранить на компьютере в формате DOC, PDF, RTF и TXT. Дополнительные страницы распознает только за «буржуйские пиастры» и обязательно нужно зарегистрироваться.

    В моем примере снимок имеет довольно небольшое разрешение. И программа вывела предупреждение. Вы должны знать – чем больше разрешение изображения, тем меньше будет ошибок. Это следует учитывать, если вы пользуетесь не сканером а, к примеру, мобильным телефоном.

    Как только я указал изображение, которое нужно распознать программа в автоматическом режиме определила расположение элементов и попыталась распознать текст на странице. Если вас не устраивает то, как программа определила блоки с текстом и картинками – можете удалить то, что выделила программа и, воспользовавшись панелью инструментов самостоятельно указать, что нужно распознать как текст или таблицу, а что оставить как картинку.

    Вопрос: Можно ли распознать несколько документов за один раз?
    Ответ: Да, ABBYY FineReader Express Edition for Mac позволяет открыть несколько документов для распознавания. Все распознанные документы будут сохранены в один файл.

    Обращение в Техническую Поддержку

    P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.

    P.P.S. Вам также может пригодится еще одна довольно занятная программа. GetWindowText, пусть и не полноценная система распознавания, но может помочь Вам захватить текст и графику с экрана для последующей обработки:

    Захват экрана http://www.bestfree.ru/soft/office/capture.php

    Обучающий видеоурок, посвящённый работе с программой CuneiForm


    подпишитесь на новые видеоуроки!

    Как быстро распознать отсканированный текст?

    Как быстро распознать отсканированный текст?

    Удалить закладку Добавить закладку

    В работе довольно часто сталкиваюсь с необходимостью распознать текст. Будь то отсканированная книга, PDF-документ или же нужно просто вытянуть текст с картинки. В статье хочу рассказать, как я это делаю, и поделиться некоторым опытом. Надеюсь, советы в статье смогут помочь начинающим пользователям научиться качественно распознавать текст из отсканированных картинок или других графических файлов. Я расскажу о недостатках и преимуществах онлайн распознания. А также посмотрим, какую программу нужно установить и как ее использовать для качественного распознавания текста на изображениях.

    Что мы имеем в виду под словами «распознать текст»?

    Распознать текст – это перевести текст из картинки в текст или символы представления в компьютере. Если на отсканированном изображении есть текст, тогда после распознания вы получите его в виде документа (PDF, MS Word, Excel, Html, Rtf, txt), который можно редактировать. Распознавание, например, используется для конвертации отсканированных книг или документов в электронный вид. Созданный файл будет в точности повторять структуру исходного документа, будет сохранено расположение таблиц, колонок и названия шрифтов. В таком распознанном виде намного легче работать с текстом, а также передавать по сети.

    Нужно быстро распознать отсканированный текст?

    Онлайн сервисы вам в помощь. Довольно часто в своей практике я пользовался возможностью распознать текст онлайн. Очень удобно пользоваться услугами онлайн распознавания, если вы к примеру не на работе. Даю некоторые ссылки:

    OCRconvert.com – это бесплатный онлайн сервис, который позволяет распознать текст из PDF-файлов JPEG файлов и т.д. в общем, любые отсканированные изображения можете конвертировать в текст.

    • Распознанный текст нужно самому копировать из веб-страницы. Нет функции экспорта в *.doc или *.docx. Как вы понимаете, не о каком сохранении форматирования речи бить не может – только текст. Если вам это не суть важно – тогда нет проблем.

    OnlineOCR.ru – позволяет распознать текст из простой картинки, сканированного документа или фотографии. Результат можно получить в любом из 6 поддерживаемых форматов.

    • Нужно зарегистрироваться.
    • А в последнее время сервис стал платным. Вот что написано в моем аккаунте: «Недостаточно кредитов для полнофункционального распознавания. Возможен демонстрационный режим (распознается только часть текста). Купить кредиты».

    FineReader Online – с помощью этого сервиса вы можете перевести полученные изображения в электронный формат, удобный для редактирования и хранения.

    • Нужно зарегистрироваться.
    • Лимит на количество документов для распознания
    • А в последнее время сервис стал платным. Вот что написано в моем аккаунте: « У вас недостаточно страниц для распознавания. Пожалуйста, посетите наш магазин и купите 20 страниц».

    Можете воспользоваться их услугами в том случае, если нужно распознать текст из всего одной или нескольких картинок – не более. В таком случае, возможно и нет смысла устанавливать программы для распознания текста.

    Недостатки всех онлайн сервисов:

    • Нужно регистрироваться в системе
    • Лимит на количество документов для распознания
    • Нет возможности настроить процесс распознания. Если сложные страницы, где переплетены картинки формулы и текст на разных языках – очень сложно получить достойный результат распознания.
    • Зависим от интернета.

    Как распознать отсканированный текст при помощи программы.

    Если недостатки онлайн сервисов для вас критичны – тогда нужно скачать программу и установить на компьютер для стационарного распознавания текста. Таких программ довольно много. Но лучшим решением для распознавания отсканированного текста я считаю программу ABBYY FineReader. Программа предназначена для качественного распознавания текста, позволяет быстро и точно переводить любые изображения (не только со сканера, но и с цифровых фотоаппаратов или мобильных телефонов) а также PDF-файлы – в электронные, редактируемые форматы и у вас не будет необходимости перепечатывать все «вручную».

    Основные возможности ABBYY FineReader:

    • Точность распознавания и сохранение форматирования документа.
    • Понятный интерфейс – программа очень проста в использовании.
    • Распознавание цифровых изображений с любых источников.
    • Перевод в популярные электронные форматы – DOCX, XLSX, PDF и другие.
    • Есть инструменты для улучшения качества фотографий документов.
    • Типовые сценарии для перевода в самые популярные форматы.
    • Запуск напрямую из офисных приложений Microsoft Word, Excel, Outlook.
    • Поддержка 179 языков распознавания.

    Пример: как распознать текст из картинки

    Устанавливаем и запускаем программу. Далее нам нужно открыть в программе те изображения, текст с которых нужно распознать и сохранить как документ Microsoft Word.

    FineReader сразу же предлагает выбрать сценарий, по которому мы будем работать. В нашем случае уже есть изображение (скрин офф-сайта ABBYY FineReader), поэтому я выберу «изображение в Microsoft Word». В вашем случае может быть иной сценарий.

    В моем примере снимок имеет довольно небольшое разрешение. И программа вывела предупреждение. Вы должны знать – чем больше разрешение изображения, тем меньше будет ошибок. Это следует учитывать, если вы пользуетесь не сканером а, к примеру, мобильным телефоном.

    Как только я указал изображение, которое нужно распознать программа в автоматическом режиме определила расположение элементов и попыталась распознать текст на странице. Если вас не устраивает то, как программа определила блоки с текстом и картинками – можете удалить то, что выделила программа и, воспользовавшись панелью инструментов самостоятельно указать, что нужно распознать как текст или таблицу, а что оставить как картинку.

    Для примера хедер сайта (на картинке) имеет и рисунок, и текст, но его не нужно распознавать, поэтому я его всего выделю как картинку. Так сделайте со всеми блоками изображения. Выделите, что есть картинка, а что нужно распознать как текст.

    Как только вы укажите настройки области распознания, язык текста (или оставьте по умолчанию «Автовыбор» языка) – нужно заново распознать рисунок.

    После повторного распознания всех страниц программа выведет результат в видедокумента Microsoft Word. Если нужно сохранить в другом формате – во вкладке «Сохранить» просто выбираете нужный формат. Таким образом, можно создавать pdf файлы из отсканированных картинок и т.д.

    Как видим, после правильной настройки области распознавания (то, чего нет в онлайн сервисах) результат просто потрясающий! Программа справилась с таким сложным заданием на 5+. Как всегда – FineReader радует надежностью и качеством работы!

    Вот и все! Мы на примере увидели, как можно качественно распознать текст, практически с любых изображений. Надеемся, Вам будут полезными и другие статьи на нашем сайте. Успехов!

    Николай Серебряков мастер 1 год назад

    Сергей, если вы выделите картинку с текстом, то она в Ворде скопируется как картинка, и текст на ней можно будет только прочитать. Вот если вам требуется работать с текстом, то есть выделять фрагменты, менять шрифт, осуществить автоматический перевод текста на другой язык, то с картинки это не получится. Нужно будет сначала либо вручную набрать текст в Ворде, или другом редакторе, или воспользоваться прогой - распознавалкой.

    +3 Ответить Закрыть

    12 комментариев

    Все о компьютере - Как распознать сканированный текст

    Как распознать сканированный текст

    Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора. Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того чтобы изменить информацию на полученном изображении, следует провести распознавание документа.

    Бесспорным лидером в этом деле является система OCR (англ. optical character recognition - оптическое распознавание текста) от ABBYY -FineReader. Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера - программой CuneiForm. Приведу сравнительную таблицу возможностей обеих пакетов (табл. 1) Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться - неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе - надо следить за разрешением сканирования. Это связано стем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет). Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англорусский режим распознавания! На этом минусы заканчиваются. Можно начинать установку.

    Здесь сложностей нет, поскольку вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.

    Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов.

    Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает ваш сканер, то от этого режима стоит отказаться. Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

    Теперь давайте опробуем CuneiForm на практике. Если программа поддерживает ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение». Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

    Теперь следует произвести раз-метку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

    Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква - розовая).

    И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или ТХТ-файл.

    Если же вы желаете большего, то, нажав на стрелочку сбоку, вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

    Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

    Программа изначально настроена самым оптимальным образом, но если вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры».

    Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.

    На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение - «Пакетное распознавание». Представьте, что вы отсканировали целую книгу и теперь надо ее распознать. Если открывать каждый файл-скан по отдельности, на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.

    Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера.

    На последнем этапе мы можем либо просто сохранить наш пакет, либо начать немедленное распознавание. В последнем случае запустится режим распознавания, который может затянуться на несколько минут (в зависимости от количества файлов-сканов).

    По окончании распознавания вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».

    Теперь остается только сохранить полученные файлы и радоваться жизни. Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно. Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется. Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучшей, а пока довольствуемся малым. Но такое ли уж оно и малое. Выбор за вами!

    Вам также может пригодиться еще одна довольно занятная программа. Kleptomania, пусть и не полноценная система распознавания, но может помочь вам захватить текст и графику с экрана для последующей обработки.

    Читайте так же:
    • Как распечатать файлы FB2 Большинство книг в сети Интернет распространяется в формате FB2 (Fiction…
    • Как редактировать PDF-файлы Значительная часть документов, распространяемых в Интернете, имеет формат PDF. Его…
    • Как удалить неудаляемый файл или Наверное, каждый сталкивался с проблемой удаления файла или папки, когда…
    • Настроить монитор на Windows 7 Вы купили монитор, но изображение расплывается и режет глаза? В…
    • Как разделить файл на части С появлением новой файловой системы NTFS появилась возможность хранить на…

    Советы и секреты - Как распознать отсканированный текст

    Эта информация с замечательного сайта-помощника ЯЧАЙНИК

    Несмотря на вездесущее проникновение компьютерных технологий, огромное количество информации хранится на бумажных носителях, в книгах, газетах и журналах. Частенько её приходится переводить в электронный вид, набирая вручную на клавиатуре или воспользовавшись специальным устройством – сканером. Но вот беда, сканер воспринимает текст документа в виде изображения, которое как-то нужно сохранить в Microsoft Word с возможностью дальнейшего редактирования. Это не проблема, если на компьютере имеется специальная программа для распознавания отсканированного текста. Сегодня мы рассмотрим установку и работу одной их таких программ – ABBYY FineReader. ABBYY FineReader – один из мировых лидеров в области распознавания документов. Программа очень проста в установке и настройке, обладает интуитивно понятным интерфейсом и поддерживает несколько языков распознавания текста. Скачать последнюю версию FineReader вы можете с официального сайта программы http://www.abbyy.ru/finereader/. Для домашнего использования подойдет ABBYY FineReader 9.0 Home Edition.

    Для установки программы запустите скаченный файл и нажмите кнопочку «Install». Установочные файлы FineReader будут распакованы во временную папку Temp на диске С: вашего компьютера.

    Выберите язык программы (Русский) и нажмите кнопочку «ОК».

    Прочитайте и примите лицензионное соглашение и нажмите «Далее» для продолжения установки FineReader.

    В следующем окошке указываются опции интеграции FineReader с Проводником Windows и программами из пакета Microsoft Office (Word, Excel), а также папка, в которую будет установлен FineReader. Оставьте все настройки, как есть, и просто нажмите «Далее».

    Для начала установки нажмите кнопочку «Установить».

    Подождите, пока FineReader инсталлируется на компьютер. По окончании данного процесса нажмите «Готово». Программа автоматически запустится.

    Пробная версия ABBYY FineReader 9.0 Home Edition действует 14 дней и рассчитана на обработку 50 страниц. По окончании тестового периода и исчерпания лимита страниц, программу нужно будет приобрести в вечное пользование. Для работы в тестовой версии FineReader нажмите кнопочку «Запустить ABBYY FineReader 9.0 Home Edition».

    В процессе установки FineReader автоматически найдет имеющийся на компьютере сканер. Вам останется лишь положить на стекло сканера приготовленный бумажный документ и выбрать в окошке FineReader нужную задачу. Учтите, что сканер должен быть подключен к компьютеру, включен в сеть, а также для него должны быть установлены все необходимые драйверы.
    Чтобы отсканировать и распознать текст, сохранив его в формате Microsoft Word, в окошке Выбора сценариев нажмите «Сканировать в другие форматы».

    Далее всё будет зависеть от модели вашего сканера. Многие сканеры имеют режим Предварительного просмотра, который позволяет увидеть сканируемый документ и определить параметры сканирования еще до запуска оного процесса. При настройке параметров рекомендуем установить разрешение сканирование не менее 300 dpi.

    Для запуска сканирования документа нажмите кнопочку «Сканировать». Вам придется подождать некоторое время, пока сканер отсканирует документ и передаст его в FineReader в виде изображения.

    Теперь изображение документа необходимо распознать и преобразовать в текст, а затем сохранить в Word. Прежде, чем приступить к распознаванию, FineReader автоматически выделит в документе области с текстом, картинками и таблицами. При необходимости программа также перевернет отсканированный документ по направлению текста.

    Сейчас самое время выбрать язык распознавания в списке «Язык документа». Если документ содержит текст на разных языках, выбирайте «Авто».

    В списке «Конвертировать в» выберите формат, в который будет сохранен отсканированный документ. Для последующего редактирования документа подходит формат Word. Если вы отсканировали таблицу, выбирайте «Microsoft Excel». Чтобы сохранить отсканированный документ на компьютере в виде картинки выберите «Файл изображения». Если вам необходимо перевести отсканированный и распознанный документ в файл формата PDF, выбирайте соответствующий пункт.

    Определившись с языком и форматом документа, займемся выделенными областями. На отсканированном документе текстовые области выделены зеленым цветом, картинки – красным, а таблицы – синим. Соответственно, каждая область будет распознана в зависимости от ее типа.
    Работать с областями позволяет раздел «2. Проверьте области» на панели инструментов в правой части окна FineReader. Так, чтобы удалить область нажмите «Удалить область» и щелкайте мышкой по областям, которые хотите удалить. Можно удалить все картинки и текстовые области кроме той, тест в которой вам нужно распознать и сохранить.
    Чтобы выделить текстовую область, щелкните по кнопке «Выделить область Текст» и обведите границы нужного текстового блока рамкой (двигайте мышь с нажатой левой кнопкой). Для выделения картинки выберите соответственно «Выделить область Картинка», а для таблицы – «Выделить область Таблица».
    В FineReader также можно изменять размеры выделенной области: на отсканированном изображении щелкните по нужной области мышкой, наведите курсор на границу области до появления стрелочки, нажмите левую кнопку мышки и, не отпуская её, перемещайте мышь.

    После того, как нужные области выделены, можно приступать к распознаванию текста и сохранению результатов в выбранном формате. Для этого нажмите кнопочку «Конвертировать».

    Несколько секунд вы будете наблюдать за экспортом результатов распознавания, а потом вам потребуется задать имя файла, выбрать формат и место для сохранения распознанного документа. Для сохранения в формате Microsoft Word выбирайте «Rich Text Format (*.rtf)».

    Документ готов! Можете сравнить полученный в результате распознавания текст с оригиналом и поправить имеющиеся ошибки. Обычно FineReader отлично распознает тексты, но, тем не менее, при плохом качестве исходника некоторые слова могут быть распознаны неверно.
    Отсканированный документ можно не только распознать и конвертировать в один из форматов, но и просто сохранить в виде картинки без распознавания. Для этого в меню «Файл» FineReader выберите пункт «Сохранить изображение». В появившемся окошке введите имя файла, выберите формат и место сохранения картинки.

    Помимо распознавания текста с отсканированных документов FineReader Home Edition умеет распознавать текст с сохраненных на компьютере изображений. Примером картинки с текстом служит результат снимка экрана (скриншот) или фотография документа, сделанная цифровым фотоаппаратом. Чтобы открыть такое изображение в меню «Файл» выберите пункт «Открыть новое изображение и», а деле выберите формат конвертирования – PDF или другие форматы.

    Появится окошко, в котором вам предстоит найти нужное изображение. Выделите его и нажмите кнопочку «Открыть». Картинка попадет в программу FineReader. Дальнейшие действия ничем не отличаются от работы с отсканированными документами.

    Как видите, работать в FineReader Home Edition очень просто. Программа быстро переводит документы из бумажного вида в электронный, сохраняя распознанный текст, изображения и таблицы в нужном вам формате.

    Специально для Ячайник, Елена Карлтон

    Поделиться