Як розпізнати текст з картинки

Зміст

Як оцифрувати текст
Питання та відповіді

Останнім часом можна все частіше зіткнутися з ситуацією, коли потрібно перевести будь-якої текст, що міститься на зображеннях, в електронну текстову форму. Для того щоб заощадити час і не передруковувати вручну, слід використовувати спеціальні комп'ютерні програми для розпізнавання тексту, про що ми і розповімо сьогодні.

Як оцифрувати текст

На ринку представлено чимало додатків для оцифровки тексту, тому кожен користувач знайде рішення, відповідне вимогам.

Спосіб 1: ABBYY FineReader

Це умовно-безкоштовний додаток від російського розробника володіє величезним функціоналом і дозволяє не тільки розпізнавати текст, але і виробляти його редагування, збереження в різних форматах і сканування паперових вихідних кодів.

Завантажити ABBYY FineReader

Щоб розпізнати текст на зображенні, перш за все, потрібно завантажити її в програму. Для цього після запуску ABBYY FineReader тиснемо на кнопку «відкрити в OCR редакторі» .

Після виконання даної дії відкривається вікно вибору джерела, де ви повинні знайти і відкрити потрібне зображення. Підтримуються такі популярні формати: JPEG, PNG, GIF, TIFF, XPS, BMP та ін., а також файли PDF і DjVU.

Выбрать графический файл в проводнике для распознавания текста в ABBYY FineReader

Після завантаження в ABBYY FineReader автоматично починається процес розпізнавання тексту на зображенні без вашого втручання.

У разі якщо ви хочете зробити повторну процедуру розпізнавання, досить просто натиснути кнопку " розпізнати» у верхньому меню.

Повторное распознавание текста в графическом файле в ABBYY FineReader

Іноді не всі символи програма може розпізнати коректно. Це може бути в тому випадку, якщо зображення на исходнике не дуже якісне, дуже дрібний шрифт, в тексті використовується кілька різних мов, застосовуються нестандартні символи. Але це не біда, так як помилки можна виправити вручну, за допомогою текстового редактора і набору інструментів, які в ньому містяться.

Для полегшення пошуку неточностей оцифровки програма за замовчуванням виділяє можливі помилки бірюзовим кольором.
Закономірним закінченням процесу розпізнавання є збереження його результатів. Для цього тиснемо кнопку " Зберегти» на верхній панелі меню. За замовчуванням вона має вигляд іконки старого логотипу Microsoft Word. Перед нами з'являється вікно, де можна самостійно визначити майбутнє місцезнаходження, в якому буде розташовуватися файл з розпізнаним текстом, а також його формат. Доступні наступні варіанти для збереження: DOC, DOCX, RTF, PDF, ODT, HTML, TXT, XLS, XLSX, PPTX, CSV, FB2, EPUB, DjVU.

Сохранение распознанного текста в графическом файле в ABBYY FineReader

ABBYY FineReader являє собою саме просунуте рішення, але однозначно рекомендувати саме його заважають платна модель поширення і обмеження пробної версії.

Спосіб 2: Readiris

Додаток Readiris зміцнилося на ринку як найближчий конкурент згаданого вище Файн рідер – воно надає подібний функціонал, деякі аспекти виконує дещо краще, ніж продукція ABBYY.

Завантажити Readiris

Після запуску програми Виберіть джерело даних для оцифровки – зі сканера або ж з готового графічного файлу.

У прикладі ми будемо використовувати останній варіант-для нього слід скористатися кнопкою " з файлу» .
Відкриється діалогове вікно " провідника» , в якому слід вибрати потрібні документи. Підтримується більшість графічних форматів, а також PDF.

Открыть файл с информацией в Readiris для оцифровки текста

Зачекайте, поки документ буде завантажений в програму, після чого слід налаштувати розпізнавання тексту. Насамперед потрібно встановити основну мову-виберіть його з меню, що випадає.

Також рекомендуємо відзначити опцію " аналіз тексту» , завдяки якій значно підвищитися якість оцифровки.

Активировать анализ страницы Readiris для оцифровки текста

Далі зверніться до меню «інструменти» &8212; наявні в ньому параметри допоможуть вирішити деякі проблеми сканування, такі як спотворення перспективи, недостатня контрастність картинки або зміщення тексту щодо полотна.

З цього меню також можна підкоригувати текст, якщо розпізнавання спрацювало неправильно.

Корректировка распознавания в Readiris для оцифровки текста

Після внесення змін в розпізнаний текст слід задати вихідний формат отриманих даних через однойменне меню в панелі інструментів. Основними форматами вважаються PDF, а також файли Microsoft Office (DOCX і XLSX) – клікніть по необхідній позиції для вибору.

Всі можливі формати експорту згруповані в пункті " Інше» . Крім згаданих вище типів файлів, оцифрований текст можна зберегти у вигляді даних OpenOffice , гіпертекстових файлів або звичайних txt.

Возможные форматы экспорта распознанного текста в Readiris для оцифровки текста

Після вибору формату відкриється віконце майстра з експорту. У ньому можна налаштувати ті чи інші параметри отриманого файлу (залежать від обраного формату) і варіант збереження (локальний або в хмарний сервіс). Після внесення всіх необхідних змін натисніть «ОК» .

Знову з'явиться вікно " провідника» , в якому слід вибрати бажаний кінцевий каталог збереження.

Экспорт результатов работы Readiris для оцифровки текста

В цілому Readiris являє собою зручне і сучасне рішення для оцифровки тексту, проте вагомим його недоліком можна назвати платну модель поширення.

Спосіб 3: RiDoc

Ще один додаток, орієнтоване на роботу зі сканерами, проте вміє працювати і з локальними файлами в різних форматах.

Завантажити RiDoc

Відкрийте додаток. Для початку роботи використовуйте на панелі інструментів кнопки»відкрити" або »Сканер" - перша відповідає за розпізнавання тексту в локальних файлах, друга дозволяє почати оцифровку одночасно зі скануванням. Для прикладу будемо використовувати перший варіант.

Открыть или сканировать документ для оцифровки текста в RiDoc

У вікні " провідника» перейдіть до документа, з якого потрібно отримати текст, і виберіть його. Доступна також пакетна обробка документів.

Выбрать в проводнике документ для оцифровки текста в RiDoc

Якщо потрібно, можна обробити отриманий файл: обрізати картинку, встановити область розпізнавання, виправити огріхи сканування.

Окремим пунктом стоїть можливість склеювання-в цьому випадку мультісторінковий документ буде збережений єдиним файлом. Можна вибрати значення DPI та формат виводу (доступні лише файли зображень).

Опции склейки документа для оцифровки текста в RiDoc

Для розпізнавання тексту в правій частині вікна знайдіть вкладку «OCR» і відкрийте її. Доступних опцій не багато-можна вибрати тільки мову документа. Після зміни пакета натисніть на кнопку " розпізнати» на панелі інструментів.

Звідси ж можна підправити результати оцифровки.

Редактирование полученных данных в результате оцифровки текста в RiDoc

Збереження документів доступно в двох варіантах – пряме або експорт в офісні додатки. Для виконання першого способу слід використовувати кнопку " Зберегти» . Відкриється вікно, в якому можна вибрати місце збереження, а також тип (одиничні файли або один багатосторінковий). Формат файлу, що зберігається залежить від обраного на етапі склейки.

Експорт результатів можливий в текстові процесори офісних пакетів Microsoft або OpenOffice, у вигляді електронного листа (кнопка »пошта" ), в формат PDF або ж друку на принтері. Для експорту в офісні програми вони повинні бути встановлені на комп'ютері, тоді як збереження в ПДФ можливо навіть без відповідних додатків.

Экспорт полученных данных в результате оцифровки текста в RiDoc

Як бачимо, Рідок являє собою небагате можливостями рішення, але для нескладних варіантів оцифровки цілком підійде.

Спосіб 4: Capture2Text

Невелика утиліта, яка дозволяє розпізнавати текст з будь-якої області на екрані комп'ютера, повністю безкоштовна і зручна у використанні.

Завантажте Capture2Text з офіційного веб-сайту

Завантажте архів з програмою і розпакуйте його в будь-який зручний місце. Потім перейдіть до отриманого каталогу та запустіть виконуваний файл.

Далі відкрийте системний трей – в ньому повинна з'явиться іконка утиліти.

Для зміни мови розпізнавання клікніть правою кнопкою миші по значку Capture2Text в системному треї, потім в налаштуваннях виберіть пункт «OCR Language» і встановіть потрібну мову.

Изменение языка распознавания Capture2Text в системном трее для оцифровки текста

Відкрийте файл, текст з якого потрібно оцифрувати, наприклад, документ DjVU без текстового шару. Коли файл буде відкритий, натисніть комбінацію клавіш Win+Q і виділіть область розпізнавання.

Выделение области распознавания в программе Capture2Text для оцифровки текста

З'явиться віконце утиліти з результатами розпізнавання. Отримані дані можна скопіювати в будь-який додаток, що підтримує введення користувальницького тексту.

Результаты работы Capture2Text в оцифровке текста

Додаток неймовірно просте, але це обертається обмеженим функціоналом і, часом, некоректним розпізнаванням російського тексту. Також до недоліків можемо віднести відсутність локалізації на російську мову. Втім, для деяких користувачів ці мінуси несуттєві, а основних можливостей буде цілком достатньо.

Спосіб 5: CuneiForm

Ще одне рішення для оцифровки тексту, створене на пострадянському просторі. Незважаючи на припинення розробки, все ще актуально.

Завантажити CuneiForm

Як і багато інших представлені в цій статті програми, КунейФорм вміє працювати як з готовими зображеннями, так і отримувати дані безпосередньо зі сканера. Скористаємося першим варіантом-для цього відкрийте меню»Файл" і виберіть в ньому пункт »відкрити" .

Открыть графический файл для оцифровки текста в CuneiForm

За допомогою " провідника» виберіть потрібний файл або файли.

Выбрать графический файл для оцифровки текста в CuneiForm

Після завантаження даних у програму використовуйте пункти " розпізнавання» - «Авторозметка» .

Це дозволить вибрати області з текстом для більш коректної роботи модуля OCR. Якщо автоматичні алгоритми неправильно розмітили сторінку, області з текстом можна підправити вручну або взагалі прибрати.

Настроить разметку графического файл для оцифровки текста в CuneiForm

Далі можна займатися безпосередньо оцифруванням. Знову відкрийте меню " розпізнавання» і виберіть варіант з таким же найменуванням.

Начать распознавание графического файла для оцифровки текста в CuneiForm

Розпізнаний текст буде відкрито у вікні програми, де його також можна редагувати. Можливості досить великі, і відповідають повноцінному текстовому редактору. У разі якщо на комп'ютері встановлений MS Word, отримані дані будуть відкриті через його інтерфейс.

Редактирование оцифрованного текста графического файла в CuneiForm

Збереження результатів роботи доступно по пунктах»Файл" - " Зберегти» .

У відкритому " провіднику» виберіть розташування отриманого файлу та його формат. Підтримуються не багато варіантів: TXT, RTF, внутрішній формат FED, а також експорт в додатки Microsoft Office (Word і Excel).

Як бачимо, CuneiForm являє собою простий і в той же час потужний інструмент для оцифровки тексту. Вагомою його перевагою буде вільна модель поширення, проте недоліки у вигляді закінчення підтримки і відсутності формату PDF можуть змусити звернутися до альтернатив.

Висновок

Як бачимо, розпізнати текст з картинки досить просто, якщо використовувати для цього спеціалізовані додатки. Дана процедура не зажадає від вас багато зусиль, а користь буде у величезній економії часу.

розпізнавання тексту з картинки