Препознавање текста. Бесплатан програм - аналогни ФинеРеадер

Пре или касније, сви који често раде са канцеларијским програмима суочавају се са типичним задатком - да скенирају текст из књиге, часописа, новина, само летке, а затим преносе ове слике у текстуални формат, на пример, у Ворд документ.

Да бисте то урадили, потребан вам је скенер и посебан програм за препознавање текста. У овом чланку ћемо причати о бесплатном аналогном ФинеРеадер - ЦунеиФорм (о препознавању у ФинеРеадер-у - погледајте овај чланак).

Почнимо ...

Садржај

  • 1. Карактеристике ЦунеиФорм, карактеристике
  • 2 2. Пример препознавања текста
  • 3 3. Препознавање серијског текста
  • 4 4. Закључци

1. Карактеристике ЦунеиФорм, карактеристике

ЦунеиФорм

Можете га преузети са веб локације програмера: хттп://цогнитивеформс.цом/

Програм препознавања текста са отвореним кодом. Поред тога, ради у свим верзијама Виндовса: КСП, Виста, 7, 8, што је задовољство. Плус, додајте комплетан руски превод програма!

Прос:

- препознавање текста на 20 најпопуларнијих светских језика (енглески и руски је укључен у овај број);

- огромна подршка за различите штампане фонтове;

- проверите речник препознатог текста;

- могућност чувања резултата рада у неколико варијанти;

- очување структуре документа;

- одлична подршка и препознавање табела.

Цонс:

- не подржава превелике документе и датотеке (више од 400 дпи);

- не директно подржава неке врсте скенера (па, није страшно, драјвер скенера има посебан програм за скенирање);

- Дизајн не сија (али ко му је потребан, ако програм у потпуности решава проблем).

2. Пример препознавања текста

Претпоставићемо да сте већ примили потребне слике за препознавање (скенирани су тамо или преузели књигу у пдф / дјву формату на Интернету и извадили потребне слике од њих). Да бисте то урадили, погледајте овај чланак.)

1) Отворите жељену слику у програму ЦуинеФорм (филе / опен или "Цнтрл + О").

2) Да бисте започели препознавање - прво морате изабрати различите области: текст, слике, табеле итд. У Цунеиформ-у ово се може урадити не само ручно, већ и аутоматски ! Да бисте то урадили, кликните на дугме "маркуп" у горњој табли прозора.

3) Након 10-15 секунди. програм ће аутоматски истакнути све области различитих боја. На примјер, текстуална област је означена плавом бојом. Иначе, нагласила је све области коректно и прилично брзо. Искрено, нисам очекивао такву брзу и тачну реакцију од ње ...

4) За оне који не верују у аутоматску марку, можете користити приручник. Да бисте то урадили, постоји трака са алаткама (погледајте слику испод), захваљујући којој можете одабрати: текст, табелу, слику. Померите се, повећајте / смањите почетну слику, ивице обрезивања. У принципу, добар сет.

5) Након што су све области означене, можете почети да препознате . Да бисте то урадили, једноставно кликните на дугме са истим именом, као на слици испод.

6) Буквално за 10-20 секунди. пре него што отворите документ у Мицрософт Ворд-у са препознатим текстом. Интересантно је, у тексту за овај пример, грешке, наравно, биле, али их нема пуно! Нарочито, с обзиром на то што је непредвиђени квалитет био изворни материјал - слика.

Брзином и квалитетом је прилично упоредиво са ФинеРеадер!

3. Препознавање серијског текста

Ова функција програма може бити корисна када морате препознати више од једне слике, али неколико одједном. Ознака за лансирање препознавања пакета обично је скривена у менију "старт".

1) Након што отворите програм, морате креирати нови пакет или отворити претходно сачувани. У нашем примеру креирајте нову.

2) У следећем кораку датићемо му име, пожељно тако да ћемо за пола године запамтити шта се налази у њему.

3) Затим изаберите језик документа (руско-енглески), наведите да ли су у вашем скенираном материјалу слике и табеле.

4) Сада морате одредити фасциклу у којој се налазе датотеке за препознавање. Узгред, интересантно, сам програм ће пронаћи све слике и друге графичке датотеке које може препознати и додати их пројекту. Морат ћете уклонити додатне.

5) Следећи корак није битан, одаберите шта да радите са изворним датотекама, након препознавања. Препоручујем да одаберете поље "не ради".

6) Остаје само да изаберете формат у коме ће се препознати документ чувати. Постоји неколико опција:

- ртф - датотека из речног документа, отвара се свим популарним канцеларијама (укључујући и бесплатне линкове на програме);

- ткт - текстуални формат, у њему можете сачувати само текст, слике и табеле;

- хтм - хипертект страница, погодно је ако скенирате и препознајете датотеке за сајт. Ми ћемо га изабрати у нашем примеру.

7) Након што кликнете на дугме "спремно", почела ће се обрада вашег пројекта.

8) Програм ради веома брзо. Након препознавања, испред вас се појављује таб са хтм датотекама. Ако кликнете на такву датотеку, покреће се прегледач тамо где можете видети резултате. Иначе, пакет може бити сачуван за даље рад са њим.

9) Као што видите, резултати рада су импресивни. Програм је био лако препознати од стране програма, а испод њега било је лако препознати текст. Са чињеницом да је програм бесплатан - опћенито је супер!

4. Закључци

Ако не често скенирате и препознајете документе, онда нема смисла купити ФинеРеадер. Код већине задатака, ЦунеиФорм се лако рукује.

Са друге стране, она има и потешкоће.

Прво, премало је алата за уређивање и верификацију резултата. Друго, кад морате препознати много слика, онда је у ФинеРеадеру погодније одмах видети све што је додато пројекту у колони на десно: брзо уклањање непотребних, прављење исправки итд. И треће, на документима врло лошег квалитета, ЦунеиФорм губи као признање: Неопходно је донети документ на ум - да бисте исправили грешке, поставили интерпункцијске знакове, обрнуте комаде итд.

То је све. Да ли знате неки други бесплатни програм за препознавање текста?

Рачунар Помоћ
Дигитална Техника
Произвођачи TV