Скенирање и препознавање текста

Добар дан.

Вероватно се сваки од нас суочио са задатком, када је неопходно превођење папирног документа у електронски облик. Посебно је често потребно радити оне који проучавају, раде са документацијом, преводи текстове помоћу електронских речника итд.

У овом чланку бих желео да поделим неке од основа овог процеса. Уопштено гледано, скенирање и препознавање текста је прилично тежак, јер већина операција мора бити ручно извршена. Покушаћемо да схватимо кораке које, како и зашто.

Не сви сви одмах разумеју једну ствар. Након скенирања (скалирање свих листова на скенеру), видећете слике формата БМП, ЈПГ, ПНГ, ГИФ (можда постоје и други формати). Дакле, уз ову слику морате добити текст - овај поступак се зове препознавање. У овом наређењу и биће изјава испод.

Садржај

  • 1 1. Шта треба да скенујем и препознам?
  • 2 2. Опције скенирања за текст
  • 3. Препознајући текст документа
    • 3.1 3.1 Текст
    • 3.2 3.2 Слике
    • 3.3 3.3 Табеле
    • 3.4 3.4 Непотребне ставке
  • 4 4. Признавање датотека ПДФ / ДЈВУ
  • 5 5. Провера грешака и штедни резултати рада

1. Шта треба да скенирате и препознајете?

1) Скенер

За превођење штампаних докумената у текстуалну форму, потребан вам је скенер и, према томе, "изворни" програми и драјвери, који су дошли уз њега. Са њима можете скенирати документ и сачувати га за даљу обраду.

Можете користити друге аналогије, али софтвер који је долазио уз скенер у комплету обично ради брже и има више опција.

У зависности од врсте скенера - брзина рада може се значајно разликовати. Постоје скенери који могу добити слику из листа за 10 секунди. Неке ће бити примљене у року од 30 секунди. Ако скенирате књигу за 200-300 листова - мислим да није тешко израчунати колико пута ће бити временске разлике?

2) Програм препознавања

У овом чланку ћу вам показати рад у једном од најбољих програма за скенирање и препознавање апсолутно свих докумената - АББИИ ФинеРеадер. Јер програм се плаћа, онда ћу одмах дати везу са другом - његов бесплатни аналогни Цунеи образац. Међутим, не бих их упоређивао, с обзиром на чињеницу да ФинеРеадер победи у свим аспектима, препоручујем да га и даље покушавам.

АББИИ ФинеРеадер 11

Службена веб страница: хттп://ввв.аббии.ру/

Један од најбољих програма ове врсте. Намењен је препознавању текста на слици. Укључене су многе опције и функције. Може да раздијели гомилу фонтова, подржава чак и рукописне верзије (иако, лично нисам покушао, мислим да је врло мало вероватно да препознаш рукописну верзију осим ако немаш савршен калиграфски рукопис). Више детаља о раду са њим биће описане у наставку. Овдје напомињемо да ће чланак говорити о раду у верзији програма 11.

По правилу, различите верзије АББИИ ФинеРеадер-а се не разликују једни од других. У другом случају лако можете то учинити. Главне разлике могу бити у погодности, брзини програма и његовим могућностима. На пример, раније верзије одбијају да отварају ПДФ и ДЈВУ ...

3) Документи за скенирање

Да, такав сам одлучио да документе ставим у посебну кутију. У већини случајева скенирајте све уџбенике, новине, чланке, часописе итд. те књиге и ону литературу која се тражи. Да ли је то оно у шта водим? Из личног искуства могу рећи толико тога што желите скенирати - можда већ постоји на мрежи! Колико пута сам лично чуо време када сам нашао ову или ону књигу већ скенирану у мрежи. Могао сам само копирати текст у документ и наставити са радом.

Из овог једноставног савета - пре него скенирате нешто, проверите да ли је неко већ скенирао и не морате изгубити своје време.

2. Опције скенирања текста

Овде нећу причати о вашим управљачким програмима за скенер, програме који су се слагали са њим, јер су сви модели скенера различити, софтвер је свуда свуда различит и погодан, а још више да покажете како да изведете операцију је нереалан.

Али у свим скенерима постоје иста подешавања која могу значајно утицати на брзину и квалитет вашег рада. То је само о њима и ми ћемо разговарати овде. Ја ћу их набројати по редоследу.

1) Квалитет скенирања - ДПИ

Прво, квалитет скенирања треба поставити на најмање 300 ДПИ. Препоручљиво је чак и ставити више ако је могуће. Што је ДПИ већа, то ће јасније изгледати слика, и тиме ће даља обрада бити бржа. Поред тога, што је већи квалитет скенирања - мање грешака ћете морати исправити касније.

Оптимална варијанта даје, обично, 300-400 ДПИ.

2) хроматичност

Овај параметар значајно утиче на време скенирања (успут, ДПИ такође утиче, али они су толико јаки и само када корисник ставља високе вредности).

Обично постоје три режима:

- црно-бело (савршено за обичан текст);

- сива (погодна за текст са столовима и сликама);

- боја (за колорне часописе, књиге, уопштено, документи у којима је важна хроматичност).

Обично време скенирања зависи од избора боје. На крају крајева, ако имате велики документ, онда ће се чак и додатних 5-10 секунди на страници у целини просути у пристојно вријеме ...

3) Фотографије

Документ можете да примите не само скенирањем већ и фотографисањем. По правилу, у овом случају имате неке друге проблеме: изобличење слике, замућено. Због тога, можда ће бити потребно даљње уређивање и обрада примљеног текста. Лично, не препоручујем да користите камере за овај случај.

Важно је напоменути да се неће препознати сваки такав документ; Квалитет скенирања може бити изузетно низак ...

3. Признавање текста документа

Претпоставићемо да сте добили жељене скениране странице. Најчешће су формати: тиф, бмб, јпг, пнг. Уопште, за АББИИ ФинеРеадер - није баш важно ...

Након отварања слика у АББИИ ФинеРеадер, програм, по правилу, на аутоматској машини почиње да издваја подручја и препознаје их. Али понекад то не ради добро. За то ћемо размотрити расподелу потребних области ручно.

Важно! Не сви сви одмах разумеју да након отварања документа у програму, изворни документ се приказује са леве стране у прозору, у којем изаберете различите области. Након што кликнете на дугме "препознавање" програм у прозору са десне стране ће приказати завршени текст за вас. Након препознавања, препоручљиво је проверити текст грешака у истом ФинеРеадеру.

3.1 Текст

Ово подручје се користи за одабир текста. Слике и табеле морају бити искључени из њега. Рани и необични фонтови ће се ручно унети ...

Да бисте означили текстуално подручје, обратите пажњу на панел на врху ФинеРеадер-а. Постоји дугме "Т" (погледајте слику испод, показивач миша је на овом дугмету). Кликните на њега, а затим на слици испод изаберите уредно правоугаоне подручје у којем се налази текст. Иначе, у неким случајевима, морате креирати текстуалне блокове од 2-3, а понекад 10-12 по страници, јер Форматирање текста може бити различито и један правоугаоник не издваја цијело подручје.

Важно је напоменути да текстно поље не би требало да снима! У будућности ово ће вам уштедети много времена ...

3.2 Слике

Користи се за означавање слика и области које је тешко препознати због лошег квалитета или необичног фонта.

На екрану испод, показивач миша је на дугмету који се користи за одабир области "слике". Успут, у овом подручју можете одабрати апсолутно било који део странице, а ФинеРеадер ће га касније уметнути у документ као регуларну слику. Ие. само "глупа" копија ...

Обично се ова област користи за означавање лоше скенираних табела, за истицање нестандардног текста и фонта, за себе слике.

3.3 Табеле

На слици испод приказан је дугме за избор табела. Генерално, ја то јако користим врло ретко. Чињеница је да ћете морати рутински цртати (у ствари) сваку линију на столу и показати шта и како програмирати. Ако је табела мала и није у врло добром квалитету, препоручујем да користите подручје "слике" у ове сврхе. Ово штеди доста времена и можете брзо направити табелу у Ворду на основу слике.

3.4 Непотребне ставке

Важно је напоменути. Понекад на страници постоје непотребни елементи који ометају препознавање текста или уопште не дозвољавају да изаберете жељено подручје. Они се могу брисати помоћу гријача у потпуности.

Да бисте то урадили, идите у режим за уређивање слика.

Изаберите алат "ерасер" и изаберите непотребно подручје. Биће избрисана и на његовом месту ће бити бели лист папира.

Иначе, препоручујем да ову опцију користите што је могуће често. Пробајте све текстуалне области које сте означили, у којима вам не треба комад текста или постоје непотребне тачке, замућеност, изобличење - избришите радилицу. Захваљујући овом препознавању биће брже!

4. Признавање датотека ПДФ / ДЈВУ

Генерално, овај формат препознавања неће се разликовати од било чега другог - тј. Са њим можете радити и са сликама. Једино што програм не би требало да буде старија верзија, ако не отворите ПДФ / ДЈВУ датотеке - ажурирајте верзију на 11.

Мало савета. Након отварања документа у ФинеРеадер-у - аутоматски ће почети да препознаје документ. Често у датотекама ПДФ / ДЈВУ, одређена област странице није потребна током целог документа! Да бисте избрисали такво подручје на свим страницама, урадите следеће:

1. Идите у одељак за уређивање слика.

2. Омогућите опцију обрезивања.

3. Изаберите област коју желите на свим страницама.

4. Клик се односи на све странице и трим.

5. Проверите грешке и уштедите резултате рада

Чини се да можда и даље постоје проблеми, када су сва подручја додијељена, затим призната - узети и спасити ... Није било!

Прво, требате проверу документа!

Да бисте је омогућили, након препознавања, у прозору удесно, биће "цхецк" дугме, погледајте сцреенсхот у наставку. Након што кликнете на њега, програм ФинеРеадер ће вам аутоматски показати она подручја у којима програм има грешке и не може поуздано да идентификује одређени симбол. Мораћете само да изаберете, или се слажете са мишљењем програма или унесите свој симбол.

Уосталом, у половини случајева, програм ће вам понудити готово праву реч - потребно је да изаберете праву опцију са својим мишем.

Друго, након провере, потребно је да изаберете формат у коме ћете сачувати резултат вашег рада.

Овде ФинеРеадер вам даје пуну обраду: једноставно можете пренијети информације у Ворд један на један, а можете их уштедјети у једној од десетака формата. Али бих желео да истакнем још један важан аспект. Који формат није изабран, важније је одабрати врсту копије! Размотрите најзанимљивије опције ...

Точна копија

Све области које сте изабрали на страници у препознатљивом документу тачно ће одговарати оригиналном документу. Веома згодна опција када вам је важно да не изгубите форматирање текста. Иначе, фонтови ће такође бити врло слични оригиналу. Препоручујем да користите ову опцију за слање документа у Ворд да бисте наставили даље рад.

Едитабле Цопи

Ова опција је добра јер добијате већ форматирану верзију текста. Ие. удаљавање од "километра", који је можда био у изворном документу - нећете се састати. Корисна опција када значајно уредите информације.

Међутим, није неопходно изабрати, ако је важно да задржите стил декорације, фонтова, алата. Понекад, ако препознавање није врло успјешно - ваш документ може "искријети" због промјењеног обликовања. У овом случају, препоручљиво је изабрати тачну копију.

Једноставан текст

Опција за оне који само желе текст са страном без свега осталог. Погодно за документе без слика и табела.

Овај чланак о скенирању и препознавању документа дошао је до краја. Надам се да ћете са овим једноставним савјетима ријешити своје проблеме ...

Сретно!

Рачунар Помоћ
Дигитална Техника
Произвођачи TV