Реклама

Извлачење текста из слика никада није било лакше него данас захваљујући технологији оптичког препознавања знакова (ОЦР).

ОЦР нам омогућава да радимо све врсте корисних ствари, попут тражења слика помоћу текстуалних упита, репродуковања докумената без да их рукујете, па чак и претварање рукописног текста у дигитални текст Како претворити слику рукописом у текст помоћу ОЦР-аТребате дигитализирати руком писане биљешке за уређивање или их сачувати за касније? Ево најбољих ОЦР алата за претварање рукописа у текст. Опширније .

Али шта је оптичко препознавање знакова? Како то у ствари функционише? Можда вам се чини као црна магија, али на крају овог чланка имат ћете чврсто разумевање како рачунари могу препознати слова и речи.

Како функционише оптичко препознавање карактера

Да бисмо разумели како се текст извлачи из слике, прво морамо да разумемо шта су слике и како се чувају на рачунарима.

А пиксела је једна тачка одређене боје. Ан слика у суштини је збирка пиксела. Што је више пиксела на слици, већа је и њена резолуција. Рачунар не зна да је слика путоказа заиста путоказ - само зна да је први пиксел ове боје, а други пиксел је та боја и приказује све своје пикселе које бисте видели.

instagram viewer

То значи да се текст и нетекст не разликују од рачунара и зато је оптичко препознавање знакова толико тешко. Имајући то у виду, ево како то функционише.

Корак 1: Претходна обрада слике

Пре него што се текст може извући, слику је потребно масирати на одређене начине како би вађење било лакше и вероватније да ће успети. То се назива прерадом, а различита софтверска решења користе различите комбинације техника.

Уобичајеније технике предобраде укључују:

Бинаризација
Сваки појединачни пиксел на слици претвара се у црни или бели. Циљ је разјаснити који пиксели припадају тексту, а који пиксели припадају позадини, што убрзава стварни ОЦР процес.

Бинарност за оптичко препознавање карактера

Дескев
Пошто се документи ретко скенирају са савршеним поравнањем, знакови могу завршити нагнуто или чак наопако. Циљ је идентифицирати водоравне линије текста и затим ротирати слику тако да су те линије заправо хоризонталне.

Деспецкле
Без обзира да ли је слика бинарна или не, може доћи до шума који може ометати идентификацију знакова. Очајање се ослобађа те буке и покушава да изглади слику.

Уклањање линија
Идентифицира све линије и ознаке које вјероватно нису знакови, а затим их уклања како се стварни ОЦР процес не би збунио. Ово је посебно важно приликом скенирања докумената помоћу таблица и кутија.

Зонирање
Одваја слику на различите делове текста, као што је препознавање ступаца у документима са више колона.

Зонирање за оптичко препознавање карактера
Кредитна слика: ВаинеРаи /Викимедиа

Корак 2: Обрада слике

Прво, ОЦР процес покушава успоставити основну линију за сваки ред текста на слици (или ако је то зона зона претходно обрађивањем, радиће кроз сваку зону једну по једну). Сваком идентификованом линијом знакова рукује се један по један.

За сваки ред знакова, ОЦР софтвер идентифицира размак између знакова тражећи вертикалне линије нетекстуалних пиксела (што би требало бити очигледно уз правилну бинарност). Сваки комад пиксела између ових не текстуалних линија означен је као "токен" који представља један знак. Отуда је и овај корак позван токенизација.

Обрада слике за оптичко препознавање карактера

Након што се сви потенцијални ликови на слици токенизирају, ОЦР софтвер може користити две различите технике за препознавање шта су ти знакови у ствари:

Препознавање узорка
Сваки је токен упоређен пиксел-пиксел са читавим низом познатих глифова - укључујући бројеве, интерпункцијске знакове и друге посебне симболе - и бира се најближе подударање. Ова техника је такође позната као подударање матрице.

Овдје постоји неколико недостатака. Прво, токени и глифови морају бити сличне величине, иначе се ниједан од њих неће слагати. Друго, токени морају да буду у сличном фонту као и глифови, што искључује рукопис. Али ако је фонт токена познат, препознавање узорка може бити брзо и тачно.

Издвајање својстава
Сваки је токен упоређен са различитим правилима која описују какав лик може да буде. На пример, две вертикалне линије једнаке висине повезане једном хоризонталном линијом вероватно ће бити велика слова Х.

Ова техника је корисна јер није ограничена на одређене фонтове или величине. Такође може да буде нијансирана у препознавању суптилних разлика између велика слова И, малих слова Л и броја 1. Мана? Програмирање правила много је сложеније од простог упоређивања пиксела у токену и пиксела у глифу.

Корак 3: Пост-обрада слике

Када је све подударање токена завршено, ОЦР софтвер би могао једноставно да га зове на дан и представи вам резултате. Али обично треба направити мало више фризуре како бисте били сигурни да нећете превртати очима на безобразним резултатима.

Лексичко ограничење
Све се речи упоређују са лексиконом одобрених речи, а све које се не подударају замењују се најближом речју. Речник је један пример лексикона. Ово може помоћи у исправљању речи са погрешним знаковима, попут „трн“ уместо „тх0рн“.

Оптимизација за апликације
Када се ОЦР користи у нишним подешавањима, као што су медицински или правни документи, може се користити посебна врста ОЦР која је посебно дизајнирана за ту поставку. У овим случајевима ОЦР софтвер може тражити математичке једначине, изразе специфичне за индустрију, итд.

Природни језик
Ова напредна техника исправља реченице коришћењем језичког модела који описује колико ће вероватно да одређене речи буду праћене другим речима. Слично је с технологијом која предвиђа коју реч даље желите да укуцате на мобилној тастатури.

Ако је то добро урађено, то може резултирати текстом који је читљив.

Препоручени алати за оптичко препознавање карактера

Сада када знате како функционише ОЦР, требало би лако видети да нису сви ОЦР алати једнаки. Тачност ваших резултата увелико ће зависити од тога колико софтвер успешно имплементира разне ОЦР технике о којима је реч у овом чланку.

Топло препоручујемо ОнеНоте за то, што је само један од разлога зашто туче Еверноте за узимање белешки Еверноте вс. ОнеНоте: Која апликација за узимање белешки је права за вас?Еверноте и ОнеНоте су невероватне апликације за узимање белешки. Тешко је изабрати између ово двоје. Упоређивали смо све, од интерфејса до организације напомена да бисмо вам помогли да одаберете. Шта најбоље ради за вас? Опширније . Ако желите да платите премијско решење, размислите о ОмниПаге-у. Погледајте наше поређење ОнеНоте вс. ОмниПаге за ОЦР Фрее вс. Плаћени ОЦР софтвер: Мицрософт ОнеНоте и Нуанце ОмниПаге у поређењуСофтвер за ОЦР скенер омогућава вам претварање текста у слике или ПДФ датотеке у текстуалне документе који могу да се уређују. Да ли је бесплатан ОЦР алат попут ОнеНоте довољно добар? Хајде да сазнамо! Опширније . За мобилне документе, желећете да их проверите ОЦР апликације за Андроид уређаје 6 најбољих Андроид ОЦР апликација за издвајање текста са сликаДа ли требате дигитализовати било штампан текст да бисте могли да сачувате његову малу копију? Ако је то случај, све што вам треба је алат за оптичко препознавање знакова (ОЦР). Опширније .

Како користите ОЦР? Имате ли неке омиљене ОЦР алате које нисмо споменули? Јавите нам у коментарима испод!

Јоел Лее има Б.С. у области рачунарске науке и преко шест година професионалног писања. Главни је уредник МакеУсеОф-а.