Ако сте студент или ваш посао укључује рад са пуно слика и ПДФ-ова, у неком тренутку бисте осетили потребу да извучете текст из слике или документа.
Срећом, екстракција текста то омогућава. И постоји неколико алата које можете користити да то урадите. гИмагеРеадер је један од многих алата. Бесплатан је за коришћење и ради са датотекама слика и ПДФ документима.
Хајде да заронимо да погледамо гИмагеРеадер у детаље и видимо како га можете користити за издвајање текста из слика и ПДФ-ова.
Шта је гИмагеРеадер?
гИмагеРеадер је апликација која вам омогућава да извучете текст из слика и ПДФ-ова на Линук-у. То је у суштини ГУИ или фронт-енд за Тессерацт ОЦР мотор, ан отвореног кода мотор који је развио Хевлетт-Пацкард и који се сматра једним од најбољих доступних ОЦР мотора.
Уз гИмагеРеадер, можете лако и прилично прецизно издвојити текст из слика или ПДФ докумената са неколико једноставних кликова. Затим можете извести екстраховани текст у текстуалну или ПДФ датотеку за даљу употребу.
Карактеристике гИмагеРеадер-а
гИмагеРеадер садржи следеће функције:
- Увезите ПДФ документе и слике из различитих извора (диск, уређаји за скенирање, међуспремник и снимак екрана)
- Групно обрадите слике или документе, тј. извуците текст из више слика или докумената одједном
- Препознајте исечке текста као обичан текст или хОЦР документе
- Уграђена провера правописа
- Аутоматско откривање области текста
- Основно уређивање слика/документа
- Сачувајте излаз као текстуалну датотеку
Како инсталирати гИмагеРеадер на Линук
гИмагеРеадер је доступан на већина главних Линук дистрибуција. Али пре него што наставите са његовом инсталацијом, морате да инсталирате Тессерацт ОЦР мотор на свој систем.
Да бисте то урадили, отворите Софтваре Манагер на вашем систему и потражите тесеракт. Када врати листу резултата, инсталирајте тесеракт-окр и тессерацт-оцр-енг пакети. Такође можете да користите менаџере пакета из командне линије да бисте инсталирали пакет ако вам је више пријатно са терминалом.
Након овога, погледајте упутства за инсталацију у следећим одељцима да бисте инсталирали гИмагеРеадер на свој рачунар.
Ако користите Дебиан или Убунту, отворите терминал и покрените доње команде да бисте инсталирали гИмагеРеадер:
судо адд-апт-репоситори ппа: сандромани/гимагереадер
судо апт-добити ажурирање
судо апт инсталирај гимагереадер
На Федора, ЦентОС или Ред Хат Ентерприсе Линук (РХЕЛ):
судо днф инсталирај гимагерреадер-кт
на Арцх Линук или Мањаро:
судо пацман -С гимагереадер
Корисници опенСУСЕ-а могу да инсталирају гИмагеРеадер користећи:
судо зиппер инсталирај гимагереадер
У случају да користите било коју другу Линук дистрибуцију, можете да направите гИмагеРеадер из извора пратећи упутства на гИмагеРеадер-ов ГитХуб.
Како користити гИмагеРеадер на Линук-у
гИмагеРеадер је прилично једноставан за коришћење и ради са свим врстама сликовних датотека, као и са ПДФ документима. Пратите упутства у наставку да бисте издвојили текст из слика или ПДФ-ова на Линук-у.
Отворите мени апликација, потражите гИмагеРеадер, и покрените апликацију. Погоди Максимизирајте дугме у прозору гИмагеРеадер-а да бисте га отворили у приказу преко целог екрана.
Сада кликните на Додајте слике дугме у левом окну испод траке са алаткама и користите претраживач датотека да бисте изабрали слику(е) или ПДФ(ове) из којих желите да издвојите текст.
Кликните У реду да увезете слику(е) или ПДФ(ове) у гИмагеРеадер. Или, ако желите да издвојите текст из онога што је приказано на екрану, кликните на падајући мени поред Додајте слике дугме и изаберите Направите снимак екрана. гИмагеРеадер ће направити снимак екрана садржаја екрана.
Када додате слику у гИмагеРеадер, кликните на Укључите излазно окно дугме (једно са иконом бележнице) да бисте приказали окно за излаз. Овде се појављује текст који издвајате из слика или ПДФ-ова.
У зависности од тога како желите да наставите, сада имате опцију да аутоматски или ручно идентификујете текст на слици или ПДФ-у. Да бисте то урадили аутоматски, кликните на Аутодетецт лаиоут дугме и истаћи ће све текстуалне блокове у изабраној слици или ПДФ документу.
Након овога, додирните Препознај избор > Тренутна страница да започне процес екстракције текста.
Алтернативно, да бисте ручно изабрали текст, задржите показивач миша преко текста који желите да издвојите и помоћу крста нацртајте оквир око области одакле желите да издвојите текст. Затим притисните Препознајте селекцију дугме за наставак.
Ако је то ПДФ документ и желите да издвојите текст са различитих страница, додирните на Плус (+) дугме за прелиставање страница.
Да бисте се вратили, притисните Минус (-) дугме. Затим изаберите текст који желите да издвојите и притисните Препознајте селекцију дугме да бисте га издвојили.
Иако ретко, може бити случајева када би гИмагеРеадер вратио извучени текст на језику који није енглески. Када се то догоди, једноставно додирните дугме падајућег менија поред Препознајте селекцију дугме и изаберите једну од опција на енглеском.
На крају, да бисте сачували извучени текст, кликните на Сачувај излаз дугме. Ово ће отворити прозор Сачувај. Овде дајте име датотеци и притисните У реду.
Шта још можете да урадите са гИмагеРеадер-ом?
Као што је раније поменуто, гИмагеРеадер вам такође даје могућност да измените одређене аспекте увезених слика или докумената, као што су њихова осветљеност, контраст и резолуција. Поред тога, можете инвертовати боје или ротирати слике или документе, ако је потребно.
Већина ових опција може се показати корисним када текст на слици или документу није читљив за гИмагеРеадер, и стога спречава алат да препозна текст.
Да бисте приступили било којој од ових опција за уређивање, кликните на Контроле слике дугме и откриће мини траку са алаткама испод главне траке са алаткама. Одавде изаберите одговарајућа дугмад да бисте извршили жељену операцију уређивања слике или документа.
Екстракција текста на Линук-у је олакшана уз гИмагеРеадер
Екстракција текста често захтева прави алат: онај који користи поуздан и прецизан ОЦР механизам који омогућава му да ефикасно идентификује текст на слици или документу, тако да га можете ефикасно извући без икаквих икаквих гњаважа.
гИмагеРеадер то одлично постиже захваљујући Тессерацт ОЦР машини коју користи у позадини. Узимајући у обзир његову лакоћу коришћења, гИмагеРеадер је несумњиво један од најбољих алата за екстракцију текста доступних за Линук.
Алтернативно, ако тражите једноставније решење, можете погледати ТектСнатцхер, који је брз и прилично једноставан за коришћење.