Ako na OCR v súboroch PDF?

Hľadáte jednoduchý spôsob extrakcie textu z PDF? Nechcete stráviť hodiny prepisovaním textu zo skenov alebo z obrázkov či fotografií? S technológiou OCR (optické rozpoznávanie znakov) je týmto starostiam koniec! Pozrite sa, ako ľahko previesť obrázky a skeny na upraviteľný text. A ušetrite drahocenný čas a energiu.

Čo je technológia OCR a na čo sa používa

Najprv si objasnime, čo je to OCR PDF. Jednoducho povedané, ide o rozpoznávanie textu z obrázku. OCR (optické rozpoznávanie znakov) dokáže identifikovať text v digitálnych obrázkoch a previesť ho do upraviteľného formátu.

To znamená, že nemusíte ručne prepisovať obsah dokumentov, ale môžete s ním okamžite pracovať ako s bežným digitálnym textom. A pomocou softvéru na úpravu PDF môžete text na obrázkoch upravovať podľa potreby.

Moderné systémy OCR dosahujú vysokú presnosť a dokážu rozpoznať rôzne štýly písma, jazyky, znaky a často aj rukou písaný text. Áno, pomocou OCR možno ručne písané poznámky pohodlne digitalizovať a potom napríklad previesť do MS Office.

Ako sa používa OCR

Základným predpokladom použitia je kvalitný vstupný materiál. Dokumenty by mali byť naskenované s dostatočným rozlíšením a kontrastom, aby algoritmus správne rozpoznal jednotlivé znaky.

Ak je táto podmienka splnená, potom vám OCR ponúkne širokú škálu aplikácií. Ukážeme si tie najbežnejšie:

  • Digitalizácia dokumentov – prevod papierových dokumentov do digitálnej podoby s cieľom uľahčiť archiváciu, zdieľanie a vyhľadávanie
  • Automatizácia procesov – OCR pomáha spracovávať dokumenty bez potreby ľudského zásahu
  • Spracovanie formulárov – automatickým spracovaním papierových formulárov ušetríte nielen čas, ale aj chybovosť pri manuálnom zadávaní údajov
  • Práca s naskenovanými súbormi PDF – OCR zmení naskenované súbory PDF na dokumenty s možnosťou úplného vyhľadávania, takže môžete vyhľadávať, kopírovať a upravovať text.
  • Preklad textu – v spojení s prekladateľskými nástrojmi možno OCR použiť na preklad textu z fotografií alebo naskenovaných dokumentov.

Kde sa stretnete s OCR

S technológiou OCR sa dnes stretávame častejšie, ako si uvedomujeme. V kancelárskom prostredí ju možno nájsť v multifunkčných tlačiarňach, systémoch na správu dokumentov a účtovnom softvéri na spracovanie faktúr. V mobilných zariadeniach používame aplikácie ako Google Lens alebo funkciu živého prekladu v prekladači Google Translate.

Vo verejnom priestore sa OCR používa na rozpoznávanie poznávacích značiek, overovanie bankomatov alebo triedenie pošty. Akademické inštitúcie ho používajú na digitalizáciu knižníc a archívov. Vo svete podnikania pomáha pri automatizovanom spracovaní dokumentov, overovaní dokumentov a pri analýze kontaktných údajov pre systémy CRM. V súčasnosti sa používa aj v niektorých automobiloch.

Ako extrahovať text z PDF? Najlepšie výsledky prináša špecializovaný softvér

Hoci sa stretnete s online konvertormi obrázkov na text (s online OCR), výsledky bývajú pri farebnejších obrázkoch neuspokojivé. Online konvertory sa dajú použiť len na rozpoznanie jednoduchého textu v skenoch bieleho papiera, a aj to s nepresnými výsledkami. Medzi spoľahlivejšie patria napr. onlineocr.net.

Ak chcete profesionálne a bezchybné OCR, vždy sa oplatí zaobstarať si špecializovaný softvér. Na trhu nájdete množstvo ponúk, od veľmi drahého Adobe až po cenovo výhodný PDF-XChange. V oboch programoch nájdete spoľahlivé OCR s vysokou presnosťou rozpoznávania.

Použitie OCR je jednoduché, vezmime si príklad obrázka (fotografie). Rovnaký obrázok sme predložili na rozpoznanie online konvertorom, ale nikde sme nedostali dobrý výsledok. Na druhej strane, v aplikácii PDF-XChange Editor miestny OCR túto úlohu zvláda bez problémov.

Ako extrahovať text z obrázka v programe PDF-XChange Editor

Postup je jednoduchý, ale vyžaduje niekoľko krokov:

1. Najprv otvorte požadovaný obrázok v editore PDF-XChange. Prejdite cez ponuku „Súbor“ – „Nový dokument“ – „Z obrázkového súboru“ (alebo „Zo skeneru“ – ak pracujete so skenmi).

2. Otvorí sa dialógové okno, v ňom kliknite na „Pridať súbory“, ak chcete otvoriť len jeden obrázok alebo vybrať konkrétne súbory. Otvorí sa prieskumník súborov a v ňom vyberiete obrázok, s ktorým chcete pracovať.

Je tu však aj možnosť „Pridať zložku“ alebo importovať, prípadne nasnímať obrázok webkamerou. Akonáhle ste vybrali, potvrďte výber tlačidlom OK.

3. Obrázok sa v programe otvorí, a potom na hornej lište kliknite na záložku „Konverzia“, v nej vyberte „OCR“.

4. Tým sa otvorí dialógové okno, v ktorom si nastavíte podrobnosti rozpoznávania textu. Program automaticky nastaví to najlepšie, čo algoritmus v danej situácii považuje za vhodné, ale nastavenie môžete zmeniť.

5. OCR bude chvíľu pracovať, priebeh spracovania sa zobrazí na samostatnom paneli.

6. A je hotovo. Všetky miesta, kde bol na obrázku text, sa premenia na textové polia. Upravovať, kopírovať, vkladať inde alebo presúvať po ploche obrázka ich budete môcť po kliknutí na záložku „Domov“ a v nej na „Upraviť text“.

Pôvodný obsah pod textovou vrstvou sa (v tejto verzii) odstráni, aby neprekážal v ďalšej práci.

Všimnite si na fotografiách a priloženom videu, že OCR, ktoré je dostupné spolu s nízkonákladovým PDF-XChange Editorom, premenilo na bežný text dokonca aj logo príspevkovej organizácie.

Celý postup sme tiež natočili ako jednoduché návodové video.

Chcete len samotný text? Alebo chcete vyčistiť skeny?

Ak chcete z obrázka iba extrahovať text bez pozadia, v dialógovom okne pri OCR vyberte inú možnosť. Namiesto „Upraviteľný text a obrázky“ zvoľte „Obsah stránky“. Každá z možností je v dialógovom okne podrobne popísaná, aby ste si mohli hneď vybrať tú, ktorá lepšie vyhovuje očakávanému výsledku.

Návod na postup v Adobe Acrobat vynechávame. Jednak ide o príliš nákladný softvér, jednak je podrobne popísaný na stránkach podpory Adobe.

Zdieľať na

    Nezáväzný dopyt

    Odoslanie dopytu vás k ničomu nezaväzuje. Budeme Vás kontaktovať do cca 24 hod. s ďalším postupom.
    Ceny sú uvedené bez DPH. Zobraziť kompletný cenník pre viac informácií.

    Ďakujeme za Váš nezáväzný dopyt.

    Do 24 hodín sa Vám ozveme s ponukou a ďalším postupom. Pekný deň!