Hledáme možnosti OCR na Linuxu. Zvládne něco češtinu? | Kapitola 2
V tomto krátkém článku se podělím o své zkušenosti se zprovozňováním programů OCR na Linuxu. Dva existují, ale výsledky by mohly být lepší.
Nyní jsou na řadě programy s grafickým rozhraním.
Yagl
Na první pohled zajímavý program. V pozadí běží již dříve probírané programy, výběr využívaného enginu provedeme v nastavení.
- Tesseract
- Cuneiform
Bohužel se mi nepovedlo rozchodit běh pod backendem Tessaract. Běh pod Cuneiform vyzkoušen, bohužel výsledek není vyhovující.
gImageReader
Zde jde o frontend pro Tesseract. Umožnuje přímý převod do prostého textu a použití pokročilého formátu pro ukládání OCR dat hOCR.
Při použití prostého textu bylo příliš mnoho chyb. Pro ukázku přikládám část výsledku:
p" “.
2 Ť “ M 2“
VA "Kay l F ony
uje. v. P" eej oh bad m 70 Vah n, tí z
M "VA E, Pna“ ČO P - Hr p eee ů
o hn S m 0" DA V 01 -| M ds a pe (P E-
-U , S | í Zb“ NP ě p AV 0 P 7“ | m
A » (“ h- (o o O We dě p E oa nojko de zeus NE B M : 8 „Sh l ©
00000000 o v Aj —- = m- A
E l O l o k k
, ží o žá okná s k V ee PB ZS W + S U jů si M ea E "
|; i p V o ok sa o P sz né — sj 4 o kddýn v oso A Em PR ooých DE piss ah Padl JME) Pa: PA ei kk Pa “ Vod
ř š i PP V P 25 ZS SA a SS NOS P 20h kat l ke S já GPS Ba as o al k že Pria Be: : E: Eo k Pá a bí
" > z SSNSSNIISSO -5.9 0 m n „m
1 n S SSNSSNNSONO ře om i add žen We O kt k ců Pa ba ká od “ “ Pe P TE R P
Pe SB ně KOA en ono o ode) P a dá yd PSE Z ALAN VMA A ša ke "s v Pát E „ÚU 3
O o O O mon :
x n a 4 l p k Z “ tk k s i = P 4 BOD ň Moses (ča L SNO S R „ 9 by gtém h OLE a o o EZS 2 >
„dá N RS p R o u n, že subsy damí i o < o O
+ „> Pi m č a O ně lata přes schránku, je (0 K oo fevid data sdílet také tém NŤ = ké 6 py dí A
, ť 2 "A kn o ká ý AB = Jnd É i u sdílet dale Pant v mohou na L ý $ AA dě © | o . Úse he a “
"= K ne“ oo Interoperabilita: Ve y MAÁ v u Hdibko na obrázku). Aplikace K rs využívat jen souborový “ paměti a procesy mají výra sb o pob SRS oj = A
> m, s tbaý ha gon dyk soka stem interface: norma IHEB) moh »souvá se do virtuální n trakce hardware (HA že > 3 A Í ] M Š “
a ské * m Aplikace A dáti dn řístup k celé paměti počítače, kutivy, rlkřojádřo a vrstvu a j Vrstva HAL odstiňuje ké E 3
; ko oo a ja iu U k hardwaru, přís je služby exekutivy, ú a V/V opera sl i přídání © dy a oa W "m
Trochu lepší stav přišel při vyzkoušení formátu hOCR. Zde se mi povedlo při použití formátu hOCR a exportu do prostého textu dosáhnou výsledků, které by již mohly být základem pro korekturu. Ovšem výsledek by mohl být pořád lepší.
Použití dalších podporovaných formátů jako ODT a PDF nedopadlo slavně. Výsledek byl nevyhovující.
Zkouška v anglickém jazyku dopadla lépe i pro prostý text. Výsledky pomocí prostého textu a hOCR byly vyrovnané. Ovšem pořád byla úroveň přibližně stejná jako předchozí ukázka v češtině. Takže opět jen jako základ pro korekturu, bohužel velmi důkladnou.
Lios: Linux-intelligent-ocr-solution
Zajímavý frontend pro Tesseract a Cuneiform. Vstupem je obrázkový soubor, nebo přímo scan do programu. Engine pro OCR měníme v preferencích. Otestujeme chování při použití enginu Tesseract, výsledek vidíme již v náhledu a vypadá velmi dobře.
Kromě klasického uložení textu je zde možnost si text nechat přečíst. O čtení se stará engine eSpeak, kvalita ovšem vypadá velmi strojově, a to asi jako mluva filmových robotů ve filmech ze 70 let. Výsledný text se dá uložit jako text, nebo exportovat do formátu PDF. Výsledný text v souboru vypadá takto:
Potřebuje korekturu, ale je použitelný. Problém zde pravděpodobně může dělá zkreslení obrazu dané použitím fotky. Při použití scan vstupu by výsledek byl pravděpodobně lepší. Druhý použitelný engine, Cuneiform, při testování dopadl hůře, množství chyb je příliš vysoké. Revize by byla příliš zdlouhavá.
tesgscanpdf
Jde o grafickou nástavbu pro program OCRmyPDF. Práce s programem není příliš pohodlná. Stabilita by mohla být lepší a to platí i pro rychlost reakcí. Ovšem výsledek je plně srovnatelný s výstupem programu OCRmyPDF. Proto se jedná o nejlepší volbu v oblasti grafických aplikací.
Po provedení výstup uložíme. Můžeme uložit celé PDF, nebo jenom text. V případě textu je výsledek zde:
Závěr
Toto je bohužel vše. Nalezli jsme dva produkty, které výsledkem uspokojují – OCRmyPDF a Lios. OCRmyPDF má možnost volby mezi prací v příkazovém řádku a grafickou nástavbou. Lios je plně grafický. I přes určité nedostatky jde o použitelné aplikace. Ostatní bohužel musím v oblasti češtiny zařadit na prakticky nepoužitelné.
Pokud data musíte skenovat, alternativou může být použití fotografického skeneru s OCR převodem v zařízení Android. Dobré zkušenosti mám s programem Camscanner. Negativem je, že bezplatná verze umožní provést pouze omezený počet OCR převodů za den, konkrétně 3 soubory.