„LinuxHint“ jau paskelbė mokymo programą, kurioje paaiškinta, kaip įdiegti ir suprasti „Tesseract“ mokymus.
Ši pamoka parodo „Tesseract“ diegimo procesą „Debian“ / „Ubuntu“ sistemose, tačiau nebus pratęsta mokymo funkcijų, jei nesate susipažinę su šia programine įranga, skaitant minėtą straipsnį, gali būti gera įžanga. Tada mes jums parodysime, kaip apdoroti GIF vaizdą naudojant „Tesseract“, kad iš jo gautumėte tekstą.
„Tesseract“ diegimas:
Vykdyti:
apt install tesseract-ocr
Dabar turite įdiegti „imagemagick“, kuris yra vaizdo keitiklis.
Įdiegę, mes jau galime išbandyti „Tesseract“, norėdami išbandyti radau gifą, licencijuotą naudoti pakartotinai.
Dabar galime pamatyti, kas atsitinka, kai paleidžiame „tesseract“ ant gif vaizdo:
tesseract 2002NY40.gif 1 rezultatas
Dabar atlikite „mažiau“ per 1 rezultatą.txt
mažiau 1rezultatas.txt
Čia yra vaizdas su tekstu:
Šiuo atveju „Tesseract“ numatytieji nustatymai yra gana tikslūs, paprastai norint gauti tokį tikslumą, reikia mokyti. Pabandykime dar vieną nemokamą vaizdą, kurį radau „Wiki Commons“, jį atsisiuntę:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultatas
Dabar patikrinkite failo turinį.
mažiau 2rezultatas.txt
Tai buvo rezultatas, kai originalaus vaizdo turinys buvo:
Norėdami pagerinti simbolių atpažinimą, turime atlikti daugybę galimybių ir veiksmų, kurie buvo išsamiai aprašyti ankstesnėje mūsų pamokoje: sienų šalinimas, triukšmo šalinimas, dydžio optimizavimas ir puslapio pasukimas tarp kitų funkcijų, tokių kaip apkarpymas.
Šiai pamokai naudosime scenarijų, kurį sukūrė Fred's ImageMagick Scripts.
Atsisiųskite scenarijų ir paleiskite:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1„Actualizar_GNULinux_Terminal_apt-get“.gif testas.gif
Pastaba: prieš vykdydami scenarijų, suteikite jam vykdymo teises paleisdami „chmod + x textcleaner“Kaip šaknis arba su sudo priešdėlis.
Kur:
teksto valytojas: iškviečia programą
-g: Paverskite vaizdą pilkos spalvos
-e: enache
-f: filtro dydis
-s: sharpamt, pikselių galandimo kiekis, kurį reikia pritaikyti rezultatui.
Norėdami gauti informacijos ir naudojimo su teksto valymo priemonėmis pavyzdžių, apsilankykite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Kaip matote „textcleaner“ pakeitė fono spalvą, padidindamas kontrastą tarp šrifto ir fono.
Jei vykdysime „tesseract“, tikriausiai rezultatas bus kitoks:
tesseract testas.gif testoutputmažiau testų
Kaip matote, rezultatas tikrai pagerėjo, net jei jis nebuvo visiškai tikslus.
Komanda Paversti Pateikta „imagemagick“ leidžia mums išgauti rėmus iš „GIF“ vaizdų, kuriuos vėliau apdoros „Tesseract“. Tai naudinga, jei skirtinguose „GIF“ vaizdo rėmeliuose yra nepaprasto turinio.
Sintaksė paprasta:
PaverstiRezultatas bus sugeneruotas kaip failų skaičius kaip rėmeliai gif, pateiktame pavyzdyje rezultatai būtų: išėjimas-0.JPG, išėjimas-1.JPG, išėjimas-2.JPG, ir pan.
Tada galite juos apdoroti naudodami „tesseract“, nurodydami apdoroti visus pakaitos simbolio failus, išsaugodami rezultatą viename faile, vykdydami:
už i išvestyje- *; padaryti tesseract $ i outputrezult; padaryta;„Imagemagick“ turi daugybę variantų, kaip optimizuoti vaizdus, ir nėra bendro režimo. Kiekvienam scenarijui turėtumėte perskaityti „convert“ komandų žmogaus puslapį.
Tikiuosi, kad ši „Tesseract“ pamoka buvo naudinga.