„Tesseract“ OCR diegimas „Linux“

„Tesseract OCR“ („Optical Character Recognition“) yra nemokama ir atviro kodo variklis bei komandų eilutės programa, skirta tekstui iš vaizdų išgauti naudojant optinio simbolių atpažinimo technologiją ir algoritmus. Projektą remia „Google“ ir nuo šiandien jis laikomas geriausiu prieinamu atvirojo kodo OCR varikliu. Jis gali labai tiksliai aptikti ir išgauti tekstą daugeliu kalbų.

„Tesseract“ OCR diegimas „Linux“

Pagal numatytuosius nustatymus „Tesseract“ OCR yra daugelyje „Linux“ paskirstymų. Galite įdiegti jį į „Ubuntu“ naudodami toliau pateiktą komandą:

$ sudo apt install tesseract-ocr

Pateikiamos išsamios kitų platinimų instrukcijos čia. Nors pagal numatytuosius nustatymus „Tesseract OCR“ yra daugelio „Linux“ paskirstymų saugyklose, norint patobulinti tikslumą ir analizuoti, rekomenduojama įdiegti naujausią versiją iš pirmiau minėtos nuorodos.

Papildomų kalbų palaikymo diegimas „Tesseract“ OCR

„Tesseract“ OCR apima palaikymą aptikti tekstą daugiau nei 100 kalbų. Tačiau jūs galite gauti paramą tik aptikti tekstą anglų kalba su numatytuoju diegimu Ubuntu. Norėdami pridėti papildomų kalbų analizavimo palaikymą „Ubuntu“, vykdykite komandą tokiu formatu:

$ sudo apt įdiekite „tesseract-ocr-hin“

Aukščiau pateikta komanda papildys hindi kalbos palaikymą „Tesseract“ OCR. Kartais galite gauti geresnį tikslumą ir rezultatus, įdiegę kalbos scenarijų palaikymą. Pavyzdžiui, „Devessagari“ scenarijaus „tesseract-ocr-script-deva“ įdiegimas ir naudojimas suteikė daug tikslesnius rezultatus nei naudojant „tesseract-ocr-hin“ paketą.

„Ubuntu“ galite rasti teisingus visų kalbų ir scenarijų paketų pavadinimus paleisdami žemiau esančią komandą:

$ apt-cache paieškos tesseract-

Nustačius teisingą paketo pavadinimą, kurį norite įdiegti, pakeiskite eilutę „tesseract-ocr-hin“ į ją pirmoje pirmiau nurodytoje komandoje.

„Tesseract“ OCR naudojimas norint išgauti tekstą iš vaizdų

Paimkime paveikslėlio, parodyto žemiau, pavyzdį (paimtas iš „Wikipedia“ puslapio, skirto „Linux“):

Norėdami išgauti tekstą iš aukščiau esančio paveikslėlio, turite paleisti komandą tokiu formatu:

$ tesseract surinkimas.png išvestis -l ang

Paleidus pirmiau pateiktą komandą gaunamas toks išvestis:

Aukščiau pateiktoje komandoje „užfiksuoti.png “reiškia vaizdą, iš kurio norite išgauti tekstą. Tada užfiksuota išvestis saugoma „išvestyje.txt “failas. Kalbą galite pakeisti, pakeisdami argumentą „eng“ savo pasirinkimu. Norėdami pamatyti visas galiojančias kalbas, vykdykite toliau pateiktą komandą:

$ tesseract --list-langs

Tai parodys visų kalbų, kurias palaiko „Tesseract“ OCR, santrumpos kodus. Pagal numatytuosius nustatymus kaip išvestis bus rodoma tik „eng“. Tačiau jei diegiate paketus kitoms kalboms, kaip paaiškinta aukščiau, šioje komandoje bus pateikta daugiau kalbų, kurias galite naudoti tekstui aptikti (kaip ISO 639 3 raidžių kalbos kodus).

Jei paveikslėlyje yra tekstas keliomis kalbomis, pirmiausia nustatykite pagrindinę kalbą, o po to - papildomas kalbas, atskirtas pliuso ženklais.

$ tesseract surinkimas.png išvestis -l eng + fra

Jei norite išsaugoti išvestį kaip ieškomą PDF failą, vykdykite komandą tokiu formatu:

$ tesseract surinkimas.png output -l eng pdf

Atminkite, kad ieškomame PDF faile nebus redaguojamo teksto. Jame yra originalus vaizdas su papildomu sluoksniu, kuriame yra atpažintas tekstas, uždėtas ant vaizdo. Taigi, jei galėsite tiksliai ieškoti teksto PDF faile naudodami bet kurį PDF skaitytuvą, negalėsite redaguoti teksto.

Kitas dalykas, kurį turėtumėte atkreipti dėmesį, kad teksto aptikimo tikslumas labai padidėja, jei vaizdo failas yra aukštos kokybės. Turėdami pasirinkimą, visada naudokite failų formatus be nuostolių arba PNG failus. JPG failų naudojimas gali neduoti geriausių rezultatų.

Teksto ištraukimas iš kelių puslapių PDF failo

„Tesseract“ OCR savaime nepalaiko teksto išskyrimo iš PDF failų. Tačiau galima išgauti tekstą iš kelių puslapių PDF failo paverčiant kiekvieną puslapį į vaizdo failą. Norėdami konvertuoti PDF failą į vaizdų rinkinį, vykdykite toliau pateiktą komandą:

$ pdftoppm -png failas.pdf išvestis

Už kiekvieną PDF failo puslapį gausite atitinkamą „output-1.png “,„ output-2.png “failą ir pan.

Dabar, jei norite išgauti tekstą iš šių vaizdų naudodami vieną komandą, turėsite naudoti „for loop“ komandą „bash“:

$ už i *.png; daryti tesseract "$ i" "output- $ i" -l eng; padaryta;

Vykdant aukščiau pateiktą komandą, išgausite tekstą iš visų.png “failus, esančius darbo kataloge, ir atpažintą tekstą saugo„ output-original_filename “.txt “failus. Galite modifikuoti vidurinę komandos dalį pagal savo poreikius.

Jei norite sujungti visus tekstinius failus su atpažintu tekstu, vykdykite toliau nurodytą komandą:

$ katė *.txt> prisijungė.txt

Tekstas iš kelių puslapių PDF failo išgaunamas į ieškomus PDF failus yra beveik toks pat. Komandai turite pateikti papildomą argumentą „pdf“:

$ už i *.png; padaryti tesseract "$ i" "output- $ i" -l eng pdf; padaryta;

Jei norite sujungti visus ieškomus PDF failus su atpažintu tekstu, vykdykite toliau nurodytą komandą:

$ pdfunite *.pdf prisijungė.pdf

Tiek „pdftoppm“, tiek „pdfunite“ pagal numatytuosius nustatymus yra įdiegti naujausioje stabilioje „Ubuntu“ versijoje.

Teksto ištraukimo TXT ir ieškomuose PDF rinkmenose privalumai ir trūkumai

Jei ištrauksite atpažintą tekstą į TXT failus, gausite redaguojamą teksto išvestį. Tačiau bet koks dokumento formatavimas bus prarastas (paryškinti, kursyvu ir pan.). Ieškomuose PDF failuose bus išsaugotas originalus formatavimas, tačiau prarasite teksto redagavimo galimybes (vis tiek galite nukopijuoti neapdorotą tekstą). Jei atidarysite ieškomą PDF failą bet kuriame PDF redaktoriuje, faile bus įterptas (-i) vaizdas (-ai), o ne neapdorotas teksto išvestis. Konvertuodami ieškomus PDF failus į HTML arba EPUB, taip pat gausite įterptų vaizdų.

Išvada

„Tesseract“ OCR šiandien yra vienas iš plačiausiai naudojamų OCR variklių. Tai yra nemokamas, atviro kodo ir palaiko daugiau nei šimtą kalbų. Naudodami „Tesseract OCR“, komandinės eilutės argumentuose naudokite didelės raiškos vaizdus ir taisykite kalbos kodus, kad pagerintumėte teksto aptikimo tikslumą.