Tesseract.js donosi pregled OCR-a slike u preglednike

OCR prijevod još uvijek nije savršen, ali se dramatično poboljšao u posljednjih nekoliko godina. Vodeći put je Tesseract mehanizam za prevođenje trenutno otvoreno sourced in C++.

Iako je ovo nevjerojatna knjižnica, ipak je ograničena na softver. Srećom, netko je napravio Tesseractov port u JavaScript koji se zove Tesseract.js. To podržava do 60 jezika i iako to svakako nije savršeno, dobro radi svoj posao.

Instalacija i postavljanje je povjetarac gdje možete ciljajte bilo koji element slike na stranici i pokrenite Tesseract.recognize () funkcija. To može uzeti bilo koju vrstu slike i automatski će se prikazati komprimirati i prevesti izravno u pregledniku.

Možete dobiti puno više komplicirano, ali je ljepota kako možete pokrenuti OCR s jednim redom koda.

Pogledajte odredišnu stranicu Tesseract.js ako želite vidjeti demo uživo. To radi točno u pregledniku gdje možete povucite i ispustite skeniranu sliku teksta da biste dobili automatski prijevod OCR-a.

Ovaj primjer možete preuzeti i lokalno putem stranice GitHub ili možete izgraditi vlastitu aplikaciju tako da uključite skriptu Tesseract.js izravno s CDN-a.

Najjednostavniji primjer koda izgleda kao sljedeće myImage je izravna referenca na HTML element slike:

 Tesseract.recognize (myImage). Then (funkcija (rezultat) console.log (rezultat));

U svakom slučaju, ova je knjižnica toliko korisna da se krećete pomoću OCR-a na webu. Daleko je od savršenog, ali je također najbolji resurs za web-programere koji žele dinamičku funkcionalnost OCR-a na stranici.

Da biste saznali više, posjetite GitHub stranicu Tesseract.js na kojoj možete pogledati demonstraciju uživo i pregledati online dokumentaciju.