Tesseract.js donosi pregled OCR-a slike u preglednike
OCR prijevod još uvijek nije savršen, ali se dramatično poboljšao u posljednjih nekoliko godina. Vodeći put je Tesseract mehanizam za prevođenje trenutno otvoreno sourced in C++.
Iako je ovo nevjerojatna knjižnica, ipak je ograničena na softver. Srećom, netko je napravio Tesseractov port u JavaScript koji se zove Tesseract.js. To podržava do 60 jezika i iako to svakako nije savršeno, dobro radi svoj posao.
Instalacija i postavljanje je povjetarac gdje možete ciljajte bilo koji element slike na stranici i pokrenite Tesseract.recognize () funkcija. To može uzeti bilo koju vrstu slike i automatski će se prikazati komprimirati i prevesti izravno u pregledniku.
Možete dobiti puno više komplicirano, ali je ljepota kako možete pokrenuti OCR s jednim redom koda.
Pogledajte odredišnu stranicu Tesseract.js ako želite vidjeti demo uživo. To radi točno u pregledniku gdje možete povucite i ispustite skeniranu sliku teksta da biste dobili automatski prijevod OCR-a.
Ovaj primjer možete preuzeti i lokalno putem stranice GitHub ili možete izgraditi vlastitu aplikaciju tako da uključite skriptu Tesseract.js izravno s CDN-a.
Najjednostavniji primjer koda izgleda kao sljedeće myImage je izravna referenca na HTML element slike:
Tesseract.recognize (myImage). Then (funkcija (rezultat) console.log (rezultat));
U svakom slučaju, ova je knjižnica toliko korisna da se krećete pomoću OCR-a na webu. Daleko je od savršenog, ali je također najbolji resurs za web-programere koji žele dinamičku funkcionalnost OCR-a na stranici.
Da biste saznali više, posjetite GitHub stranicu Tesseract.js na kojoj možete pogledati demonstraciju uživo i pregledati online dokumentaciju.