Početna » Preuzimanja slobodnog softvera » Ekstrakt teksta iz PDF-a i slikovnih datoteka

    Ekstrakt teksta iz PDF-a i slikovnih datoteka

    Imate PDF dokument koji želite izvući iz cijelog teksta? Što je s slikovnim datotekama skeniranog dokumenta koje želite pretvoriti u tekst za uređivanje? Ovo su neki od najčešćih problema koje sam vidio na radnom mjestu pri radu s datotekama.

    U ovom članku govorit ću o nekoliko različitih načina na koje možete pokušati izvući tekst iz PDF-a ili slike. Rezultati vađenja podataka ovise o vrsti i kvaliteti teksta u PDF-u ili slici. Isto tako, rezultati će se razlikovati ovisno o alatu koji koristite, pa je najbolje da isprobate što je moguće više opcija u nastavku kako biste dobili najbolje rezultate.

    Ekstrakt teksta iz slike ili PDF-a

    Najjednostavniji i najbrži način za početak je isprobati uslugu izdavanja online PDF teksta. To su normalno besplatni i mogu vam dati upravo ono što tražite bez potrebe da instalirate bilo što na vaše računalo. Evo dva koja sam koristio s vrlo dobrim i izvrsnim rezultatima:

    ExtractPDF

    ExtractPDF je besplatan alat za zgrabite slike, tekst i fontove iz PDF datoteke. Jedino ograničenje je da je maksimalna veličina PDF datoteke 10 MB. To je malo malo; stoga, ako imate veću datoteku, isprobajte neke od dolje navedenih metoda. Odaberite datoteku i kliknite gumb Pošalji datoteku dugme. Rezultati su obično vrlo brzi i trebali biste vidjeti pregled teksta kada kliknete na karticu Tekst.

    Također je lijepo dodao korist da ekstrakti slike iz PDF datoteke previše, samo u slučaju da su vam potrebne! Sve u svemu, on-line alat radi sjajno, ali sam upao u nekoliko PDF dokumenata koji mi daju smiješne rezultate. Tekst je izvučen sasvim u redu, ali iz nekog razloga morat će prekinuti redak nakon svake riječi! Nije veliki problem za kratku PDF datoteku, ali svakako problem za datoteke s mnogo teksta. Ako vam se to dogodi, isprobajte sljedeći alat.

    Online OCR

    Online OCR obično imaju tendenciju da rade za dokumente koji nisu pravilno pretvoriti s ExtractPDF, tako da je dobra ideja da isprobate obje usluge da biste vidjeli koje vam daje bolji izlaz. Online OCR ima i neke bolje značajke koje se mogu pokazati korisnim za svakoga tko ima veliku PDF datoteku koja samo treba pretvoriti tekst na nekoliko stranica, a ne cijeli dokument.

    Prva stvar koju želite učiniti je kreiranje besplatnog računa. To je pomalo neugodno, ali ako ne stvorite besplatni račun, on će samo djelomično pretvoriti vaš PDF umjesto cijelog dokumenta. Isto tako, umjesto da možete prenijeti samo dokument od 5 MB, možete prenijeti do 100 MB po datoteci s računom.

    Najprije odaberite jezik, a zatim odaberite vrstu izlaznih formata koje želite za pretvorenu datoteku. Imate nekoliko opcija i možete odabrati više od jednog ako želite. Pod, ispod Multipage document, možete odabrati Brojevi stranica a zatim odaberite samo stranice koje želite pretvoriti. Zatim odaberete datoteku i kliknite Pretvoriti!

    Nakon pretvorbe, bit ćete dovedeni u odjeljak Dokumenti (ako ste prijavljeni) gdje možete vidjeti koliko je dostupnih besplatnih stranica ostalo i veze za preuzimanje pretvorenih datoteka. Čini se da imate samo 25 stranica besplatno dnevno, tako da ako trebate više od toga, morat ćete malo pričekati ili kupiti više stranica.

    Online OCR je izvrstan posao pretvorbe mojih PDF-ova jer je uspio održati stvarni izgled teksta. U mom testu, uzeo sam Word doc koji je koristio metke, različite veličine fontova, itd. I pretvorio ga u PDF. Tada sam koristio Online OCR pretvoriti ga natrag u Word formatu i to je oko 95% isto kao i izvorni. To je prilično impresivno za mene.

    Osim toga, ako želite pretvoriti sliku u tekst, tada OCR na mreži može to učiniti jednako lako kao i vađenje teksta iz PDF datoteka.

    Besplatni online OCR

    Budući da su razgovarali o slici u tekst OCR, dopustite mi spomenuti još jedan dobar website koji radi jako dobro na slikama. Besplatni Online OCR je bio vrlo dobar i vrlo precizan pri vađenju teksta s testnih slika. Uzeo sam par fotografija s iPhone-a na stranicama iz knjiga, pamfleta itd. I bio sam iznenađen koliko je bio u stanju pretvoriti tekst.

    Odaberite datoteku i kliknite gumb Učitaj. Na sljedećem zaslonu nalazi se nekoliko opcija i pregled slike. Možete ga obrezati ako ne želite OCR cijelu stvar. Zatim kliknite gumb OCR i pretvoreni tekst pojavit će se ispod pregleda slike. Također nema nikakvih ograničenja, što je stvarno lijepo.

    Osim on-line usluga, postoje dva freeware pretvarača PDF-a koje želim spomenuti u slučaju da trebate softver koji radi lokalno na vašem računalu da biste izvršili pretvorbe. S uslugama na mreži uvijek ćete trebati internetsku vezu i to možda neće biti moguće za sve. Međutim, primijetio sam da je kvaliteta konverzija iz freeware programa znatno lošija od onih na web stranicama.

    A-PDF Text Extractor

    PDF Text Extractor je freeware koji čini prilično dobar posao vađenja teksta iz PDF datoteka. Kada ga preuzmete i instalirate, kliknite gumb Otvori da biste odabrali PDF datoteku. Zatim kliknite Ekstrakt teksta da biste započeli postupak.

    Od vas će se tražiti mjesto za spremanje izlazne datoteke teksta i tada će početi vađenje. Također možete kliknuti na Opcija gumb koji vam omogućuje da odaberete samo određene stranice koje želite izdvojiti i vrstu ekstrakcije. Druga opcija je zanimljiva jer izvlači tekst u različitim izgledima i vrijedi pokušati sve tri da biste vidjeli koje od njih vam daje najbolji izlaz.

    PDF2Text Pilot

    PDF2Text Pilot radi ok posao vađenja teksta. Nema opcija; vi samo dodajete datoteke ili mape, pretvarajte se i nadajte se najboljem. Dobro je funkcionirao na nekim PDF-ovima, ali za većinu njih bilo je mnogo problema.

    Samo kliknite Dodaj datoteke, a zatim kliknite Pretvoriti. Nakon dovršetka pretvorbe, kliknite Otvori da biste otvorili datoteku. Kilometraža će se mijenjati pomoću ovog programa pa nemojte očekivati ​​mnogo.

    Također, vrijedi spomenuti da ako ste u korporacijskom okruženju ili možete dobiti kopiju Adobe Acrobata s posla, onda stvarno možete dobiti puno bolje rezultate. Acrobat očito nije besplatan, ali ima mogućnosti pretvoriti PDF u Word, Excel i HTML format. To također čini najbolji posao održavanja strukture izvornog dokumenta i pretvaranja kompliciranog teksta.