Kako mogu kopirati tekst iz PDF-a dok čuvam oblikovanje?
PDF, sveprisutni format dokumenta, odličan je za dijeljenje dokumenata uz očuvanje fontova, slika i općeg izgleda na svim platformama. Postoji li, međutim, jednostavan način da se sačuva to oblikovanje pri kopiranju i lijepljenju teksta iz dokumenta?
Današnja sesija pitanja i odgovora dolazi nam ljubaznošću SuperUser-a, podjele Stack Exchangea, grupiranja web-lokacija za pitanja i odgovore u zajednici.
Pitanje
Čitač SuperUser Colen traži način za izdvajanje teksta iz PDF-ova, a istovremeno zadržava oblikovanje:
Kada kopiram tekst iz PDF datoteke i u uređivač teksta, završit će na mnogo načina. Formatiranje kao što je podebljano i kurzivno je izgubljeno; prelomi mekih redaka unutar odlomka teksta pretvaraju se u tvrde prijelome redaka; crtice koje razbijaju riječ preko dva retka su sačuvane čak i kad ne bi trebale biti; i jednostruki i dvostruki navodnici se zamjenjuju? znakovi.
U idealnom slučaju, želio bih moći kopirati tekst iz PDF-a i formatirati pretvoriti u HTML kodove, „pametne navodnike“ pretvoriti u „i“, a prijelomi redaka obaviti ispravno. Postoji li način da se to učini?
Postoji li brz i jednostavan način za Colen (i nas ostale) da dohvati tekst bez žrtvovanja oblikovanja?
Odgovor
Suradnik SuperUser Frabjous nudi rješenje u kombinaciji s velikom dozom opreza:
Prvo, morate razumjeti što je PDF. PDF-ovi su dizajnirani tako da oponašaju ispisanu stranicu i osmišljeni su samo kao izlazni format, a ne kao ulazni format. PDF je u osnovi karta koja sadrži točnu lokaciju znakova (pojedinačna slova ili interpunkciju, itd.) ili slike. U većini slučajeva PDF ne pohranjuje ni podatke o tome gdje se završava jedna riječ, a druga počinje, a još manje stvari poput mekih pauza i tvrdih prekida za završetke stavaka.
(Nekoliko nedavnih PDF-ova pohranjuje neke informacije o tim stvarima, ali to je nova tehnologija, a vi biste bili sretni da pronađete takve PDF-ove. Čak i ako jeste, vaš PDF preglednik možda neće znati za to.)
U svakom slučaju, na vašem je softveru da implementira neku vrstu "umjetne inteligencije" da bi se izdvojila samo s mjesta pojedinačnih znakova što je riječ, što je paragraf, i tako dalje. Različiti softver će to učiniti bolje od drugih, a također će ovisiti o tome kako je PDF izrađen. U svakom slučaju, nikada ne biste trebali očekivati savršene rezultate. Izlazni PDF nije isto što i izvorni dokument. Mnogo bolje pokušati to dobiti ako možete.
Standardno rješenje za vaš problem je korištenje programa Adobe Acrobat Professional (skupa, a ne besplatna) za pretvaranje PDF-a u HTML. Čak ni to neće postići savršene rezultate.
Postoji slobodan softver koji se može koristiti za izdvajanje teksta iz PDF-ova s nekim netaknutim oblikovanjem, ali opet, ne očekujte savršene rezultate. Pogledajte, na primjer, kalibar (koji se može pretvoriti u RTF format), pdftohtml / pdfreflow ili AbiWord program za obradu teksta (s omogućenim svim dodacima za uvoz / izvoz). Tu je i dodatak za uvoz PDF-ova za OpenOffice.
Ali nemojte očekivati savršenstvo s bilo kojim od ovih rezultata. Ideš protiv zrna ovdje. PDF jednostavno nije namijenjen uređivanju ulaznog formata.
Ako imate problema s odlučivanjem s kojim alatom početi, Kalibar je pravi dokument švicarskog vojnog noža. Također možete ga koristiti za pretvaranje PDF datoteka za korištenje na vašem ebook čitač i organizirati vaš ebook / knjižnica dokumenata.
Imate li što dodati objašnjenju? Zvuk isključen u komentarima. Želite li pročitati više odgovora od drugih tehničkih korisnika Stack Exchangea? Pogledajte cjelokupnu temu za raspravu ovdje.