Kako mogu kopirati tekst iz PDF-a dok čuvam oblikovanje?

PDF, sveprisutni format dokumenta, odličan je za dijeljenje dokumenata uz očuvanje fontova, slika i općeg izgleda na svim platformama. Postoji li, međutim, jednostavan način da se sačuva to oblikovanje pri kopiranju i lijepljenju teksta iz dokumenta?

Današnja sesija pitanja i odgovora dolazi nam ljubaznošću SuperUser-a, podjele Stack Exchangea, grupiranja web-lokacija za pitanja i odgovore u zajednici.

Pitanje

Čitač SuperUser Colen traži način za izdvajanje teksta iz PDF-ova, a istovremeno zadržava oblikovanje:

Kada kopiram tekst iz PDF datoteke i u uređivač teksta, završit će na mnogo načina. Formatiranje kao što je podebljano i kurzivno je izgubljeno; prelomi mekih redaka unutar odlomka teksta pretvaraju se u tvrde prijelome redaka; crtice koje razbijaju riječ preko dva retka su sačuvane čak i kad ne bi trebale biti; i jednostruki i dvostruki navodnici se zamjenjuju? znakovi.

U idealnom slučaju, želio bih moći kopirati tekst iz PDF-a i formatirati pretvoriti u HTML kodove, „pametne navodnike“ pretvoriti u „i“, a prijelomi redaka obaviti ispravno. Postoji li način da se to učini?

Postoji li brz i jednostavan način za Colen (i nas ostale) da dohvati tekst bez žrtvovanja oblikovanja?

Odgovor

Suradnik SuperUser Frabjous nudi rješenje u kombinaciji s velikom dozom opreza:

Prvo, morate razumjeti što je PDF. PDF-ovi su dizajnirani tako da oponašaju ispisanu stranicu i osmišljeni su samo kao izlazni format, a ne kao ulazni format. PDF je u osnovi karta koja sadrži točnu lokaciju znakova (pojedinačna slova ili interpunkciju, itd.) ili slike. U većini slučajeva PDF ne pohranjuje ni podatke o tome gdje se završava jedna riječ, a druga počinje, a još manje stvari poput mekih pauza i tvrdih prekida za završetke stavaka.

(Nekoliko nedavnih PDF-ova pohranjuje neke informacije o tim stvarima, ali to je nova tehnologija, a vi biste bili sretni da pronađete takve PDF-ove. Čak i ako jeste, vaš PDF preglednik možda neće znati za to.)

U svakom slučaju, na vašem je softveru da implementira neku vrstu "umjetne inteligencije" da bi se izdvojila samo s mjesta pojedinačnih znakova što je riječ, što je paragraf, i tako dalje. Različiti softver će to učiniti bolje od drugih, a također će ovisiti o tome kako je PDF izrađen. U svakom slučaju, nikada ne biste trebali očekivati savršene rezultate. Izlazni PDF nije isto što i izvorni dokument. Mnogo bolje pokušati to dobiti ako možete.

Standardno rješenje za vaš problem je korištenje programa Adobe Acrobat Professional (skupa, a ne besplatna) za pretvaranje PDF-a u HTML. Čak ni to neće postići savršene rezultate.

Postoji slobodan softver koji se može koristiti za izdvajanje teksta iz PDF-ova s nekim netaknutim oblikovanjem, ali opet, ne očekujte savršene rezultate. Pogledajte, na primjer, kalibar (koji se može pretvoriti u RTF format), pdftohtml / pdfreflow ili AbiWord program za obradu teksta (s omogućenim svim dodacima za uvoz / izvoz). Tu je i dodatak za uvoz PDF-ova za OpenOffice.

Ali nemojte očekivati savršenstvo s bilo kojim od ovih rezultata. Ideš protiv zrna ovdje. PDF jednostavno nije namijenjen uređivanju ulaznog formata.

Ako imate problema s odlučivanjem s kojim alatom početi, Kalibar je pravi dokument švicarskog vojnog noža. Također možete ga koristiti za pretvaranje PDF datoteka za korištenje na vašem ebook čitač i organizirati vaš ebook / knjižnica dokumenata.

Imate li što dodati objašnjenju? Zvuk isključen u komentarima. Želite li pročitati više odgovora od drugih tehničkih korisnika Stack Exchangea? Pogledajte cjelokupnu temu za raspravu ovdje.