Homepage » hogyan kell » Hogyan másolhatok szöveget a PDF-ről a formázás megőrzése közben?

    Hogyan másolhatok szöveget a PDF-ről a formázás megőrzése közben?

    A PDF, a mindennapi dokumentumformátum kiválóan alkalmas a dokumentumok megosztására, miközben megőrzi a betűtípusokat, a képeket és az általános elrendezéseket a platformokon. Van azonban egyszerű módja annak a formázásnak a megőrzése, amikor a szöveget a dokumentumból másolja és beilleszti?

    A mai Kérdések és válaszok munkamenet a Jóvagyon - a Stack Exchange alosztályának, a közösség által vezérelt Q&A webhelyek csoportjának köszönhetően..

    A kérdés

    A Colen a SuperUser olvasó a PDF formátumú szövegek kinyerésének módját keresi, miközben megtartja a formázást:

    Amikor a szöveget PDF-fájlból másolom és szövegszerkesztőbe másolom, ez többféleképpen végződik. Elveszik a merész és dőlt formázást; a szöveg egy bekezdésén belüli lágy vonalak törlése kemény vonalszakadássá alakul; a két vonalat megszakító szavak megmaradnak még akkor is, ha nem lehetnek; és egyszeri és kettős idézeteket cserélnek? jelek.

    Ideális esetben szeretnék másolni a szöveget egy PDF-ről és formázni HTML kódokra, „okos idézőjeleket” átalakítani „és” -re, és soros szüneteket tenni megfelelően. Van-e módja ennek?

    Van egy gyors és egyszerű módja annak, hogy Colen (és a többiek is) megragadja a szöveget anélkül, hogy feláldoznánk a formázást?

    A válasz

    A SuperUser közreműködője, a Frabjous egy nagy óvatos adaggal kombinált megoldást kínál:

    Először is meg kell értened, hogy mi a PDF. A PDF-fájlok a nyomtatott oldal utánzására szolgálnak, és csak kimeneti formátumúak, nem pedig bemeneti formátumok. a PDF alapvetően egy térkép, amely tartalmazza a karakterek pontos helyét (egyedi betűk vagy írásjelek stb.) vagy képeket. A legtöbb esetben a PDF nem is tárol információt arról, hogy az egyik szó véget ér, és a másik kezdődik, sokkal kevésbé olyan dolgok, mint a lágy szünetek, illetve a bekezdésszakaszok kemény szünetei.

    (Néhány friss PDF-fájl tárol néhány információt erről a cuccról, de ez egy új technológia, és szerencsés lenne, ha ilyen PDF-fájlokat talál. Még akkor is, ha ezt tette, a PDF-néző nem tud róla.)

    Különben is, a szoftvereden múlik, hogy valamilyen „mesterséges intelligenciát” használj fel, hogy pusztán az egyéni karakterek helyeit kivonja, ami egy szó, mi a bekezdés, és így tovább. A különböző szoftverek ezt jobban fogják elvégezni, mint mások, és ez függ attól is, hogy a PDF hogyan készült. Mindenesetre soha nem várhat tökéletes eredményt. A PDF kimenet nem azonos a forrásdokumentummal. Sokkal jobb, ha megpróbálod ezt megszerezni.

    A probléma megoldásának standard megoldása az Adobe Acrobat Professional (a drága, nem az ingyenes olvasó) használata, hogy a PDF-t HTML-re konvertálja. Még ez sem fog tökéletes eredményt elérni.

    Szabad szoftverek használhatók arra, hogy PDF formátumú szövegeket kinyerjenek, néhány formázás sértetlen, de ismét ne várjon tökéletes eredményt. Lásd például a kaliber (amely RTF formátumra konvertálható), pdftohtml / pdfreflow vagy az AbiWord szövegszerkesztő (az összes import / export plugin engedélyezve van). Az OpenOffice-hoz PDF importálási plugin is van.

    De kérjük, ne várjon tökéletességet ezen eredmények bármelyikével. Itt jársz a gabonával. A PDF csak nem szerkeszthető beviteli formátum.

    Ha problémája van annak eldöntésére, hogy melyik eszközt kell kezdeni, a Caliber igazi dokumentum a svájci hadsereg késének. Használhatja azt is, hogy PDF fájlokat konvertáljon az ebook olvasóján, és rendezze az ebook / dokumentum könyvtárat.


    Van valami, amit hozzá kell adni a magyarázathoz? Kikapcsolja a megjegyzéseket. Szeretne további válaszokat olvasni más tech-savvy Stack Exchange felhasználóktól? Nézze meg a teljes beszélgetés szálát itt.