2024 Forfatter: Peter John Melton | [email protected]. Sidst ændret: 2023-12-16 04:48
Dagens Spørgsmål & Svar session kommer til os med venlig hilsen af SuperUser-en underafdeling af Stack Exchange, en community-driven gruppe af Q & A-websteder.
Spørgsmålet
SuperUser-læser Colen søger efter en måde at udtrække tekst fra PDF-filer samtidig med at formateringen bevares:
When I copy text out of a PDF file and into a text editor, it ends up mangled in a variety of ways. Formatting like bold and italics are lost; soft line breaks within a paragraph of text are converted to hard line breaks; dashes to break a word over two lines are preserved even when they shouldn’t be; and single and double quotes are replaced with ? signs.
Ideally, I’d like to be able to copy text from a PDF and have formatting converted to HTML codes, “smart quotes” converted to” and ‘, and line breaks done properly. Is there any way to do this?
Er der en hurtig og nem måde for Colen (og resten af os) at få fat i tekst uden at ofre formateringen?
Svaret
SuperUser bidragyder Frabjous tilbyder en løsning kombineret med en stor dosis forsigtighed:
Firstly, you have to understand what a PDF is. PDFs are designed to mimic a printed page, and they are designed only as an output format, not an input format. a PDF is basically a map containing the exact location of characters (individual letters or punctuation, etc.) or images. In most cases, a PDF does not even store information about where one word ends and another begins, much less things like soft breaks vs. hard breaks for paragraph endings.
(A few recent PDFs do store some information about this stuff, but that’s a new technology, and you’d be lucky to find PDFs like that. Even if you did, your PDF viewer might not know about it.)
Anyway, it’s up to your software to implement some kind of “artificial intelligence” to extract merely from the locations of individual characters what is a word, what is a paragraph, and so on. Different software is going to do this better than others, and it’s also going to depend on how the PDF was made. In any case, you should never expect perfect results. Having the output PDF is not the same as having the source document. Far better to try to obtain that if you can.
The standard solution to your kind of problem is to use Adobe Acrobat Professional (the expensive one, not the free reader) to convert the PDF to HTML. Even that is not going to get perfect results.
There is free software that can be used to extract text from PDFs with some of formatting intact, but again, don’t expect perfect results. See, e.g., calibre (which can convert to RTF format), pdftohtml/pdfreflow, or the AbiWord word processor (with all import/export plugins enabled). There’s also a PDF import plugin for OpenOffice.
But please don’t expect perfection with any of these results. You’re going against the grain here. PDF just is not meant as an editable input format.
Hvis du har problemer med at bestemme hvilket værktøj der skal begynde med, er Caliber et ægte dokument Swiss Army knife. Du kan også bruge den til at konvertere PDF-filer til brug på din ebook-læser og organisere dit e-bog / dokumentbibliotek.
Har du noget at tilføje til forklaringen? Lyde af i kommentarerne. Vil du læse flere svar fra andre tech-savvy Stack Exchange brugere? Tjek den fulde diskussionstråd her.
Anbefalede:
Hvorfor kan jeg ændre in-use-filer på Windows som jeg kan på Linux og OS X?
Dagens Spørgsmål & Svar session kommer til os med tilladelse til SuperUser, en underafdeling af Stack Exchange, en community-driven gruppe af Q & A-websteder.
Hvordan kan jeg holde adgangskoder usynlige, når jeg kører en kommando som et SSH-argument?
At holde vores adgangskoder godt sikret er noget, vi alle skal tage alvorligt, men hvad gør du, hvis et bestemt program eller en app viser dit kodeord i almindelig øjekast, mens du skriver det? Dagens SuperUser Q & A-indlæg har løsningen på en frustreret læsers adgangskode problem.
Hvad er "Shadow Copies", og hvordan kan jeg bruge dem til at kopiere låste filer?
Når du forsøger at oprette enkle filkopi-sikkerhedskopier i Windows, er et almindeligt problem låste filer, som kan forsvinde operationen. Uanset om filen aktuelt er åbnet af brugeren eller låst af OS'et selv, skal visse filer være helt ubrugte for at blive kopieret. Heldigvis er der en simpel løsning: Skyggekopier.
Hvorfor kan jeg ikke kopiere store filer til min højkapacitets flashdrev?
Du har et helt nyt højkapacitets flashdrev, der kan gemme mere end harddisken på dine første tre computere kombineret, men når du går til kopiering af en stor fil, nægter du dig. Hvad giver? Læs videre, som vi viser dig, hvordan du løser dine flashdrev frustrationer.
Sådan fjerner du all formatering fra valgt tekst i Word 2013-dokumenter
Hvis du har kopieret tekst fra et andet dokument, og det ikke er formateret som du vil have, eller det har en underlig eller blandet formatering, kan du nemt fjerne al formatering fra teksten og returnere teksten til standardformatet.