Uddrag tekst fra PDF- og billedfiler
Har du et PDF- dokument, som du gerne vil trække al tekst ud af? Hvad med billedfiler af et scannet dokument, som du vil konvertere til redigerbar tekst? Dette er nogle af de mest almindelige problemer, jeg har set på arbejdspladsen, når jeg arbejder med filer.
I denne artikel vil jeg tale om flere forskellige måder, hvorpå du kan prøve at udtrække tekst fra en PDF eller fra et billede. Dine udtræksresultater vil variere afhængigt af typen og kvaliteten af teksten i PDF'en(PDF) eller billedet. Dine resultater vil også variere afhængigt af det værktøj, du bruger, så det er bedst at prøve så mange af mulighederne nedenfor som muligt for at få de bedste resultater.
Uddrag tekst fra billede eller PDF
Den enkleste og hurtigste måde at starte på er at prøve en online PDF -tekstudtrækstjeneste. Disse er normalt gratis og kan give dig præcis, hvad du leder efter uden at skulle installere noget på din computer. Her er to, som jeg har brugt med meget gode til fremragende resultater:
Uddrag PDF
ExtractPDF er et gratis værktøj til at hente billeder, tekst og skrifttyper ud af en PDF -fil. Den eneste begrænsning er, at den maksimale størrelse for PDF -filen er 10 MB. Det er lidt småt; så hvis du har en større fil, så prøv nogle af de andre metoder nedenfor. Vælg din fil, og klik derefter på knappen Send fil(Send file) . Resultaterne er normalt meget hurtige, og du bør se en forhåndsvisning af teksten, når du klikker på fanen Tekst(Text) .
Det er også en god ekstra fordel, at det også trækker billeder ud af PDF -filen, bare hvis du har brug for dem! Generelt fungerer onlineværktøjet godt, men jeg er stødt på et par PDF -dokumenter, der giver mig sjove output. Teksten er ekstraheret fint, men af en eller anden grund vil den have et linjeskift efter hvert ord! Ikke et stort problem for en kort PDF -fil, men bestemt et problem for filer med masser af tekst. Hvis det sker for dig, så prøv det næste værktøj.
Online OCR
Online OCR havde normalt en tendens til at fungere for de dokumenter, der ikke konverterede korrekt med ExtractPDF , så det er en god idé at prøve begge tjenester for at se, hvilke der giver dig bedre output. Online OCR har også nogle bedre funktioner, der kan vise sig praktiske for alle med en stor PDF -fil, der kun skal konvertere tekst på et par sider i stedet for hele dokumentet.
Den første ting du vil gøre er at gå videre og oprette en gratis konto. Det er lidt irriterende, men hvis du ikke opretter den gratis konto, vil den kun delvist konvertere din PDF i stedet for hele dokumentet. I stedet for kun at kunne uploade et dokument på 5 MB, kan du også uploade op til 100 MB pr. fil med en konto.
Først skal du vælge et sprog og derefter vælge den type outputformater, du ønsker for den konverterede fil. Du har et par muligheder, og du kan vælge mere end én, hvis du vil. Under Flersidet dokument(Multipage document) kan du vælge Sidetal(Page numbers) og derefter kun vælge de sider, du vil konvertere. Så vælger du filen og klikker på Konverter(Convert) !
Efter konverteringen bliver du bragt til sektionen Dokumenter(Documents) (hvis du er logget ind), hvor du kan se, hvor mange ledige gratis sider du har tilbage og links til at downloade dine konverterede filer. Det ser ud til, at du kun har 25 sider gratis om dagen, så hvis du har brug for mere end det, skal du enten vente lidt eller købe flere sider.
Online OCR gjorde et fremragende stykke arbejde med at konvertere mine PDF- filer, fordi det var i stand til at opretholde det faktiske layout af teksten. I min test tog jeg et Word - dokument, der brugte punkttegn, forskellige skriftstørrelser osv. og konverterede det til en PDF . Så brugte jeg Online OCR til at konvertere det tilbage til Word -format, og det var omkring 95% det samme som originalen. Det er ret imponerende for mig.
Plus, hvis du ønsker at konvertere et billede til tekst, så kan Online OCR gøre det lige så nemt som at udtrække tekst fra PDF - filer.
Gratis online OCR
Siden vi talte om billede til tekst OCR , så lad mig nævne en anden god hjemmeside, der fungerer rigtig godt på billeder. Gratis online OCR(Free Online OCR) var meget god og meget præcis, når jeg udtrak tekst fra mine testbilleder. Jeg tog et par billeder fra min iPhone af sider fra bøger, pjecer osv., og jeg var overrasket over, hvor godt den var i stand til at konvertere teksten.
Vælg din fil, og klik derefter på knappen Upload . På den næste skærm er der et par muligheder og en forhåndsvisning af billedet. Du kan beskære det, hvis du ikke vil OCR det hele. Klik derefter på OCR -knappen, og din konverterede tekst vises under billedet. Den har heller ingen begrænsninger, hvilket er rigtig rart.
Ud over onlinetjenesterne er der to freeware PDF -konvertere, jeg vil nævne, hvis du har brug for software, der kører lokalt på din computer for at udføre konverteringerne. Med onlinetjenester har du altid brug for en internetforbindelse(Internet) , og det er måske ikke muligt for alle. Jeg bemærkede dog, at kvaliteten af konverteringerne fra freeware-programmerne var væsentligt dårligere end hjemmesidernes.
A-PDF tekstudtrækker
A-PDF Text Extractor er freeware, der gør et ret godt stykke arbejde med at udtrække tekst fra PDF - filer. Når du har downloadet det og installeret det, skal du klikke på knappen Åbn(Open) for at vælge din PDF -fil. Klik derefter på Udpak(Extract) tekst for at starte processen.
Det vil bede dig om et sted at gemme tekstoutputfilen, og så begynder den at udpakke. Du kan også klikke på knappen Indstilling(Option) , som lader dig vælge kun bestemte sider, der skal udpakkes, og udtrækstypen. Den anden mulighed er interessant, fordi den udtrækker teksten i forskellige layouts, og det er værd at prøve alle tre for at se, hvilke der giver dig det bedste output.
PDF2Tekst Pilot
PDF2Text Pilot gør et ok job med at udtrække tekst. Det har ingen muligheder; du tilføjer bare filer eller mapper, konverterer og håber på det bedste. Det fungerede godt på nogle PDF'er(PDFs) , men for de fleste af dem var der adskillige problemer.
Bare klik på Tilføj filer(Add Files) , og klik derefter på Konverter(Convert) . Når konverteringen er fuldført, skal du klikke på Gennemse(Browse) for at åbne filen. Dit kilometertal vil variere med dette program, så forvent ikke meget.
Det er også værd at nævne, at hvis du er i et virksomhedsmiljø eller kan få fingrene i en kopi af Adobe Acrobat fra arbejdet, så kan du virkelig få meget bedre resultater. Acrobat er naturligvis ikke gratis, men det har muligheder for at konvertere PDF til Word , Excel og HTML -format. Det gør også det bedste stykke arbejde med at bevare strukturen af det originale dokument og konvertere kompliceret tekst.
Related posts
Sådan kombineres eller flettes flere tekstfiler
Bedste gratis alternative PDF-fremviser til Adobe Reader
Konverter en Windows-pc til en virtuel maskine ved hjælp af Hyper-V
Sådan ændres mappeikonets farve i Windows
Det bedste gratis defragværktøj til Windows er sig selv
Konverter Windows Directory til HTML-liste
Sådan brændes, kopieres og sikkerhedskopieres en cd eller dvd
6 gratis softwareapps til Blu-ray-diskbrænding
Vigtige gratis softwaredownloads til Windows
Sådan udpakkes ikoner fra EXE-, DLL-, OCX- og CPL-filer
Formater et SD-kort på den nemme måde
Bedste gratis PDF-editor onlineværktøjer, der er cloud-baserede
Sådan oprettes, monteres og brændes ISO-billedfiler gratis
Sådan kombinerer du flere PowerPoint-præsentationer
Sådan repareres beskadigede eller beskadigede AVI-filer
HTML-kode til at ombryde tekst omkring billede
Sådan identificerer du musik eller sange efter lyd
Sådan fjerner eller afinstallerer Java (JRE) på Windows og Mac
Del store filer ved at konfigurere en hjemmefilserver
Sådan deler du filer mellem pc'er, smartphones og tablets