Importujte údaje z PDF do Excelu cez Power Query

Úloha prenosu údajov z tabuľky v súbore PDF do hárka programu Microsoft Excel je vždy „zábavná“. Najmä ak nemáte drahý rozpoznávací softvér ako FineReader alebo niečo podobné. Priame kopírovanie väčšinou nevedie k ničomu dobrému, pretože. po vložení skopírovaných údajov na hárok sa s najväčšou pravdepodobnosťou „zlepia“ do jedného stĺpca. Potom ich bude potrebné starostlivo oddeliť pomocou nástroja Text po stĺpcoch z karty dátum (Údaje – text do stĺpcov).

A samozrejme, kopírovanie je možné len pri tých PDF súboroch, kde je textová vrstva, teda pri práve naskenovanom dokumente z papiera do PDF to v princípe fungovať nebude.

Ale nie je to také smutné, naozaj 🙂

Ak máte Office 2013 alebo 2016, potom za pár minút, bez ďalších programov, je celkom možné preniesť údaje z PDF do programu Microsoft Excel. A Word a Power Query nám v tom pomôžu.

Vezmime si napríklad túto PDF správu s množstvom textov, vzorcov a tabuliek z webovej stránky Európskej hospodárskej komisie:

Importujte údaje z PDF do Excelu cez Power Query

... a skúste to vytiahnuť v Exceli, povedzte prvú tabuľku:

Importujte údaje z PDF do Excelu cez Power Query

Poďme!

Krok 1. Otvorte PDF vo Worde

Z nejakého dôvodu to málokto vie, ale od roku 2013 sa Microsoft Word naučil otvárať a rozpoznávať súbory PDF (aj naskenované, to znamená bez textovej vrstvy!). Robí sa to úplne štandardným spôsobom: otvorte Word, kliknite Súbor – Otvoriť (Súbor – Otvoriť) a zadajte formát PDF v rozbaľovacom zozname v pravom dolnom rohu okna.

Potom vyberte požadovaný súbor PDF a kliknite Otvorený (Otvorené). Word nám hovorí, že v tomto dokumente spustí OCR na text:

Importujte údaje z PDF do Excelu cez Power Query

Súhlasíme a o pár sekúnd uvidíme náš PDF otvorený na úpravy už vo Worde:

Importujte údaje z PDF do Excelu cez Power Query

Z dokumentu samozrejme čiastočne uletí dizajn, štýly, fonty, hlavičky a päty atď., ale to pre nás nie je dôležité – potrebujeme len údaje z tabuliek. V princípe už v tejto fáze láka jednoducho skopírovať tabuľku z rozpoznaného dokumentu do Wordu a jednoducho vložiť do Excelu. Niekedy to funguje, ale častejšie to vedie k najrôznejším skresleniam údajov – čísla sa napríklad môžu zmeniť na dátumy alebo zostať textom, ako v našom prípade, pretože. PDF používa bez oddeľovačov:

Importujte údaje z PDF do Excelu cez Power Query

Takže neškrtajme, ale urobme všetko trochu komplikovanejšie, ale správne.

Krok 2: Uložte dokument ako webovú stránku

Na následné načítanie prijatých údajov do Excelu (cez Power Query) je potrebné náš dokument vo Worde uložiť vo formáte webovej stránky – tento formát je v tomto prípade akýmsi spoločným menovateľom Wordu a Excelu.

Ak to chcete urobiť, prejdite do ponuky Súbor – Uložiť ako (Súbor — Uložiť ako) alebo stlačte kláves F12 na klávesnici a v okne, ktoré sa otvorí, vyberte typ súboru Webová stránka v jednom súbore (Webová stránka – jeden súbor):

Importujte údaje z PDF do Excelu cez Power Query

Po uložení by ste mali dostať súbor s príponou mhtml (ak vidíte prípony súborov v Prieskumníkovi).

Fáza 3. Odovzdanie súboru do Excelu cez Power Query

Vytvorený súbor MHTML môžete otvoriť priamo v Exceli, ale potom dostaneme po prvé celý obsah PDF naraz spolu s textom a kopou nepotrebných tabuliek a po druhé opäť prídeme o údaje v dôsledku nesprávneho separátory. Preto import do Excelu urobíme cez doplnok Power Query. Ide o úplne bezplatný doplnok, pomocou ktorého môžete nahrať dáta do Excelu z takmer akéhokoľvek zdroja (súbory, priečinky, databázy, ERP systémy) a následne prijaté dáta všemožne transformovať a dať im požadovaný tvar.

Ak máte Excel 2010-2013, môžete si Power Query stiahnuť z oficiálnej stránky Microsoftu – po inštalácii sa vám zobrazí karta mocenský dotaz. Ak máte Excel 2016 alebo novší, nemusíte nič sťahovať – všetky funkcie sú už štandardne zabudované v Exceli a nachádzajú sa na karte dátum (Dátum) v skupine Stiahnite si a prevádzajte (Získať a transformovať).

Ideme teda buď na kartu dátumalebo na karte mocenský dotaz a vyberte si tím Na získanie údajov or Vytvoriť dotaz – Zo súboru – Z XML. Aby boli viditeľné nielen súbory XML, zmeňte filtre v rozbaľovacom zozname v pravom dolnom rohu okna na Všetky súbory (Všetky súbory) a špecifikujte náš súbor MHTML:

Importujte údaje z PDF do Excelu cez Power Query

Upozorňujeme, že import sa nedokončí úspešne, pretože. Power Query od nás očakáva XML, ale v skutočnosti máme formát HTML. Preto v nasledujúcom okne, ktoré sa zobrazí, budete musieť kliknúť pravým tlačidlom myši na súbor nezrozumiteľný pre Power Query a zadať jeho formát:

Importujte údaje z PDF do Excelu cez Power Query

Potom bude súbor správne rozpoznaný a uvidíme zoznam všetkých tabuliek, ktoré obsahuje:

Importujte údaje z PDF do Excelu cez Power Query

Obsah tabuliek zobrazíte kliknutím ľavým tlačidlom myši na bielom pozadí (nie v slove Tabuľka!) buniek v stĺpci Údaje.

Keď je požadovaná tabuľka definovaná, kliknite na zelené slovo Tabuľka – a „prepadnete“ do jeho obsahu:

Importujte údaje z PDF do Excelu cez Power Query

Zostáva urobiť niekoľko jednoduchých krokov na „česanie“ jeho obsahu, a to:

  1. odstráňte nepotrebné stĺpce (kliknite pravým tlačidlom myši na hlavičku stĺpca – odstrániť)
  2. nahraďte bodky čiarkami (vyberte stĺpce, kliknite pravým tlačidlom myši – Nahradenie hodnôt)
  3. odstráňte znamienko rovnosti v hlavičke (vyberte stĺpce, kliknite pravým tlačidlom myši – Nahradenie hodnôt)
  4. odstráňte horný riadok (Domov – Vymazať riadky – Vymazať horné riadky)
  5. odstráňte prázdne riadky (Domov – Odstrániť riadky – Odstrániť prázdne riadky)
  6. zdvihnite prvý riadok na hlavičku tabuľky (Domov – použite prvý riadok ako nadpisy)
  7. odfiltrovať nepotrebné údaje pomocou filtra

Keď sa tabuľka dostane do normálnej podoby, môže sa pomocou príkazu vyložiť na hárok zavrieť a stiahnuť (Zavrieť a načítať) on Hlavné tab. A získame takú krásu, s ktorou už môžeme pracovať:

Importujte údaje z PDF do Excelu cez Power Query

  • Transformácia stĺpca na tabuľku pomocou Power Query
  • Rozdelenie lepkavého textu do stĺpcov

Nechaj odpoveď