Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Ang gawain ng paglilipat ng data mula sa isang spreadsheet sa isang PDF file sa isang Microsoft Excel sheet ay palaging "masaya". Lalo na kung wala kang mamahaling software sa pagkilala tulad ng FineReader o isang katulad nito. Ang direktang pagkopya ay karaniwang hindi humahantong sa anumang mabuti, dahil. pagkatapos i-paste ang nakopyang data sa sheet, malamang na "magkadikit" sila sa isang column. Kaya't sila ay kailangang maingat na paghiwalayin gamit ang isang tool Teksto ayon sa mga hanay mula sa tab data (Data — Teksto sa Mga Hanay).

At siyempre, ang pagkopya ay posible lamang para sa mga PDF file kung saan mayroong isang layer ng teksto, ibig sabihin, sa isang dokumento na na-scan mula sa papel patungo sa PDF, hindi ito gagana sa prinsipyo.

Pero hindi naman masyadong nakakalungkot 🙂

Kung mayroon kang Office 2013 o 2016, pagkatapos ay sa loob ng ilang minuto, nang walang karagdagang mga programa, posible na maglipat ng data mula sa PDF sa Microsoft Excel. At makakatulong sa atin ang Word and Power Query dito.

Halimbawa, kunin natin ang ulat na PDF na ito na may maraming teksto, mga formula at talahanayan mula sa website ng Economic Commission for Europe:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

… at subukang alisin ito sa Excel, sabihin ang unang talahanayan:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Tayo na!

Hakbang 1. Buksan ang PDF sa Word

Sa ilang kadahilanan, kakaunti ang nakakaalam, ngunit mula noong 2013 natutunan ng Microsoft Word na buksan at kilalanin ang mga PDF file (kahit na ang mga na-scan, iyon ay, nang walang layer ng teksto!). Ginagawa ito sa isang ganap na karaniwang paraan: buksan ang Word, i-click File – Buksan (File — Buksan) at tukuyin ang format na PDF sa drop-down na listahan sa kanang sulok sa ibaba ng window.

Pagkatapos ay piliin ang PDF file na kailangan namin at i-click Pagbubukas (Buksan). Sinasabi sa amin ng Word na tatakbo ito ng OCR sa dokumentong ito upang mag-text:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Sumasang-ayon kami at sa ilang segundo makikita namin ang aming PDF na bukas para sa pag-edit na nasa Word na:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Siyempre, ang disenyo, estilo, font, header at footer, atbp. ay bahagyang lilipad sa dokumento, ngunit hindi ito mahalaga para sa amin – kailangan lang namin ng data mula sa mga talahanayan. Sa prinsipyo, sa yugtong ito, nakatutukso na lamang na kopyahin ang talahanayan mula sa kinikilalang dokumento sa Word at i-paste lamang ito sa Excel. Minsan ito ay gumagana, ngunit mas madalas na humahantong ito sa lahat ng uri ng mga pagbaluktot ng data - halimbawa, ang mga numero ay maaaring maging mga petsa o manatiling teksto, tulad ng sa aming kaso, dahil. Gumagamit ang PDF ng mga hindi separator:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Kaya't huwag tayong maghiwa-hiwalay, ngunit gawing mas kumplikado ang lahat, ngunit tama.

Hakbang 2: I-save ang Dokumento bilang isang Web Page

Upang pagkatapos ay mai-load ang natanggap na data sa Excel (sa pamamagitan ng Power Query), ang aming dokumento sa Word ay kailangang i-save sa format ng web page - ang format na ito ay, sa kasong ito, isang uri ng karaniwang denominator sa pagitan ng Word at Excel.

Upang gawin ito, pumunta sa menu File – I-save Bilang (File — I-save Bilang) o pindutin ang key F12 sa keyboard at sa window na bubukas, piliin ang uri ng file Web page sa isang file (Webpage — Isang file):

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Pagkatapos mag-save, dapat kang makakuha ng file na may extension ng mhtml (kung nakikita mo ang mga extension ng file sa Explorer).

Stage 3. Pag-upload ng file sa Excel sa pamamagitan ng Power Query

Maaari mong buksan ang nilikha na MHTML file sa Excel nang direkta, ngunit pagkatapos ay makukuha namin, una, ang lahat ng mga nilalaman ng PDF nang sabay-sabay, kasama ang teksto at isang grupo ng mga hindi kinakailangang mga talahanayan, at, pangalawa, muli kaming mawawalan ng data dahil sa hindi tama mga separator. Samakatuwid, gagawin namin ang pag-import sa Excel sa pamamagitan ng Power Query add-in. Ito ay isang ganap na libreng add-on kung saan maaari kang mag-upload ng data sa Excel mula sa halos anumang pinagmulan (mga file, folder, database, ERP system) at pagkatapos ay ibahin ang anyo ng natanggap na data sa lahat ng posibleng paraan, na binibigyan ito ng nais na hugis.

Kung mayroon kang Excel 2010-2013, maaari mong i-download ang Power Query mula sa opisyal na website ng Microsoft – pagkatapos ng pag-install makakakita ka ng tab kapangyarihan query. Kung mayroon kang Excel 2016 o mas bago, hindi mo kailangang mag-download ng anuman – ang lahat ng pag-andar ay naka-built na sa Excel bilang default at matatagpuan sa tab. data (Petsa) sa pangkat I-download at I-convert (Kumuha at Magbago).

Kaya pumunta kami sa alinman sa tab data, o sa tab kapangyarihan query at pumili ng isang pangkat Para makakuha ng data or Lumikha ng Query – Mula sa File – Mula sa XML. Upang gawing nakikita hindi lamang ang mga XML file, baguhin ang mga filter sa drop-down na listahan sa kanang sulok sa ibaba ng window upang Lahat ng mga file (Lahat ng file) at tukuyin ang aming MHTML file:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Pakitandaan na hindi matagumpay na makukumpleto ang pag-import, dahil. Inaasahan ng Power Query ang XML mula sa amin, ngunit mayroon talaga kaming HTML na format. Samakatuwid, sa susunod na window na lilitaw, kakailanganin mong mag-right-click sa file na hindi maintindihan ng Power Query at tukuyin ang format nito:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Pagkatapos nito, makikilala nang tama ang file at makikita namin ang isang listahan ng lahat ng mga talahanayan na nilalaman nito:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Maaari mong tingnan ang mga nilalaman ng mga talahanayan sa pamamagitan ng pag-click sa kaliwang pindutan ng mouse sa puting background (hindi sa salitang Talahanayan!) ng mga cell sa hanay ng Data.

Kapag tinukoy ang nais na talahanayan, mag-click sa berdeng salita mesa - at ikaw ay "nahuhulog" sa mga nilalaman nito:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

Ito ay nananatiling gumawa ng ilang simpleng hakbang upang "pagsuklay" ang mga nilalaman nito, lalo na:

  1. tanggalin ang mga hindi kinakailangang column (right-click sa header ng column – Alisin)
  2. palitan ang mga tuldok ng kuwit (pumili ng mga column, i-right-click – Pagpapalit ng mga halaga)
  3. alisin ang pantay na mga palatandaan sa header (piliin ang mga column, i-right-click - Pagpapalit ng mga halaga)
  4. alisin ang tuktok na linya (Tahanan – Tanggalin ang mga linya – Tanggalin ang mga nangungunang linya)
  5. alisin ang mga blangkong linya (Home – Tanggalin ang mga linya – Tanggalin ang mga walang laman na linya)
  6. itaas ang unang hilera sa header ng talahanayan (Home – Gamitin ang unang linya bilang mga heading)
  7. i-filter ang hindi kinakailangang data gamit ang isang filter

Kapag ang talahanayan ay dinala sa normal nitong anyo, maaari itong i-unload sa sheet gamit ang command isara at i-download (Isara at I-load) on Ang pangunahing tab. At makakakuha tayo ng gayong kagandahan kung saan maaari na tayong magtrabaho:

Mag-import ng data mula sa PDF papunta sa Excel sa pamamagitan ng Power Query

  • Pagbabago ng Column sa isang Table na may Power Query
  • Paghahati ng malagkit na teksto sa mga column

Mag-iwan ng Sagot