Extraktovanie textu z PDF
- iNviNho
- Člen | 352
Ahojte chalani,
mám jeden off-topic. Parsujeme zmluvy, ktoré sú na www.crz.gov.sk a vyťahujeme z nich potrebné informácie. Používal som triedu http://pastebin.com/dvwySU1a ktorá bola funkčná, ale nie na všetky PDF. Niektoré PDF sú inej verzie a text nie je 100% správne vytiahnutý a potom neprebehne správne regex.
Požiadal som o pomoc „kamaráta kamaráta“ a dostal som odkaz na jeho git knižnicu, ktorú napísal pre náš konkrétny prípad https://github.com/…ak/pdf2email . Používa poppler-utils, ktoré sú dostupné len na linux a v tejto sfére som zatiaľ dosť mimo. Nepodarilo sa mi nájsť žiadnu inú PHP knižnicu a taktiež neviem ako rozbehať tento „linux“ prípad.
Nenašiel by sa nejaký nápad alebo odporúčanie na knižnicu ako na to, alebo iná forma pomoci?
Ďakujem.
Príklad:
Zmluva https://www.crz.gov.sk/index.php?… vlavo ZMLUVA PDF
Na zmluvu je aplikovaný regex:
<?php
$regex = "/[a-zA-Z0-9\.\-\_]*@[a-zA-Z0-9\.\-\_]*/i";
?>
Po extrahovaní textu cez php knižnicu dostanem výsledok „@“
Po použíti pdftotext z poppler-utils dostanem správne vrátení e-mail
"jjj.figurova@gmail.com"
- iguana007
- Člen | 970
Ahoj,
zatim jsem takovou feature nepotreboval, ale po rychlem vyhledani na google by
jsem zkusil toto: https://github.com/…ot/pdfparser
- iNviNho
- Člen | 352
@iguana007 niečo sa mi marí, že aj tejto knižnici som dal už priestor a mal som podobný problém ako issue spred 7 dní kde máme napríklad v PDF „Text mail@mail.com dalsi text“ a to pdfko ho vrátilo ako „textmail@mail.com dalsi text“ napríklad :-\ Ak som ho skúšal, tak min 2 mesiace dozadu. Vyskúšam večer,
zatiaľ krásne dakujem.