Extraktovanie textu z PDF

Upozornění: Tohle vlákno je hodně staré a informace nemusí být platné pro současné Nette.
iNviNho
Člen | 352
+
0
-

Ahojte chalani,

mám jeden off-topic. Parsujeme zmluvy, ktoré sú na www.crz.gov.sk a vyťahujeme z nich potrebné informácie. Používal som triedu http://pastebin.com/dvwySU1a ktorá bola funkčná, ale nie na všetky PDF. Niektoré PDF sú inej verzie a text nie je 100% správne vytiahnutý a potom neprebehne správne regex.

Požiadal som o pomoc „kamaráta kamaráta“ a dostal som odkaz na jeho git knižnicu, ktorú napísal pre náš konkrétny prípad https://github.com/…ak/pdf2email . Používa poppler-utils, ktoré sú dostupné len na linux a v tejto sfére som zatiaľ dosť mimo. Nepodarilo sa mi nájsť žiadnu inú PHP knižnicu a taktiež neviem ako rozbehať tento „linux“ prípad.

Nenašiel by sa nejaký nápad alebo odporúčanie na knižnicu ako na to, alebo iná forma pomoci?

Ďakujem.

Príklad:
Zmluva https://www.crz.gov.sk/index.php?… vlavo ZMLUVA PDF
Na zmluvu je aplikovaný regex:

<?php
$regex = "/[a-zA-Z0-9\.\-\_]*@[a-zA-Z0-9\.\-\_]*/i";
?>

Po extrahovaní textu cez php knižnicu dostanem výsledok „@“
Po použíti pdftotext z poppler-utils dostanem správne vrátení e-mail "jjj.figurova@gmail.com"

iguana007
Člen | 970
+
+1
-

Ahoj,
zatim jsem takovou feature nepotreboval, ale po rychlem vyhledani na google by jsem zkusil toto: https://github.com/…ot/pdfparser

iNviNho
Člen | 352
+
0
-

@iguana007 niečo sa mi marí, že aj tejto knižnici som dal už priestor a mal som podobný problém ako issue spred 7 dní kde máme napríklad v PDF „Text mail@mail.com dalsi text“ a to pdfko ho vrátilo ako „textmail@mail.com dalsi text“ napríklad :-\ Ak som ho skúšal, tak min 2 mesiace dozadu. Vyskúšam večer,

zatiaľ krásne dakujem.

iguana007
Člen | 970
+
+1
-

V tom pripade by jsem zkusil prohnat ten text via nejaky encoder do UTF entit, mozna tam v tom PDF pred emailem je nejaky znak, ktery sice vypada jako mezera, ale neni ;)

iNviNho
Člen | 352
+
+1
-

Ďakujem, zatial po testoch vyzerá, že všetko fachčí :)