Solved: PDF/A (XML) einlesen - Qlik Community

Stefan86 · ‎2019-08-27

Hallo,

ist es möglich eine PDF/A in QlikSense einzulesen?

Da QlikSense fast alles kann, wollte ich testen, ob es möglich ist, PDF/A-Dateien auszulesen, umzuwandeln und anschließend wieder als einfache XML (3 XML-Abschnitte) abzuspeichern.

Kurz gesagt, eine Datenkonvertierung vorzunehmen.

Das erstellen einer XML bzw. eigenltich eines Textfiles mit Endung ".XML" war einfach.
(Ist lediglich viel Tipparbeit)

Für das Einlesen der XML-Daten in einer PDF finde ich aber keinen Connector.
Zwar kann ich die "XML-Anhänge" manuell abspeichern und einlesen... Dies ist mir aber zu aufwendig.

Zudem suche ich noch nach einem Befehl der die Ursprungsdaten nach dem Einlesen verschiebt.
(letzteres werde ich wahrscheinlich aber einfach per täglichem Cronjob machen)

Momentan sieht es für mich leider so aus als wäre es nicht möglich eine PDF/A direkt einzulesen.

marcus_sommer · ‎2019-08-27

Eine PDF als solche kann nicht eingelesen werden. Ob man bestimmte Inhalte auslesen kann, wird vermutlich vor allem davon abhängen, wie diese eingebettet wurden (ich habe da keine größeren Kenntnisse, aber manche Inhalte lassen sich rauskopieren, andere nicht (meist als Graphik eingebettet) und häufig zerschießt es einem beim Kopieren auch die Formatierungen (insbesondere bei Tabellen-Layouts), aber auch das nicht immer).

Diesen Gedanken als Ausgangspunkt, könnte man mal versuchen die PDF als XML einzulesen (ähnlich wie man es bei einer QVW/QVD machen kann), vielleicht werden die Tabellen ja erkannt (muss natürlich auch aus Qlik-sicht valide XML Strukturen haben). Ansonsten könnte man auch noch versuchen das PDF als TXT einzulesen und den XML Inhalt daraus zu extrahieren (hierzu wäre im Vorfeld aber Editor wie Notepad++ hilfreich, um genau zu schauen, ob man es überhaupt findet, um dann eine Extract-Logik darauf aufzubauen).

Falls nicht, wird wohl um Third-Party Tools zur Konvertierung nicht drum herum kommen, wobei diese auch grundsätzlich in den Qlik Load integriert werden könnte, ganz ähnlich wie beim Dateien kopieren/schieben/löschen, nur dass man das Tool direkt oder über eine Batch ausführt:

EXECUTE-command-to-MOVE-shared-files-but-DON-T-Overwrite

ps: für Execute muss man, glaube ich, den Legacy-Mode deaktivieren

- Marcus

View solution in original post

marcus_sommer · ‎2019-08-27

Eine PDF als solche kann nicht eingelesen werden. Ob man bestimmte Inhalte auslesen kann, wird vermutlich vor allem davon abhängen, wie diese eingebettet wurden (ich habe da keine größeren Kenntnisse, aber manche Inhalte lassen sich rauskopieren, andere nicht (meist als Graphik eingebettet) und häufig zerschießt es einem beim Kopieren auch die Formatierungen (insbesondere bei Tabellen-Layouts), aber auch das nicht immer).

Diesen Gedanken als Ausgangspunkt, könnte man mal versuchen die PDF als XML einzulesen (ähnlich wie man es bei einer QVW/QVD machen kann), vielleicht werden die Tabellen ja erkannt (muss natürlich auch aus Qlik-sicht valide XML Strukturen haben). Ansonsten könnte man auch noch versuchen das PDF als TXT einzulesen und den XML Inhalt daraus zu extrahieren (hierzu wäre im Vorfeld aber Editor wie Notepad++ hilfreich, um genau zu schauen, ob man es überhaupt findet, um dann eine Extract-Logik darauf aufzubauen).

Falls nicht, wird wohl um Third-Party Tools zur Konvertierung nicht drum herum kommen, wobei diese auch grundsätzlich in den Qlik Load integriert werden könnte, ganz ähnlich wie beim Dateien kopieren/schieben/löschen, nur dass man das Tool direkt oder über eine Batch ausführt:

EXECUTE-command-to-MOVE-shared-files-but-DON-T-Overwrite

ps: für Execute muss man, glaube ich, den Legacy-Mode deaktivieren

- Marcus

Stefan86 · ‎2019-08-29

Hallo Marcus,

vielen Dank für die Antwort.

- Das direkte Einlesen der PDF/A als XML funktioniert derzeit nicht.
Soweit ich mich schlau gemacht habe, müssen die Anhänge wohl immer vorher extrahiert werden.

- Das Auslesen der "PDF-Inhalte" (normale PDF) funktoniert bei meinen Daten ebenfalls nicht.
Die eingebette XML enthält deutlich mehr Rohdaten. Ich würde dann nicht die Informationen bekommen, die ich möchte.

- Beim Einlesen als TXT kann die PDF und der Anhang nicht unterschieden werden, weshalb nichts lesbares rauskommt.

Die Lösung ist daher nur:

Den XML-Anhang in der PDF über eine andere Software oder ein Batch-File zu extrahieren.

Ich hab hierzu schon mehrere java-Codes gefunden. Meistens rufen diese aber einfach nur eine Software auf.
Sobald ich eine für mich brauchbare Lösung gefunden habe, kann ich den Anhang einlesen (XML).

Stefan