Montag, 27. März 2017

PDF-Dateien mit pdfgrep durchsuchen

Möchte man PDF-Dateien die Text enthalten, auf bestimmte Textpassagen durchsuchen, bietet sich das Tool pdfgrep an.

Die einfache Anwendung: pdfgrep "Suchmuster" Pfad zur Datei

Hier ein Beispiel:

/awk$ pdfgrep "Muster" awk.pdf

2.5.1 Regeln (Muster-Aktion Paare) . . . . . . . . . . . . . . . .      . . . . . . . 22
               2.5.1.1 Muster . . . . . . . . . . . . . . . . . . . . . . .     . . . . . . . 22
aus einer Reihe von Regeln (Muster-Aktion Paaren). Awk durchsucht eine oder mehrere
Dateien nach Zeilen, die zu einem der Muster passen; wird eine passende Zeile gefunden,
Ein Muster kann passende Datenzeilen über eine beliebigen Kombination von Regulären
abgelegt) und für jede Zeile (leeres Muster) wird das 2. Feld zur Variablen sum dazuaddiert.
Ein Awk -Programm besteht aus beliebig vielen Regeln (Muster-Aktion Paaren) und Funk-
2.5.1   Regeln (Muster-Aktion Paare)
Ein Muster ist entweder BEGIN, END, ein logischer Ausdruck (analog C), ein Regulärer Aus-
die in geschweifte Klammern einzuschließen sind. Ist ein Muster (für die aktuelle Eingabe-
zeile) wahr, so wird seine entsprechende Aktion ausgeführt. Entweder das Muster oder die
    • Muster fehlt: Für alle Eingabesätze wahr, d.h. die Aktion wird für alle Eingabesätze
2.5.1.1   Muster

Hier werden in der Shell alle  Textzeilen ausgegeben, die das Wort "Muster" enthalten.

Weitere Infos: https://wiki.ubuntuusers.de/pdfgrep/