PDF metaadatok módosítása

A PDF toolkittel – vagy röviden csak pdftk-val – egyszerűen módosíthatóak a pdf fájlok metaadatai. A telepítés Debian alatt csak egy apt-get install pdftk, de van Windowsos bináris is, bár azt nem próbáltam.

A metaadatok közül a Sony PRS-650 esetében a szerző és a cím a legérdekesebb. A dátum szerinti sorrendezésnél a felmásolás dátuma számít, nem a pdf fájlban lévő időpont.

Metaadatok lekérdezése:

$ pdftk original.pdf dump_data > pdf.data

Az így létrejött pdf.data fájl tartalma valami ilyesmi:

InfoKey: Creator
InfoValue: Writer
InfoKey: Title
InfoValue: árvíztűrő tükörfúrógép - ÁRVÍZTŰRŐ TÜKÖRFÚRÓGÉP
InfoKey: Producer
InfoValue: OpenOffice.org 3.2
InfoKey: Author
InfoValue: palacsint
InfoKey: CreationDate
InfoValue: D:20110727211139+02'00'
PdfID0: d52f66ef5c592704640f4c44af42383
PdfID1: d52f66ef5c592704640f4c44af42383
NumberOfPages: 1

A címet az „InfoKey: Title” utáni sorban lévő InfoValue után kell megadni, a szerzőt pedig az „InfoKey: Author” utáni sorban. A cím jelen esetben az „árvíztűrő tükörfúrógép - ÁRVÍZTŰRŐ TÜKÖRFÚRÓGÉP” szöveg. Értelemszerűen az ékezetes karaktereket a fenti formában kell megadni.

Végül a pdf.data módosítása után a metaadatok visszatöltése egy új fájlba:

$ pdftk original.pdf update_info pdf.data output metafix.pdf

Frissítés (2013. április 12.): Valamivel újabb Debianban már az escape-elés sem szükséges, UTF-8 karaktereket minden gond nélkül lehet használni a pdf.data fájlban.

Tartalom átvétel