PDF にOCRをかけたり、特殊なソフトで処理を行うと、 しおり 情報が消失することがあります。
そういった場合に、現状のしおり情報をテキストとして保存しておければ、再度、しおり情報を復元することができます。
また、この方法は、しおり情報が貧弱なPDFや、誤字脱字があるしおり情報をテキストとしてエクスポートしておき、テキストエディタで編集した後、再度、インポートするという方法にも使うことができます。
以下、その手順です。
使用するのは、PDFtkというソフトを使います。
Win/Mac/Linuxどれでも無料で使えます。有料版も有り。
Windows版にはGUIツールもありますが、基本的にはコマンドラインで処理するツールです。
Windowsの場合はコマンドプロンプトから、MacやLinuxの場合はコンソールから以下のコマンドを入力します。
既存のしおり情報のエクスポート
エクスポートは以下のコマンドを使います。
1 |
pdftk もとのPDFファイル名 dump_data_utf8 output 出力ファイル名 |
※ファイル名は両方ともフルパスが望ましいです。
※Windowsの場合は、書き込めないC:¥などに出力すると失敗します。(エラーメッセージが出ないので混乱の元)
出力形式はこんな感じ。
1 2 3 4 5 6 7 8 9 10 |
BookmarkBegin BookmarkTitle: 表紙 BookmarkLevel: 1 BookmarkPageNumber: 2 BookmarkBegin BookmarkTitle: はじめに BookmarkLevel: 1 BookmarkPageNumber: 6 BookmarkBegin ︙ |
BookmarkLevel が階層レベルを表していますので、ここを2とか3に変えることで、ディレクトリ構造を持ったしおりを作成することができます。
しおり情報の更新・インポート
先程のしおりファイルに変更を加えた後、既存のPDFファイルにしおり情報をインポートすることができます。
コマンドは以下の通り。
1 |
pdftk もとのPDFファイル名 update_info_utf8 しおりファイル名 output 出力PDFファイル名 |
※ファイル名はすべてフルパスが望ましい。
※しおり情報が消失しているPDFファイルにも適用することができます。
あわせて読みたい
PDFtkインストール時のエラーについて