カテゴリー: PDF
Acrobat DC の OCR失敗時は様々なメッセージが表示される件
Acrobat DC の OCR失敗時は様々なエラーメッセージが表示されるので原因究明が困難になります。例えば以下のようなメッセージがあります。
PDFを白黒反転して疲れ目を防ぐ方法 2022年版
ナイトモード、(またはダークモード、ダークテーマ)にしていれば疲れ目を防ぐことは出来ますが、PDFの文書だけは紙ベースで作られていることが多いため、表示すると画面が真っ白く光り輝いてしまいます。長時間PDFを眺めたり、PDFの編集作業をするときなど、もう眩しくて仕方ありません。ここでは真っ白なPDFを反転させる方法を解説します。
ここで紹介する方法は、PDFの表示だけ黒くする方法なので、そのPDFを別のPCに持っていけば、ちゃんと白く表示されていますからご安心ください。
ネットでは様々な方法が挙げられていますが、AcrobatDCであれば、標準でその方法をサポートしています。別のPDFビューアを入れる必要もありません。ツールにかけて色を反転したPDFを作成する必要もありません。
Acrobat OCR パラメーターが正しくありません の対策
AcrobatのOCR機能は本当に貧弱です。認識精度も複合機のOCR機能に負けています。未だにAIを使ってないからでしょう。はやくAIを使ってほしいです。
そんなPDFの開祖であるはずのAcrobatで以下のエラーが出る場合があります。
エラーメッセージ
次のエラーにより、現在のページを正しく認識されたページで置き換えることができません
パラメーターが正しくなりません。
メモリまたはディスク領域が不足している可能性があります。
もちろん、ディスクもメモリも潤沢に積んでおります。メモリは64Gあります。しかもこのバグは発生すると全ページに処理が終わるまでダイアログが表示され続けるという愚か仕様。公式サイトの情報もいつもどおりの解決策を示さない回答。
以下、こちらで調べた原因と対策です。
mac OS 版 Acrobat DC のOCR機能で全文字が文字化けする問題
mac OS 版 Acrobat DC にはOCR機能で全文字が文字化けするという問題があります。これは mac OS 版 のみの不具合と思われます。もともとのファイルの設定情報やフォント情報などは関係ありません。
ネット上では、OCRは文字化けが起こるものだから諦めなさいみたいな記事もあるのですが、そうじゃなくてもう文字コードが狂っちゃってるんですよね。
PDFファイル内の特定文字列を置き換える、または削除する
PDFの特定文字列を置き換えたいシチュエーションが会ったのですが、なかなかうまい方法が見つかりませんでした。暫定的な方法は見つかったのでまとめておきます。もっと効果的な方法を探したいところですが、この方法でとりあえあず可能です。
1.Acrobat dcで開く。
2.Ctrl+Fで検索ダイアログを表示して置き換えメニューをプルダウン。置き換えたい新しい文字列を入力
3.検索実行。全ページに対して適用したい場合は、よくわからないけけどトリプルクリックくらいで全ページに適用されました。このあたりのUIはよくわかりません。
有料のAcrobatDCが必要になるので、PDFTKとかでサクッと済ませたいところです。また方法がわかりましたら追記します。
こちらを参考しました
複数のPDF内の同じ単語を置換。Acrobat DCの「高度な検索」と「検索と置換」の使いこなし術 #Acrobat DC
https://blog.adobe.com/jp/publish/2016/02/23/hidden-gems-of-acrobat-dc-edit-the-same-word-across-several-pdfs
追記
pdf_redactorというPythonライブラリを使ってみましたが、文字数が違うと文字化けしたり、意図してないところが置き換わったりして正常動作しませんでした。バージョンを上げたりPDFの形式を調整したらなんとかなるのかもしれませんが、まだまだって感じです。それまでは上記のAcrobatDCの方法でいいんじゃないかなー
AcrobatDCのOCR機能が動かない 原因不明のエラー
ずっと mac OS 版のAcrobatDC を使っていたから気付かなかったんですが、Windows版AcrobatDCのOCR機能で以下のようなエラーが発生します。
Adobeのフォーラムにあった現象と同じですが、私はこちらの方法では解決しませんでしたので対策をご紹介します。
エラーメッセージ
次の理由により、このページのテキスト認識を実行できませんでした。
原因不明のエラーが発生しました。
エラー対策 pdftk Warning: unexpected case 1 in LoadDataFile(); continuing
PDF操作のための便利ツール、 pdftk で目次情報をインポートしようとしたときに以下のエラーが表示される場合があります。このエラーメッセージは色々な場合に発生するようなので、私の場合はあくまで一例です。
1 |
pdftk Warning: unexpected case 1 in LoadDataFile(); continuing |
原因
オプションで指定した文字コードと、実際に用意した目次ファイルの文字コードが違っていた。渡しの場合は、UTF8と指定したが、実物はUTF8-BOMになっていた。
対策
VSCODEでファイルをUTF8に直して、再度コマンドを実行した。正常実行の場合、メッセージは何も表示されない。
pdftk PDF を 重ね合わせ て、セルを重ね合わせた Excel シートを作る
Excelのセルの中では、文字を重ね合わせたりセルに背景をつけることはできません。そこで、そのシートに重ね合わせたい文字を印刷したPDFファイルを用意して、 PDFTK で 重ね合わせ てしまいましょう。
重ね合わせコマンドはmultistamp オプションを使用します。
PDF ファイルから メタ情報 メタタグ 個人情報 を 一括で削除する
PDF ファイルには メタ情報 (製作者、著者情報、ライセンス情報、個人情報、など)が埋め込まれています。変な情報は削除したつもりでも、意外と自分の本名がメタ情報に埋め込まれてたりしますので注意が必要です。今回は、この個人情報を一括で削除する方法を説明します。