グレースケールでスキャンしたPDFを白黒変換する方法

scansnap s1500を使い、グレースケールの300dpiモードで自炊・本の電子化したPDFを白黒(単色・2色)モードに変換する方法を紹介します。

この方法は、すでにスキャンした本や書類を捨ててしまい、手元にグレースケールの300dpiしか残っていない人向けです。

原稿を白黒・600dpiで直接スキャンしたデータに比べると質が落ちると思いますので、念のため元データは捨てず、保存しておいた方が良いと思います。また、PDFの色が薄い文字(本・書類をスキャンした)画像を濃くする合わせてもご参考ください。

 

グレースケールから白黒へ変換するメリット

scansnapのグレースケールで自炊した場合、「モニターやキンドル(電子ペーパー)、印刷したとき薄く見えて困る」、「現在あるキンドル(Kindle)・ipadなどの電子リーダーだと記憶容量が少なくPDFのサイズが相対的に大きく感じる」などで、デメリットがあります。

この問題に対処する方法として白黒変換へが有効です。ただし写真や図などがある場合、その部分は見にくい状態になるので文字が中心の本・書類向けです(漫画はたぶん?向きません)。

 

各画像の比較

右側がscansnapのグレースケールくっきりモード。中央がscansnapのグレースケールくっきりモードにacrobatのファイルサイズ縮小を適応。左側が右側の画像を白黒に変換。

ファイルサイズ縮小を適応したpdfは、圧縮の影響で文字の周りがかなり滲んでいます。

 

ファイルサイズの比較。上からscansnapグレースケールくっきりモード(300dpi)、scansnapグレースケールくっきりモードをacrobatのファイルサイズ縮小を適応(300dpi)、白黒(600dpi)に変換したpdf。ファイルサイズ縮小が一番サイズが小さいですが、上記の通り文字が強く滲むので実用性には?がつきます。

 

グレースケールから白黒へ変換手順

  1. まず変換したいPDFから画像を書き出す。
  2. 画像ソフト・変換ツールを使いグレースケールから白黒へ変換。
  3. 変換後の白黒画像をPDFに変換する。

 

変換したいPDFから画像を書き出す

Adobe Acrobatをお持ちの方は、下記の方法で吐き出せます。対象PDFをAcrobatで開き、メニューバーから「ファイル→書き出し→画像→jpeg」で吐き出します。

 

保存先のフォルダを指定したら「保存」ボタンを押します。

 

画像ソフト・変換ツールを使いグレースケールから白黒へ変換

ここでは、各画像(本のページ数分)に対して、「明るさ、画像の拡大、減色」などの調整を行います。

しかし、各画像に対して、手作業で行うと途方もない時間が掛かりますので、バッチ処理(複数の画像ファイルに対して、明るさなど変更する作業を一括で自動で行ってくれる機能。ソフトによってはコマンド処理といっている場合もあります)で、対応します。

バッチ処理ができるソフトとしては、Photoshop/Fireworksが有名ですが、高価ですし今回の作業の場合、若干手間がかかりますので、無料のフリーソフトで簡単にできるXnView*を使用することにします。

* XnViewについては下記サイトを参考ください。
窓の杜 XnView
http://www.forest.impress.co.jp/library/software/xnview/

Wikipedia XnView
http://ja.wikipedia.org/wiki/XnView

 

グレースケールの状態で自分の好みの濃さを求めます

※ 濃さに不満がなければこの部分は飛ばしてください。

白黒にするのだから濃さは関係ないのでは?と思いますが、色が薄い状態だと変換時に薄いグレーが白と判定される場合が多く、変換後の画像でギザギザが目立つ傾向があります。ですので、変換前にある程度しっかりした濃さにする必要があります。

XnViewを起動するとファイル選択画面になるので、先程吐き出した画像フォルダを選択し、どれか画像をクリックします。

 

選択した画像が大きく表示されます。このモードで、メニューバーの「画像→修正→明るさ/コントラスト/ガンマ/カラーバランス」を選択します。

 

画像修正パネルが出ますので、コントラスト、ガンマなどをいじって自分の好みの濃さを割り出し、各数字をメモします。

メモをしたらキャンセルで閉じて、上のタブをダブルクリックすると、さらにこの編集画面が閉じられ起動時の画面に戻ります。

 

全ての画像に対して、濃さとdpi、カラー変換を行います

全ての画像に対して変更を自動で行います。メニューバーの「ツール→一括変換」を選択します。

 

先程開いたファイルがひとつリストに入ってしまっていると思うので、ある場合は一度削除します。さらにその下にある、変換後のファイル出力に対して指定を行います。変換ファイルの吐き出し場所と画像形式です。

 

フォルダーの追加ボタンを押下し、先程PDFから吐き出した画像フォルダを選択すると、画像のように全てのファイルが選択されます。形式はjpgeではなくTIFFを指定します(下記で、モノクロ2進法変換を指定するので、吐き出されるTIFFは白黒モードの1ビットになります)。

 

次に、「変形」のタブをクリックして、指定した画像に対して先程調べた、コントラストなどの指定を行います。

左側のコマンドリスト内から下記の順番で、コマンドの指定を行います。

サイズ変更 幅・高さ共に200%(固縦横率) リサンプル Lanczos
コントラスト 45
ガンマ 0.44
グレースケール 64
グレースケール 32
グレースケール 16
グレースケール 8
グレースケール 4
モノクロ2進法変換 ディザなし
DPI設定 X/Y共に600
※コントラスト、ガンマはお好みで調整してください。

 

300dpiから600dpiへの拡大とグレースケール減色を何度も適応する理由

jpgeのグレースケールモードは、白から黒まで色の変化を256段階(256色)で、表現されています。

この256段階から白黒の2段階(2色)へ一気に変換すると、黒か白か微妙な色の情報を捨てることになり、文字のかすれ原因になります。

 

上記の画像では、「自」など文字で、違いがあらわれてまいす。そこで、256→64→32・・・と徐々に減色させることで、なるべく画像情報を残すように工夫します。

また、はじめに解像度を上げてから減色を行うことで、減色時の画像情報欠落を画素で補っています。

もし、今後同じように画像を濃くする作業を行う場合は、スクリプトの項目で名前を付けて保存をすると次回からこの入力作業しなくて済みます(次回はスクリプト欄から今付けた名前を選択するだけでコントラストなど各数値が呼び出せる)。

ちなみに、コマンドリスト内には画像のトリミング機能などもあるので、興味ある方は検証してみてください。

 

 

変換した白黒の画像確認を行います

先程指定した変換後のファイル保存場所に、変換した画像が出来てますので画像を確認します。

図や写真が含むページでは微妙に濃い・薄いなどが出てくる場合がありますので、そのようの画像は個別で手動で調整しなおします。

 

PDFに戻します

※ acrobatで、白黒のTIFFファイルをPDFに変換するとき、内部で保存する圧縮形式をCCITT Group4とJBIG2から選べます。ここではCCITT Group4の方をお勧めします(scansnapでスキャンした白黒モードもこちらです)。

両者を比較するとJBIG2の方が圧縮率が高い(約1割程度)のですが、acrobarやReaderで表示した場合、CCITTと比べるとワンテンポ遅れて表示されるので、少しストレスを感じると思います(憶測ですが、JBIG2の方が圧縮率が高い分、展開に時間が掛かっていると思われます)。

内部保存圧縮形式の変更は、メニューバーの「編集→環境設定→PDFへの変換→TIFF→設定を編集→白黒」から可能です。

Acrobatのメニューバーから「ファイル→結合→ファイルを単一のPDFに結合→ファイルを追加(→フォルダを追加)」で結合します。

 

先程の画像があるフォルダを指定します。

 

デフォルトでは、画像1枚毎にファイル名をしおりとして入る設定になっているので、邪魔だと思う人は、「オプションボタン→常にPDFファイルにしおりを追加する」のチェックを外すといいと思います(画像を別記事から流用のためjpgになってますが本来はTIFFです。下記同様)。

 

このような感じで変換されます。大体1ページ0.5秒程度の速度で変換されます。

 

これで、グレースケールから白黒への変換が完了です。後は名前を付けてPDFを保存して完了です。