miauのブログ

はてなダイアリー「miauの避難所」をはてなブログに移行しました。 https://zenn.dev/miau に移行しようと考え中

ScanSnap S1500 でのスキャン方針

自炊話みっつめ。ScanSnap S1500 は主に技術書のスキャンに使ってきたわけですが、その目的や方針について書いておきます。わりと普通だと思います。

目的

2006 年くらいに 本棚を新調 して、「これで心置きなく新しい本が買えるぞー」と喜んでたわけですが。調子に乗って本を買ってたら、あっさり一杯になってしまって。置けない本は会社に置いたりしてました。

ところが会社がフリーアドレス制になるとかで、これを持ち帰る必要が出てきて。ただでさえいっぱいだった部屋に 100 冊くらい本が増えてしまいました。このままでは身動きできないし、仕事中に参照したい情報も結構あるし、これはスキャンするしかないなということで当時定番だった ScanSnap S1500 と PK-513L を買ったのでした。

いざってときに色々な情報を参照できるように本を増やしていたわけですが、それぞれの本についてスキャンされた状態がゴールに変わった場合、資産と思っていた大量の本が負債になって返ってきます。本をいずれスキャンしようと思ってるなら早く着手しておいたほうがいいです。

ターゲット

うちにあるのはほとんどが技術書とマンガなんですが、

  • スキャンして外で読めるようになるとメリットが多い
  • 一冊あたりの体積が大きい
  • 余白が大きいし見開きがないので断裁の難易度が低い

ので、技術書から手をつけることにしました。洋書ではたまにハードカバーのものもありますが、これは後回しということで。

本を断裁したり捨てたりするのは、心理的にわりとこたえます。リファレンス性が高くて優先的にスキャンしたい本ほど、長く読まれることを想定してしっかり製本されていて断裁が大変だったりして。「本で読みたくなったらまた買えばいいし」「絶版書は国会図書館で読めるし」とかなんとか自分を騙して進めてました。もっと色々な本が電子書籍で出てくれるといいんですけどね・・・。

スキャンの前に

全ページに目を通してからスキャンするようにしてます。せっかくデータが引き出せる状態になっても、データを引き出すためのインデックスが脳内にないと意味がないので。

つい時間をかけて読んでしまうこともあって、この作業がボトルネックになってたりするんですが・・・。10 年前に読んだ本は内容もわりと忘れてしまっているので、復習になってなかなかいいです。

方針

ジャケット(カバー)&帯

技術書サイズだと ScanSnap S1500 で読み込めないものがほとんどですし、読み込めるものも

  • 360mm 以上の長さがあると長尺読み取りにする必要がある
  • 画質がエクセレントの設定では長尺読み取りできない

という制限があり、300dpi に落とさないとスキャンできなかったりするので、フラットベッドスキャナーを買ってから考えることにして、スキャンせずにとってあります。

保管用には リヒトラブ クリヤーブック G3117-8 A2L 20ポケット ブルー を使っています。職場近所の文具屋で買ったんですが、買うときに「売っといてなんだけど、こんな大きいの何に使うの?」って言われたりする程度に大きなファイルです。それでも大きめの本のカバーは入りきってませんけど、傷めずに保管はできてそうです。

表紙&裏表紙

本体と一緒に断裁してます。

一時期は

この方法で分離していたんですが、技術書は背の部分にそれほど重要な情報がないし、見返しが破れてしまうこともあるのでやめてしまいました。マンガのスキャンときは分離したほうがよさそうですね。

見返し

表紙をめって一枚目に色のついた紙がついていることがありますが、この紙のことです。

ジャケットと本体と貼り合わせるためにあり、表紙側を「きき紙」、反対側を「遊び紙」と呼んで区別するそうです。

技術書の中にはこの部分にチートシートがついていることもありますし、そうでなくても色はわりと記憶を刺激してくれるので、1 ページくらいはスキャンしておきたいと思っている部分です。

ということで、

という方針でやってます。

表紙ときき紙を接着した場合、裏側の摩擦形数が大きくなるため、パッドユニットを採用している S1500 ではブレーキがかかる形になり用紙読み取りがスムーズにいきません。(fi シリーズや ix500 ではブレーキローラーを採用しているので問題ないと思います。)結果として、グラデーションがかかった縦長なスキャン結果になったりします。


(失敗例。元は単色刷りですが、上部にカラフルな帯が入っています。関係ないですけどグラデーションのかかり方を見ると BGR の順でセンサがありそうですね。 ※他の画像を見ると逆のグラデーションもあったので違うかも。)

対策として、表紙をスキャンする時は原稿を一枚だけセットし、パッドユニットを取り外すようにしていました。キャリアシートを使ってもいいかもしれません。

本体

技術書は余白が大きいし見開きもないので、多めに断裁していました。ぎりぎりのラインを攻めると糊が残ることがあって、読み取り面に付着すると面倒なので。

スキャン時の設定

本については

  • 画質: エクセレント(カラー 600dpi)
  • カラーモード: カラー
  • 読み取り面: 両面
  • 継続読み取り: 有効
  • その他オプション: すべて OFF
  • ファイル形式: PDF
  • 圧縮率: 圧縮 1

の設定です。物を捨てるのが苦手な私は情報を捨てるのも苦手なので、なるべく情報の欠落が少ない設定にしています。データの保存先が足りないなら HDD を足せばいいですし、読みやすくするのは後でいくらでもできるので。

技術書だからこの設定でよかったのですが、マンガをスキャンする際は端の情報が失われないように JPEG で保存したほうがいいかもしれないですね。

その他書類等もスキャンしてましたが、その時はグレースケールにしたり 300 dpi にしたり、1枚だけでプレビューしたほうが便利そうなものは JPEG にしたり、「捨ててもいい」と思える割合に応じて色々です。

あとは、サイズが大きかったりページ数が多い本については、%TEMP%\JpgTmp を見て 2GB になる前にスキャンを終わらせたりしてまました。

スキャン後

S1500 のスキャン後の画像はややぼやけた感じになります。


(オプションなしでスキャンしたもの)

「文字をくっきりします」オプションを使うと改善はするんですけど、まだぼやけた感じは残ります。


(「文字をくっきりします」オプションでスキャンしたもの)

Acrobat で ClearScan で OCR 認識させると、境界がくっきりします。


(オプションなしでスキャンし、ClearScan を通したもの)

文字がぼやけていると、目のフォーカスがあってないと勘違いして脳ががんばるせいか、読んでいて妙に疲れるんですよね。ClearScan は字形が多少崩れたり、まれに不要な回転がかかったりと問題も多いんですが、サイズは小さくなるし検索もできるようになるしでお手軽なのでこの方法を使ってます。

電子書籍と比べた利点?

ちなみに、スキャンして OCR にかけるくらいなら、電子書籍を買ったほうが

  • 手間がかからない
  • 元データから作るので、精度が高くファイルサイズも小さい
  • 割安な場合も多い

ということでいいのですが。唯一スキャン+OCR の利点かもしれないなと思ったのが、画像部分に対してもたまに検索が可能になることです。


(画像が検索できた例)

これが役に立つかは謎ですけどね。