2009年05月10日

書籍のデジタル化

放っておいても増えるのはお金…、ではなく本とCDとDVD(最近はBlu-ray)です。

保存スペースの確保には色々と苦労しています。
CDはこんなものを使って省スペース化してますが、本となるとそうはいきません。
そこで浮上したのが書籍をデジタル化するという方法です。

最近はGoogleやAmazonが書籍のデジタル化に積極的に動いています。音楽がCDというメディアから移行しつつあるように、書籍も紙というメディアから移行する時なのかもしれません。
(もっともGoogleのやり方や著作権に対する考え方には納得いきませんが)

以前より、教則本やゲームの攻略本はPDF化していたのですが、小説のデジタル化には手を出していませんでした。
というのも、教則本やゲームの攻略本は図表などがあるので、レイアウトを保つと言う意味でもPDF化はもってこいなのですが、小説、特に文庫本は違います。
(僕はハードカバーの本はほとんど買いません。文庫落ちするまでひたすら待ちます。買ってもせいぜいノベルズ版です)
ところが、文庫本をPDF化しても、ファイルサイズが大きくなってしまうし、外出先で読むには不便になってしまい、文庫本の長所がなくなってしまいます。。
最近はスマートフォンでPDFも閲覧できますが画面が小さいため、快適に閲覧するにはネットブック以上の画面サイズが必要でしょう。中にはいつでもどこにでもネットブックを持って行くのでPDFでいい、という強者がいるかもしれませんが(笑)
僕はネットブックも持っていないし、欲しいとも思わないのですが、持っていても駅前とかでの待ち合わせ中にネットブックを開いて読書なんて腕が疲れることはしたくありません。
しかし、テキスト化したデータならケータイの画面サイズでも読めます。最近はケータイ小説というジャンルもあるくらいです(もう下火かな?)。
しかし、ただ単純にテキスト化しても、通常の小説にある「ルビ」や「傍点」などの情報がなくなってしまいます。
一般に電子書籍と言われるものは、そういった情報も扱えるデータ形式になっています。しかし多くの電子書籍の形式は、誰でも簡単に扱えるものではありません。
誰でも簡単に扱える電子書籍のデータ形式。それが青空文庫形式です。
青空文庫形式とはその名の通り、「青空文庫」で用いられている形式です。
この青空文庫形式は広く使われており、ネットには個人でアップした小説が数多くありますが、大半はこの形式に沿ったものです。しかもiPhoneには青空文庫形式のデータを扱えるAppが数種類あります。これを使わない手はありません。

前置きが長くなりましたが、では、書籍をテキスト化するにはどの様なプロセスが必要なのでしょうか。以下が簡単なフローです。
 @書籍をスキャニング
 AOCRアプリで画像データからテキストデータを抽出
 Bテキストデータを校正、加工し青空文庫形式にする

そんな訳で、積ん読本の中から、シリーズ物でなく、薄く、作者に特に思い入れのない『失踪HOLIDAY』を選んで作業を開始しました。
が、Aで早くも挫折…
ただ読むのではなく、一字一句間違っていないかチェックしながら読むというのは、想像以上の労力が必要でした。 青空文庫の工作員すごいです。

そんな訳で、当初の目的を完遂することを諦め、なんとか楽にiPhoneで本を読めないかと、ネットを彷徨っていたら「MeTilTran」というアプリを発見しました!
Windows版なのですが、「画像ファイルの版組を解析して、指定した条件(画素数や文字の大きさなど)にしたがって版組しなおしてくれる」というスグレモノ!
いやあ、こんなアプリをタダで配布してくれるなんて、作者さんなんて太っ腹!

変なところで改行したり、句読点の禁則処理が出来ない、など不具合?はありますが、そんなものは脳内補間で補えます。
これで、読書ペースも上がるかもしれません(笑)
posted by smoky_air at 16:27| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。