また、Googleの宣伝になってしまうが、今度はGoogleのOCR機能についてだ。

Googleは以前よりOCRの機能を公開してきた。「GoogleDogs」の頃はアップロードした画像を片っ端から勝手に変換してきたが、「GoogleDrive」に移行してからはオペレータが変換処理を行わないと変換されなくなった。

これは便利そうだったので、何度か利用した事が有るが、以外と変換後の調整が難しかった。
何故って言うと識字率が悪く、ゴミも適当な文字に変換してしまっていたから、そのゴミの削除に大変だったという事だ。
文字の変換精度自体は非常に高いため、文字があるところは正しく文字として捉えるのだが、文字以外の部分との区別が付かないらしい。
その為、原稿用紙に書かれたような整理整頓された文章でないとかなり厳しかった記憶がある。

ただ、そんな話しも1〜2年前の事だった。

ちょうど最近、再び文字起こしが必要な機会が有り、GoogleDriveのODRを試して見た。
するとどうだろう!段組になった文章などもほぼ完璧に捉え、ゴミ文字の発生が殆ど無くなっている。
おそらくAIの発達により、変換すべき所と、そうで無いところの区別が付くようになったのだろう。

試しに、と或るカタログを変換してみよう。
OCRサンプル
左が元画像で、右が変換後のドキュメントで、何も触ってない状態だ。

敢えて画像などを多用しているページを選んだが、画像中の文字も正しく捉えているにも関わらず、その周りの余分な線等は取り込まず、文字の塊を混乱する事無く、改行も自然に読み込んでいる。

その為、OCR変換した文字列に正しく改行を加え、画像部部の文字を黒塗りすると・・・
OCRサンプル2

ほぼ完璧な文章となる。

「GoogleDrive」を使った文字起こしの方法は敢えて説明しませんが、いや〜スゴいデス!!