紙の電子化?知らないと損する業務効率化のコツ

認識精度が高いOCRエンジン?それだけじゃ、実業務は回せないんです

2017年はRPAが流行った年でした。当たり前ですが、紙のままでは適用できないことに、いまさらのように多くのお客様が気づいています。やっぱり、まず紙からデジタルなデータへの変換が必要です。事実、調査会社Harvey Spencer Associates (HSA)によれば、世界のキャプチャー市場は2017年に10%以上成長したそうです。またそのホワイトペーパーによれば、キャプチャーはオペレーショナルからストラテジックへと位置付けが進化しているようです。

そんなキャプチャーですが、まだまだ日本ではキモとなる本質が理解されていないケースが少なくないようです。そもそも電子化の対象となるドキュメントが3種類あることをご存知でしょうか。

定型: フォーム上の決まった位置に決まった項目があり、これを対象として抽出するもの。わかりやすい例でいえば、はがきの郵便番号のようなものです。難しさはありますが、以前から高額なソリューションなどでチャレンジされてきた領域です。

非定型: Wordなどで作成された、純然たるドキュメント。MFPベンダーなどによるペーパーレス提案でよくある対象です。全文検索可能なPDFを生成したり、中にはOffice形式で保存したりできる複合機のオプションもあるようです。

半定型: 請求書など、必要とする表示項目は概ね決まっているものの、レイアウトが取引先などによってばらばらなもの。従来は対応が難しく、時にはBPOなどで人的な対応を行っていた領域です。これがデジタル化できれば、コストやスピードなどに大きなベネフィットが得られるはずです。

ベストプラクティス

特に半定型ドキュメントのデジタル化にあたっては、重要なポイントがあります。

1. スキャン品質

黙ってMFPでスキャンすると、朱い印影を認識して、勝手に150 ppi程度にJPEG圧縮したPDFを作ってくれたりします。JPEGはある意味で人間を欺くアルゴリズムを使っていますので人間には何となくわかりやすいのですが、文字認識エンジンには大きなお世話になります。むしろ白黒2値でLZWなど可逆圧縮したTIFFの方が、よほど有効です。また歪んだりかすれたりしていると、一定の補正は可能とはいえ、やはり認識の精度を下げることに直結します。

2. テンプレートと設定

微妙に異なる多様なレイアウトを相手にするわけですから、これに有効に対応することができるテンプレート機能がキモとなります。作りやすいか、自動的に作成する機能があるか、状況に応じたアルゴリズムを選択できるか、など、柔軟に対応できる仕組みが必要です。限定されたプロトタイプでは出ていたはずの性能が、広範な実業務では外れてしまう結果となりかねません。

3. 追加・変更対応

開発プロジェクトが終わって、業務が始まってからが本番です。新たな取引先や、時には先方のシステム改定でレイアウトが変わったりした際に、いちいちテンプレートの開発をベンダーに頼む必要があったり、また期間がかかったりするようでは、甚だしい逆行となりかねません。本番業務を運用しながら、スムーズに対応していけるメカニズムが必須です。またこうした仕組みがあれば、プロジェクトでも部分的な開発からスタートできるのも大きなメリットとなります。

4. その他

オペレーターが検証や入力を行うUXや、抽出されたデータをエクスポートする際の連携など、重要な要素は他にもあります。それでも優先順位は、上記よりも下と考えられます。

「分類」が重要なポイント

一般的なキャプチャーのプロセスあるいはステップは、次のような5段階と言われています。

この中で見逃されがちなのが「分類」(Classification)です。これは、そもそもこのドキュメントが何か – 例えば請求書?納品書?見積書?あるいはA取引先?B取引先?を識別して、それに応じたテンプレートの適用などを決定するフェーズです。ここを間違うと、誤ったテンプレートでさっぱり認識できない、といった事態につながってしまいます。また人間がいちいち判断しているようでは、なんのための自動化か、分かりません。

OpenText Captiva = エンタープライズキャプチャーの代名詞

OpenText Captivaは、優れた性能とアルゴリズムで高い評価を受け続けており、世界の金融機関などで大量のドキュメントのデジタル化に広く使われています。例えば分類では、HPA、スタンダード、手書き、キーワード、テキストマッチングなどの手法を組み合わせることができ、OCR精度だけに頼らないイメージベースのアルゴリズムも活用することができます。またPAL (Production Auto Learning)による本番運用中の学習機能とテンプレート自動生成機能や、多数のイメージから学習してテンプレートを作成できるスタンダードテンプレート機能などで、業務運用の負担を最小化します。

さらにWebベースの分散クライアントや、モバイルアプリケーションにキャプチャー機能を組み込むためのSDKを提供するなど、OpenText Captivaデジタル時代の戦略的なニーズに応える進化を続けています。

Nobuaki Kakimoto

Nobuaki Kakimoto is a Solution Consultant for CCM, CEM and Capture. He has over 25 years IT experience with Hewlett-Packard and now OpenText. He is a member of Japan Marketing Association (JMA) and Certified for Communication design by UCDA (Universal Communication Design Association.

関連記事

Leave a Reply

Your email address will not be published. Required fields are marked *

Close