OCRは、「Optical Character Recognition」または「Optical Character Reader」の略で、光学式文字読み取り装置のことです。
手書きの文字や印刷された文字に光を当てて画像を読み取り、パターン認識の技術を用いて画像から線の形などを解析し、コンピューター上で編集しやすいテキストデータ(文字コードの列)に変換します。
OCRで紙に書かれた文字をデジタル化することにより、物理的な保管スペースを縮小することができます。また、画像としての文字をテキストデータに変換することで、ファイルサイズが圧倒的に軽くなる他、流用や転用などデータの再利用が容易になったり、キーワード検索が可能になったりと、扱いやすさが向上します。更に、音声読み上げソフトとの連携など応用の範囲も広がります。
従来のOCRでは、漢字やひらがな、カタカナなどが混在する日本語の文章の読み取りや、手書き文字の読み取りは苦手とされてきました。しかし、AIの技術を用いたOCRの登場によって、読み取りの精度は格段に向上しています。
OCRの精度向上にともない、以前は人間による確認・操作が不可欠だった、手書きの帳票を読み取り、データベースのフォームに入力するというような一連の作業も、OCRとRPAを組み合わせて自動化することが可能です。