|
|
|
第144回:OCR とは
|
|
|
|
大和 哲 1968年生まれ東京都出身。88年8月、Oh!X(日本ソフトバンク)にて「我ら電脳遊戯民」を執筆。以来、パソコン誌にて初歩のプログラミング、HTML、CGI、インターネットプロトコルなどの解説記事、インターネット関連のQ&A、ゲーム分析記事などを書く。兼業テクニカルライター。ホームページはこちら。 (イラスト : 高橋哲史) |
|
OCRとは、Optical Character Recognition、つまり光学式での文字の認識という意味です。たとえば、紙に書いてあったり印刷してあったりする文字をカメラやイメージスキャナなどで読み取り、それをデータとして活用することを言います。
特徴としては「人間が読める文字をそのまま機械が読める」ことが挙げられます。似たようなものとして、光学式の機械で紙の上の印刷を読み取ってデータにする「バーコード」が挙げられます。バーコード読み取りではバーコード、つまり人間がそのままで読んでも意味がわからないものを読み取って、データに変換しますが、OCRでは、新聞や名刺といった印刷物に書かれている文字をそのまま読み取って、そのままの内容をデータとして残すことができるわけです。
パソコンでは、イメージスキャナを使い、書籍や書類などの文字を読みとって、データとして保存するOCRソフトが昔からよく使われています。パソコンはペーパーレス、つまり紙のいらないオフィスを作るために、過去に印刷された書類などを電子化するための道具として注目されたこともありました(実際には、パソコンが導入されてからは、それまでよりもプリンタなどによって印刷物を簡単に使えるようになったために、以前よりはるかに紙の書類が増えたというオフィスのほうが多いのではないかと思いますが……)。
このOCRの機能が、最近ではNTTドコモの「N504iS」「N505i」「SH505i」など携帯電話にも搭載されています。
■ 携帯電話のOCR機能
|
N505iのアクセスリーダー
|
携帯電話のOCR機能もパソコンと同様に「光学式で読み取って、その文字をデータとして利用する」機能です。
ただ、携帯電話のOCRがパソコンと異なる点は、携帯電話では一般的に読取装置には端末のカメラ機能を利用するということです。これで撮影した画像から、読み取り対象の印刷物などに書かれている文字や数字を読み取るようになっているのです。ちなみに「N504iS」「N505i」では「アクセスリーダー」と呼ばれています。「アクセスリーダー」では、雑誌やポスターに記載されたサイトのURL、メールアドレス、電話番号をカメラで撮影し、そのデータの中から携帯電話が文字を読み取れます。
同様に、iモードの最新機種「505i」シリーズのひとつである「SH505i」では、OCR機能である「名刺読み取り」を備えています。携帯電話に搭載されている接写モードを備えた有効100万画素のCCDカメラを使って名刺を写し、そこからメールアドレスやURLの読み取り、電話機への登録も行なうことができます。登録したデータを利用するとiモードメールやiモードのコンテンツの閲覧することも可能になるわけで、手入力に比べてかなり楽になることでしょう。
現在、あるいはこれからの携帯電話には、当たり前のようにカメラ機能が付いています。もちろん携帯電話のカメラ機能は、メールに添付する写真を撮影したり、外部メモリに記録するいわゆる“デジタルカメラ機能”はそのままで、更なる付加機能としてOCR機能が搭載されるようになるかもしれません。
|
|
SH505iでの読み取り機能
|
SH505iでは、読み取った後に候補を表示して、ユーザーが選択、確定する。
|
■ 課題は認識率
しかし、現在のところ、カメラ機能を搭載していても、OCR機能を搭載している携帯電話は多くありません。
実は、文字認識というのはコンピュータにとってそれほど容易な作業ではありません。紙に書かれた文字を読み取って画像化し、そこからどれが文字であるかを識別するわけですが、はじめから機械で読み取ることを前提にしたバーコードなどと違って、人間が普段使っている文字は、どんな場合でもデータの始まりや終わりを示す書き方が決まっている、走査方向が決まっている、というようなことはありません。
まず、撮影したデータの向きを考えて、自分が持っている文字データとどのくらい似ているかをニューロ文字認識などの技術を使って判定します。印刷物の文字は、明朝とゴシックとでも違いますが、同じような形は同じ文字かもしれないと認識できるような方法も考えなくてはいけません。また、文字が複雑になればなるほど正しい文字を認識するのは難しくなります。英数字よりも漢字を識別するのは非常に難しく、印刷物よりも手書きの文字はコンピュータにとってはるかに困難になります。当然、マシンパワーも必要になります。
現在の携帯電話のOCR機能の主な用途がURLや電話番号、メールアドレスの入力用となっているのは、それが携帯電話で使えれば便利だからという理由もありますが、携帯電話のようなマシンパワーのない機械では、英数字のみを読み取るほうが実用的だから、という事情があるのかもしれません。
携帯電話だけではなく、パソコンなどのもっと大きなマシンパワーを持つコンピュータの世界でもOCRの認識率向上は研究されているテーマです。このような研究のフィードバックや携帯電話自身のマシンパワーの増大によって、将来はさらにいろいろな場面で、正確に文字を読み取れるようなOCRが搭載されるようになるのかもしれません。
・ ドコモ、サラウンドダブルスピーカ搭載の「N505i」を7月4日発売
・ ドコモ、100万画素のカメラを搭載した「SH505i」を6月20日発売
・ ドコモ、OCRとリモコン機能を搭載したカメラ付き端末「N504iS」
・ N505i(ロイヤルミルクティ)
・ SH505i(シベリアンシルバー)
・ N504iS(ブライトシルバー)
|
|
|
|
|