ニュース

Nest Camが人・モノ・動物を見分ける仕組みをグーグルのエンジニアが解説

スマホ用カメラと防犯用カメラでは認識アルゴリズムが違うという

 米グーグル(Google)のスマートインターホン「Google Nest Doorbell」は、外出先でもスマートフォンで来訪者がいることを通知し、会話できる。この来訪者の通知は、「誰かが来た」や「荷物が届いた(置き配)」など、シーンに合わせた通知がされる。

 これは、カメラが来訪者が人なのかモノなのかを見分けているためだが、カメラがこれらをどのように見分けているのか。同社Nestチーム ソフトウェアエンジニアのヨーニ・ベンマッシュルーム(Yoni Ben-Meshulam)氏が説明している。

カメラが来訪者を検知する仕組み

Nest Camが検知したシーン

 グーグルのカメラは、知覚アルゴリズムを活用し、来訪者を検知しているという。

 ライブビデオストリーム上に現れる人や荷物などの物体を検知する場合、玄関ポーチなど一定の検知ゾーン内に荷物が置き配された場合、カメラは配達員と荷物の動きを追跡、分析の後、ユーザーに通知を出す。

 カメラは周囲の状況も機械学習する。Nest Camの例では、リビングルームに設置したカメラではテレビに映っている人を検知しないようアルゴリズムが組まれている。Nest Camでは、数百万の事例を機械学習させた、「物体検出」の機械学習モデルが搭載されている。

Nest Camとスマホのカメラのアルゴリズムの違い

防犯用カメラ(Nest Cam、左)と通常のカメラ(右)で撮影した写真

 ベンマッシュルーム氏はさらに、Nest Camのような防犯用カメラとスマートフォンなど通常のカメラ用でアルゴリズムは異なると説明する。

 スマートフォンのカメラでは、対象物が近くにあり焦点があっていることが多いが、防犯用カメラの場合撮影環境をコントロールすることは難しい。

 さらに、防犯用カメラの場合、周りの照明や天候で対象物がぼやけてしまったり、人がカメラに向けてポーズや笑顔を見せることがないこと、一部しかフレームインしないといった事象が発生する。

 解析のタイミングも、Nest Camではリアルタイム解析だが、写真用アプリではビデオ全体を解析する場合もあるという。

 また、通常のカメラは二次元的に世界を見ているが、Nest Camではこれを三次元的に理解する必要があるという。Tシャツの写真を実際の出来事と勘違いしてしまうケースや、何もおこっていないのに通知を出してしまうケースが多く、誤検出を少なくするには、より多くの良質なサンプルデータが必要であると指摘。AIカメラの最大の課題の1つとなっていると説明する。

良質なサンプルによる機械学習

 これらの違いから、ベンマッシュルーム氏は「現状では通常のカメラのほうが人を認識できる」とコメント。Google画像検索などで使われているモデルは、Nest Camではうまく機能しないという。

 ベンマッシュルーム氏のチームでは、Nest Camなど防犯用カメラに適したサンプルデータのサイズと多様性を増やしている。

 また、シミュレーションされた環境やリアルの背景に合成の物体を設置したものなどいわゆる「合成データ」を追加した。さまざまな環境が考慮されており、部屋のレイアウトや物体の配置、照明やカメラの条件などを設定し、この取り組みで数百万枚の画像を作成、そのうち250万匹は合成された猫の画像も含まれている。

 また、新しいNest CamとNest Doorbellでは、ローカルで機械学習を行いプライバシーを確保した機械学習を行っているほか、これまでよりも170倍の演算能力を持つ「テンソル・プロセッシング・ユニット(TPU)」を搭載しており、より正確かつ信頼性が高いリアルタイムの通知を出すことができる。

 誤検出を少なくするため、同社では現在より大きくかつより多様性豊かなサンプルデータを活用し、性別や年令、肌の色を考慮したアルゴリズムの作成に取り組んでいる。もちろん、これらのアルゴリズムもローカルで処理することで、プライバシー保護をしつつデバイス上で分析しているという。