ニュース

「Made with AI」で披露されたグーグルのAI技術が目指す未来

関口聖

2017年11月28日 17:35

　「純粋なハードウェアだけでの革新はほぼ終わった。これからはハードウェアに、ソフトウェアとAIを組み合わせていく」――そう語るのは、米グーグルでPixel Cameraのプロダクトマネージャーを務めるアイザック・レイノルド氏。28日、グーグルが開催した、アジア太平洋地域のメディア向けAI関連イベント「Made with AI」での一幕だ。

グーグルのレイノルド氏

　グーグルが手がけるAndroidスマートフォン「Pixel」シリーズは、グーグルの最新技術が盛り込まれる機種として登場。日本では未発売の機種だが、そのカメラ機能を支えるのはグーグルの機械学習技術だ。

ポートレートモードを支える仕組み

　この秋、グーグルはPixelシリーズの新機種「Pixel 2」「Pixel 2 XL」をリリースした。レイノルド氏は、デジタル一眼レフで撮影した写真と、「Pixel」のポートレードモードで撮影した写真や、ポートレードモードをON/OFFして撮影した写真を紹介。ポートレートモードではより色味が自然だったり、OFFの状態と比べて陰になっていた両目や口の周辺が明るく補正されていたりするなど、顔を見やすく修正していることがわかる。

デジタル一眼（左）とPixelで撮った写真（右）

PixelのポートレートモードをOFF（左）、ON（右）で比べる

　Pixel 2シリーズのカメラは「デュアルピクセルセンサー」と名付けられたセンサーを搭載する。これは「人の目は2つあるが、同じようにPixel 2にも2つのイメージセンサーがある」（レイノルド氏）というもので、一見するとカメラは1つだけだが、左から入った風景は右のセンサー、右から入った風景は左のセンサーで受信するという仕掛け。人間の目のように撮影することで、深度マップ（Depth Map）を作成し、その上で顔だけではなく、体や手に持ったアイテムを含めて人物全体のシルエット（輪郭）をはじき出す。ポートレードモードでは、人物以外の部分はぼかし処理を施して、人物をくっきり浮き出させる。

Pixel 2のデュアルセンサー

深度マップを作成

人物を切り分け、背景にマスクする

ポートレートモードでは背景部分がぼかされている

　カメラが捉えた写真を機械が認識できるのは、いわゆるディープラーニングと呼ばれる仕組みで実現されたもの。2017年現在のAIと言えば、ほぼディープラーニングのことと言えるほどで、さまざまなデータを学習させることで、画像だけではなく、音などの特徴を学んでいく。ネコと検索すればネコの写真を探しだし、人の声をテキストにできる。

　Pixelシリーズでは、画像認識とWeb検索を組み合わせた「Google Lens」も対応。日本でのローンチ時期は明らかにされていないが、風景を撮るとそこにあるビルに関する情報を出したり、関連イベントを教えてくれたりするなど、カメラを使って現実世界に関するさまざまな情報へアクセスできるという未来像があらためて紹介された。

風景に映り込んだビルの情報を表示

建物を撮ると……

開催中のイベント情報も

Google翻訳アプリのWord Lensを使って翻訳

Google Homeとアシスタントを支える技術は8種類

　この秋話題の「スマートスピーカー」のひとつ、グーグルが手がける「Google Home」には、人の声を認識するためのマイクが2つある。開発時には、8つのマイクを搭載することも検討されたが、ビームフォーミングと呼ばれる仕組みを組み合わせ、特定の方向の音を拾うことでマイク2つでも同等の性能を実現できた。これもまた「ハードウェアをソフトウェアとAIで改善できた例」（レイノルド氏）と言える。

　ちなみに、日本未登場のデバイス「Google Home Max」では自宅内にある部屋で、どのような部屋でも、あるいはどこに置いても音響を調整してくれる機能を備える。同様の機能はアップルが近い将来発売する「HomePod」にも搭載されるが、これもまた機械学習（AI）で音から周囲の環境を認識することで実現するもの。

　Google Homeは、ユーザーの行動を手助けするエージェントサービス「Googleアシスタント」を音声コントロールで利用できるデバイスであり、いわば“本体”はGoogleアシスタントと言える。そのGoogleアシスタントを実現させているのは「位置情報とコンテキスト」「ナレッジグラフ」「決済情報」など。そしてグーグルのAIが処理する「自然言語処理」「機械学習（マシンラーニング、ML）」「個人の音声識別」といった技術も忘れてはならない。自然な会話形式で、ユーザーが意図するところをくみ取り、疑問や要求に合ったレスポンスを何千ものWebページ、あるいはサービスから見つけて、ごく短時間で返答する。

多言語対応

ユーザーの好きなチームを覚えて「好きなチームの試合結果は」と問うだけで結果を教えてくれる

子供の名前を紐付けておけば、○○の写真を、と言うだけで表示する

名前と場所を組み合わせて「スタジアムで撮った○○の写真」というリクエストも

東京にまつわる面白い話を、とリクエストしたらハチ公のエピソードを紹介するGoogleアシスタント

希少種の保護、疾病対策も

　グーグルの技術は健康管理や環境保護にまで活用されつつある。

　たとえば画像認識技術で失明の恐れがある病気を発見する、という取り組みがある。これは、日本でも成人の失明原因の第1位とされる、糖尿病患者が発症する糖尿病網膜症に対するもの。眼球を撮影し、その画像を分析することで、血管の状況から病状の進行を見つけ出す。眼球画像の分析にグーグルの技術が用いられているのだ。

糖尿病患者への定期的な検査に機械学習を組み合わせて失明予防に繋げる

　同じく画像認識の活用例として、ジュゴン（SEA COW）の保護活動が挙げられる。ジュゴンは追跡することが難しいとされるなか、グーグルと研究者のグループではドローンを使って空中から海を撮影。機械学習のおかげで、海の写真からジュゴンを見つける。と言っても、ジュゴンのシルエットがはっきり映し出されているわけではない。この取り組みを紹介するプレゼンテーションでは、「これがジュゴンの影」と示された瞬間、取材陣から小さく感嘆の声が挙がったほど、人の目では見過ごしてしまうような、シミのような形だった。

ジュゴンの保護にも活用

丸で囲われてもわからない

　自然との関わりという分野では、グーグルの音声認識技術を活用し、野鳥の声を判別する仕掛けもニュージーランドで構築中だ。1万5000時間に及ぶ鳥の鳴き声をコンピューターに学習させ、正しい鳥の名称を教えつつ、分類できるようにしている。将来的には、市井の研究者による活用や、スマートフォン向けにリアルタイムで今鳴いている鳥が何なのか教えてくれるサービスを開発するといったことも視野に入れている。

鳥の声を学習させる

　日本を代表する食品メーカー「キユーピー」は、グーグルのAIプラットフォーム「TensorFlow」を活用して、食品検査の自動化に取り組んでいる。たとえばベビーフードのダイスポテト（1cm角程度にカットしたジャガイモ）は、口にしても問題はない素材ながらわずかでも変色していれば不良品として取り除く。工場のスタッフが1日100万個以上のダイスポテトをチェックする、というのが現在の手法だが、1年ほど前から画像認識を使ってダイスポテトの検品自動化にチャレンジ。さまざまな事業者のAI技術と比較した上で、グーグルのTensorFlowを活用することを決めてから2カ月、「不良品を見つける」のではなく、「良品を認識する」という仕掛けにすることで、実用化のめどがついたのだという。

キユーピーでは原料検査にAIを活用

不良品のダイスポテト

　グーグルで研究グループを統括しするジェフ・ディーン（Jeff Dean）氏は、2018年にも、無料かつオンラインで機械学習の集中学習コースを提供する方針と説明。鳥の声を自動判定できる仕組みのように、ゆくゆくは分野ごとのマシンラーニングの構築の自動化も視野にいれていると語っていた。

ディーン氏

無料のオンラインマシンラーニング集中学習コースが用意される

将来的には機械学習を自動化

ケータイ Watchをフォローして最新記事をチェック！
Follow @ktai_watch