ニュース
「Google 翻訳」を進化させた「ニューラルネットワーク」とは?~グーグルが解説
2016年12月2日 16:58
グーグルは2日、「Google 翻訳」や「Google Photo」などにの新機能に元となった、ニューラルネットワークを活用した機械学習技術を紹介した。
Google検索をはじめとして、多くのWebサービスを提供しているグーグル。その裏では研究開発よって得られた最新技術を積極的に投入している。「機械学習」もその1つで、コンピューターに自動的に学習させて、「人工知能(AI)」を作成する技術だ。
「Gmail」のスパム判別、99.9%の精度に
グーグルではこれまでも、Gmailのスパムメール判別フィルターなどで機械学習を活用していた。かつての機械学習では、学習する際に人間が大きく介在していた。Gmailでは、「スパムと判別すべき言葉」を人間が与えていた。
現在、研究が進められている「ニューラルネットを活用した機械学習」は、人間は合っているか間違っているかの判定だけを行う。スパムメール判別では、膨大なメールのデータからスパムメールの“特徴”を蓄積していく。
ディープラーニングを用いたスパムメール判別フィルターによって、99.9%のスパムメールを判別することができるようになったとしている。
人間に近い翻訳になった「Google 翻訳」
機械翻訳サービスの「Google 翻訳」では、11月より大きく精度が向上した新しい翻訳システムを提供している(※関連記事)。
これまでは「Google 翻訳」を文章をパーツ(単語)ごとに分割してから翻訳して、組み合わせていた。そのため、文章の形になっていない翻訳結果が多く表示されていた。
「ニューラルネットを活用した機械学習」を活用したシステムでは、文章単位で翻訳するため、より流ちょうな翻訳が可能。人間による翻訳に近づいた、より自然な翻訳結果が表示されるようになった。
「Google 翻訳」を担当しているグーグルのシニアエンジニアリングマネージャー 賀沢秀人氏によると、「現在の精度を自体は数年前から得られていた」として、コンピューターの進化やアルゴリズムの工夫によって、処理速度が向上したことで提供できるようになったと説明した。
「Google Photo」の画像補正機能、スキャンアプリにも
「Google Photo」には写っている画像から顔を識別したり、「猫」や「海」といった被写体を認識したりする機能が提供されている。こうした画像認識機能も「ニューラルネットを活用した機械学習」の成果を活用したものだ。
11月に新しく追加されたレタッチ機能にも、さりげなく応用されている。レタッチ機能の「自動」は、露出や彩度を自動で補正する機能だが、写真の明るさや彩度などを自動で分析する際に活用している。
あわせて提供が開始された「フォトスキャン」は、紙焼き写真をデジタル化するアプリだ。紙焼き写真をスマートフォンのカメラで撮ると、光沢が写り込んでしまう問題があったが、複数回、写真を撮ってその問題を解消。元の紙焼き写真の縁を自動で認識して、補正する。
音声認識では騒音を聞き取れるように
Googleアプリなどで使われている音声認識では、周囲の騒音が多いカフェなどでも、騒音と話しかけた内容を判別して、的確な結果を表示するようになった。以前のシステムより、認識精度が25%改善されたという。
「ニューラルネットを活用した機械学習」の仕組みは?
「機械学習」によって作成されたAIは、一定のインプットに対して一定のアウトプットを返すことができる。例えば、画像から写っているものを判別したり、文章を受け取って別の言語に翻訳して返したりといった操作ができるようになる。
例えば、画像認識では、画像を受け取って、「この画像は猫」と判別する。翻訳は、元の言語の文章を受け取って、文脈に即した他の言語の文章で同じ内容を表す。人間なら自然と身につけることができるが“どのようにして行っているか”を説明するのは難しい。
そこで、人間の脳を模したアルゴリズム「ニューラルネットワーク」を用いて、“どのようにして行っているか”を、“特徴”としてコンピューターに理解できる形で自動的に蓄積するのが「ニューラルネットを活用した機械学習」だ。1つのものを分析するために段階を踏んで学習するため、「ディープラーニング」とも呼ばれている。
「ニューラルネットワーク」の理論自体は50年前から存在していたが、実際に高精度の結果を得るには大量のデータを用いて、大量の計算を重ねて学習させる必要がある。グーグルはWeb上などから収集した大量のデータと、大量のコンピューターを揃えて実用化に挑んでいる。
法人向けサービスとして提供
法人向けのクラウドサービス「Google Cloud Platform」では、ニューラルネットワークを活用した翻訳、画像認識、音声認識、自然言語認識機能を、自社サービスに組み込んで使えるAPIの形で提供している。
また、機械学習プラットフォームそのものも法人向けに提供しており、法人が持つデータを元に機械学習を行うことができる。
おまけ:「作ってみたが使い方がわからない」サービス
グーグル 製品開発本部長の徳生裕人氏が「ものすごいものができそうなので作ってみたが、使い方がわからない」と評する、機械学習を活用した実験的なプロジェクトが、「おまけ」として紹介された。一部は無料のサービスとして提供されている。
「A.I. Experiments」は、ニューラルネットワークを活用したWebアプリをまとめたWebサイト。スマホで撮影したモノにあわせて即興で音楽を作る「Giorgio Cam」や、お題にあわせて絵を描いてAIが当てたら勝ちというゲーム「Quick, Draw!」などを試せる。ソースコードを閲覧でき、グーグルのAPIを利用した自作アプリの投稿も可能。
「Style Transfer」は、特徴を抽出するの仕組みを機械学習を活用して、写真と名画を合成する。グーグルでは動画に対して次々にスタイルを変更するデモンストレーションを公開している。
美術品の画像や情報を集約する「Google Cultural Institute」では、画像の特徴が似ている作品を次々に並べていく試験サービスを提供している。