インタビュー
ファーウェイWang Chenglu氏が語る「EMUI 9」とUIの今後
HUAWEI Mate 20を支えるソフトウェア開発思想
2018年11月27日 18:43
明日11月28日に国内で発表されると見られるファーウェイのフラグシップモデル「HUAWEI Mate 20」シリーズだが、最新のAI対応チップセットやトリプルカメラといったハードウェア面での特徴に加え、ユーザーの声を反映させ、使いやすさにこだわった独自のユーザーインターフェイス「EMUI」も魅力の一つとなっている。
Huawei Consumer Business GroupのSoftware Engineering DepartmentでPresidentを務めるWang Chenglu氏に深センにある本社でグループインタビューする機会を得たので、本稿ではその模様をお伝えする。
――AIスピーカーなどが登場し、音声操作が増えてきていますが、スマートフォン上での音声操作の可能性をどう捉えているのでしょうか。
Wang Chenglu氏
AIに関しては、中国国内ではクラウドを使って提供しています。しかし、海外ではGoogleアシスタントと連携して提供しています。音声操作というのはクラウドとの連携が必要になるのですが、中国ではGoogleが使えないため、中国国内ではクラウドと端末をあわせて提供しています。海外では弊社でクラウドを持っていないので、Googleアシスタントと連携して提供しているというのが現状です。
――実際に音声UIを載せる上で技術的に難しいのはどんなことでしょうか。
Wang Chenglu氏
まず端末側で認識します。ネットワークが良ければ、ネットワーク上のクラウドのモデルを使うのですが、それが無ければ端末側にも同じようなモデルを展開して認識していきます。EMUI 9が出てから、Mate 20で音声操作を使っている人は全体ユーザーの10%以上になっています。使用率はまだ低いものではありますが、新しい機能としてはまずまずな成果だと考えています。というのも、ユーザーにとっても適応していく過程が必要になるからです。このクラウドの識別ですが、スマートフォンだけでなくスピーカーの方にも流用できます。弊社でも新しいスピーカーを1カ月前に発売して、今でも非常によく売れています。
――OSにAndroidを採用している限りは、iPhoneのようにハードウェアからUIまでファーウェイでコントロールすることは不可能です。EMUIに取り組む中でどう他社と差別化しようと考えているのでしょうか。
Wang Chenglu氏
ファーウェイには、ハードウェアとソフトウェアで密に連携を取れるところに強みがあります。それを実現できるのは、ハイシリコンのチップセットを採用したからです。今のEMUIはAndroidをベースにした完全なOSです。ドライバからLinuxのカーネル、ハードウェアのアブストラクションレイヤー、ミドルウェア、フレームワークに至るまで最適化やいろんな修正をしています。ファイルシステムやガーベージコレクションも改良しました。画像エンジンや通信エンジンといったミドルウェアの最適化も行っています。フレームワークの一体化も行っています。
3年間かけてEMUIのデカップル(分解)を行いました。これによって異なる機種でもモジュールを変えたり、組み合わせを変えたりすることで応用面で強力になりました。世界で初めてソフトウェアのスタックにホットパッチの技術を実現しました。これによって何か問題が起きた時に素早く解決できますし、新しいニーズが起きたときも一早く対応できます。これはiOSでも実現できないようなことです。これによって弊社の製品の品質が上がり、デリバリーのスピードも早くなり、競合他社よりも強みを持てることになります。
――Android 9をベースにEMUI 9を採用したということですが、P20など以前の端末をAndroid 9にした時には同じようにEMUI 9になるのでしょうか。
Wang Chenglu氏
もちろん全部は無理なのですが、5.0の時から旧モデルにさかのぼって対応できるようにしています。9.0についても、目標としては30機種以上対応させたいと考えています。最新のEMUIが出ると、既存ユーザーが一早く最新の機能が使えるようになってほしいですし、新しいもっと良い体験を持ってほしいと考えているからです。具体的な数字をご紹介させていただくと、5.0の時に新しいユーザーと既存のユーザーを合わせて1憶人以上が使っています。8.0の時には1.6億人、9.0では2.2億人が使うことになると見込まれています。
――標準のAndroidとの作法の違いをどうバランスを取ろうと考えているのでしょうか。
Wang Chenglu氏
ピュアAndroidというのはデザインリファレンスです。これをどう取捨選択していくかということです。これはあくまで消費者からのフィードバックとリクワイアメントを見て決めています。具体的な例を挙げますと、P10の時に1つの物理ボタンで3つの仮想ボタンを代用しようとしました。消費者の声の中で、3つあるとちょっと複雑で、画面内でも場所を取るというような意見が多かったということで、Androidのチームと相談して試しにP10の中国バージョンを作りましょうということになりました。それが非常に好評でした。それを皮切りにGoogleの方でも非常に好意的にこういった相談に乗ってくれるようになりました。その件を通して弊社の方がより中国の消費者を理解していると認めてもらったわけです。ですので、取捨選択の基準というのは、あくまで消費者の理解に基づいて、消費者のリクワイアメント、ニーズがあるかによって決めています。
消費者に対する理解がより正確で深くなっていけばいくほど、Googleのエコシステムの弊社の貢献度も高まります。例えば、フルディスプレイのナビゲーション、ファイルシステム、パフォーマンスやバッテリーのもち、これらも弊社でカスタマイズして消費者の反応が良かったため、新しいAndroidのバージョンに取り入れられました。いろんなメーカーでいろんな考え方があって、製品として消費者に出すことで検証が得られます。その検証の結果によって、またAndroidに取り入れられるということで、エコシステムが健全に育っていくわけです。
――バッテリーのもち、同じバッテリー容量を持つ他社の端末よりも電池のもちが良いように感じます。その代わり通知が画面オフの時に止められている場合もあります。どんな工夫をしているのでしょうか。利便性とのバランスはどう考えているのでしょうか。
Wang Chenglu氏
バッテリーのもちに関しては、やっていることは2つあります。1つは、スマートフォンのハードウェアの全ての部品の電力消費の特徴をまず明確にすることです。それぞれの部品の電力消費というのは、そんなに線形を描くわけではなく、最も効率の高いポイントを見つけなければいけません。2つめは、システムにおいてアプリがどういったハードウェアのリソースを求めるのかという特徴を明確にすることです。例えば、Wi-Fiのスキャンです。最初の5分間は頻繁にスキャンするのですが、5分後にはその間隔をあけてスキャンするようにします。ですので、この2つを明確にして、アルゴリズムを使ってうまく適合させます。
ご質問いただいた通知が来ないということですが、これはやはりアルゴリズムの正確さを上げていかなければならないことだと考えています。例えば、AIを使って、次にどのアプリが起動されるのか、アプリを使う時間がどれくらいになるのかというのを判断するのですが、その正確さは5.0では86%、8.0で95%、9.0では99%になりました。アルゴリズムとアプリに対する理解、さらにAIの機能が組み合わせて最終的には100%に達したい。ユーザーの体験を保ちつつ、バッテリーのもちをよくしていくことを実現したいと考えています。
――カメラが2つから3つになって、ソフトとして難しくなったことはありますか。
Wang Chenglu氏
大変なことは必ずあります。カメラを使う時というのは、ハードウェアからソフトウェアまで、全てのスタックが関わってきます。まずチップセットとの間で非常に細かいチューニングが必要になります。カメラレンズが2つから3つになった時に、そこで取り込まれた画像の元データをどう合成していくかというのも、非常に多くの演算能力が求められます。世界初だったので他に参照できる業界のデータもありませんでしたし、非常に大量の設計と開発とチューニング、特にチューニングは大量にやらなければいけませんでした。そこが大変だったところです。
――スマホがどんどん大型化し、縦長になっていきますが、最適なUIはどういうものなのでしょうか。日本では顕著ですが、片手で操作したいというニーズにどう応えていくのでしょうか。
Wang Chenglu氏
どのUIが最適というのは難しいですね。そもそもユーザーの使用のビヘイビア自体がそれぞれ違うため、どれが最適かというのは一言では言えません。もちろん画面サイズが大きくなっても小さくなっても、湾曲しても、折りたたみになっても、さまざまな方向性があると思いますが、最終の目標はUIをシンプルにしなければならないと考えています。画面全体をユーザーに使わせるべきだと考えています。それが一番ユーザーエクスペリエンスが良くなるからです。
弊社としてはジェスチャーナビゲーションを取り入れました。これを取り入れた際には人体工学を非常に参考にしました。例えば、アルバムなどのアプリの操作に入った時、上にいろんな操作メニューがあったのを下に移しました。戻るナビゲーションについても、右利きの人でも左利きの人でも問題なく使えるように、右側からスワイプしても、左側からスワイプしても戻れるようになっています。
私自身の夢としては、AI技術が完全なものとなっていく時に、人と機械のインタラクションが機械をタッチすることにとどまらなくなると思うんです。人と人がやりとりしているのと同じように、声だったり目だったりを使ってやりとりできるようになります。本当の意味での革新はAIが成熟したものになってからだと思います。それが人と機械の交流の仕方によって体現されるものだと信じています。ですので、そのために弊社の中でも研究を重ねて、たくさんの実績を持っています。考えるだけで非常にワクワクしてきます。
――EMUI 9ではいろんな操作モードが選択肢として提案されています。ファーウェイとしては、やはりジェスチャーがオススメなのでしょうか。
Wang Chenglu氏
はい。最もオススメなのはジェスチャーです。ジェスチャーナビゲーションの使用率は86%になっています。好評率は90%以上になっています。さらにほかの選択肢として、丸いボタンを移動させられるものもありますし、好みによってはこれまでのように仮想ボタンを3つ画面の下に設定してもいいようになっています。
――実際にジェスチャーナビゲーションを使ってみると、テンキーで「ん」をフリック入力しようとすると、ホームに戻ることが多いのですが。
Wang Chenglu氏
指がタッチするホットゾーンと言いますが、このホットゾーンに関してはアルゴリズムで学習しています。テンキーが出ていて、この場所に触れてホームに戻ってしまった。そして、ユーザーがすぐにキーボードを立ち上げた、ということを学習していきます。さらにこうした学習やチューニング、最適化が必要になります。今、カーネギーメロン大学やトロント大学と一緒にこうしたことに取り組んでいるところです。
――ハードウェアの進化によって実現できるようになった機能はありますか。
Wang Chenglu氏
まずNPUなのですが、Kirin 970で初めてニューロンのプロセッサーを搭載しました。このNPUの最大の価値というのは、演算能力が高く、電力消費が低いということです。さらにニューロンに適した演算があります。マトリックスの演算に特に適しています。翻訳などの可能性もあります。
カメラにAI機能が付くと、物体の前にカメラをかざすと、物体を識別できます。この機能を使った応用を一つご紹介したいと思います。北京でAndroidのグリーンアライアンスという会合に参加してきたばかりなのですが、開発者が交流を行うイベントです。その中で武漢出身の1990年以降に生まれた人がいて、その人が1人で1日を使って非常に素晴らしいアプリを開発してくれました。主に視覚障碍者と身体障碍者向けに開発したものになります。カメラの物体識別能力を十分に生かしたもので、スマートフォンのカメラをオンにしたまま胸の前にぶら下げておくと、カメラで識別したものをリアルタイムに教えてくれます。人と話をする時も、人の声がする方向に向けると、その相手が20代の女性ですと教えてくれたり、方向がずれていれば「もう少し左に寄ってください」と教えてくれます。
弊社のハードウェアとソフトウェアはあくまでプラットフォームであると言っています。能力の高いプラットフォームとして作りたいと考えています。さまざまなイノベーションというのは、開発者たちがやってくれることです。私がこれを知った時には非常に感動しました。まだスタートしたばかりですが、素晴らしい応用をいろんな開発者たちが考えてくれます。ちなみに、このプラットフォームは「Hi-AI」と言います。第三者に開かれたプラットフォームです。
先ほどのアプリの話になりますが、そもそもこの若者がなぜこのアプリを作ろうと思ったかというと、どんどんデジタル社会にシフトしていく中、立場の弱い人たちというのはそのメリットを享受できないままでいると感じたそうです。北京にある視覚障碍者センターで3カ月間、視覚障碍者たちと一緒に暮らし、その人たちからどういったニーズがあり、どういったことで困っているかということを理解してから開発に取り掛かったそうです。弊社としては、このハードウェアとソフトウェアの能力を十分にみんなに知られるようにしていかないとダメだと感じました。その上でいろんなアプリを開発して、豊かなものにすることで、消費者により良い体験がもたらされます。ちなみに、このアプリの名前は「啓明瞳」(ケイメイト)です。
――音声認識はクラウドで処理するというですが、NPUが進化するとなると端末側でも処理できるようになりそうです。今後、クラウドと端末の役割分担はどうなるのでしょうか。
Wang Chenglu氏
このテーマについての自分の見解を皆さんと共有したいと思います。端末側でAI機能や音声認識機能を丸ごと実現するのが我々の夢です。クラウドと比べ、端末側で全部完結すると、リアルタイムに処理でき、プライバシーが保護されます。弊社の努力する方向は全部のアプリを端末側でクローズドループという形で実現していきたいと考えています。
ただし、5Gになると、単にモバイルネットワークのアップグレードにはとどまらないと思います。一番の特長は非常にレイテンシーが短くなることにあります。5Gの時代になると、端末とネットワークの境界線が非常に曖昧なものになります。同じシステムにいるかのような感じになります。5Gの時代になると、クラウドと端末の違いは、あくまで演算能力の高さだけになります。5Gのネットワークに分布式の能力が備われば、全てのアプリが端末についていくことになります。どのガジェット、どの端末を使っても非常に良い体験が得られます。
弊社もクラウドビジネスを立ち上げましたので、これによって端末、チップセット、クラウドの3つのアーキテクチャーを同じものにできます。そうすれば分布式の端末とサービスを提供できるようになり、良い体験を実現できるようになります。例えば、人が車に乗ったとき、自分の場所が識別されていて、その時に音楽が聴きたいと思ったら、「音声で○○を再生して」と言った場合、その人が車にいるということが自動的に認識されているため、この音楽は車載スピーカーから再生しますという風になります。これがいわゆる分布式コンセプトになります。これができるようになると、大きなターニングポイント、シンギュラリティというものにもなると思います。無限の可能性が秘められており、この話をするとワクワクしてきます。
――PCモードもEMUIとして定義しているのでしょうか。ファーウェイでは最近、Windows PCも作っていますが、そこにもEMUIを搭載して使いやすくする工夫が始まっていくのでしょうか。あるいはスマートスピーカー、スマートホームのような領域でもEMUIが活用されていくのでしょうか。
Wang Chenglu氏
誤解を避けるためにご説明したいのは、PCモードとPCのOSを変えるということは違うということです。PCモードに関してはEMUI 8.0からスタートして、当時はケーブルが必要でした。その時は単にスマートフォンの画面を大画面のモニターに映し出すようなものでした。EMUI 9.0でワイヤレスに対応しました。しかし、EMUIをPCのOSにするというような考えは全くありません。ケーブル無しで映し出すのは、ディスプレイ側にMiracastのプロトコルさえあればいい。無ければ別売のUSBドングルもあるので、それを差し込めば同じことを実現できます。PCモードは、実はAndroid 9にソリューションの一部として取り入れられることになりました。それはまた弊社が貢献したことになります。これもまたAndroidをベースにしたイノベーションの良い例だと思います。
EMUIに関しては、スマートホームでは使われます。
――ありがとうございました。