ニュース

ソニーの小型でオープンなモーションキャプチャー「mocopi」を見てきた

5万円でVTuberデビューできる？　「mocopi」の実力とは

竹野弘祐

2022年11月30日 22:40

　ソニーは11月29日、小型のモーションキャプチャー「mocopi」（モコピ、QM-SS1）を発表した。価格は4万9500円で当面はソニーのECサイト「ソニーストア」で提供される。

　いわゆるVRの世界に欠かせないモーションキャプチャーは、これまで専用のスタジオや大がかりな機器、そして高い性能をもったパソコンを使うものが多かったといい、なかなか気軽に参加することが難しかった。

　「mocopi」は、500円玉程度の小型センサーを、頭／両手首／腰／両足首の6カ所に装着し、スマートフォンアプリでセッティングするだけでVRの世界に入り込むことができる。

　また、サードパーティー製のアプリとも簡単に連携することができる。Webサービスはもちろん、VRゴーグルと直接連携することができるため、作品としてはもちろんユーザー自身がVRの世界に入り込むことができる。現在連携できるサービスやデバイス以外にも、今後公開されるSDKを使えば、さまざまなサービスと連携することもでき、ユースケースは無限の広がりを見せるだろう。

　今回は、実際に「mocopi」の実力を確認できる機会を得たので、「mocopi」の性能やユースケースなどをご紹介する。

VTuberやVRコミュニケーションを手軽に

新規ビジネス・技術開発本部通信技術開発部門モーション事業推進室室長の相見猛氏

　ソニー新規ビジネス・技術開発本部通信技術開発部門モーション事業推進室室長の相見猛氏は、ソニーが「mocopi」を開発する意義について「近年のメタバースや3Dコンテンツ、国内でもかなり有名なVTuberが登場してきているほか、ソニーグループでもソニーミュージックでVTuberの活動を始めており、これからもどんどん増えてくる、世間的にもトレンドになってくると見ている」とし、ソニーの技術を市場に届けていきたいとコメント。

　トラッキング経験者に対しては価値向上を、すでにVTuberやVR Chatユーザーでフルボディトラッキングを経験していないユーザーには需要創造を期待できるという。また、これからVTuberをはじめてみたいユーザーにも働きかけたいとしている。

　「mocopi」の特徴は、スタジオが不要でロケーションフリーで創作活動ができることや、小型かつ軽量で6つのセンサーだけで全身のキャプチャーができる手軽さ、そしてシンプルな操作性が特徴のスマートフォンアプリの存在だ。

　また、VRChatやUnity、MotionBuilder、バーチャルモーションキャプチャーなど、VR市場でよく利用されているといわれるソフトやサービスとすぐに連携できる。特にバーチャルモーションキャプチャーについては、関係者が「mocopi」の開発に参画しているなど、オープンな環境で開発されたことがうかがえる。これ以外にも、別途公開予定のSDKを利用することで、これまでにない新たなサービスとの連携や開発を進めることができると相見氏は説明する。

相見氏が手にする「mocopi」

XperiaとiPhoneしか使えない？

　「mocopi」は、スマートフォンアプリと連携することを前提としたモーションキャプチャーだ。スマートフォンとセンサーはBluetoothで接続し、スマートフォン内で演算処理を行いモーションデータを生成し、データの記録やリアルタイムでの送信、アバターで肉付けした動画データを記録できる。

　各種データの送信は、Wi-Fiなどインターネットを介して行われる。

　なお、発売時点での対応機種は、Xperia 5 IV／III／II、Xperia 1 IV／III／IIと、iPhone 14／14 Plus／14 Pro／14 Pro Max、iPhone 13／13 Pro／13 Pro Max、iPhone 12／12 Pro／12 Pro Max。ソニーのスマートフォンとiPhoneの一部端末が対応機種にラインアップされている。これらの機種ではソニーが動作確認を実施し、パフォーマンスを確保できている品質保証した機種とし、相見氏は「ほかのスマートフォンでも、アプリを入れて接続できれば利用できるが、スムーズに利用できるかは確認していない」とコメントした。

センサーの数が6つは「ちょうどいい数」

　また、今回は6つのセンサーを使って、全身の動きを類推しモーションデータとして起こしている。多くのモーションキャプチャーでは、これよりも多いセンサーを使って表現しているという。

　センサーの数について相見氏は「センサーの数を増やしていけば精度は上がるが、スマートフォンを演算資源としているため、やみくもにセンサーを増やせばいいわけではない」とし、スマートフォンの演算能力とリアルタイム性を鑑み6点という数が「ちょうどいい個数」と説明。

　また、逆に5個以下にするという案も開発段階では検証したというが「意図したパフォーマンスを出せるのが6点」とし、うまくバランスを取ったセンサー数であることを紹介した。

　演算資源という点では、ハイスペックなパソコンと直接接続すれば解決できるのでは？　と思うユーザーもいるかもしれない。相見氏は「パソコンの種類が多く機器互換性を見るのが難しい」に加えて「パソコンを前提にしてしまうと、外でどこでもキャプチャーできるという『mocopi』の強みが失われてしまう」とした。

キャプチャーしきれないところは、ほかでカバー

　センサーが6点というこだわりは理解できたが、一方で口の動きや指の動きについては、「mocopi」での再現が難しい場合がある。

　「mocopi」では、口の動きをユーザーの声をスマートフォンのマイクから取得し、発声に合わせてリップシンクしている。指の動きは、ほかのセンサーのデータから類推して表現しているが、センサーの位置やユーザーの体型などによりなかなか正確に表現できないケースもある。

　たとえば、表情や口の動きがより重要視されるVTuber用途では、バーチャルモーションキャプチャーなどほかのソフトやデバイスと組み合わせて使うことで、より正確な表現ができるとした。

　フルボディトラッキングについては、センサーの角度や加速度などのデータから、人の動きに特化したディープラーニングを実施し、モーションデータを作成している。人間以外への装着となった場合は、新たに専用のディープラーニングを実施して実装していくことになるだろう。

海外展開も

　国内ユーザーはもとより海外ユーザーからも反響があったという「mocopi」。

　相見氏に海外展開について聞くと「当初は日本だけだが、海外への展開も検討している」とコメント。具体的な地域や時期は、決まり次第案内するとしている。

小型で装着感を忘れるセンサー

お菓子のようなかわいくカラフルなデザイン

　「mocopi」は、カラフルな6つのセンサーとそれらを充電するケースが用意されている。センサーにはそれぞれ装着する箇所が英語で書かれている。アプリ立ち上げ時には、どこにどのセンサーを装着すべきかが案内される。

充電ケース。充電端子はUSB Type-C端子

　センサー自体は、先述のとおり500円玉程度の大きさとなっている。直径は32mm、重さは8gと小型かつ軽量。筆者も手首につけてみたところ、ほとんど存在を感じさせないボリュームで、気をつけないと装着したまま帰ってしまいそうな軽さだ。

足首のセンサー

手首のセンサー

手首のセンサーを装着してみたところ

　その一方で、バンドとセンサーはマグネットと物理的なツメによってしっかりとホールドされている。激しくダンスをしても、センサーがどこかに飛んでいくような心配はなさそうだ。もちろん、充電時などには片手で簡単に取り外すことができる。

腰のセンサー

側面にツメが用意されている。外すときはツメを持ち上げる

　外箱も、開けた瞬間からカラフルなデザインで「mocopi」への世界観に誘われる。相見氏にデザインの意図を聞いたところ、ファッションになるように装着時に違和感にならないように仕上げたとコメント。バンドについても、ユーザー自身でカスタマイズして自分なりの世界観を表現してもらえればとしている。

　なお、パッケージについては環境に配慮し、個装の商品箱、トレイ、梱包材についてプラスチック使用量ゼロで提供される。

パッケージ内部もカラフルな世界観が感じられる

ペアリングさえできていれば1分程度でキャリブレーション

　モーションキャプチャーをする上で、キャリブレーションは重要なセットアップの一つ。これをきちんとしていないと、動きに差が出てしまう。

　Bluetoothで接続するため、初回のみ6つ分のペアリングが必要になるが、ペアリングをしてしまえば、アプリ起動時に案内に従ってセンサーの電源を入れて、基本姿勢と呼ばれる“気をつけ”の格好でキャリブレーションを行う。途中“一歩踏み出す”動作が生じるものの、それだけでキャリブレーションが完了する。

各センサーの状態をチェック

基本姿勢の後、効果音で一歩踏み出すとキャリブレーションが完了

　筆者が見たデモでは、説明を挟みながらキャリブレーションが実施されたが、それでも2分程度で完了していた。慣れたユーザーであれば、1分程度ですぐにキャリブレーションできてしまうだろう。

　初期段階では、何も肉付けしていない人間の形と、RAYNOS（レイノス）ちゃんと呼ばれるアバターが用意されている。アバターの切り替えや、動画の記録、モーションデータの記録や送信もタップ操作だけで簡単に行えるため、屋外にいてもすぐにVRの世界に入り込むことができる。

RAYNOS（レイノス）ちゃんのアバター

肉付けしていない画面も

記録画面

カメラを固定することでさまざま角度から記録できる

録画する際は、背景を選択できる。編集しやすいグリーンバックなども選択できる

パソコンとはネットワーク接続

　なお、アバターは一般的なフォーマット「VRMファイル」を変換なしでそのまま利用できる。生成されるモーションデータもファイル形式「BVH」でフレームレートは50fps、動画データはMP4（H264、AAC）形式で1920×1080の解像度、30fpsのフレームレートと、一般的なファイル形式のものが出力できる。

ジャンプやしゃがむ動作も記録できる一方、苦手なものも

ジャンプしているようす

　先述の通り、加速度などの情報をもとに、ユーザーの動きや格好を類推している。ジャンプをしたりしゃがんだり大きな動きは特にダイナミックに表現できる。

　その一方で、加速度がとれない「ゆっくりとした動き」や、「床に仰向けになる」格好などは、きちんとしたデータがとれない場合がある。これらは、今後も引き続き改良を加えていくという。

仰向けになると、RAYNOSちゃんが床にめり込んでしまった

ユーザーの移動も検知

　また、ユーザーが移動した場合、VR空間でも移動するようにすることもできる。

　たとえば、現実の世界の映像とアバターを組み合わせて、あたかも現実空間を旅している映像作品などを製作することもできるだろう（もちろん、それなりの映像編集技術が必要になりそうだが……）。

キャリブレーションしている面が正面になる

近い場所にいると、大きく表示される

離れた場所に移動すると、アバターが遠くに表示される

　VR空間での活用例としては、VRゴーグルを併用してユーザー自身がVR空間に入り込んで楽しむこともできる。

VRゴーグルとの併用例

オープンなデバイス「mocopi」、今後の展開に期待

　今回の「mocopi」では、発売当初から外部サービス／デバイスの連携や、SDKの公開がなされているなど、オープンなデバイスとして展開される。

　相見氏は、これまでの3Dコンテンツ制作の「一部のプロフェッショナルが訓練を積んで業界に参入する」というものから、「写真を撮影したり動画を撮影したりする手軽さ」で提供したいと想いを語った。

　今後メタバースのサービスはどんどん増えていくと予想しているとし、「制限された動きだけでなく、自分が思ったとおり動いていく、身体表現できるというところをサポートしていきたい」と、今後さまざまなサービスへの展開を期待したいとした。

mocopi（モコピ）の詳しい使い方