7.「音声UI」と「MR・AR」の同時進化が新体験を生み出す

2018年7月17日

▶ICCパートナーズではコンテンツ編集チームメンバー(インターン)の募集をすることになりました。もし興味がございましたら採用ページをご覧ください。

「未来のテクノロジーが実現する新しいビジネスモデルを徹底議論」9回シリーズ(その7)は、音声UIとMR・ARの進化についての議論から、人間とはまったく異なるAIの思考ロジック、動画解析テクノロジーの可能性まで話題が広がります。登壇者たちがバーチャルYouTuberを面白いと思う理由とは？ぜひご覧ください。

ICCサミット FUKUOKA 2018のゴールド・スポンサーとして、日本マイクロソフト様に本セッションをサポート頂きました。

ICCサミットは「ともに学び、ともに産業を創る。」ための場です。毎回200名以上が登壇し、総勢900名以上が参加する。そして参加者同士が朝から晩まで真剣に議論し、学び合うエクストリーム・カンファレンスです。次回 ICCサミット KYOTO 2018は2018年9月3日〜6日京都市での開催を予定しております。

▼
【登壇者情報】
2018年2月20-22日開催
ICCサミット FUKUOKA 2018
Session 2A
未来のテクノロジーが実現する新しいビジネスモデルを徹底議論
Sponsored by 日本マイクロソフト

(スピーカー)

國光宏尚
株式会社gumi
代表取締役社長(登壇当時)

村上臣
リンクトイン・ジャパン株式会社
日本代表

横山直人
フェイスブックジャパン
執行役員新規事業開拓兼パートナーシップ事業(登壇当時)

(モデレーター)

澤円
日本マイクロソフト株式会社
マイクロソフトテクノロジーセンターセンター長
サイバークライムセンター日本サテライト責任者(登壇当時)

西脇資哲
日本マイクロソフト株式会社
コーポレート戦略統括本部業務執行役員エバンジェリスト
▲

▶「未来のテクノロジーが実現する新しいビジネスモデルを徹底議論」の配信済み記事一覧

連載を最初から読みたい方はこちら

最初の記事
1.マイクロソフト・ナデラCEOが掲げる3つの投資領域

1つ前の記事
6.新たなデバイスにあわせてUI/UXを再定義しよう

本編

村上　そこで面白いのが、今ボイスUI（音声インターフェース）が、スマートスピーカーの登場とともに、すごく盛り上がっているということです。

この動きと、MR（複合現実）、AR（拡張現実）の進化が一緒に来ているのが非常に興味深いなと思うんです。

「音声UI」と「MR・AR」の進化が同時に起こっている

村上　結局今のところ、HoloLensだとこういうクリックとかコントローラーが必要ですよね。

結構難しくて、慣れが必要です。

西脇　指先だけのね。

國光　あのUI/UXは必ずしも理想的ではないですよね。

村上　そうなんです。

でもこれは、深度センサーなどいろいろなセンサーの進化を考えると、もう少し時間がかかるかなと思っています。

リンクトイン・ジャパン株式会社日本代表村上臣氏

たぶん今一番早いのは、口で言うことなんですよね。

「あれを右に」とか言うと、ピッと動くみたいな。

このボイス（音声）のUI、つまりVUIの進化とMR・ARの進化が一緒に来ていて、スタートアップについて言及すれば、この両方を見ないといけないと思います。

國光　そうそう、ボイスというのも面白い。

ここ最近ね、皆やはりテキスト入力が面倒くさいから、シバタさん（編集注：シバタナオキ氏）以降、大体こうスマホの音声入力で……

西脇　しゃべりますよね。

村上　シバタさん以降ね（笑）。

▶参考：「『音声入力』を活用したら、人生の生産性が2倍になった」（cakes）

國光　やはり、音声入力をしながら、PCでGoogleドキュメントを開いて修正しながらやっていくと、非常に早いですし。

あれも裏ではAIがすごく頑張ってくれているんですよね。

あとは、翻訳の性能が相当上がってきています。

澤　以前は、50年後には外国語を勉強するのは学者と趣味の人だけになると言われていましたが、もう50年の単位ではないですね。

写真左より、横山氏、澤氏

村上　もっと早いですよね。

澤　たぶん数年とか。

國光　日本語の文法が綺麗だったら訳も大体正確で、むしろ自分の文法間違いの方が多いですよね。

西脇　人工知能が訂正してくれる（笑）。

澤　そうそう。

村上　でも人工知能は文法を知りませんから、そこが面白いなと思います。

先ほどの澤さんのスライドに、透明性などの「AIの開発原則」がありましたよね。

僕たちがAIが何をしているかを理解しようとしても、ロジックが全く違うので人間には理解できない領域ですよね。

あれはどうするんだろうなと思いますが。

東ロボくんのような、東大の入試問題をAIに解かせるプロジェクトがありますが、数学の解法とか実はグチャグチャなんですよ。

▶編集注：東ロボくん（とうろぼくん）とは、日本の国立情報学研究所が中心となって2011〜2016年にかけて行われたプロジェクト「ロボットは東大に入れるか」において研究・開発が進められた人工知能の名称。（Wikipedia）

それなのに、答えは合っているんですよね。

AIは人間とは全く違うロジックで思考している

西脇　解き方が違うということですね。

村上　そう。アルファ碁（AlphaGo）とかもそうですよね。

たぶんプロの目から見ると、何でこんな手を指すんだ？と思うのだけれど、そのロジックで勝ててしまうという。

人に理解できないものをどう理解するのか、どうやってAIに寄り添うのかというのは、今後少し考えていかなくてはいけないと思っています。

MRもそうですが、この最新テクノロジーと人はどうやって寄り添っていけばいいのだろう、というのは、まだ僕の中でもモヤモヤしているんですよね。

國光　そこね、マイクロソフトが透明性とか言っているけれど、正直、今のディープラーニングって透明性も何も、皆よく分かっていないけど、なんかできちゃった、という感じじゃないですか。

（会場笑）

西脇　確かに、できちゃったものを売っていく、というビジネスに近いところもあると思います（笑）。

國光　透明性とかオープンとか言うけれど、でも少なくとも今のディープラーニングを含めて、実際はそんな感じではなくて「なぜかできちゃった」ですよね。

西脇　そうです。

國光　ということは、彼らがいつの間にか進化していって、人間に対して問題を起こすリスクはないんですか？

太刀打ちできないどころか「違うゲームになる」

西脇　いや怖いですよね、AIは我々が想像している以上のデータ量を見ますので。

日本マイクロソフト株式会社コーポレート戦略統括本部業務執行役員エバンジェリスト西脇資哲氏

皆さんの中にも将棋をやる方がいらっしゃるかもしれませんが、将棋はもう人間よりもAIが強くなりました。

人間というのは十数手ぐらいしか先を読めないんですよね。

でも人工知能はゴールまで読めるので、全然違う勝負を挑んでくるという、一番分かりやすい例なんですよね。

要はデータ量が多いと、人間と全く違う発想になりますよということで、我々はもう太刀打ちできないどころか、「違うゲームになる」という言い方をしています。

村上　そうですよね。

そこのロジックというのは、そこまで見えないので我々には絶対分からない、だから恐らくデータソースの透明性であるとか、これはどういう許諾を得たデータなのか、というところを担保していくことになるのだと思います。

ちょうどGDPR（EU一般データ保護規則) の話もありますけれども、そういうデータの出所の部分を確保していって、ロジックはよく分からないけどたぶん正しいんだ、というような理解の仕方になるのだろうなと。

▶参考：「EU一般データ保護規則（GDPR）について」（日本貿易振興機構）

横山　でもその後の証明はしていくんでしょうね。

村上　まあそうですね。

横山　何でこうなったのかというのを、時間をかけて人間がしっかりと分析して、こういうことだったんだというのが1ヵ月後ぐらいに分かるみたいな。

フェイスブックジャパン執行役員新規事業開拓兼パートナーシップ事業部（登壇当時）横山直人氏

西脇　1ヵ月後ぐらい（苦笑）。

村上　1ヵ月後、それも一生懸命やってね。

澤　たぶん、AIのロジックを全て説明するというのはもはや不可能な世界になっていて、それを解釈して、変換して、説明するという、そういう役割を人間がこれから担っていくことになり、そのような人材が段々求められてくるのかなという感じがしますね。

國光　そうですね。

そしてやはり、「火」が出てきた時に火を一番最初に使いこなした人が有利だったし、Googleなどが出てきた時は検索機能を使いこなした人が有利だったように、今で言うと、この新しく出てきた技術を使いこなした人が、圧倒的に有利になってくるんだろうなと思います。

村上　この世界で僕がすごくジャンプアップしそうだなとにらんでいるのが、動画のパターンマッチングです。

新デバイス×動画認識でコミュニケーションが変わる

村上　一応、僕たちが目で見ているものはビデオを撮れますよね。

その動画分析のためのパターンマッチング、AIを使ったものから何が生み出されるのかということにすごく興味があります。

なぜかというと、今のディープラーニングというのは、パターンマッチングのお化けですよね。

テキストよりも画像の方が情報量が多いので、画像認識などから花開くのではないかと。

単位時間あたりの情報の密度が高ければ高いほど、たぶんディープラーニングの精度やインパクトは増えるはずです。

そうすると、動画は今我々が扱っているメディアの中で情報の密度が一番高いので、ヘッドセットなどであらゆることが撮れるようになった場合、いろいろな動画が集まるわけですよね。

そこから何が分かるようになるのだろうということに、すごく興味があります。

写真左から國光氏、村上氏、横山氏

國光　何年か前に『エクサバイト』という小説を読んだのですが、導入が非常に面白いんです。

ちょっとした近未来の話で、その小説では人々がまさにHoloLens的なものをつけていて、すべてのものをレコーディングしているような時代です。

そのHoloLens的なものを作った起業家のような人物が掲げていたコンセプトというのが、世界中の人間が見ていることを記録していくことで、人類の中に存在する因果率のような、原因と結果の関連を紐解く、というようなことでした。

すべてのことには、やはり原因があって結果あるわけですが、でも人類の歴史において、何で桶狭間の戦いが起こったんだっけ、何で本能寺の変が起こったんだっけ、何で9.11が起こったんだっけというと、分からないですよね。

村上　そうそう。

國光　でももし人々が見ていたすべての情報を取ることができれば、例えば9.11が起こった前後に、現場にいた人などのデータから辿っていけば、いろいろな相関関係が見えてきて、人類はより進化できるのではないか、というような話です。

写真左から國光氏、村上氏

村上　この辺りは大変面白いと思っていて、昨今のテクノロジーでは、コンピューター・ビジョンでミーティングの様子をカメラで見ることができるわけですよ。

そうした、いわゆるノンバーバルなコミュニケーションというのは大きな意味を持ちますよね。

誰が議論をリードしているのかとか、交渉相手がイエスと言いそうかどうかとか、その確率を出すようなことをやっているコンピュータービジョンのシステムがあるんです。

そういうのが、例えばHoloLensのディスプレイに出てくるとやはり面白いわけですよね。

國光　そう、ここの応用方法は結構いろいろあると思っています。

ビジネスの領域での応用方法としては、例えばこういうグラス型デバイスが普通になってきた時点で、打ち合わせなどの際に、この相手はどういう人で、いつどういう会話をしたかとか、他の営業マンが過去に訪問していたらその時にはどういう話をしたか、ということが出ると。

更にその時に話している内容も当然レコーディングされ共有されて、それだけではなくて、相手の話している時の顔を見て、次にこの提案をしたら営業が成功する可能性が何%というような感じで示されるとか。

村上　話している間に「今ちょっと喜んだ」とかね。

國光　そうそう！

村上　もし機嫌が悪そうだということが分かれば、ちょっと会話を変えたりできますよね。

國光　そう、次の話題はこれにすべきだみたいなことも提案してくれたり。

このように、アイデア次第で「AR○○」というのは結構いろいろ出てくると思っています。

現実社会で味わう「感覚」を再現できるか

國光　最近、固定概念のUI/UXからなかなか抜けられないなと思ったのが、VRのRPGゲームを作っていて、「実在感を出そう」ということでリアルな感じに、剣を後ろから出したりとか、腰につけているのを出したりとか試してみたんです。

でもそういうUIだと、剣が増えてきた時に、ゲームで俺は剣をどうやって持てばいいのだろうかと困ってしまうんです。

これ、どう取るんだっけ？と。

株式会社gumi 代表取締役社長（登壇当時）國光宏尚氏

村上　剣を10本ぐらい持つことになるわけですよね。

國光　そう、戦う時に、クルクルと回してこれかな、これかな、と剣を探す羽目になりそうですよね。

リュックサックの中にある回復アイテムとかも、あれじゃない、これじゃない、と必死に探すことになって、このUI/UXをどうしようかなと思ったんです。

でもよくよく考えたら、そんなこと考える必要はなくて、「スウォード！」と言ったら剣がポーンと出てきて、「ハンマー！」と言ったらハンマーが出てきて、「何とか回復アイテム！」と言ったら回復アイテムが出てくる、みたいな感じでいいのではないかと。

なので、今までのHoloLensのUI/UXは優れているとは言えなくて、これもやったら分かるけど、たぶん指でつまむような動作が普及するわけがないと考えています。

基本的にはAmazon AlexaもEchoもそうだと思いますが、ボイスで声をかけて、完璧なレコメンデーションを返して、どれだけユーザーに選ばせないようにできるか、というのが次のUIの鍵になるのだろうなと思います。

澤　実際（HoloLensの）ボイスコマンドは既に内蔵されているので、できなくはないのですが、まだ英語だけなんですよね。

あとはどれだけ多言語対応していくかとか、パーソナライズしていくかというのが次のチャレンジになってくるのかなというところです。

村上　でも確かに「物理に支配されている」というのは面白いかもしれないね。

2Dのゲームでは物理法則が無視されて色々とできたことが、現実世界とミックスされることによって、逆に僕たちが生きている世界の物理法則に縛られるという。

別に、剣は上からポーンと出てくればいいわけです。

そういう意味だと、最近SHOWROOM（ショールーム）が発表したバーチャルYouTuberのためのショールーム・プラットフォームが非常に面白いです。

僕も見せてもらったのですが、バーチャルYouTuberは皆さんご存知ですよね。

オッサンが可愛いキャラクターになって…たまに素顔がバレて夢を壊してしまうんですが（笑）。

写真左から國光氏、村上氏、横山氏

西脇　完全に壊している（笑）。

村上　そう、完全に壊してるんですが、バーチャルのYouTuberは2Dの人やっているように見えるのですが、でも実際にはオッサンとかがチャットなどでやっているんです。

それをSHOWROOMのバーチャルな世界の中で、VRをかけて、VRのキャラクターとして生配信するということを仮想現実の世界でやっているわけです。

VRの世界の中に配信システムがあって、コンソールがあって、こういう棒のようなものでカメラを持つとバーチャルな人がきちんと生配信している風に皆には見えるという、何が現実なのかもう全然分からなくなってきたのですが、とても面白かったです。

國光　VRでも突き詰めていくと、結局人間の感覚というのは曖昧で、火が吹けば熱い、高いところに行くと恐いというような感覚がありますが、VRで現実をそのまま再現すれば実在感が感じられる、というものでもありません。

実在感を感じさせるようにどう作っていくかが重要になり、これから大きい議論になるのだろうなと思います。

なので、仮想現実、VRの世界というのは、現実社会を完全にコピーしたものではなくて、現実社会で僕たちが持っている「感覚」を同じように味わえるようにするということが、重要になってくるのだろうと感じています。

そう考えると、今本当にVRのところで、まさにバーチャルYouTuber、ないしはそのコミュニティーなどが非常に伸びています。

やはりああいうのは、2Dのものよりもリアリティがあって、バーチャル空間の中に入って、実際に握手会もできるし、握手会をしても危なくないし、コンサートをしたら全員真ん前で見られるし、「そこにまさにいる感」が出てくると、やはり好きになっちゃいますよね。

村上　好きになるよ、間違いなく。

國光　なるなる。

村上　（僕は）もうなってるもん、なりかけてる。

西脇　SHOWROOMで、それをバーチャルでやっていくというのは、本当に可能性をすごく感じます。

もともとSHOWROOMというのは、例えばかわいいアイドルがステージにいるとして、客席側はアバターで見えるんですよね。

村上　そうそう。

西脇　あれ、もしアバターじゃなかったら、ここだけの話オッサンばっかりなんですよ。

村上　皆オッサンですよね。

西脇　だからそれも含めて、やはり仮想化ができているなと。

(続)

次の記事を読みたい方はこちら

続きは 8.先端テクノロジービジネスを担う人材をどう獲得するか？をご覧ください。

編集チーム：小林雅／榎戸貴史／戸田秀成／浅郷浩子／尾形佳靖／鈴木ファストアーベント理恵

【編集部コメント】

「スマホネイティブ世代はキーボードを打てない」ということをよく聞きます。数年後には音声入力ネイティブな世代がフリック入力をできない、という時代も来るかもしれませんね。次回は、テクノロジー人材のリクルーティングの話題です。ぜひご覧ください！

他にも多く記事がございますので、TOPページからぜひご覧ください。

更新情報はFacebookページのフォローをお願い致します。

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @icc_summit