「VR&ARを活用したスタジアム観戦」における競技フィールド再構成のための映像処理・提示技術
- VR/AR
- スタジアム観戦
- 映像処理・提示技術
近年、VR(Virtual Reality)/AR(Augmented Reality)を活用したスポーツ観戦への期待が高まっています。NTTメディアインテリジェンス研究所では、VR/ARのそれぞれの利点を活かし、試合展開に応じて再構成された競技フィールドの映像を、観戦者が操作することなくVR/AR表示することで、より試合を応援したくなる「VR&ARを活用したスタジアム観戦」の実現をめざしています。本稿では、VRとARで共通的に利用できる映像コンテンツを作成する映像処理技術や、目の前に実在感のある映像を表示するための映像表示技術を紹介します。
磯貝 愛(いそがい めぐみ)/ 岡見 和樹(おかみ かずき)/ 松村 誠明(まつむら まさあき)/ 伊達 宗和(だて むねかず)/ 亀田 明男(かめだ あきお)/ 能登 肇(のと はじめ)/ 木全 英明(きまた ひであき)
NTTメディアインテリジェンス研究所
VR&ARがもたらす新たなスタジアム観戦の世界
近年、VR(Virtual Reality)/AR(Aug-mented Reality)を支えるセンサデバイス、コンテンツ制作および映像配信技術の発達に伴い、VR/ARを活用したスポーツ観戦のトライアルやサービス導入が開始されています。NTTドコモは、観戦者がARデバイスとして装着したスマートグラス上の試合を阻害しない位置に、選手情報や別視点のカメラ映像を重畳表示しながら、ラグビーを観戦するトライアルを実施しています(1)。また、KDDIは、野球場に設置された5台のカメラを切り替えながらVR視聴するVRスポーツ観戦サービスを開始しています(2)。
しかし、スタジアム観戦では、目の前で繰り広げられる試合展開に応じてVR/ARに適したシーンが切り替わるため、VR/ARのいずれかだけではすべてのシーンを満たすことができません。試合観戦そのものを阻害しないよう、観戦者が意識して操作することなく、VR/ARが切り替えられる仕組みが必要になります。私たちは、VR/ARのそれぞれの利点を活かし、試合展開に応じて再構成された競技フィールドの映像を、観戦者が操作することなくVR/AR表示することで、観戦者がより試合を応援したくなる「VR&ARを活用したスタジアム観戦」の実現をめざしています。このために、VRとARで共通的に利用できる映像コンテンツを作成する映像処理技術や、目の前に実在感のある映像を表示するための映像表示技術の研究開発を進めています。
本稿では、VRARを活用したスタジアム観戦を実現するためのシステム概要を説明した後、VR/AR表示用に競技フィールドを再構成する映像処理技術として、カメラを設置することができない競技フィールド内の映像を生成するための「3次元再構成技術」、注目選手にフォーカスさせるため注目選手以外を目立たなくした映像を生成する「隠消技術」について紹介します。また、観戦席以外の場所でもスポーツ観戦を盛り上げることを目的とした将来のARデバイスとして、テーブル上に競技フィールドを立体的に表示するための「視覚的に等価なライトフィールド映像生成技術」について紹介します。
VR&ARを活用したスタジアム観戦システムの概要
VR&ARを活用したスタジアム観戦を実現するためのシステム概要を図1に示します。
スタジアムを取り囲むように設置された複数カメラは、競技フィールド全体をセンシングし、カメラ映像をクラウドにアップロードします。クラウド上では、カメラ映像から競技フィールドで起こっている事象を解析し、その情報を基に観戦者にどのような映像を提示するか演出が選択されます。そして、演出に応じてカメラ映像から競技フィールドを再構成し、観戦者の視聴端末に映像が配信されます。
図1 システム概要
競技フィールド再構成のための3次元再構成技術
はじめに、競技フィールドを再構成する映像処理技術の1つである、カメラを設置することができない競技フィールド内の映像を生成する「3次元再構成技術」について紹介します。
スタジアムやアリーナなどでは観戦席が決まっているため、限定された方向からしか観戦できなかったり、競技フィールドまで遠く選手が見えなかったり、観戦者が試合展開に応じて期待した視点から観戦することができません。自由な視点をつくる取り組みとして、これまで競技フィールドを取り囲むように配置したカメラから、カメラを配置できない競技フィールド内の視点の映像を生成する自由視点映像合成技術が提案されてきました。しかし、広域な競技フィールド全体をセンシングするためには、多数のカメラを会場に配置しなければならず、既設施設への設営負荷が高いという問題があります。また、カメラ位置より前方の競技フィールド内の視点映像は、カメラ映像の空間分解能の限界や、隠蔽領域の不良設定問題のため、スポーツ観戦に耐え得る品質の映像を生成することができません。
この問題を解決するため私たちは、撮影した映像から選手の動きを推定し、その推定結果を事前に作成しておいた当該選手の高品質なCGモデルに割り当てることで、人物の擬似的な再構成を行う手法を提案しています。近年の映画やゲームコンテンツなどで見られるように、CGの品質は非常に高い水準に達しているため、本手法でも現実と見紛うような品質の自由視点映像を生成することが可能となります。
本手法の実現のためには、映像から選手の動きを推定する技術が必要となります。近年、DeepLearningを用いてカラー画像から人物の動作を高精度に推定する技術(3)が提案されていますが、これらの技術は遮蔽物により被写体である人物が部分的に隠れてしまう場合に動作の推定精度が大きく低下するという問題があります。スポーツシーンでは、1つのシーンに多数の選手が入り乱れ、互いに遮蔽し合う状態は容易に発生するため、遮蔽物に対する頑健性を高めることは重要な課題です。そこで私たちは、カラー画像から直接被写体の動作を推定するのではなく、まず、遮蔽物に隠された被写体のシルエットをカラー画像から推定し、推定したシルエット画像とカラー画像を利用して人物の動作を推定する手法を提案しました(図2)。シルエット画像を用いて人物の動作の候補範囲を限定することで、従来技術と比較してより高精度な動作推定が実現できます。
図2 提案手法の概要
競技フィールド再構成のための隠消技術
次に、注目選手にフォーカスさせるため注目選手以外を目立たなくした映像を生成する「隠消技術」について紹介します。
映画や漫画では、注目させたい人物のみを残し、さらにスポットライトなどの効果を付与することで、そのシーンで特に注目させたい人物にフォーカスを当てる演出が行われています。私たちは、このような演出をスタジアムやアリーナなどで開催される試合において適用することで、勝敗を左右する決定的なシーンで得点にかかわる選手への注目が高まり、試合観戦をより盛り上げることができると考えています。
実空間に存在する物体を目立たなくする技術として、対象領域の背景映像を対象領域に重畳することで、対象領域を取り除いた映像を生成するDR(Diminished Reality)技術が提案されています。スポーツ競技に適用するためには、重なり合うようにプレイしている複数の選手の前後関係(3次元情報)を考慮しながら、対象領域のみを目立たなくするDR技術が必要となります。また、観戦者はさまざまな位置姿勢でスポーツ競技を観戦しているため、観戦者の視点ごとに対象領域を目立たなくする処理を施した映像を提示しなければなりません。
このような課題に対して、私たちは、スタジアムやアリーナなどの競技会場を取り囲むように設置した複数カメラから、対象領域の背景を撮影しているカメラを選択し、観戦者から見て競技フィールドに一致するように画像変換した画像を貼り合わせることで、対象領域を目立たなくする手法を提案しています(4).
提案手法の技術ポイントを図3に示します。第一の技術のポイントとしては、観戦者から競技フィールドまでの距離が遠く、競技フィールドを再構成するのに必要な奥行きが狭いことに着目し、競技フィールドを離散的な多層平面と仮定して3次元情報を推定しています。これにより、競技フィールド全体の3次元情報を推定する手法と比較して少ない計算量で、対象領域の前後関係(3次元情報)を考慮しながら、対象領域の背景を撮影しているカメラ群を抽出することができます。第二の技術ポイントは、対象領域の背景を撮影しているカメラ群から、観戦者が見ている方向と位置に近いカメラを選択していることです。これにより、背景画像に施す画像変換量が小さくなり、幾何歪みを抑えながら対象領域を目立たなくすることができます。
図3 提案手法の技術ポイント
視覚的に等価なライトフィールド映像生成技術
最後にARデバイスとして、テーブル上に競技フィールドを立体的に表示するための「視覚的に等価なライトフィールド映像生成技術」について紹介します。
私たちはチケット売り場やロビーなど、スタジアムやアリーナの観戦席以外のスペースで試合のハイライトシーンを提示することで、選手やチームに興味を持ってもらい、リピーターを増やすことができると考えています。観戦体験をより魅力的に提供するには、その場に選手がいるかのような実在感を提示することが重要になります。
選手、コート、ボールなどの物体は周囲の照明などの光を反射したり、自身が発光したりすることで、方向により色や明るさが異なる光線を発しています。この多数の光線がつくる場はライトフィールドと呼ばれ、正確に提示することができれば、高い実在感でシーンを提示できます。しかし、方向によって異なる光線を表示するには、方向の数だけ画素を割り当てることになります。例えば、100方向の光線を生成するには、同じ解像度の2次元ディスプレイの100倍の画素が必要になってしまいます。
人間の視覚は眼の瞳に入る光線から物体を知覚します。これは、カメラで写真を撮るような単純な画像の取得だけではなく、左右の眼という異なる視点で得られる光線情報の違いや、身体の揺れや眼球運動による繊細な視点位置の変化に対応した微小な光線の変化を利用しています。この知覚は一見すると高度ですが、人間は必要のない要素には鈍感です。実物からの光線とは異なっていても、人間の知覚にとって等価と感じるものを提示することができれば、人間は実物と同じように知覚するというのが視覚的に等価なライトフィールドディスプレイの考え方です。本技術では、離散的な視点への光線の情報を基に、ディスプレイ内部で複数の光線を光学的に加重平均することで、中間の視点への光線を等価的に補間生成しています(5)。
装置の概要を図4に示します。左上に示したように、バックライト光源の前面にストライプ状の光学バリアを設置し、その前面に液晶パネルを設置します。例えば、バリアの隙間から視点Aに至る光線は液晶パネルの視点Aへの光線をつくる画素だけを照明するので、視点Aからはその画素群で構成された画像が見えます。視点Bでも同様です。視点AとBの中間から見ると、視点からの距離に応じて加重平均された光線が見えることになり、中間の視点と等価に知覚されます。今回はスポーツということで、左下の図のように平面のコートに対応して画面を水平に置き、コートの隅々まで高画質で表示可能としました。
ライトフィールドを再現しているため、大人と子どものように左右の眼の間隔が異なっても、正しい奥行きで知覚できます。また、補間の効果は画素数の節約だけではなく、そのアナログな滑らかさが実在感の向上に貢献していると考えています。
図4 視覚的に等価なライトフィールドディスプレイの概要
今後の展開
VR/AR関連技術の向上に加えて、2020年に向けてスポーツが注目されていることから、今後も、VR&AR技術を活用したスタジアム観戦への期待は高まっていくと予想されます。NTTメディアインテリジェンス研究所では、試合展開に応じて演出およびVR/AR提示を選択するためのシーン解析技術、競技フィールドを再構成するための映像処理技術と視覚的に等価なライトフィールド映像生成技術の研究開発を推進し、新たなスポーツ観戦体験の創出に貢献していきます。
■参考文献
(1)https://www.nttdocomo.co.jp/binary/pdf/info/news_release/topics/topics_171221_01.pdf
(2)http://news.kddi.com/kddi/corporate/newsrelease/2018/07/25/3281.html
(3)Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh:“Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,”CVPR 2017,pp.7291-7299,2017.
(4)M.Isogai, D.Ochi, and H.Kimata:“Diminished Reality Using Plane-based Reconstruction Method,”IMID 2017,F38-4,3DSA,Busan,Korea,Aug. 2017.
(5)伊達・越智・木全:“視覚的に等価なライトフィールドフラットパネル3Dディスプレイ、”第22回日本バーチャルリアリティ学会大会講演予稿集、1B4-04,2017.
(後列左から)能登 肇/伊達 宗和/木全 英明/亀田 明男
(前列左から)岡見 和樹/松村 誠明/磯貝 愛
問い合わせ先
NTTメディアインテリジェンス研究所
画像メディアプロジェクト
TEL 046-859-2938
FAX 046-859-2829
E-mail megumi.isogai.ks@hco.ntt.co.jp
観戦者がより試合を応援したくなる「VR&ARを活用したスタジアム観戦」の実現をめざし、競技フィールドを再構成するための映像処理技術と視覚的に等価なライトフィールド映像生成技術の研究開発に取り組んでいきます。