明日のトップランナー
次世代インタラクティブメディアを実現する「視覚モデルに基づく表示映像最適化」の研究
次世代インタラクティブメディアにおいては、高品質・低遅延・省エネルギーな映像生成が必要になると予測されています。今回は、視覚モデルの構築を通じ、ヒトと環境の双方にやさしい映像生成技術の確立をめざしている吹上大樹特別研究員にお話を伺いました。
吹上大樹 特別研究員
NTTコミュニケーション科学基礎研究所
PROFILE
2015年 日本電信電話株式会社入社、NTTコミュニケーション科学基礎研究所 人間情報研究部 感覚表現グループ 所属。2020年~同研究所 特別研究員。視覚科学とメディア工学の2つの専門性を活かし、視覚モデルに基づく表示映像の最適化研究を行っている。
「視覚モデルに基づく表示映像最適化」とはどのようなものか
◆どのような研究を手掛けられていらっしゃるのでしょうか。
「視覚科学を用いたメディア技術研究」という表現が一番近いでしょうか。
視覚科学で解明された人間の視覚の特性を上手く利用することで、メディア表示技術の改善に役立てたり、全く新しい表示手法を考えたりする研究に取り組んでいます。ここでいう視覚科学は、大雑把にいうと目に入った情報が脳内でどのように処理され、主観的な知覚体験につながるのかを解き明かす学問領域です。
この視覚科学をメディア技術に応用する場合、任意の画像、映像から得られる知覚体験を予測することが多くの場合に必要となります。ところが、これまでの視覚科学分野の研究では、刺激を色、形、運動などの要素に分解して、それぞれの処理について調べるアプローチが主流だったので、逆に普段私たちが目にするような自然な画像・映像の見え方を汎用的に説明できるモデルはまだありません。そのため、技術応用を考える場合には必ずといっていいほど視覚科学の未解明の課題を埋める必要が出てくるのです。
そこで私たちは、ターゲットとするメディア技術を実現するために、まずは実験を通じて視覚科学の未解明の部分を埋め、その後視覚モデルを構築して表示映像を最適化するという流れで研究を行っています。「ヒトの視覚情報処理がどのように行われているか」を考え、視覚系のモデルを構築する視覚科学のサイエンス的な側面と、そのモデルをメディア表示技術に応用して最適化し、人と環境にやさしい映像生成技術を実現するテクノロジ的な側面との双方に取り組んでいるともいえます(図1)。
◆具体的にはどのようなメディア技術を研究していらっしゃるのでしょうか。
今回は3つのメディア技術について紹介します。
■変幻灯(2015年~2019年)
「変幻灯」は私が研究所に入る以前からスタートしていたもので、プロジェクションマッピング技術により静止している物体に動きを与える技術です。ヒトが動きの情報、形の情報、色の情報をそれぞれ独立に処理し、後から統合して世界を認識しているということは、これまでの視覚科学の研究により解明されていました。それを逆手に取れば面白いことができるのではないか、というところからスタートしています。人間の錯覚を利用し、静止している物体を動いているように見せる技術で、私も初めて見たときは大変驚きました。
物体が動いているように見える錯覚を起こすには、投影パターンを実物の位置にぴったり合わせる必要があります。私は主にコンピュータビジョン分野の技術を使い、自動的に位置のキャリブレーションを行う部分などを担当しました。また、錯覚ベースの技術ですので、動かせる量には限界があります。あまり大きく動かそうとすると「静止している物体の上に何か明らかに違うパターンが載っている」と見抜かれてしまいます。そこで、「どのくらいの動きまでなら騙せるか」を予測する「投影違和感モデル」を構築し、許容範囲内で最大の動きを自動的に与えられるような研究にも取り組みました。
本技術は見た目のインパクトや面白さもあり、さまざまな分野で商用化されています。例えば店頭のPOPに動きをつけたり、アート作品に応用されたりしています。
■Hidden Stereo(2016年~2017年)
「Hidden Stereo」は、3Dテレビに関する技術です。専用のメガネをかけると映像が立体的に見える3Dテレビでは、メガネをかけていない状態ではぼやけた映像しか見ることができません。そこで、人間が奥行きを知覚する仕組みに基づき、メガネなしでもくっきりとした映像を見ることができるステレオ映像生成技術を開発しました(図2)。
ヒトが奥行きを知覚する際には、左右の網膜の映像を方位、細かさ・粗さなどの要素に分解したうえで、対応する要素間の位相差を視差として検出することで奥行きを知覚するようなメカニズムが働いていることが知られています。そこで、この視差検出メカニズムに基づいてヒトが奥行きを感じられる必要最低限の誘導パターンを作成し、元映像にそのパターンを足すことで左目用の映像を、引くことで右目用の映像をつくり出します。メガネをかけているときには左目には左目用、右目には右目用の映像が届くため立体に見えますが、メガネをかけていないときには左目用のプラスパターンと右目用のマイナスパターンが打ち消し合うことで元映像だけが残るため、くっきりとした映像を見ることができるわけです。
本研究はもともと前述の「変幻灯」に奥行きを付けられないか、というところからスタートした研究です。「変幻灯」がパターンをプラスすることで動きを与えるのに対し、「Hidden Stereo」ではパターンをプラスすることで奥行きを与えるという類似点があります。
■視認性に基づく直感的な画像ブレンディング(2020年~2021年)
「視認性に基づく直感的な画像ブレンディング」は直近の研究です。
半透明の映像どうしを重ね合わせて情緒的なシーンを演出したり、AR(Augmented Reality:拡張現実)、VR(Virtual Reality:仮想現実)などで現実の景色が隠れないよう半透明の情報を重ねたりなど、半透明の画像をブレンドして表示するという技術には需要があります。
このように画像をブレンドする場合には透過度を設定する必要がありますが、例えば透過度を同一の0.5に設定した場合でも、組み合わせる画像によって見た目の視認性が全く異なってしまうという問題が生じます。物理的に透過度を設定して合成するだけではなかなか意図した結果が得られないのです。
これまでにも画像の色や粗さなど、個々の要素での視認性を予測するモデルはありましたが、実際の自然画像の視認性を予測するには、それらをどのように統合すればよいのかという点は解明されていませんでした。そこで本研究では、膨大な数の自然画像を使用してそれらをブレンドしたときの視認性を計測することで、視認性を正しく予測できる「視認性予測モデル」を構築し、それにより自動的に最適な透過度を設定する技術の開発に取り組んでいます。
視覚科学への貢献と映像生成技術の確立の両方をめざす
◆今後の研究の方向性について教えてください。
これまでは視覚科学のうち低次の、いわば視覚系の入り口に近い部分のモデルをメディア工学へ応用することに注力してきました。この分野でもまだやれることは多々ありますが、どのようなことが可能であるかはだいたい把握できたという手ごたえを感じています。
そこで今後は、もう少し高次な情報処理のモデル化に挑戦し、よりアグレッシブな最適化を図っていきたいと考えています。例えば、これまでの研究では基本的に視野の真ん中、いわゆる「中心窩」付近での見え方を予測していましたが、今後はその外側にある「周辺視野」での見え方の予測にも取り組みたいと思います。実は、人間の視野の大部分は周辺視野で構成されています。しかも周辺視野の情報処理の仕方は、中心視野の情報処理の仕方とはかなり異なっています。そこをきちんとモデル化できるとさらにいろいろなことが実現できるのではないかと期待しています。
◆最終的な目標について教えてください。
今回紹介した3つの技術は細かい点では異なりますが、最終的にめざすところは同じです。2つの軸の目標があり、1番目は視覚科学への貢献です。技術応用を視野に入れ、多様な画像・映像を刺激として扱う中で、これまでは見逃されてきた重要な視覚機能の発見につながるかもしれません。
そして2番目はテクノロジへの貢献です。メディア工学分野での技術的課題の解決をめざします。これまでのディスプレイでの表示と比べると、ARやVRといった次世代のインタラクティブメディアでは要求される情報の量や質が格段に増えるため、今後はヒトの特性を考慮していかにコストを賢く分配するかが重要になってくると考えられます。構築した視覚モデルに基づき、ヒトにとって自然に感じられるために必要な本質的な情報を見極め、不要な情報を削ぎ落すことができれば、高品質・低遅延・省エネルギーな「ヒトと環境にやさしい」映像生成を実現できるでしょう。
◆将来のビジネスパートナー様や若手研究者に向けてメッセージをお願いいたします。
NTTコミュニケーション科学基礎研究所は、非常に広い範囲で基礎研究を手掛けている研究所だといえます。私の知る範囲だけでも、脳神経科学からコンピュータビジョン、音声認識、信号処理、情報処理の基礎となる理論数学まで、さまざまな研究が行われています。長年にわたりビジネス的な応用に軸足を置かない基礎研究を行ってきたことは、企業の研究所としては異例であり、NTTの大きな強みではないかと思います。また、大学や研究機関のように研究の自由度は高い一方で、予算的な制約も少ないです。この環境を活かし、広い視野と自由な発想で研究に取り組みながら、将来の社会の役に立つ技術の種を生み出していきたいと思います。
研究者をめざしている方で、もしここで挙げたような研究内容に興味があれば、是非チームに加わって一緒に取り組んでもらいたいです。学生の間に自身の研究に打ち込んで、誰にも負けないようなスキルや知識を身につけることができれば、存分に活躍してもらえる環境がNTTには整っていると思います。また、自身の好奇心をもっとも刺激する対象を見つけておくことも重要かもしれません。研究の大部分は地道な作業の積み重ねで、しかも上手くいかないことも多いので、そうしたときに研究を進める原動力となるのは、やはり好奇心だと思うからです。私自身も研究者としてはまだまだ発達途上で、自信を失くすことも多いですが、学生時代から人間がどのように視覚的に世界を認識しているのかについて強い関心を持っていて、この問題に対する好奇心が日々研究を進める原動力になっています。