NTT技術ジャーナル記事

   

「NTT技術ジャーナル」編集部が注目した
最新トピックや特集インタビュー記事などをご覧いただけます。

PDFダウンロード

特集

メディア研究から人の活動を支援・代替するAI技術の研究開発へ

4Dデジタル基盤の実現に向けた 空間情報処理技術

4D デジタル基盤は、ヒト・モノ・コトのさまざまなセンシングデータをリアルタイムに収集し、「高度地理空間情報データベース」上に、「緯度・経度・高度・時刻」の4次元の情報を高い精度で一致・統合させ、多様な産業基盤とのデータ融合や未来予測への活用をめざしています。
本稿では、高精度で豊富な意味情報を持つ「高度地理空間情報データベース」の整備に必要な空間情報処理技術として、画像と疎・低精度な3D データから地物を検出する実空間構造化技術、および時間変化を含む3D データを効率的に保存・活用する4D 点群符号化技術を紹介します。

八尾 泰洋(やお やすひろ) / 倉田 夏菜(くらた かな)
伊藤 直己(いとう なおき) / 安藤 慎吾(あんどう しんご)
島村 潤(しまむら じゅん) / 渡邊 真由子(わたなべ まゆこ)
谷田 隆一(たにだ りゅういち) / 木全 英明(きまた ひであき)
NTTメディアインテリジェンス研究所

4Dデジタル基盤とは

4Dデジタル基盤は、ヒト・モノ・コトのさまざまなセンシングデータをリアルタイムに収集し、「緯度・経度・高度・時刻」の4次元の情報を高い精度で一致・統合させ、多様な産業基盤とのデータ融合や未来予測を可能とする基盤です(図1)。4Dデジタル基盤と多様なIoT(Internet of Things)データを組み合わせることで、地理空間および多様な移動体の正確な位置の把握と、それに基づくさまざまな未来予測が可能となり、道路交通の整流化、都市アセットの最適活用、社会インフラ維持管理等、さまざまな領域で活用可能性があると考えています。
4Dデジタル基盤を構成する要素技術のうち、車線・標識などの交通情報や通信等のインフラ情報等の高精度で豊富な意味情報を持つ「高度地理空間情報データベース」を構築するために必要な空間情報処理技術として、画像と疎・低精度な3Dデータから地物を検出する実空間構造化技術、時間変化を含む3Dデータを効率的に保存・活用する4D点群符号化技術の研究開発を推進しています。本稿では、各技術の概要、取り組み状況について紹介します。

実空間構造化技術

「高度地理空間情報データベース」の構築には、道路を中心とした高精度3D空間情報の整備が必須となりますが、これには膨大な費用と手間がかかります。非常に高価なLiDAR(Laser Imaging Detection and Ranging)と呼ばれるセンシング装置を載せた専用車両と、人手を使った地図生成プロセスが必要となるためです。
そこで私たちは、効率的に高精度3D空間情報を構築するために、低廉なLiDARで計測された疎・低精度な3D点群と、カメラで撮影した映像との組み合わせから、道路付近のさまざまな自然・人工物を、自動で高精度に検出する実空間構造化技術の研究開発に取り組んでいます(図2)。実空間構造化技術は主に、疎な3D点群を画像や映像を手掛かりに高解像な3Dデータを生成する「3Dデータ高解像度化技術」、複雑な形状を含むシーン全体を解析し状態を把握する「3Dシーン理解・状態推定技術」、3D点群と画像に加えて、移動体センサから得られるセンシングデータを相互活用し、車や人の位置姿勢を把握する「3D動物体検知技術」から構成されます。本稿では、実空間構造化技術の最新の研究成果として、「3Dデータ高解像度化技術」と「3Dシーン理解・状態推定技術」に関する取り組みを紹介します。

■3Dデータ高解像度化技術

「3Dデータ高解像度化技術」は、低廉なLiDARで計測された疎・低精度な3D点群と、カメラで撮影した映像との組み合わせから、テクスチャ付きの3D点群である3Dデータを高解像化する技術です。低廉なLiDARでの3次元計測は、計測結果が疎であり、遠近かかわらず3次元計測可能なものの、計測結果にはノイズが含まれます。それに対してカメラで撮影された画像は密なデータですが、複数画像を用いたステレオによる3次元計測は、遠くの物体では計測精度が高くありません。しかし、LiDARとカメラの両者の情報を統合的に処理することで、LiDARと同等の計測精度で、画像と同等の密度を持つ3Dデータを、ノイズを除去しながら生成できる可能性があります。
「3Dデータ高解像度化技術」の研究開発には段階的に取り組んでいます。車載のセンサにより走行しながらデータを計測することを想定し、具体的には1枚の画像と1フレームのLiDAR計測データ、複数枚の画像と1フレームのLiDAR計測データ、時系列に連続する複数枚の画像と複数フレームのLiDAR計測データと、段階的に統合する情報を増やし、それによる精度向上をめざしています(ここで、1フレームのLiDAR計測とは、360度の計測1回分のデータを意味します。製品にも依存しますが、LiDARは回転をしながら周囲360度の計測を1秒当りに10回程度行います)。
本稿では、1枚の画像と、LiDARにより計測した疎な3D点群から、機械学習を用いずリアルタイムに高密度な3Dデータを導出する「3Dデータ高解像度化技術」について紹介します。
はじめに、LiDARで計測した3D点群を画像に投影し、デプスマップと呼ばれる奥行情報を保持した画像を生成します。このようにしてつくられたデプスマップはデプス値を持たない画素の多い「疎なデプスマップ」になります(図3)。
この「疎なデプスマップ」を、入力される画像を手掛かりに処理をして、すべての画素にデプス値がある「密なデプスマップ」を生成します。このような手法は「デプスコンプリーション」という技術に分類できます。「デプスコンプリーション」技術は従来からありましたが、従来技術はデプスが存在しない画素については、観測されたデプス値を滑らかにつなぐ処理をすることで「密なデプスマップ」を生成していました(1)。この方法では、疎な観測の間を連続的な面で補完するのには有効ですが、異なる物体の間でも奥行を滑らかに変化させてしまう問題がありました(図3)。
そこで、私たちは、物体をまたぐ場合には奥行の変化が不連続になるような制約を加えながら、観測されたデプス値を滑らかにつなぐような手法を提案しました(2)。これにより、従来技術と比較して精度が向上しただけではなく、3Dデータとして可視化した際に自然な結果を得ることに成功しました(図3)。
今後は、上述したように統合する情報を増やしていくことで、さらなる精度向上をめざします。

■3Dシーン理解・状態推定技術

「3Dシーン理解・状態推定技術」は、複雑な形状を含むシーン全体を解析し状態を把握する技術です。LiDARやカメラから得られた3Dデータから、自動で、例えば建物や道路といった物体領域を識別したり、その位置姿勢などの状態を推定したりすることをめざした研究です。
高度地理空間情報データベースの構築に向けては、①道路付近のさまざまな自然・人工物を識別できること、②広域・高密度な大規模3Dデータの効率的に処理できること、という2つの技術課題があります。①に向けて、近年、さまざまな物体の識別が可能な深層学習の研究が進んでいますが、②の効率的な処理のためのデータ分割やデータを間引くサンプリングによって識別精度が下がるという問題があります。
私たちは、この効率性と識別精度のトレードオフを解決する手法を開発中です。処理の効率化のために従来しばしば用いられる、ランダムサンプリング処理によって識別精度の劣化が生じることを突き止め、これに代わって形状を考慮した新しいサンプリング手法を提案しています。具体的には、サンプリングの際に、物体の回転や並進によって変化せず、他の点に対する識別性が高い点を優先的に残しながら識別処理を行うことで、高い識別精度を達成しました(3)。
本研究は端緒についたばかりですが、今後、技術改良や実データへの適用評価を行って、性能向上を図っていきたいと考えています。

4D点群符号化技術

私たちの住むリアルな世界では、それぞれで異なる目的を持ち、実体のあるモノを使って、目的に合わせた行為をします。そしてリアルな世界では時間の経過に合わせてさまざまにモノが変わります。目的やモノ、そしてかかわる人の単位にはさまざまなスケールがあり、行為に合わせてそのスケールが異なります。空間的・時間的にスケールが異なるリアル世界のモノの状態を取得し再利用できることは、そこに暮らす人にさまざまな価値を提供できると期待されます。NTTメディアインテリジェンス研究所では、点群をさまざまな目的で利用するために、時間変化を含めて保存して活用できる4D点群符号化の研究開発を進めています。
3Dの点群を圧縮する手法としては、従来はLASzipという方法が適用されてきました。一方で現在、ISO/IEC国際標準化にて、MPEG G-PCCという名称で点群符号化方式の国際標準化が進められています。どちらの手法も、時間的な変化を保存する仕組みを備えておらず、今回私たちの目的には不十分でした。私たちは、時間に伴う変化を差分として表現する2次元映像符号化の知見を活かした、点群データの表現と圧縮符号化方式を研究開発しています。私たちの方式の概要を示します(図4)。点群データは取得時に空間の一部の情報が得られることから、表現したい空間全体を格子状に分割します。格子状にするにあたり、ちょうどマトリョーシカのように再帰的に内包するかたちで複数の大きさ(空間的な階層)の構造を持ちます。各最小単位の格子は点群データを持つことができ、中間的な階層の格子で点群データの塊をデータ表現します。これにより空間全体の点群データを階層的な格子でコンパクトに表現することができます。また、最新の点群データに入れ替えたい場合には、部分的に格子に含まれる点群データを入れ替えて、点群データを最新化して空間全体を再符号化しつつ、過去の一部のデータを差分として圧縮符号化します。これにより、最新のデータをいつでも復号し表現でき、かつ部分的に過去に高速にさかのぼる機能性を実現します。差分として圧縮符号化する機能性は、過去にはそこになかった物体をいち早く検出する機能にも応用できます。なお、点群の座標データの圧縮符号化には、MPEG G-PCCの利用を想定しています。
本方式を用いて点群を圧縮符号化して保存しておくことで、例えば次のようなユースケースを実現できると考えています。日々街中の同じ道路を走行する車両が点群を取得することで、普段にはそこにないモノが存在していることをリアルタイムに情報取得することが可能となります。また、変化を見つけた場合に過去にさかのぼって変化が起こる前の状態を再現することや経年変化をシミュレートすることも可能になります。
これらを実現するためには時間的変化を含めて点群を保存できる本方式が欠かせません。一方で、本方式だけではなく、点群取得の高精度化や簡易化の研究開発も必要です。
リアルな世界をもっと便利にするために4D点群符号化の研究開発を推進していきます。

今後の展開

本稿では、高精度で豊富な意味情報を持つ「高度地理空間情報データベース」を構築するための空間情報処理技術として、画像と疎・低精度な3D点群から高精度に地物を検出する実空間構造化技術、および時間変化も含む3Dデータを効率的に保存・活用する4D点群符号化技術を紹介しました。今後は、各技術の方式検討を進めるとともに、実証実験等を通して実データでの性能評価を行い、4Dデジタル基盤の実現に貢献していきます。

■参考文献
(1)D. Ferstl, C. Reinbacher, R. Ranftl, M. Ruether, and H. Bischof: “Image Guided Depth Upsampling Using Anisotropic Total Generalized Variation,”ICCV 2013,pp. 993-1000, Sydney,Australia, 2013.
(2)Y. Yao, M. Roxas, R. Ishikawa, S. Ando, J. Shimamura, and T. Oishi: “Discontinuous and Smooth Depth Completion with Binary Anisotropic Diffusion Tensor,” IEEE Robotics and Automation Letters, Vol. 5, No. 4,pp. 5128-5135,Oct. 2020.
(3)倉田・八尾・安藤・島村:“点群識別における,形状の複雑さを考慮したサンプリングに関する検討,” 研究報告コンピュータビジョンとイメージメディア(CVIM), 2020-CVIM-220,pp. 1-6, 2020.

(上段左から) 八尾 泰洋/ 倉田 夏菜/伊藤 直己/ 安藤 慎吾
(下段左から) 島村  潤/ 渡邊 真由子/谷田 隆一/ 木全 英明

4Dデジタル基盤の実現に向けて、画像と疎・低精度な3D点群から高精度に地物を検出する実空間構造化技術、および時間変化も含む3Dデータを効率的に保存・活用する4D点群符号化技術の研究開発に取り組んでいきます。

問い合わせ先

NTTメディアインテリジェンス研究所
環境情報処理プロジェクト
TEL 046-859-4501
E-mail udhl-hosa-pb-ml@hco.ntt.co.jp