デジタルツインでモビリティ群を賢く制御する──分散深層学習がもたらす未来の可能性

2022年8月号

特集

変化する現在（いま）、持続する未来（あす）

デジタルツインでモビリティ群を賢く制御する──分散深層学習がもたらす未来の可能性

デジタルツインコンピューティング
交通制御
分散学習

デジタルツインを介した集合知形成・協調制御の最新研究について紹介します。サーバ群やIoT（Internet of Things）機器群に分散して蓄積されたデータや分散した制御系を学習可能なデジタルツインを介して協調利用することを考えています。これにより、個ではなく群を効率良く制御したり、分散して観測したデータを使って集合知モデルを形成し、全体の系を最適化することが可能になります。本稿では、デジタルツインを介して交通網やデータセンタ網を賢く制御する研究プロジェクトについて報告します。

丹羽　健太（にわ　けんた）
NTTコミュニケーション科学基礎研究所

はじめに

スマートフォンやスマートスピーカを通じた音声によるシステム操作等の機械学習の恩恵を一般の人が利用することが当たり前になってきました。次世代の機械学習に関する大きなイノベーションの可能性として、「個」ではなく、通信で連結された「群」を協調して制御・推論することで大規模な系全体（例えば交通網、データセンタ網、エネルギー網）を最適化したり、分散蓄積されたデータから集合知を形成することが期待されています。本稿では、私たちが行ってきた学習可能なデジタルツインを介して交通網やデータセンタ網を賢く制御する研究プロジェクトについて報告します。

シグナルフリーモビリティプロジェクト

将来、ICTの高度化により、ヒト・クルマ・インフラが高度に協調し、安全・効率的な移動を提供する高度協調型モビリティ社会の実現が期待されています。IOWN（Innovative Optical and Wireless Network）構想により究極に高度化されたICTがもたらすモビリティ社会のコンセプトとして、信号機のない街を自動運転車群が相互に通信をしながら自律走行し、衝突することなく輸送時間を短縮する未来のモビリティの姿、「シグナルフリーモビリティ」が示されています（図1）。シグナルフリーモビリティの実現に向けた第一歩として、私たちは、シグナルフリーモビリティを実現するための分散制御・推論問題に取り組んでいます^（1）。

シグナルフリーモビリティでは、車群から収集したデータをデジタルツインで解析し、衝突することなく移動時間を短縮するための交通全体の最適状態（各車の速度や位置）を予測して制御します。このデジタルツイン上の状態予測系のモデル化、およびデータ駆動型でそのモデル学習する方式を確立することが研究課題です。本研究では、図2に示すように、各車（ノード、黄色の頂点で表示）とそのつながり（エッジ、緑色の辺で表示）で構成されるグラフを用いて、デジタルツインの状態予測系をモデル化しました。時々刻々と変化する複雑な交通制御を単純な部品（各車の状態予測・制御と近接車間の通信）の組合せで表現することがそのねらいです。

次に、車の状態予測に関するデジタルツインの演算について説明します。図3に、実世界システムとデジタルツインが相互にフィードバックしながら、車群の最適状態（速度や位置）の予測と制御を時系列的に発展させるイメージが描かれています。状態予測に至るまでのデジタルツインの演算は複数ステップに分かれています。デジタルツイン上では、実世界で収集されたデータ（周囲状況を模した画像データ等）を蓄積し、一定以上の車間距離を保つように斥力を課すための情報を計算して近接車間の通信を介して交換されます。その情報を使ってぶつからずに目的地点に近づくための各車の状態を予測します。なお、この一連の処理（前向き伝播）は、各車で実施可能な分散型の演算と近接した車間の通信を繰り返すことで実施できるように設計されています。演算や通信といった処理が分散化されていることから、ネットワーク負荷の少ないIoT（Internet of Things）機器群の協調制御を体現しているといえるでしょう。さらに、状態予測系に含まれる学習可能なパラメータを最適化することで、平均速度を向上させるような効率的な交通制御モデルを学習できます（後向き伝播）。なお、この2種類のフロー（前向き伝播、後向き伝播）は、常微分方程式（ODE：Ordinary Differential Equation）＊1で表現されていて、それを各車の演算や近接車間の通信によって実施できるように分散・離化することで特殊なニューラルネットワーク（CoordiNet）として定義し、デジタルツインの演算を具体化しました。前向き伝播（図3（a））では、デジタルツイン上のデータを解析して車群の最適状態（速度や位置）を予測し、交通を制御するフィードバックを繰り返します。後向き伝播（図3（b））では、デジタルツイン上に蓄積されたデータを使って、平均速度を向上するように交通制御モデルを最適化します。

＊1　常微分方程式：流体、気象等の連続的な物理事象は常微分方程式で表現されることが多い。今回、実世界システムとデジタルツインが相互に作用しながら交通制御するという複雑な事象を表現しました。

提案法（CoordiNet）を使って実装したシグナルフリーモビリティのシステムは、図4に示すように予測・制御フェーズとモデル訓練フェーズの2つで構成されます。モデル訓練フェーズでは、デジタルツイン上で多様な交通状況を想定したシミュレーションを多数回実施し、交通制御モデルを最適化します。実世界にある道路だけでなく、仮想空間上に構築した道路に、車の台数や初期位置を変えて配置してシミュレーションを行うことで、多様な交通状況を模したデータ収集を可能にします。このデータを使って交通制御モデルを学習することにより、多様な交通状況でもぶつからずに効率良く走行することが期待されます。なお、このモデル訓練フェーズは、膨大な計算量を必要とするため、非リアルタイム（数時間～1日）に行われます。一方、予測・制御フェーズでは、学習済の交通制御モデルを使って、デジタルツインとフィードバックしながら実世界の交通を制御します。構築したシステムでは、リアルタイム（おおよそ0.1～0.4秒ごと）に各車の状態予測と制御が行われました。
モデル訓練フェーズ（図4右）における実験結果の一部を図5に示します。提案法では、シミュレーションを繰り返すとともに安定して平均速度が向上しました。最大値が1.0になるように速度を正規化した評価実験で、ランダムに初期化した学習前の時点では0.64であったのに対して、学習後には0.90まで向上しました。これは、シミュレーションを介したデータ収集により、交通制御モデルの学習を効率的に進めることができた恩恵だと考えられます。一方、状態遷移に斥力を課さない一般的なニューラルネットワークや交通シミュレータ（SUMO：Simulation of Urban Mobility＊2）を比較方式として性能を調査しました。学習可能な方式については提案法と同様にシミュレーションを介して学習しました。例えばグラフニューラルネットワークの一種であるGAT（Graph Attention Networks）＊3を用いた場合、車が衝突してしまったり、平均速度が安定して向上しませんでした。また、 SUMOを用いた場合は、ぶつかることはなかったですが、交差点手前で停滞する状況が頻繁に起きてしまい、提案法ほどの平均速度は得られませんでした。

＊2　SUMO:フリーの交通シミュレータで、世界的にITS分野の研究者で利用されています。https://www.eclipse.org/sumo/よりダウンロード可能．
＊3　GAT: Graph Neural Networksの一種で、ノードのつながりの重要度について適応的に更新しながら状態変数を更新する特徴を持ちます。ただし、交通制御等への応用のために提案された方式ではありません。

学習後の交通制御モデルを使って、予測・制御フェーズ（図4左）を実施するためのシステムを構築しました。図6に示すように、各自動運転ミニカーには、位置情報を計測するためのビーコン、計算するためのGPU、Wi-Fi通信モジュール、左右独立に制御可能なモーターが搭載されています。Wi-Fiを介してサーバや他の車と通信し、ぶつからずに全体の輸送時間を短縮する状態をデジタルツインで予測し、10～20台の自動運転ミニカーをリアルタイム（おおよそ0.1～0.4秒ごと）に制御することができました。デジタルツインで予測された状態のように、ぶつからずに走行している様子を実験的に確認しました。

非同期分散型の連合学習プロジェクト

シグナルフリーモビリティでは、シミュレーションで得られたデータを1つのサーバ上に集約して運転制御モデルの学習を行っていました。しかし、今後、ヒトやモノのデジタルツインを介して全体の系を協調していく世界では、データを1個所に集約するのではなく、デジタルツインごとに分散蓄積されたデータを用いて補助情報を交換するだけで、集合知が形成される未来になるでしょう。
ノード数やエッジ数（デジタルツインの数やそれらの通信接続数）が大きく、巨大なネットワークグラフで演算が行われることを想定して、非同期分散型の連合学習の研究を進めています。従来研究では、接続しているノード間でモデル変数を交換して平均化しながら合意形成をとる連合学習則^（2）が多用されていますが、私たちが提案した方法^{（3）~（5）}は、①非同期分散通信を許容でき、②計算サーバ間のモデルの合意形成に関する制約を課すなど、計算サーバ間の統計的なデータの偏りに耐性のあるアルゴリズムを構築したことが特徴です（図7）。

今後の展開

今後、基盤となる数理をさらに発展させるとともに、ネットワークを介して全体系を性的制御する応用事例を増やし、群全体の最適制御によるデジタルツインコンピューティング社会の早期実現に貢献します。
■参考文献
（1）　https://www.kecl.ntt.co.jp/openhouse/2022/exhibition_01.html
（2）　B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas:“Communication–efficient learning of deep networks from decentralized data,”Proc. of AISTATS 2017, pp. 1273–1282, Fort Lauderdale, U.S.A., May 2017.
（3）　K. Niwa, N. Harada, G. Zhang, and B. Kleijn:“Edge-consensus learning: deep learning on P2P networks with nonhomogeneous data,”Proc. of KDD 2020, SanDiego, U.S.A., pp. 668–678, August 2020.
（4）　K. Niwa, G. Zhang, B. Kleijn, N. Harada, H. Sawada, and A. Fujino:“Asynchronous decentralized optimization with implicit stochastic variance reduction,”Proc of ICML 2021, July 2021.
（5）　G. Zhang, K. Niwa, and B. Kleijn:“Revisiting the primal-dual method of multipliers for optimisation over centralised networks,”IEEE TSIPN, Vol. 8, pp. 228-243, 2022.