強靭性の高いネットワークを支えるオペレーション

2023年10月号

特集1

より強靭性の高いネットワークの実現に向けて

強靭性の高いネットワークを支えるオペレーション

ロバストネットワーク
オペレーション
NW-AI

大規模な通信故障は日常生活や経済活動に甚大な影響を及ぼすため、より強靭性の高いネットワークが求められます。NTT研究所では、システム故障に対してネットワークの対応力を高めることでサービス影響を抑止し、回復力を高めることで復旧時間を短縮するロバストネットワークの実現をめざしています。本稿では、ロバストネットワークを支えるオペレーション関連技術の研究開発の取り組みについて紹介します。

岡本　淳（おかもと　じゅん）†1／柴田　朋子（しばた　ともこ）†2、3
田原　光穂（たはら　みつほ）†1、3／藤原　正勝（ふじわら　まさかつ）†4
増田　征貴（ますだ　まさたか）†1
NTTネットワークサービスシステム研究所†1
NTTアクセスサービスシステム研究所†2
NTTネットワークイノベーションセンタ†3
NTT情報ネットワーク総合研究所†4

ロバストネットワークの実現に向けて

ネットワークは仮想化技術や市販品で複雑に構成されるようになり、サービスの多様化により膨大なデータが流通するため、ネットワークのオペレーションは複雑化しています。また、社会・経済生活のさまざまな分野においてICTの利活用が浸透しており、大規模な通信故障は、人々の日常生活に甚大な影響を及ぼします。そのため、より強靭性の高いネットワークが求められます。NTT研究所では、ネットワークシステムの故障や大規模災害への耐性が強いロバストネットワークの実現をめざして研究開発に取り組んでいます。本稿では、ネットワークシステム故障の耐性強化に向けたオペレーション技術を中心とした研究開発の取り組みについて紹介します。

通信故障対策の方向性

通信故障には、ソフトウェア故障による連鎖的な故障範囲の拡大や異常トラフィックの発生、オペレーションミス、システム異常等、さまざまな要因が存在します。ネットワークシステムの複雑化、多様化、仮想化に加え、海外製品の活用によるシステム内部のブラックボックス化が進むと、装置実装を把握したうえでの対策や、過去事例に基づいて想定した故障事象での事前検証のみでは、あらゆる故障をカバーしきれなくなることが想定されます。そこで、ロバストネットワークの実現に向けては、想定外の事象は必ず起こることを前提に、通信故障対策の基本方針として、フールプルーフ、フェールセーフ、フェールソフトの観点でオペレーション関連技術について検討します（図1）。
・フールプルーフ：人的ミスの発生を防止し、人的オペレーションを効果的にサポートする仕組みが必要になります。例えば、ネットワークの故障状況を可視化する機能やオペレータによる復旧対策を支援する機能等を検討します。
・フェールセーフ：通信故障を未然に防ぐ仕組みが必要になります。例えば、通信設備の冗長化やシステムのリソース拡張等により故障頻度を抑制する対策や、故障要因となり得る大容量トラフィックの流入規制等により故障を未然に防ぐための機能を検討します。
・フェールソフト：故障発生時の影響範囲を最小化するための仕組みが必要になります。例えば、1つの装置故障が他のサービスや他のエリアに影響が波及しないように、エリアやサービスを分割できる機能等の対策を検討します。
ネットワークシステムの信頼性を担保するためには、フールプルーフ、フェールセーフ、フェールソフトの観点に基づき、開発、設計、運用の各業務フェーズで対策を立て、開発や検証のあり方を検討する必要があります。また、検討した対策が正しく設計や運用に反映できていることを監査するネットワーク品質管理・保証機能も検討する必要があります。
NTT研究所では、ネットワークシステム故障への耐性を強化するために、ネットワークシステムの複雑化、多様化、仮想化によるネットワークオペレーションの高難度化に対応し、想定外事象の極小化の実現に向けて、3つの方向性で新たな技術の創出に取り組みます（図2）。
（1）　状況の見える化
故障発生時に早期の対策を実施するには、ネットワークの状況を把握し、故障個所や故障要因を特定できることが重要になります。そのため、ネットワーク上の装置から出力されるログやアラーム等の装置実装に依存した情報にとどまらず、ネットワークの内部および外部で取得可能なさまざまな情報を活用し、インテリジェントに状況の見える化を実現する技術の創出をめざします。
（2）　高可用制御のマルチ化
システムの利用可能な状態を維持し、故障を発生しにくくするには、ネットワークシステムに対して、あらゆる救済対策を持つことが重要になります。単一のシステムや単一のサービスに閉じることなく、多面的な救済対策を可能にする高可用制御技術や仕組みを創出することで、故障発生の未然防止やサービス影響の最小化の実現をめざします。
（3）　検証と運用の連携高度化
サービス運用時に想定外の事象が発生すると、早期に対処することが困難になるため、事前のシステム検証において、想定外の事象を最小化しておくことが重要になります。一方、仮想化技術や海外製品の活用によるシステムの複雑化、サービスの多様化により、人知を遥かに超えるレベルでさまざまな事象が複雑に影響し合い、想定外の事象が発生します。過去の経験に基づいて抽出した検証項目のみでは、想定外の事象を減らすことが困難になりつつあります。そのため、従来の経験に基づく検証手法を脱却する抜本的なアプローチとして、装置やネットワークのデジタルツイン環境を活用し、あらゆる検証条件をAI（人工知能）で抽出し、それに基づいて疑似故障を発生させ、復旧対策を自律的にAIが学習する検証手法と、復旧対策を学習したAIをタイムリーに運用へ適用する高度な連携技術の創出をめざします。
これらの方向性で創出する新たな技術により、ネットワークシステム故障に対するネットワークの対応力を高め、サービス影響を抑止し、回復力を高めることで復旧時間を短縮するロバストネットワークの実現をめざします。また、ネットワークシステムの複雑化や膨大なデータ流通により、高難度化するネットワークオペレーションにおいては、積極的にAIを活用し、将来的に自動化・自律化が実現可能なオペレーション技術の創出をめざします。

状況の見える化

仮想化技術により、ネットワークシステムの複雑化やブラックボックス化が進む中で、異常を早期に把握することは大きな課題となります。また、フールプルーフの観点でも、オペレーションの人的ミスの防止や効果的なサポートの実現は課題となります。NTT研究所では、これらの課題をAIの活用により解決し、将来的にネットワークオペレーションを自動化・自律化する自己進化型ゼロタッチオペレーションの実現をめざしています。
ネットワークオペレーションを担うAIをNW-AIと呼び、NW-AIを活用した自己進化型ゼロタッチオペレーションの流れを図3に示します。まず、ネットワーク内部の構成情報や観測情報と、ネットワーク外部の天気やSNS、地域イベント等のさまざまな情報を収集します。次に、収集した情報をNW-AIにより分析し、次のアクションを判断します。そして、判断結果に基づいて、ネットワークシステムに対して措置を実行します。この一連のループを自動で繰り返し、自律的に学習を行うNW-AIを創出することで、自己進化するゼロタッチオペレーションの実現をねらいます。
NW-AIによる分析・判断のプロセスでは、ネットワークやサービスの状況の見える化を実現します。故障発生時に、ネットワークのどこで何が起きているのか、もしくは、その予兆をシステムから出力されるアラーム情報やトラフィック変動、周辺装置の情報、さらには、ネットワーク外部の情報を活用し、より多角的に判断して異常やその予兆を検出します。次に、発生している事象を特定し、それによるサービスの影響範囲を特定します。そして、故障個所を推定して原因を特定します。従来、これらの状況の見える化は、物理ネットワークレイヤ、論理ネットワークレイヤ、サービスレイヤ等のレイヤごとに出力される大量のアラームを用いてオペレータが手動で分析を実施し、全容を把握するまでに多くの時間を要してきました。これらの業務を支援・自動化するNW-AIを創出することで、故障の早期検知が期待できます。現在、ディープラーニングを用いて多様なデータから各種システムの正常状態をモデル化し、正常状態からの乖離で異常を検知するDeAnoS^® (Deep Anomaly Surveillance)^（1）、アラームを事象単位に集約するアラームクラスタリング、故障時のサービス影響範囲を可視化可能なNOIM（Network Operation Injected Model）^（2）、故障個所を推定するDeAnoS-RCA（Deep Anomaly Surveillance-Root Cause Analysis）やKonan（Knowledge-based autonomous failure-event analysis technology）等のNW-AIを研究所では研究開発しています。これらの技術や状況の見える化については、本特集記事『大規模システム故障時の「ネットワーク状況の早期把握」』^（3）で紹介します。

高可用制御のマルチ化

通信故障発生時のサービスの可用性を高めるために、既存のネットワークシステムにおいて、設備の冗長化や大量トラフィックの流入規制などの対策がとられています。しかし、既存の対策でも早期の故障復旧が困難な場合も存在します。そのため、想定外の事象は必ず起こることを前提に、いかに多くの救済手段を確保できるかが課題となります。また、複数の救済手段の導入によりシステムの信頼性向上は見込めますが、同時に導入コストの増加につながるため、信頼性と経済性のバランスを評価することも課題となります。
故障発生時のサービス影響を最小化するフェールソフトの観点では、単一の装置故障が、他のエリアやサービスに波及しないように、エリア単位や事業者単位で装置を分割・増強することで、故障範囲が拡大するリスクを減らす仕組み等が検討されています。また、故障発生を未然に防ぐフェールセーフの観点では、ネットワークシステムの装置や機能を冗長化することで、早期の故障復旧を可能とする仕組みが検討されています。今後、ネットワークの仮想化が進展することで、より経済的にシステムの冗長化の仕組みを確保できるようになることが期待できます。
サービスの高可用性を高めるための冗長化の例として、リソースのマルチ化、レイヤのマルチ化、ネットワークサービスのマルチ化等が検討されています。
リソースのマルチ化では、仮想化・分散化されたシステムにおいて、ハードウェアリソースプールから各サービスに必要なリソースと冗長化のための予備リソースをあらかじめ最適に割り当てます。異常状態等により予備リソースも不足した際は、異常のスパイラルから脱出するための応急リソースや必要に応じて他サービスに割当て済のリソースを暫定的に割り当てます。また、サービス間の干渉を抑制するために、ハードウェアレベルでのリソースの共用と隔離の仕組みを検討しています。
レイヤのマルチ化では、平常時は伝送ネットワークやイーサネットワーク、IPネットワーク等の各ネットワークのレイヤの独立性を維持しつつ、故障発生時等には、レイヤ間連携による最適制御を実施します。レイヤ間の依存関係を考慮して冗長設計や管理制御を行い、異常な外部イベントに対して最適レイヤで抑止制御する仕組みを検討しています。
ネットワークサービスのマルチ化では、異常発生時に他のシステムに無線アクセスを切り替えるアクセスネットワークのマルチ化、仮想化されたネットワークを想定し、異常発生時のサービスレベルを考慮してネットワークスライスや光パスを切り替えるコアネットワークのマルチ化等、各種ネットワークサービスのマルチ化によりトータルで大規模故障の発生を未然に防ぐ仕組みを検討します。ネットワークサービスのマルチ化、伝送ネットワークの冗長化等の具体的な技術については、本特集記事『ネットワークの強靭化を実現する設計制御技術』^（4）で紹介します。

検証と運用の連携高度化

各種サービスを提供する際は、装置やシステムの開発・構築において、さまざまな検証試験が実施されています。しかし、仮想化技術等により複雑に構成され、ブラックボックス化が進むネットワークシステムにおいては、起こり得るすべての事象を網羅することは難しく、装置の開発者やシステムの設計者の想定を超えた想定外の事象に対し、いかに対処するかがオペレーションでの課題となります。また、フールプルーフの観点では、人的ミスをなくし、効率的に想定外事象に対処可能なオペレーションの仕組みを構築することが課題となります。
NTT研究所では、デジタルツイン環境や検証環境を活用し、検証と運用を高度に連携させる仕組みについて検討しています。フレームワークを図4に示します。まず、商用サービスが提供されるネットワークシステムと類似する環境を構築します。この類似環境において、疑似故障を発生させるカオスエンジニアリングツールを活用し、さまざまなバリエーションで故障等のイベントを人工的に発生させ、想定外の事象を洗い出す可能性を高めます。そして、イベントに対する自律復旧を行うNW-AIの実現をめざします。技術開発のポイントは以下のとおりです。
（1）　イベント生成
故障等のイベントの検証条件をAIの活用により人工的に生成します。商用サービスで流れるトラフィックデータ等の分析に基づき、故障が発生するイベントの検証条件を効率的に生成します。
（2）　カオスエンジニアリング活用による検証とAI学習
生成されたイベントの検証条件に基づき、カオスエンジニアリングツールを用いて、類似環境でイベントを発生させます。これにより、装置開発者やシステム設計者の想定範囲を逸脱した条件下でのシステムの振る舞いを把握します。そして、このシステムの振る舞いと対処策をNW-AIに自律的に学習させ、商用のサービス提供環境では想定外の事象に対しても対処可能なNW-AIの実現をねらいます。また、類似環境での振る舞いの把握や対処策の学習は、NW-AIの学習にとどまらず、商用サービスのオペレータの訓練にも活用することを想定しています。
（3）　モデル・データ転移
類似環境は、サービス導入前に活用した検証環境やデジタル技術で構築したデジタルツイン環境を想定していますが、類似度が高いほど、より商用サービス提供環境に近い検証が可能となります。しかし、商用と検証の環境を完全に一致させることは困難なため、類似環境で学習したNW-AIのモデルやデータを、商用サービス提供環境に適用できるように転移させる技術も検討しています。
本検討の技術の詳細については、本特集記事『障害に強いロバストネットワーク実現のためのNW-AI自己進化フレームワーク』^（5）で紹介します。

今後の展開

ロバストネットワークの実現に向けたオペレーション関連技術の研究開発の取り組みについて紹介しました。紹介した研究開発段階にある技術を具現化することにより、通信故障や災害に対してより強靭性の高いネットワークとそれを支えるオペレーションの実現をめざします。また、NW-AIの研究開発を加速し、高難度化が進むネットワークオペレーションを将来的に自動化・自律化する自己進化型ゼロタッチオペレーションの実現をめざします。

■参考文献
（1）　渡辺・田尻・中野：“ディープラーニングに基づく異常検知技術─DeAnoS: Deep Anomaly Surveillance,”NTT技術ジャーナル，Vol.31, No.5, pp.17-18, 2019.
（2）　佐藤・西川・深見・村瀬・田山：“ネットワーク種別に依存しない統一管理モデルを用いたサービス影響把握技術，”NTT技術ジャーナル，Vol.32, No.8, pp.51-53, 2020.
（3）　明石・金井：“大規模システム故障時の「ネットワーク状況の早期把握」，”NTT技術ジャーナル，Vol.35, No.10, pp.11-12, 2023.
（4）　松川・越地・東條：“ネットワークの強靭化を実現する設計制御技術，”NTT技術ジャーナル，Vol.35, No.10, pp.13-16, 2023.
（5）　高橋・池内・渡邉：“障害に強いロバストネットワーク実現のためのNW-AI自己進化フレームワーク，”NTT技術ジャーナル，Vol.35, No.10, pp.17-19, 2023.