インテリジェント・ゼロタッチオペレーション
- ゼロタッチオペレーション
- AI
- 保守自動化
NTT研究所では、ネットワークサービスの保守稼働低減・平準化をめざして、ゼロタッチオペレーション技術の研究開発に取り組んでいます。本稿では、AI(人工知能)を組み込んだインテリジェント・ゼロタッチオペレーションのユースケースと、その中に登場する3つのAI技術について紹介します。
山越 恭子(やまごえ きょうこ)†1/ 西尾 学(にしお まなぶ)†1/ 小林 正裕(こばやし まさひろ)†2/ 原田 薫明(はらだ しげあき)†2/ 野末 晴久(のずえ はるひさ)†3
NTTネットワークサービスシステム研究所†1
NTTネットワーク基盤技術研究所†2
NTTアクセスサービスシステム研究所†3
背 景
NTT研究所では、IOWN(Innovative Optical and Wireless Network)構想の一環として、マルチドメインのさまざまな拠点に散在するデータを収集、処理、記憶、通信する手段を連携させ、サービスの構築運用に必要な機能群を提供するコグニティブ・ファウンデーション®(CF: Cognitive Foundation)の実現をめざしています。本稿では、その実現を支える代表的な技術の取り組みについて紹介します。
現在のネットワーク運用では、故障や品質劣化によりアラームが発生すると、オペレータが情報を分析・判断し、設定変更や故障交換等の対処を行っています。IOWN時代に向けて、サービス種別や求められる品質レベルの多様化が進んでオペレーションが複雑化するとともに、人員逓減が進むと考えられることから、オペレータ稼働の低減が課題となります。そこでNTT研究所では、オペレータが行っていた分析・判断をAI(人工知能)群が代行し、情報収集から対処まで自動実行する、インテリジェント・ゼロタッチオペレーションの研究 開発に取り組んでいます(図1)。これまで、インテリジェント・ゼロタッチオペレーションの基盤技術として、さまざまなAIから共通的に利用可能なネットワークリソース管理技術(1)や、情報収集、分析・判断、対処の工程全体を連携させるフェデレーションエンジン技術(2)を確立してきました。そしてこれらの基盤技術と連携し、より複雑な故障対処の自動化を実現するため、高度な情報「分析」と「判断」を行うAI群の研究を進めています。
図1 インテリジェント・ゼロタッチオペレーション
トラフィック分類・予測技術
近年、ユーザ端末やサービスの多様化に伴い、通信トラフィックの変動が複雑化し、予測が困難になっています。そこで、NTT研究所のトラフィック分類・予測技術(3)では、特徴が類似したトラフィックをクラスタに分類し、クラスタごとの特徴をとらえることで複雑な変動を高精度に予測します。時系列クラスタリング手法の1つである非負値テンソル因子分解を用い、送信元・送信先・送信時刻・通信量に基づき、特徴が類似したトラフィックをクラスタ化することが研究所技術の特徴です。本技術を用いることで、リンクごとの輻輳の有無を正確に予測でき、プロアクティブな対処につなげることができます。
SLA判断技術
ゼロタッチオペレーションの実現には、高度なデータ分析技術に加え、対処に必要な判断を自動化する技術が必要です。判断とは、例えば品質劣化時の対処要否や、複数の故障間の優先度、対処コストを考慮した際に最適な対処時期、実施者、対処方法等の判断が挙げられます。
SLA(Service Level Agreement)*1判断技術では、オペレーションの根源的な目的はサービス品質維持であることに着目しました。本技術は、サービス品質を示す情報(サービス・ユーザ単位の故障継続時間やトラフィックの平均遅延・ジッタ・ロス等の値)を、満たすべきサービス品質〔ユーザのSLAや社内のOLA(Operational Level Agreement)*2など、運用主体が設定した値〕を基準に評価することで、対処に必要な判断を自動的に行います。具体的な適用例としては、①ボトルネック区間を通過するサービス・ユーザのSLA違反予測に基づく対処要否の判断自動化や、②現地作業員の手配時間帯による派遣コスト増減と対処時間長延化によるSLA違反の損失増を比較した、最適な派遣タイミングの判断自動化があげられます(4)。
*1 SLA:サービス品質に関する指標、目標値、違反時の扱い等について、サービス提供元とサービス契約者との間で取り決めた合意事項。
*2 OLA:オペレーションに関する指標、目標値、違反時の扱い等について、オペレーション部門とオペレーション委託部門との間で取り決めた合意事項。
障害箇所推定技術
大規模ネットワークにおいて障害が発生すると、多種多様なアラームが大量に通知され、障害箇所の切り分けに大きな稼働を要します。障害箇所推定技術(5)では、事前に学習したルールを用いて障害箇所を推定し、候補をトポロジマップ上に可視化することで、ネットワーク保守業務の迅速化・負担軽減(OPEX削減)を実現します。過去の障害で発生したアラーム等のイベントとその障害箇所・原因について、事前にそれらの組合せの類似度を基に関連性を導出し、適切な障害箇所推定ルールを自動的に学習・生成することにより、複雑な故障でも瞬時に障害箇所を推定します。ルール条件が自動的に生成されるため、従来は保守者のスキルやノウハウに頼っていた障害切り分けルールの形式化にも貢献します。
プロアクティブ対処のユースケース
前述の3つの要素技術を組み合わせた輻輳によるサービス劣化へのプロアクティブ対処のユースケースを図2に示します。例では、重要なビデオ会議と大規模なソフトウェア更新の時間帯が重複する場合を示しています。対処を何も行わない場合、輻輳に伴い品質が劣化し、重要なビデオ会議が途中で途切れてしまいます。
例では、まず「トラフィック分類・予測技術」により、サービスごとのトラフィック変動を高精度に予測します。次に、「SLA判断技術」により、各サービスの品質を予測し、ビデオ会議通信のSLA違反が見込まれるため、保守対処要と判断し、アラームを発出します。そして、「障害箇所推定技術」により、同時期に発生しているすべてのアラームから障害箇所・原因を推定します。この場合、SLA違反アラーム以外に故障アラームが発生していないため、事前に作成されたルールに基づき、原因が単純輻輳である(故障による輻輳でない)こと、またその原因箇所を推定します。最後に、SLA違反を起こさないようソフトウェア更新サービスの通信経路を変更することで、ビデオ会議サービスの品質劣化を事前回避できます。このようにプロアクティブ対処では、人手を介さず、さらにユーザにサービス品質劣化を気付かせることなく、対処を完了させることが可能です。
図2 輻輳によるサービス品質劣化へのプロアクティブ対処イメージ
複雑故障対処のユースケース
複数の障害が同時に起こり、ネットワーク上のさまざまなレイヤから大量のアラームが発生する複雑故障対処のユースケースを図3に示します。このような場合、監視画面には異なるレイヤの複数障害に関連する情報が一斉に表示され、人の目では分析に大きな稼働を要します。
例では、まず「障害箇所推定技術」が、過去の事例から障害を特徴付けるアラームを学習し、発生したアラーム群に対して瞬時に障害箇所・原因を推定します。「障害箇所推定技術」はネットワークリソース管理技術を利用したデータ管理を行っているため、レイヤをまたがる障害影響の可視化も可能です(6)。次に、障害箇所を避けるよう通信経路を変更します。これによりサービスは回復しますが、装置故障の場合、現地に作業者を派遣して装置交換等を行うまで系全体は復旧しません。そこで「SLA判断技術」が、作業コストとSLA違反による損失を共通の指標で評価し、最適な現地作業時間(例えば今すぐ作業が必要か、明日以降でも問題ないか等)を判断します。このように、従来は大きな稼働を要した複雑障害対応作業を自動化し、稼働の削減と質の向上を実現します。
図3 複雑故障への自動対処イメージ
今後の展開
本稿では、インテリジェント・ゼロタッチオペレーションを実現する3つのAI技術と、それらのAI技術を連携させたプロアクティブ対処、複雑故障対処のユースケースについて紹介しました。今後の展開としては、自動化の対象領域を拡大するAI群、またAI群を連携させる技術の研究開発を推進し、インテリジェント・ゼロタッチオペレーションの実用化をめざしていきます。
■参考文献
(1) 堀内・明石・佐藤・小谷:“ネットワークリソース管理技術,”NTT技術ジャーナル,Vol.29, No.7, pp.48-52, 2017.
(2) 尾居・高田・坂田・中島:“通信キャリアにおけるゼロタッチオペレーションに向けた保全系ツール連携方式の提案,”信学技報, Vol.119, No.111, ICM2019-14, pp.47-52, 2019.
(3) 駒井・木村・小林・原田:“アクセスパターンに基づいたトラヒック予測手法,”信学技報, Vol.119, No.158, IN2019-22, pp.43-46, 2019.
(4) A. Takada, N. Tanji, T. Seki, K. Yamagoe, Y. Soejima, and M. Tahara:“SLA Driven Operation - optimizing telecom operation based on SLA,”Asia-Pacific Network Operations and Management Symposium, Shimane, Japan, Sept. 2019.
(5) 村田・浅井・矢川・鈴木・大石・井上:“ルール学習型障害箇所推定技術,”NTT技術ジャーナル,Vol.31, No.5, pp.15-16, 2019.
(6) 深見・村瀬・佐藤・田山:“ネットワーク障害が及ぼすサービス影響把握方式の検討,”信学技報, Vol.118, No.483, ICM2018-51, pp.13-18, 2019.
(後列左から) 原田 薫明/小林 正裕
(前列左から) 西尾 学/野末 晴久/山越 恭子
問い合わせ先
◆問い合わせ先
NTTネットワークサービスシステム研究所
オペレーション基盤プロジェクト
ネットワークオペレーションDP
E-mail 1st-loop-mlhco.ntt.co.jp
人員逓減への対応や、IOWNなど新しいネットワーク、新しいサービスを支えるオペレーションを実現するため、ゼロタッチオペレーション技術の研究開発を行っています。