NTT技術ジャーナル記事

   

「NTT技術ジャーナル」編集部が注目した
最新トピックや特集インタビュー記事などをご覧いただけます。

PDFダウンロード
将来のデジタル社会を支えるネットワークの変革─オペレーション編─

復旧コマンド列自動生成技術

本稿では、ICTシステムにおける障害発生時のオペレータによる迅速な復旧措置を支援するとともに、復旧措置の自動化を実現するための、復旧コマンド列自動生成技術の概要を紹介します。

川田 丈浩(かわた たけひろ)※/ 松尾 洋一(まつお よういち)/ 池内 光希(いけうち ひろき)/ 橋本 悠香(はしもと ゆか)

NTTネットワーク基盤技術研究所

※現、NTTアドバンステクノロジ

背 景

ICTシステムの大規模化・複雑化に伴い、発生する障害の種類も多岐にわたり、復旧措置に多くの人手と時間を要することが増えています。NTTネットワーク基盤技術研究所では、オペレータによる迅速な復旧措置を支援するとともに、復旧措置の自動化を実現するために、復旧コマンド列を自動生成する技術の開発に取り組んでいます(1)。

復旧コマンド列自動生成技術

復旧コマンド列自動生成技術の概要を図1に示します。本技術では、入力系列と出力系列の関係性を学習するニューラルネットワークモデルの1つであるSequence to Sequence(Seq2Seq)(2)を用いて復旧コマンド列を推定します(図2)。Seq2Seqは、翻訳システムや対話システムにおいて広く用いられています。ここでは、入力系列として、過去の障害における個々のログやアラームにログテンプレート化技術(3)を適用し自然数のIDを付与することで作成した数列を用い、出力系列として、それらの障害に対応する復旧コマンド列を構成する単語の列を用います。これらの入力系列および出力系列の関係性を学習することで、新たな障害発生時には、出現したログまたはアラームを入力し、当該の障害を復旧させるコマンド列を推定します。
このようにして推定したコマンド列を実行するうえでは、推定結果が信頼できるものであるか、またそのコマンド列の実行がシステムに悪影響を与えないかを判断する必要があります。本技術では、得られた復旧コマンド列を構成する各単語の生成確率の積を算出し、そのコマンド列の信頼度とします。これは、得られたコマンド列によりシステムが復旧する確度と解釈することができます。また、過去の復旧コマンド実行時のシステムの性能値や可用性への影響に基づいて、得られたコマンド列のシステムへの影響度を算出します。これらの指標は、得られたコマンド列を実行するかどうかの判断に用いることができると考えています。

図1 復旧コマンド列自動生成技術の概要

図2 Seq2Seqによる推定のイメージ

今後の展開

今後、実データを用いた技術検証を進めて、復旧コマンド列の推定精度の向上、より実運用に適した信頼度や影響度の定義・算出方法の検討など、技術のブラッシュアップに取り組みます。また、得られた復旧コマンド列を将来的に自動実行するための課題を抽出し、それらを解決するための研究開発を行います。

■参考文献
(1) 池内・渡邉・松尾・川田:“Seq2Seqによる障害復旧コマンド列の自動生成、”2019信学総大、2019。
(2) I. Sutskever, O. Vinyals, and Q. Le:“Sequence to Sequence Learning with Neural Networks、”NIPS2014, Montreal, Canada, Dec. 2014。
(3) T. Kimura, A. Watanabe, T. Toyono, and K. Ishibashi:“Proactive Failure Detection Learning Generation Patterns of Large-scale Network Logs、”IEEE/IFIP CNSM 2015 (mini-conf.), Barcelona, Spain, Nov. 2015。

(左から)橋本 悠香/松尾 洋一/池内 光希/川田 丈浩

NTT研究所では、ICTシステムにおいて障害が発生した場合の復旧措置の効率化および自動化を実現するため、AIに関する研究開発を進めていきます。

問い合わせ先

NTTネットワーク基盤技術研究所
通信トラヒック品質プロジェクト
TEL 0422-59-7138
FAX 0422-59-6364
E-mail eskort-ext-ml@hco.ntt.co.jp