NTT技術ジャーナル記事

   

「NTT技術ジャーナル」編集部が注目した
最新トピックや特集インタビュー記事などをご覧いただけます。

PDFダウンロード
将来のデジタル社会を支えるネットワークの変革─オペレーション編─

ルール学習型障害箇所推定技術

NTTアクセスサービスシステム研究所ではグループデジタルトランスフォーメーション(DX)を支えるネットワーク運用の高度化、スマート化をめざしています。本稿では「障害箇所とアラームの因果関係(ルール)を自律的に導出する技術」に基づき、障害発生時に障害の原因箇所の候補を瞬時に提示するルール学習型障害箇所推定技術を紹介します。

村田 尚美(むらた なおみ)/ 浅井 文香(あさい ふみか)/ 矢川 太祐(やかわ たいすけ)/ 鈴木 聡(すずき さとし)/ 大石 晴夫(おおいし はるお)/ 井上 晃(いのうえ あきら)※

NTTアクセスサービスシステム研究所

※現、NTTアドバンステクノロジ

背 景

大規模ネットワークにおいて障害が発生すると、多種多様なアラームが大量に通知されます。スキルを有する保守者はこの大量アラームを分析し、試験等により障害箇所の切り分けを行う必要があります。NTTアクセスサービスシステム研究所ではルール学習型障害箇所推定技術の確立に基づき、この分析・切り分け作業を短縮し、障害復旧の迅速化による保守業務の負担軽減(OPEX削減)をめざした研究開発に取り組んでいます(図1)。

図1 障害復旧の迅速化

ルール学習型障害箇所推定技術

保守者の分析・切り分け試験稼働を削減

ルール学習型障害箇所推定技術はルールによる判定をベースとした技術です。ルールとは、ある条件が成立したときに導き出される結論を「if 条件 then 結論」というif部とthen部で構成したものです。このルールをネットワーク障害に適用する場合、障害が発生した際にネットワーク装置などから発せられるアラームやログ情報などのイベントの組み合わせ(イベント群)をif部、障害の要因およびその箇所をthen部としてルールを定義します。障害が発生した際にはアラームの発生状況とルールを照らし合わせることで、効率的に障害の原因箇所(候補)を導きます。保守者は導き出された原因箇所候補から障害対応を実施することで、これまで時間がかかっていたアラーム分析や切り分け試験の稼働が削減されるとともに、保守者のスキルによらない対応が期待できます。

システム化

本技術と市中のルールエンジン(if-thenルールに従って処理を実行するエンジン)を組み合わせることで、精度の高い障害箇所推定システム「ルール学習型障害箇所推定システム」を構築しました(図2)。システムは管理対象の構成情報を、トポロジデータとしてシステムが解析可能なデータ形式で保持します。対象環境において障害が発生した際には、通知されたアラームやログ情報などのイベント群を入力データとして、ルールに基づき、障害箇所の推定結果を保守者に提示します。発生した障害ケースに対応するルールが登録されていない場合は、保守者が正しい障害原因情報をGUIより入力することで、過去障害事例として蓄積されルール学習が行われます。ルール学習においては、単に新しいルールを追加するだけでなく、ルールを追加したことにより、蓄積された過去の障害事例すべてが正しく判定できるかを検証します。過去障害事例には通知されたアラームやログ情報などのイベント群、および障害の原因とその箇所を障害ケースごとに蓄積します。実際の障害対応を行った保守者のノウハウがルールというかたちで学習されるため、障害対応業務(保守者ノウハウ)のナレッジ化にも寄与することが可能です。

図2 ルール学習型障害箇所推定システム

今後の展開

本稿では障害発生時に障害の原因箇所の候補を瞬時に提示するルール学習型障害箇所推定技術について紹介しました。今後は学習アルゴリズムの改良による推定精度向上と適用先の拡大を検討していきます。

(後列左から)鈴木 聡/井上 晃/大石 晴夫
(前列左から)村田 尚美/矢川 太祐/浅井 文香

ネットワークの障害箇所を推定・特定する技術を確立し、保守業務の自動化を実現することで、ネットワーク保守運用業務の効率化と品質向上に貢献します。

問い合わせ先

NTTアクセスサービスシステム研究所
アクセスオペレーションプロジェクト
オペレーション方式SEグループ
TEL 0422-59-3030
FAX 0422-59-5651
E-mail ohoug-ima-ml@hco.ntt.co.jp