NTT技術ジャーナル記事

   

「NTT技術ジャーナル」編集部が注目した
最新トピックや特集インタビュー記事などをご覧いただけます。

PDFダウンロード

from NTTフィールドテクノ

NTT西日本の通信サービスを支えるゼロタッチオペレーション

NTT西日本グループの通信サービスを「24時間365日」監視しているNTTフィールドテクノネットワークサービスオペレーションセンタ(NSOC)では、ネットワーク故障時の対応を迅速化しサービス品質を高めることを目的に、人手を介さず運用を行う「ゼロタッチオペレーション」の実現に向けた取り組みを進めています。作業単位で自動化するツール群と、各ツールを連携させる判断エンジンを開発・導入し、ネットワーク装置故障の約5割に対して自動化を実現しました。

NTT西日本グループの通信サービスのオペレーション

NTT西日本グループが提供する通信サービスは、人々の生活を支える重要インフラであり、自然災害の頻発や社会環境の変化により、その重要性はますます高まりつつあります。このため、通信サービスの安定性・信頼性確保はNTT西日本グループにとって最優先事項と認識しています。
NTT西日本グループの通信サービスの安定性・信頼性確保を行ううえで欠かせない、ネットワーク設備の構築にかかる開発・検証、ソフト工事、保守(監視・保全)までの業務を幅広く担っているのが、NTTフィールドテクノネットワークサービスオペレーションセンタ(NSOC)です。特に保守の観点では、NTT西日本グループが提供する通信サービスを安心して使っていただけるよう、「24時間365日」の体制で、リアルタイムに通信サービスの状況を一元的に監視・制御するとともに、予期せぬトラブルが発生した際にも迅速かつ的確に回復措置がとれるよう努めています(図1)。
通信サービスがあらゆる社会活動の基盤となっている中で、NSOCでは「NTT西日本グループへの収益貢献および安定的な事業運営の実現に向けたオペレーションのさらなる付加価値向上と品質・基盤強化」を目標にさまざまな取り組みを進めています。特にNTT西日本グループでは、2022〜2023年にかけて複数回、故障や不具合等によりサービス影響を発生させました。これを受け、品質・基盤強化が急務と考えており、各取り組みを強化、加速しています。ここではNSOCが注力している取り組みの1つである、人手を介さず運用を行う「ゼロタッチオペレーション」の実現に向けた取り組みについて紹介します。

故障対応業務のめざす姿

NSOCの保守業務のうち、特に重要なものの1つに故障対応業務があります。故障対応業務とは、通信ネットワークの装置の故障や通信サービスが利用できない状況の発生といった異常に対し、いち早く復旧に努める業務です。装置からのアラーム検知を契機として、サービス影響の確認や事象の見極めを行い、故障が特定された装置に対して遠隔で再起動を実施するなどの措置を行います。遠隔措置で故障が回復しない場合は、ラックに搭載された装置等の交換などを行うため、予備機と現地作業員を手配し、現地作業員と連携して復旧を行います(図2)。
ゼロタッチオペレーションの実現に取り組む前は、故障対応業務は人手による作業が中心でした。装置に対する遠隔措置は、手順が多く煩雑な作業があるほか、単純であってもこれを誤ると重大な影響が起こり得るので、複数人で相互確認をしながら実施している作業もあります。これらの作業を自動化することで、人手による煩雑な措置手順の実施や相互確認にかかっていた時間を排除でき、故障対応の迅速化によるサービス品質向上が達成できると考えました。

ゼロタッチオペレーションの取り組み

NSOCによるゼロタッチオペレーションは、作業単位で自動化するツール群と、各ツールを連携制御する判断エンジンによって実現しています(図3)。
まず、各作業の定型化を検討し、定型化した作業に対して、作業単位での部分自動化に着手しました。具体的には、装置へのコマンド投入を行うツール、装置ベンダに対して予備機を手配するツール、地域の拠点に対して現地作業員を手配するツール、故障情報のメールを配信するツール等を導入しました。一例として、装置へのコマンド投入を行うツールは、装置の正常性確認や故障に関するログの収集、再起動や設定変更といったコマンドを、オペレータに代わってシナリオどおりに自動実行します。コマンドの入力が不要になるだけでなく、コマンドの入力誤りを防止できるため、ツールの導入により作業誤りの防止と作業効率化を実現しました。
しかし、各ツールはオペレータによる操作が必要で、さらにツール間で連携していないため、一連の故障対応業務を行うには各ツールの実行管理をオペレータにて行う必要がありました。このため、故障対応業務の完全自動化をめざして、NTTネットワークイノベーションセンタが開発した技術も活用し、各ツールを連係動作させる判断エンジンを導入しました。
判断エンジンは、他のシステムや自動化ツール群との連携を行うための汎用的なインタフェース(REST API:Representational State Transfer Application Programming Interface)、定型化した故障対応業務を自動実行するための自動化シナリオ、シナリオに基づいて自動化ツール群を連係動作させるシナリオ実行管理機能を具備しています。はじめに、装置監視を行うシステムから装置アラームを収集します。装置アラームが発生した場合、装置アラームを契機として、自動化シナリオの起動を判断します。装置アラームはさまざまな種類があり、自動化対象外のアラームも含まれるため、自動化対象か否かを判断し、自動化対象外であればこの時点で処理を終了します。そして、自動化シナリオを起動すると、REST APIを介して自動化ツール群と連携し、自動化シナリオの内容に沿って自動化ツール群を順番に操作し、一連の故障対応業務を自動的に実施します。
自動化シナリオはあらかじめ作成し登録しておく必要があり、シナリオの作成は故障対応業務に精通した現役のオペレータ自身が担当しています(図4)。オペレータによるシナリオ作成の負担を軽減するため、シナリオ作成を支援するツールも具備しています。シナリオ作成ツールでは、業務プロセスを体系的に表記する標準的な方法であるBPMN(Business Process Model and Notation)によってシナリオのフローを定義し、フローの中での具体的な動作(タスク)は人にとっても扱いが容易なデータ記述形式であるJSON形式で記述します(図5)。
BPMNとJSON(JavaScript Object Notation)を採用することにより、プログラミングに関する専門的な知識がないオペレータでも、わずかな学習を通じてシナリオ作成を行えることを可能としています。また、シナリオはタスクの組合せとすることで、記述したタスクを他の処理にも流用することも可能になっています。加えて、作成したシナリオは変更履歴を含むバージョン管理を行っています。これにより、過去に作成したシナリオから処理を流用して、効率的にシナリオを作成しているほか、他者が作成したシナリオを参考に自身のシナリオを更新する、他者のシナリオの誤りや改善点を指摘するなどして、スキルアップを図っています。
判断エンジンは2020年度より導入し、順次自動化シナリオの拡充を進めてきました。現在、NTT西日本エリアで発生するネットワーク装置故障のうち、約5割の故障に対して、故障対応すべて、あるいはその一部で、判断エンジンによる自動化を行っています(図6、7)。

おわりに

ここでは、NTTフィールドテクノNSOCによるゼロタッチオペレーションの取り組みについて紹介しました。NSOCではゼロタッチオペレーションのワーキンググループを立ち上げており(図8)、さらなる自動化対象の拡大をめざして、業務の定型化と自動化シナリオの作成を継続していきます。また、自動化シナリオの作成等、オペレータの自動化スキルの維持・継承に関する取り組みにも力を入れていきます。このほか、自動化が困難で人手に頼らざるを得ない作業があることが分かっています。これらの人手による作業に対しては、自動化以外のアプローチとして、通信ネットワークを含むさまざまな情報の可視化、機械学習や生成AI(人工知能)といった最新技術の目利きと導入にも着手しています。これらの取り組みを通じ、通信サービスの安定性・信頼性確保に努めていきます。

問い合わせ先

NTTフィールドテクノ
サービスエンジニアリング部 ネットワーク設備部門
ネットワークサービスオペレーションセンタ 企画担当
TEL 06-6490-1162
E-mail nsoc-plan-o-zero-maintenance@west.ntt.co.jp