R&Dホットコーナー ソリューション
10G-EPON ONUのソフトエラー対策技術
- ONU
- ソフトエラー
- 再起動
NTTアクセスサービスシステム研究所では、新たに10G-EPON ONUに搭載するソフトエラー対策技術を開発しました。この技術は、ONUがソフトエラーを検出し、 自律的な電源OFF/ONによって再起動を行うものです。本機能により、ONUのソフトエラー故障によるユーザからの問合せと、通信事業者の故障対応に要する稼働の削減が見込まれます。
NTTアクセスサービスシステム研究所
喜多 亮太(きた りょうた)/伊藤 健太(いとう けんた)/名越 遥(なごし はるか/
森嶋 俊(もりしま しゅん)※ /嶌津 聡志(しまず さとし)/吉田 智暁(よしだ ともあき)
※ 現、NTT西日本
10G-EPONシステムの概要
PON(Passive Optical Network) システムは、 1心の光ファイバの光信号を光スプリッタを用いて分岐させ、 複数のユーザで共用するFTTH(Fiber To The Home)の光アクセスシステムです。10G-EPON(10 Gigabit-Ethernet PON)システムは、伝送速度が最大10 Gbit/sのPONシステムです。 本システムは通信事業者の局舎に設置するOLT(Optical Line Terminal: 光加入者線端局装置)、ユーザ宅内に設置するONU(Optical Network Unit: 光加入者線終端装置)、光スプリッタ、それらを結ぶ光ファイバのネットワークから構成されています(図1、 2)。
ONUにおけるソフトエラー
ソフトエラーとは、電気的ノイズによってメモリがビット反転する事象です。ソフトエラーによる故障(ソフトエラー故障)は、半導体デバイスの再起動やデータの上書きによって回復可能です(1)。ソフトエラーは、宇宙線(高エネルギーの陽子など)が主たる発生原因です。宇宙線が窒素や酸素などの原子核と衝突し中性子線を発生させ、次にその中性子線が装置内の半導体デバイス内のシリコン原子核と衝突を起こすことで電気的ノイズを発生させます(図3 )。
ONUにソフトエラー故障が発生すると、通信断を引き起こすことがあります。 ソフトエラー故障の一例をあげると、 半導体デバイス内に生じる電気的ノイズによりPON-MAC(Media Access Control)処理部内の揮発メモリ(RAM: Random Access Memory) に展開された、主信号経路を制御する機能部にてビット反転が発生し、主信号の導通が全く行われなくなり、通信断を伴う故障となります。この場合、ONUの電源OFF/ONによる再起動を行うことで、 RAM内の情報をいったん削除し不揮発メモリ(ROM:Read Only Memory) よりプログラムの再読込を行い、故障を回復させることができます。このようなソフトエラー故障が発生した際は、 ユーザ宅でのONUの電源OFF/ONによる再起動が必要となります。
一般的にソフトエラーは半導体デバイス内の微細な個所で発生することから故障の切り分けや特定が難しく、一方で電源OFF/ONで回復することもあり、面的かつ数多く配置・展開されるONUにおいてはソフトエラー故障の対応稼働の効率化が重要です。また、ソフトエラーは、10Gbit/s級の高速通信に利用する微細化された半導体デバイスでは、メモリセルが保持する電荷量が減少することで、中性子線の影響を受けやすくなります。そのため、ソフトエラーの発生率が高くなり、故障対応の機会が増加すると想定されます。
ソフトエラー対策におけるエラー訂正として、①ハードウェアによる自律訂正、②装置制御プログラムによる自律訂正、③保守者操作による訂正があります(2)。①ハードウェアによる自律訂正は、ECC(Error Check Code) 訂正などの機能を持つ部品で構成します。 ②装置制御プログラムによる自律訂正には、装置リセットやデバイスリセットなどの方法があります。装置リセットは電源OFF/ONによる再起動と変わらず、 特殊な制御を伴わずに実現できます。 デバイスリセットは対象デバイス(部品) のみリセットするため、訂正時間は短縮しますが、周辺回路との状態整合に連携が必要で、複雑な制御となります。 ③保守者操作による訂正は、保守者による遠隔制御リセットやユーザへの電源OFF/ON指示などの方法があります。 訂正までの時間がかかり、通信事業者の故障対応の稼働が必要となります。
そこで、10G-EPON ONUでは、② の装置リセットに相当する、ONU自身がソフトエラーを検出し、自律的に電源OFF/ONによる再起動を行う機能(自律リセット機能)を開発しました。この機能は、①ハードウェアによる自律訂正、および②のデバイスリセットに比べ、経済的で簡易にソフトエラー対策を実現でき、③保守者操作による訂正で生じていた故障対応の稼働を削減します。
ソフトエラー検出と 自律リセット対象の分類
ONUの機能ブロックを図4 に示します。ユーザ機器等と接続されるUNI (User Network Interface) から入力された上り信号をPHY(PHYsical layer)で受信、PON-MAC処理部で優先制御や転送処理をし、暗号部・FEC (Forward Error Correction) 部でこれら機能が有効設定であれば、それぞれ信号の暗号化、誤り訂正符号の付与をして、光モジュールからOLTへ送信します。また、OLTのPONインタフェースから入力された下り信号を光モジュールで受信し、FEC部で誤り訂正、 暗号処理部で復号し、PON-MAC処理部で優先制御や転送処理を行い、PHY からユーザ機器等へ送信します。
ソフトエラー検出として、まず前述の上下信号が通る主信号経路の各機能ブロックのRAMのフレームバッファ領域にてエラー検出を行います。検出されるソフトエラーの多くは、フレームバッファ領域内の単一フレームのビット化けであり、検出後廃棄され、通信にほとんど影響を与えません。しかし、 まれにPHY、PON-MAC処理部、 暗号部とFEC部のフレームバッファ領域にて、同種のソフトエラーが継続して検出される場合があります。この場合は、 ソフトエラーが複数フレームで継続的に発生していることから、ONU内の主信号の導通に問題が発生していると想定されるため、ソフトエラー故障と判断し、自律リセット機能の動作対象としました。
またCPU(Central Processing Unit) 部のRAMとPON-MAC部のRAMの優先制御や転送処理に関する設定値格納領域(転送制御設定テーブル)でもエラー検出を行います。CPU部のRAMでソフトエラーが検出された場合、CPUの処理が異常となっていると推定されます。PON-MAC処理部の転送制御設定テーブルでソフトエラーが検出された場合も、OLT への主信号転送に問題が発生していると推定されます。よって、共に上記と同様にソフトエラー故障と判断し、自律リセット機能の動作対象としました。
ソフトエラー対策としての 自律リセット機能
自律リセット機能の遷移フローは、 図5 のようになります。中性子線により半導体デバイスが影響を受ける事象は、ソフトエラーのほか、物理欠陥があります。物理欠陥は、中性子線の影響により物理的に半導体デバイスが劣化し誤作動する事象であり、物理欠陥による故障(物理欠陥故障)は、半導体デバイスの再起動やデータの上書きでは回復しません。自律リセット機能は、 一部の物理欠陥が発生した場合に、ソフトエラーと区別がつかず、自律リセット実施後もエラーが継続し、電源OFF/ ONを繰り返してしまう懸念があります。
そこで、リセット回数を記憶し、リセット回数が一定時間内に規定回数を超過した際に、物理欠損故障と判断し、自律リセットを行わずONUの通信機能を停止(装置故障状態)する機構を実装しました。具体的には、ONUにリセット回数を記録するリセットカウンタiを設けました。ONU起動後、リセットカウンタiは0回でスタートし、自律リセットが発生した際にその回数が加算されます。自律リセットが繰り返し発生した場合、リセットカウンタiが増加し、規定回数を超えた状態でソフトエラー等を検出すると、装置故障状態へ遷移します。これにより物理欠陥故障が原因の自律リセットの繰り返しを防止し、ソフトエラー故障と物理欠陥故障の切り分けを可能とします。
中性子照射線試験による効果の確認
ソフトエラーを再現させる方法は中性子照射試験が一般的です。今回、開発したソフトエラー対策の効果を測定するために、10G-EPON ONUに対しTTC標準 JT-K130(3)に準拠したNTTアドバンステクノロジが提供している中性子照射試験サービス(4)を用い、自律リセットの効果を測定しました。
中性子照射試験では、自然界での発生頻度が極めて低いソフトエラーを再現するために、サイクロトロンの陽子加速器により加速させた陽子をターゲット(ベリリウム)に照射することで中性子線を発生させ、評価対象である複数台の10G-EPON ONUへ照射しました。本試験では、自然界時間に対し最大で約1億倍に相当する中性子強度の加速試験を実現しました(図6 )。
照射中の10G-EPON ONUへはOLT およびトラフィックジェネレータ・アナライザを用いて主信号を導通させました。また試験中は中性子線の影響によりログファイルが破壊される可能性を考慮し、10G-EPON ONU内部のログをリアルタイムで収集し、自律リセットを漏れなく計測しました。本試験を通じ、10G-EPON ONUを平均して約11万年間/台、自然環境で中性子線にさらしたのと同様の試験結果を得ました。中性子を照射することで、ソフトエラー等を平均1151回/台検出し、そのうちフレームバッファ領域における自律リセット対象ではないエラー検出を1104回/台、自律リセットによる故障回復を46回/台確認しました。
自律リセット機能が想定どおりに機能したことにより、ユーザが利用中のONUにてソフトエラー故障が同様に発生した際も、ONUが自律的に回復し、ソフトエラー対策として効果があると確認できました。1000万台展開されると想定した場合、 1年間で約4200 回分の故障対応の稼働削減が見込まれます。
今後の予定
10G-EPON ONUにて増加が見込まれるソフトエラーに対する対策技術の開発を行いました。本技術により、 ONUの故障削減に貢献し、ユーザおよび通信事業者の故障対応に要する稼働の削減に貢献することが可能となります。今後、他のONUへの本技術の展開を検討していきます。
■参考文献
(1) TTC標準 JT-K124:“通信装置の粒子放射線影響の概要,” 2018.
(2) TTC標準 JT-K131:“通信装置のソフトエラー対策設計法,” 2019.
(3) TTC標準 JT-K130:“通信装置の中性子照射試験法,” 2019.
(4) https://keytech.ntt-at.co.jp/emc/prd_5014.html
(上段左から) 喜多 亮太/ 伊藤 健太/ 名越 遥
(下段左から) 森嶋 俊/ 嶌津 聡志/ 吉田 智暁
問い合わせ先
NTTアクセスサービスシステム研究所
光アクセス基盤プロジェクト
光アクセスシステムグループ
TEL 046-859-4841
FAX 046-859-5513
E-mail kishig-p-ml@hco.ntt.co.jp
今後も事業会社のニーズを踏まえながら、 高品質な光アクセスシステムの研究開発に取り組んでいきます。