グローバルスタンダード最前線
ITU-T SG12 標準化動向
通信サービスを適切な品質で提供するために、ネットワークおよびサービスの設計・管理は極めて重要で、そのためには、定量的に品質を測定・評価する技術が必要となります。ITU-T(International Telecommunication Union-Telecommunication Standardization Sector) SG(Study Group)12では、ユーザがサービスに対し、体感する品質(QoE:Quality of Experience)とその目標値を達成するために要求されるネットワーク品質(QoS:Quality of Service)の評価法、測定法、規定値等に関する研究を行っています。ここでは、映像メディアの品質評価・管理技術に関する最新の標準化動向を中心に紹介します。
松尾 洋一(まつお よういち)/小池 正憲(こいけ まさのり)
山岸 和久(やまぎし かずひさ)
NTTネットワークサービスシステム研究所
ITU-T SG12
ITU-T(International Telecommunication Union-Telecommunication Standardization Sector) SG(Study Group)12はQoS(Quality of Service)/QoE(Quality of Experience)検討に関するITU-TにおけるリードSGです。メディア品質評価法の標準化は、欧州のETSI(European Telecommunications Standards Institute)や北米のATIS(Alliance for Telecommunications Industry Solutions)においても行われています。また、ネットワークQoS規定についても、IETF(Internet Engineering Task Force)や3GPP(Third Generation Partnership Project)などさまざまな標準化機関で行われています。そのため、ITU-T SG12がこれらの標準を考慮しつつグローバルにリーダシップをとり、ドキュメントの整合性を確保しています。
自動運転遠隔監視に適用する物体認識率推定手法(勧告P.1199)
自動運転のレベルはSAE(Society of Automotive Engineers:モビリティ専門委員会)により規定されており、運転主体や走行可能エリアに応じて、レベル0からレベル5まで6段階が定義されています(1)。その中でレベル4に相当する、運転者がいない状態での自動運転(特定自動運行)を行う場合においては、遠隔監視装置を設置し、遠隔監視を行う者(特定自動運行主任者)を配置することが法令で定められています(2)。図1に示すように、特定自動運行主任者は、自動運転を行う車載カメラから監視センタに送信された車載映像を基に、自動運転の作動状態の確認や道路上における障害物有無の確認を行います。そのためには、車載カメラから送信される映像品質が、特定自動運行主任者から物体を認識できる程度に鮮明である必要があります。そこでNTTは、特定自動運行主任者が車載カメラから送信された映像を視聴した際に物体を認識できる確率を導出する技術を確立しました。本技術は、2025年11月にITU-Tによって勧告P.1199として標準化されました。本技術を利用することで、物体認識率に基づき、車載カメラから送信された映像の品質が、物体認識可能なレベルであるかを監視することができます。
本技術では図2のように、映像符号化パラメータ(ビットレート、フレームレート、解像度)や伝送時でのデータの欠損に関するパラメータ(パケット損失率、フレーム欠損数)に加え、自動車の走行速度を入力し、物体認識率を推定します。なお、自動運転車から送信される監視映像品質は、運行時の昼夜や天候、車載カメラ設定にも依存します。そのため、これらパラメータを事前情報とし、事前情報ごとに推定技術の係数の最適化を行うことで、さまざまな状況への対応を可能とするフレームワークを構築しました。
今後の展望として、本技術は、H.265/HEVC(High Efficiency Video Coding)で符号化された監視映像を対象としていますが、近年利用が増えているAV1(AOMedia Video 1)符号化への適用も検討されており、今後検証が行われる予定です。


4K映像を対象としたアダプティブビットレートストリーミングに対する品質推定技術(勧告P.1204)
これまでアダプティブビットレートストリーミングの品質監視のために、4K映像およびH.265/HEVCに対応した品質監視技術を規定する勧告P.1204が制定されてきました。勧告P.1204は入力映像の品質を推定する技術で、入力データに応じた複数モードで構成されています。現在までに、メタデータ(ビットレート、解像度、フレームレート)に加えてビットストリーム情報をすべて用いて品質を推定する勧告P.1204.3、映像信号を用いる勧告P.1024.4、メタデータと映像信号を用いる勧告P.1204.5が制定されています。メタデータだけを用いる勧告P.1204.1とメタデータに加えてフレームレベルの情報を用いる勧告P.1204.2は長らく技術統合の検討を行ってきましたが、2025年9月のSG12会合で統合が承認され、勧告化されました。
また近年では、AV1符号化による映像配信も増えているため、新しい符号化方式に対応させる検討が行われています。勧告P.1204.4はAV1符号化への拡張が制定されており、他のモードについてもAV1への拡張も引き続き検討されています。
新しいモードに関する勧告の制定と符号化への対応により、映像配信の適切な品質監視が可能となります。
テレビ電話サービスの品質推定技術(勧告P.940)
テレビ電話サービスのQoEを監視するために、勧告P.940が制定されました。勧告P.940は、音声品質評価ブロック、映像品質評価ブロック、視聴覚品質評価ブロック、視聴覚相互作用遅延評価ブロック、視聴覚メディア同期評価ブロック、テレビ電話品質評価ブロックの6つのブロックで構成されます。本技術の特徴は、従来の客観映像品質モデルにも存在する視聴覚品質評価に加え、テレビ電話サービスは双方向のサービスであることから、遅延やメディア同期などテレビ電話サービス特有の品質に影響を与える項目も考慮し、最終的にMOS(Mean Opinion Score)を出力します。
本勧告により、通話端末で取得可能なネットワーク条件や映像情報などから、品質低下の程度を定量化することが可能となり、テレビ電話サービスのQoEを適切に監視することが期待されます。
機械学習を用いて生成した音声に対する主観評価法(P.MLS)
近年、機械学習手法を用いて生成したデータがさまざまなところで利用されており、音声データの生成についても、テキスト音声変換、音声ベースのチャットボットなどの場面で利用されています。これまでも音声品質の主観品質評価法として勧告P.806や、受聴品質を推定する客観品質評価法として勧告P.863や勧告G.107が規定されていますが、それらの規定が生成された音声データに対応できるかは検証されていません。そのため、機械学習手法で生成された音声に対する既存の勧告の適用度合いを検証するためのワークアイテムが立ち上がりました。生成された音声データに対する知覚特性を分析することで、既存の勧告の拡張、あるいは生成された音声データに対応できる勧告を規定する予定です。
今後、実験条件等を議論し、生成された音声データを用いた主観評価実験が行われる予定です。
今後の展望
ITU-T SG12におけるメディア品質評価法の標準化においては、音声通話や映像配信への対応がおおむね整備されていますが、対応符号化の拡張に関連した勧告の改訂や、機械学習手法を用いて生成したデータを対象とした、これまでにないデータに関する検討など、既存の勧告に対する検討も引き続き行われています。さらに、自動運転に使用する監視映像の品質といった、これまでにないサービスの品質に関する検討も始まっています。
今後も、5G(第5世代移動通信システム)/6G(第6世代移動通信システム)の推進に合わせ多様なサービスが展開されることが期待されますので、各種サービスに対するQoS/QoEの設計・管理がますます重要になってくると考えられます。そのため、今後もSG12の検討状況を把握していくことが重要になると考えられます。
■参考文献
(1) SAE International:“Taxonomy and definitions for terms related to driving automation systems for on-road motor vehicles,” 4970.724, pp. 1-5, 2018.
(2) 警視庁:“道路交通法の一部を改正する法律(令和4年法律第32号),”2022年4月.
