3GPPでの高臨場音声音響符号化IVASの標準化

グローバルスタンダード最前線

3GPPでの高臨場音声音響符号化IVASの標準化

3GPP（3rd Generation Partnership Project） SA4（Service and System Aspects 4）は2014年に制定したEVS（Enhanced Voice Services）音声音響符号化の拡張として、11社の公開共同開発によりIVAS（Immersive Voice and Audio Services）の標準化を進めて基本部分を2024年夏に完成させました。IVASはマルチチャネル信号用の多様な符号化処理を備え、高臨場通信や多地点会議など電話機能を拡張するサービスへの展開が期待されています。この中でNTTやOrangeは世界中に普及しているEVSとの相互接続品質を改善する能動ダウンミックス技術を提案しています。ここでは標準化の状況と展開について紹介します。

守谷　健弘（もりや　たけひろ）／原田　登（はらだ　のぼる）
NTTコミュニケーション科学基礎研究所

標準化の背景

3GPP（3rd Generation Partnership Project） SA4（Service and System Aspects 4）ワーキンググループは映像や音声音響の符号化や関連するシステム、プロトコルなどの規格を制定しており、その中でオーディオ・サブワーキンググループは現在、音声音響信号の双方向の圧縮符号化の新規規格を開発している世界で唯一のグループです。2014年にはEVS（Enhanced Voice Services）の符号化に関する標準仕様を国際協調で制定し、電話会社の管理下のVoLTE（Voice over Long-Term Evolution）の安定したネットワークで、従来の携帯電話と同等の低遅延・低ビットで音楽も含めて格段に高品質で広帯域の電話通話を達成しました。この結果、EVSは現在世界のほとんどの携帯電話（スマートフォン）に採用されるに至っています^（1）。
EVSによりモノラルの電話通信品質は大きく改善されましたが、さらに、安定した多地点会議の要請や音響的により臨場感のある通信サービスへの期待が高まりました。2018年に電話用EVSを高臨場通信や多地点会議に展開できるようにマルチチャネル入出力形式に拡張したIVAS（Immersive Voice and Audio Services）符号化の標準化を開始しました。これまでの標準化に例をみない完全公開のGitHub上でNTTも含む1１社(ドルビー、エリクソン、フラウンホーファー、ノキア、ファウエィ、オレンジ、パナソニック、フィリップス、クァルコム、ボイスエイジ；アルファベット順)による共同開発が行われ、2024年にアルゴリズムが完成しました。アルゴリズムは仕様書と浮動小数点演算コードで記述されており、関連仕様の大部分が完成しています。複数の独立な会社のチップや端末でも完全に結果が一致するように固定小数点演算の実装のコードを製作中で、2025年の完成をめざしてそのコードによるアルゴリズムの主観品質評価が行われる予定です。

IVASの応用分野

IVASや3GPPの規定を組み合わせて使うことで図1のような応用用途への利用が想定されています。IVASの持つマルチチャネル、マルチストリームの多くの機能は単なるスマートフォンのアプリケーションの範疇を越えて数多くの応用用途が想定されています。次世代の双方向通信の形態の候補としてゴーグル型の装置が想定されています。これらの装置で相互の音響空間の共有が感じられることで没入感、臨場感を楽しむことができます。対話の相手の位置や向きが反映されて耳元やうしろから声が聞こえたりすることが可能になります。

IVASの特徴

IVASの仕様は図2のように、双方向通信向け立体音響符号化、マルチストリーム処理、レンダリング（音響合成）を含む多様な用途に柔軟に対応できるように設計れています。さらにそれらのネットワーク伝送に必要な技術仕様（無音圧縮、パケット消失補償、ジッタバッファ管理、伝送プロトコルなど）を包括的に含みます。
すでに高臨場の音声音響符号化方式として、ISO（International Organization for Standardization）/IEC（International Electrotechnical Commission） MPEG（Moving Picture Experts Group）の符号化や非標準の方式が存在しますが、いずれも符号化の原理遅延が100ms程度で、配信、放送、記録など遅延の制約が厳しくない片方向の通信用でした。これに対しIVASはEVSと同様に原理遅延は最大38msで、20msのフレームで双方向のIP伝送ができます。またMPEGのような復号処理だけが必須で規定される規格ではなく、IVASはあらかじめ設定された品質条件を満たす符号化および復号化、レンダリングのアルゴリズムがすべて必須の規格として規定されています。

IVASの符号化技術の概要

IVASは立体音響処理で使われる可能性のある信号形式に対応した符号化方法を含みます。すなわちステレオ、バイノーラル、チャネルベース（入力チャネルごと）、シーンベース（高次アンビソニック形式）、オブジェクトベース（音源別）、音源を記述するメタデータを含む形式、さらにそれらの組合せの形式の信号の圧縮符号化復号とレンダリングが規定されています。
符号化のアルゴリズムの基本は多様なマルチチャネルの入力に対応して音響信号の空間的特徴を分析し、その信号を少ないチャネル数の信号に変換（ダウンミックス）・圧縮し、空間情報と圧縮後の情報（圧縮ビット列）を伝送します。
復号のアルゴリズムの基本は、伝送された情報に基づき、少ないチャネル数の信号波形を再構成することです。レンダリングのアルゴリズムの基本は、少ないチャネル数の信号波形と空間情報を使って入力と同じ多チャネル信号、または再生環境に合わせた空間特性を実現する多チャネル信号を合成します。このような符号化・復号・レンダリングのアルゴリズムの詳細は必要に応じて規格書類やソフトウェアを参照していただければと思います^{（2）～（4）}。

EVSとの互換接続

IVASの重要な機能の1つとしてEVSとの互換接続があります。EVSを搭載したスマートフォンは年間数億台生産されて広く普及しているので、新規のIVASにはEVSと互換接続が必須であることから、ステレオからモノラルに変換する高品質の能動ダウンミックス技術がNTTとオレンジによる提案で標準化されました。ダウンミックスはIVASの符号化の前段において非標準で付加することもできますが、その場合符号化以外に遅延が生じ、EVSのビット列を受け取った利用者の品質が保証されなくなります。
符号器の中に含まれるダウンミックスによって図3の多地点会議で既存のスマートフォンとの高品質で低遅延の接続が可能になります。図の上段の次世代端末どうしはステレオなどの高機能通話が可能で、その中に既存のスマートフォンをSFU（Select and Forward Unit）＊でつないだものです。左の端末は発話中にはIVASの符号化と同じ信号フレームに同期して（追加遅延なく）、ダウンミックスとEVS符号化を実行し、2つの圧縮ビット列を平行にネットワークに出力します。SFUではそのIVASを右側の次世代の端末に送り、EVSは既存のスマートフォンに送ります。もし、ダウンミックスとEVS符号化との同時発信がなければ、別途ゲートウェイ設備を使ってIVASの復号、ダウンミックス、EVS再符号化などの処理が必要となり、遅延の増加や品質劣化が避けられません。

＊　SFU：複数ストリーム並列伝送を前提とした多地点会議のサーバ形式。

能動ダウンミックス

ステレオ信号をモノラル信号にダウンミックスするには、両チャネルの信号の平均をとればよく、これを受動ダウンミックスと呼びます。この場合、話者やマイクの位置関係でモノラル信号の符号化の品質が損なわれる場合があります。
EVSとの互換性通信はIVASの共同開発11社のうち電話会社であるNTTとオレンジがEVSで符号化したときの品質に大きな関心があり、共同で能動ダウンミックスを開発しました。標準規格となったダウンミックスは、音源（話者）の個数が1つと想定できるとき、両チャネルのうち到達時間が早いチャネルの信号（先行音）に大きな重みをつけて加算平均をし、特にチャネル間の時間差が安定している音楽などの場合には時間差を補正して加算するものです。

IVASの品質例

外部機関による主観品質評価結果は標準化規格の実用化のための重要な情報です。IVASの浮動小数点実装については第1段階の評価試験が終了しており、入力は多言語音声、雑音付加音声、音楽、さまざまな音響環境での収音に対して、膨大な評価者による評価結果が公表されています^（5）。そのごく一例を図4に示します。縦軸はステレオ入力音声（音楽との混合）を基準とし、符号化の歪みや空間的印象を総合的に5段階（5：劣化がない、4：小さな劣化、3：中程度の劣化、2：大きな劣化、1：極めて大きい劣化）評価の差分DMOS（Degradation Mean Opinion Score）の平均値と95％信頼区間です。横軸は総合ビットレートで、上段はIVASのステレオ符号化、下段は各チャネル信号を独立のEVSで符号化した場合です。ステレオ符号化がEVSの独立符号化よりはるかに高品質であることが分かります。本例に限らず、ほぼすべての場合、多チャネルをまとめて符号化することによって、各チャネルをEVSで独立に符号化するより高い品質が得られています。

ダウンミックスの品質

図5は標準規格となった能動ダウンミックスと受動ダウンミックスの主観品質をNTTで評価したものです^（6）。この図でも縦軸は5段階DMOSですが、参照音がステレオで評価音がモノラルなので、最高評点は4程度になります。入力はクリーン音声、音楽、雑音付き音声の3つの範疇で90種類、ステレオマイクの間隔は5cmから200cmで複数種類を使い、評価者は24人です。この図から、24kbit/sではすべてのカテゴリで能動ダウンミックスの品質が有意に高く、13.2kbit/sの場合でも平均値は能動ダウンミックスの品質のほうが高い傾向にあり、特に音楽は有意に高いことが分かります。

今後の課題

EVSはスマートフォンの電話用として世界に普及し、多数のお客さまや事業者に貢献できていますが、IVASの用途はスマートフォンのアプリを超え、これまでベストエフォートのネットワーク上のいわゆるOTT（Over The Top）のアプリケーションソフトでの実現が想定されます。ただ、その際の音声はEVSのような優先制御による低遅延で安定したネットワークは使えません。またすべての機能の仕様を設計して標準規格として決め、電話会社が管理することは非効率で現実的ではありません。
電話会社による電話通信並みの低遅延で安定した音声品質の利点とOTTベンダによるWebRTCなどのソフトウェアによる多様な高臨場・多地点拡張機能の実現の利点を連携させることが望まれます。このようなシステムの構築に向けて、プロトコルの連携やソフトウェアインタフェース連携に向けた開発^{（7）（8）}が今後の課題と考えます。また、複数のマイクロフォンやスピーカやイヤホンを用いた多様な信号処理技術とIVASの組合せによってお客さまへの新しいサービスの展開が期待されます。

まとめ

ここでは、3GPP　SA4で制定されたEVSとその拡張であるIVASを紹介しました。IVASは公開共同開発でマルチチャネル、マルチストリームの多様な符号化を実現し、電話から高臨場通信や多地点会議などへの多様な応用が期待されます。多くの技術の中で、NTTはEVSとIVASの相互接続の品質を改善するための能動ダウンミックス技術の標準化に貢献しました。

■参考文献
（1）　https://www.rd.ntt/research/CS0025.html
（2）　TS 26.253：“Codec for Immersive Voice and Audio Services (IVAS); Detailed Algorithmic Description including RTP payload format and SDP parameter definitions,” April 2022.
（3）　守谷・原田・杉浦・鎌本：“3GPP IVAS標準規格の概要,”　日本音響学会研究発表会2-7-11,2024.
（4）　S. Bruhn, T. Toftgård, S. Döhla, H-Y. Su, L. Laaksonen, T. Moriya, S. Ragot, H. Ehara, M. Szczerba, I. Varga, A. Schevciw, and M. Jelinek: “3GPP IVAS Codec – Perspectives on Development, Testing and Standardization,” Proc. of ICASSP 2025, April 2025.
（5）　TR 26.997：“Codec for immersive voice and audio services (IVAS); Performance Characterization,”June 2024.
（6）　T. Moriya, S. Ragot, A. Lefort, A. Guérin, N. Harada, R. Sugiura, and Y. Kamamoto: “Stereo Downmix in 3GPP IVAS for EVS Compatibility,” Proc. of ICASSP 2025, April 2025.
（7）　https://journal.ntt.co.jp/article/25005
（8）　https://journal.ntt.co.jp/article/20028

一覧に戻る

NTT技術ジャーナル記事

グローバルスタンダード最前線