挑戦する研究者たち
最高のサービスと信頼を提供し続けよう「音声・音響信号符号化の研究者」としてのポリシーを貫くことが私の責任である
PCやインターネット、電話を利用して業務や会議を行うことで、移動時間の削減やクラウド等の活用による仕事の効率化、働き方の多様化が加速しています。テレビ会議において音質が臨場感に与える影響が大きいといわれている中、テレワーク等で活用されるテレビ会議やテレビ電話に限らず固定電話、携帯電話等の音声の音質に関するNTTの研究成果が世界に大きく貢献しています。約40年にわたり音声・音響信号符号化の研究に携わるNTTコミュニケーション科学基礎研究所守谷健弘フェローに、現在取り組んでいる研究と研究者としての姿勢を伺いました。
守谷 健弘 フェロー
NTTコミュニケーション科学基礎研究所
守谷特別研究室室長
ゴールは一番早く欲しがってくださるお客さまのニーズに合わせる
これまで取り組んでこられた研究について教えてください。
私は、音声や音楽の信号をデジタル化し、それを効率良く、かつ再生時の再現性を高く情報圧縮する、音声・音響信号符号化の研究を約40年にわたり行ってきました。例えば、携帯音楽プレーヤやデジタル放送などから聞こえてくる音楽は、本来の信号ではなく情報量的には10分の1くらいに圧縮されたものが提供されています。音の品質を保ちながら信号を圧縮し、再現する方式に関する研究です。約50年前からデジタル信号処理による音声音響信号符号化技術が進展してきています(図1)。この図の詳細の説明は割愛しますが、世界の多くの研究者やエンジニアの努力によってこれらの技術が築かれました。1990年代からは電話や放送などのかたちで日常生活やビジネスに大きな貢献をしてきています。音声音響の多くの技術分野の中で圧縮符号化技術がもっとも大きな市場貢献をしてきていると思います。
1980年代前半には、固定網は高速光ファイバ、移動網(携帯電話)はアナログ伝送が主流でデジタル化の可能性は不透明でした。このため音声のデジタル圧縮符号化技術は応用用途を見失いつつありました。ところが1990年代には一転して世界の携帯電話がデジタル化に動き、デジタル圧縮符号化技術がにわかに重要になってきました。1990年代に低ビットで伝送符号誤りがあっても音質を担保できることなどの条件をクリアした成果はコンテストで日本標準方式に採用され、第二世代の携帯電話で使用されました。第三世代の携帯電話やIP電話においても私たちの要素技術が採用され、世界中の携帯電話の音声品質の向上に貢献しています。
その後2010年ごろ移動通信システムの国際標準化団体である3GPP(3rd Generation Partnership Project)において、世界統一の第4世代の移動体通信ネットワークであるVoLTE(Voice over Long-Term Evolution)向けに新たな符号化の制定が強く望まれました。これにこたえてNTTグループも含む世界の多くの専門家による競争と協力によって、音声音響統合符号化方式としてEVS(Enhanced Voice Services)が国際標準化されました。
それまでの携帯電話向け音声符号化方式は人間の発声メカニズムにならったCELP(Code Excited Linear Prediction)という方式が用いられ、人間の声を低ビットレートで高品質に伝送してきました。EVSではCELPに加えて新たに開発された低遅延の音楽向け符号化を組み合わせることにより、それまで実現できなかった、背景雑音や背景音楽を含む音声あるいは音楽を高音質のまま低遅延で伝送することができます。標準化の過程で、第三者機関によってさまざまな条件・音源・言語での大規模な主観品質評価試験が行われ、従来方式よりも格段に高品質であることが確認されました。これにより、EVS方式は世界の電話会社、電話機メーカ、チップメーカに一斉に採用されるに至り、すでに日本国内で使っていただいているスマートフォンどうしの通話はこれまでの電話にないほど広帯域で高品質になっています。
大きな成果を上げられたのですね。
約40年前から、電話の音質をどう高めるかという試行錯誤をNTTのチーム、世界中の有力な研究者やエンジニアとともに繰り返し、結果的に世界の人たちに使ってもらえるようになっているのは大きな喜びです。
現在はEVSを拡張するIVAS (EVS extension for Immersive Voice and Audio Services) 標準規格を制定しようとしています。例えばバーチャルリアリティー(VR)やテレビ電話において、複数のマイクと複数のスピーカを用いて双方向で臨場感を持たせるような電話サービスをめざしています。
世界的な情報通信の会社であるNTT、特に電話の音声の研究については重厚な歴史を持つNTTの研究者として、ビジネスシーンに活かせるものをまずつくり上げたいと思います。あたかも同じ会議室で会議しているかのような臨場感に関する技術も望ましいし、映像も必要になるでしょうが、媒体に左右されない音質の良い通話を最優先にに実現したいのです。昨今、電話会議は、有料あるいは無料ソフトウェアを使ったアプリが普及しつつありますが、使うネットワークはベストエフォート型になり、遅延やパケットロスによる品質劣化は避けられません。またビジネス用の電話会議システムは従来からの固定電話を想定しており、これにスマートフォンやIP内線電話から接続すると品質が大きく劣化します。ネットワークの専門家がこれまでに構築してくれた、ひかり電話網やVoLTEのような音声通話に適した高信頼のネットワークにEVSの符号化が劣化なく使えるようにIVASをつくっていこうと考えています(図2)。
これまで、世界の有力な電話会社の研究所は大きな力を持っていましたが、今はかつてのような力はなく、サービスの分野やプレーヤーも入れ替わってきています。こうした流れの中、NTTはNTTドコモも含め、携帯電話サービスも固定電話サービスも提供している会社として、音声関連の技術に対して責任を持って貢献していくことが大切であると思いますし、まさに私はその領域にいるのです。
図1 音声音響符号化の開発経過
図2 IVASを使った内線電話構成例
最終的に使っていただく方の笑顔を想像する
40年余りの研究活動を振り返って、どのような教訓が得られましたか。
研究者は自らの力で考え、さまざまなことに気が付き、それを現実のものとしてつくり上げることが大切だと考えます。その動機の半分は面白いと思うこと、活動する際も面白いと思っているかどうかがとても大切です。研究活動自体がワクワクすること、生きがいと思えるかどうかです。そのためにも研究活動の成果を喜んでもらえる人がいないといけませんから、喜んでもらえる人を想定し、その人に喜んでもらえることを想像しながら、息長く研究を続けていくのです。このような考えに至ったのは私が研究を始めた学生時代にさかのぼります。当時は今とは全く違う研究をしていました。もともと何かを考えて、形のあるものをつくるのが好きで、それを多くの人に使ってもらいたいと思っていました。しかし、どうしても自己満足の域から脱することができず、ほかの人に聞いても「それがどうしたの?」とつれない返事しかなかったのです。そのころは自分が苦労しているのに誰の役にも立たない、世の中に貢献できていないという漠然とした悲しさがありました。こんな思いもあって、就職したら「自分が何かアクションを起こせば世界が動いてくれる」ところで頑張ってみたいとNTTの門をたたきました。
入社後、1980年に電電公社が日本電信電話株式会社として民営化し、そのときに企業理念として『私たちは、世界的視野に立った技術開発をもとに、最高のサービスと信頼を提供しつづけ、豊かな生活・文化の創造に貢献します。』が掲げられました。私はこれに大きく勇気づけられ、NTTの研究者として大切なものとして、いまだに入館証の裏にこれを記した紙を入れてあります。私はこの言葉が非常に好きなのです。常に自分の方針、自分はこういう理念を持った会社の社員であり、今従事していることはこの考えに基づいているか、この方向であるかを考えながら研究を続けてきました。先にお話したような意見を集約できない等、難しい問題に直面したり、つらいことがあっても、この言葉がこれまでの私の研究生活を日々支えてくれました。大げさかもしれませんが、この言葉はまさに私の研究者としての生きがいなのです。
さて、私は同じテーマで40年間も研究を続けてこられたことが不思議だと思っています。世の中はどんどんと変わっていきますから、5年ほどすると、次の課題に取り組んだり、分野を変えていかなければならないことがほとんどで、40年間も同じテーマというのは非常に稀なことだと思います。ただ、研究者としては新しいことを発見、発明して論文を書いて世界に使ってもらうことが重要です。そのためにも成果を上げたら、分野を変えざるを得ないことが多々あります。こうした状況下において、息の長い基礎研究はともかく、実用に近いところにいる研究者は、成果に到達していない段階であっても、別の切り口を見出し、別の課題を上手に見つけていくことが大事でしょう。幸いにも私の場合は、例えば、 1990年代に携帯電話のお客さまから音質に関する不満が多く寄せられ、その対策を研究中に、同じ技術を音楽の高音質再生に使えないかという発想(課題)が生まれましたが、それと同様に「通信と音」という1つのテーマのもとに次々と課題が見つかり、40年間もの長きにわたって研究を展開してくることができました。もちろんここに至るまでの40年の研究活動には、失敗もあり、競争に負けることもありました。
複数の研究テーマや切り口を両輪ととらえ、常にバランスを取りながら進む
より良い研究生活を送るために若い研究者の皆さんにアドバイスをお願いいたします。
研究テーマを複数持って並行して進めていくことです。現在、例えば私のチームは研究テーマを2つ持っています。1つは電話屋としてのスマートフォンなどの音質や機能改善で、もう1つは光を使って音などの信号を計測したりすることです。光による計測はすぐに役に立つかどうかは分かりませんが、これまでにない切り口としてトライアルを重ね、いずれNTTの高速ネットワームを生かしたサービスに貢献できると期待しています。さらに個人の研究テーマとしても少し違う側面(例えば理論と実験、短期的課題と長期的課題など)からの切り口を持ってほしいと思っています。なぜならば、社会の風潮、情勢が動くこともあります。外部条件が異なれば、いくら研究成果が優れていても、それが使われることのない技術になることもあります。論文は書けるけれど、それが条件に合わず使ってもらえないこともあれば、ライバルが多くて競争に負けて使ってもらえないこともあります。世の中の動きや技術の進歩を鑑みて、時に思い切って片方を捨てる覚悟も持ちつつ、バランスを考えて長く研究を続けていくことが大事です。
若い研究者の皆さんは、この先20年は研究を続けていくことになると思います。研究活動は山も谷も多いですから、この数年はこのテーマに集中する、そしてこちらは長期的に取り組むというように、取り組む時間や手法等が違うものを複数抱えて進んでいくことが良いと思います。研究以外でも同様かもしれませんが、1つのことに集中できることは稀で、さまざまな仕事に取り組みながら部下を携え、ステークホルダーも増えてくることもある中であっても、研究者は主たるテーマに勤しみつつ、周辺領域にも興味を持たなければいけません。なぜならば、今取り組んでいる主たるテーマがなくなることもあるからです。
信念を持って研究意義を訴え、理解者を増やそう
テーマの選択はどうしたら良いでしょうか。
流行に流されることはやめたほうが良いです。多くの人が取り組んでから追随するということは、常に誰かの後ろにいることだと思います。他者が取り組んでいる競争に乗り出したところで、自身の成果を社会に訴えるのは難しいです。それよりも、自身の知見やスキルと社会のニーズを結び付けて独自のテーマを設定しましょう。
私は電話サービスを提供している会社の研究者として、世界の何億人という人が電話を使うとき、どうしたら喜んでくれるだろうかと常に考えています。自分の研究成果を誰が使うか分からないまま競争に入っていくことは得策ではないでしょうね。ゴールが分からないで走っているのと同じです。ただ、研究分野にはそれぞれ特性があります。基礎研究でしたら、今得られた成果が後世で役に立つ、あるいは教科書に反映されることや、未来の社会を良くすることがゴールになると考えられます。
また、研究を進めていくうえでは、設備やメンバー確保といった部分で予算がかかわってきますが、それを確保するためにも、その研究意義を理解してくれる人がいないと難しいでしょう。特に基礎研究の場合は研究スパンも長くなるので、将来にわたっての研究意義の理解者を求めることになります。信念を持って研究意義を訴えて理解していただけるかどうかが重要です。
私も理解者を求めて苦労した時期がありました。 2000年ごろは、世界的に音楽の信号を低ビットで圧縮する技術がほぼ完成し、圧縮符号化の意義はなくなったと認識されていました。私は「いくら伝送容量が大きくなっても、音質を全く劣化させない条件なら情報量を減らす技術は役に立ち、その標準規格をつくるべきだ」という信念を持っていました。しかしこの構想はNTTの研究所内でも反対され、標準化団体からも拒否されました。海外の専門家と協力してメリットを訴え、NTT内や標準化団体の参加者からも次第に賛同を得て、音楽業界からの要望による軌道修正もして、ようやく2005年に国際標準を制定することができました。
標準化制定から15年経て、ようやくNTTグループの高音質音楽配信ビジネスなどで広く使っていただけるに至っています。研究者としての 競争の場は世界です。米国、欧州、中国の人たちは非常に主張が強く、私はよく言い負かされてしまいます。しかし、技術は真実なので、信念を持って技術で競争していくことが本質だと思います。そして、迷ったときには私の研究の原点である、企業理念に立ち返ってそれに従います。そして、それが心の支えにもなっています。
今後の抱負をお聞かせください。
携帯電話を含めて電話サービスは飽和状態にあり、ビデオや人工知能など新しい技術によるサービスが情報通信の世界のみならず、GAFAのようなプラットフォーマや多くの分野で注目を浴びてきています。こうした新しい分野には多くの研究課題がありますし、NTTもこうした分野の研究に積極的に取り組んでいます。こうした環境の中、電話における研究課題は少なくなってきていますが、例えば、携帯電話、固定電話、内線電話のように異なる電話網が存在したり、端末数の多いときの電話会議の音質劣化対策のような、世の中の役に立つ研究課題も残っており、40年間この分野の研究者であった者として、電話屋の社員として、音声・音響信号符号化に関する研究を最後まで責任を持ってやろうと思っています。
さらに、最近では、若手研究者にアドバイスをする機会が増えてきていますが、その中で40年の蓄積は参考にならないことも多いです、伝授というより、どんどん新しいところでチャレンジしてもらいたいと思います。