2025年8月号
特集2
人と情報の本質を究め、人と情報をつなぐ ――未知なる真理の探究と学際的研究により持続可能な未来を切り拓くコミュニケーション科学
- コミュニケーション科学
- 人工知能
- 脳科学
NTTコミュニケーション科学基礎研究所(CS研)では、情報と人間を深く理解し究める基礎研究と、その理解から得られた知見に基づき、情報と人間をつなぐ基盤技術を創出することにより、人と人、人とAI(人工知能)、さらには人と社会との「こころまで伝わるコミュニケーション」の実現に向けた研究開発を行っています。本稿では、CS研における最新の研究の取り組みについてその一部を紹介します。
納谷 太(なや ふとし)
NTTコミュニケーション科学基礎研究所 所長
はじめに
昨今「VUCA」という言葉をよく見聞きするようになりました。「Volatility(変動性)」、「Uncertainty(不確実性)」、「Complexity(複雑性)」、「Ambiguity(あいまい性)」の単語の頭文字をとった造語ですが、あらゆる物事がめまぐるしく変化し、将来の予測が困難な状況を指して用いられています。元は1990年代後半に軍事戦略の複雑さの表現のために使われたのが、2016年の世界経済フォーラムであるダボス会議で「VUCAワールド」という言葉が使われ、世界中に認知されるようになりました。近年の全世界規模の異常気象や自然災害の甚大化、新型コロナウイルスなどの感染症のパンデミックなどに加え、グローバルな社会情勢の変化に伴う各国の経済政策の大幅な転換や、生成AI(人工知能)を代表とする科学技術の急激な進歩などが複雑かつ相互に影響を及ぼし合うことにより、今後の未来をより一層不確実で予測困難にしています。
このようなVUCAの時代においてこそ、複雑化し多様化する情報の本質的な性質や価値を理解することと同時に、情報の受け取り方に応じてさまざまな意思決定を下し行動を引き起こす私たち人間自身の感覚・認知・行動・情動のメカニズムや、その多様性を深く理解することの重要性が増していると考えます。NTTコミュニケーション科学基礎研究所(CS研)では、設立以来、情報の本質や人間の本質の深い理解に基づく新発見や、この新発見に基づく革新技術の創出を推進しています。本特集では、多様化する情報や人間の本質の理解をめざす基礎研究と、いまだ顕在化されていない情報を発見し人とつなぐ技術や、さらには、多様化する人と人、人と社会とを結びつける新たなコミュニケーション形態の創出をめざしたCS研の最新の取り組み事例について、その一部を紹介します。
情報の本質を理解する
CS研では、人と人、人とコンピュータとのコミュニケーションにおける情報を伝達するあらゆるメディアを対象にした情報処理技術に関する研究を進めています。昨今のAI技術の進歩は著しく、例えば画像や音声の認識に関するAIは急激に性能を高め、人間を上回るパフォーマンスを達成しています。中でも人の音声認識技術においては、多人数の会話であっても話者を切り替えて文字起こしできるAIボイスレコーダーなどのポータブルデバイス(1)が発売され、高性能な音声認識に加えて、生成AIと連携した要約の作成など、業務効率を格段に向上する製品が生まれています。このような製品は、人の音声処理に特化した技術の高度化によってなされているものですが、最近では人の音声に限らず、自然がつくり出す音や動物の鳴き声や乗り物の音など、私たちの身の周りにあるさまざまな音をAIに理解させる研究も進んでいます。
従来の音の認識処理では、生データである音の信号に含まれる周波数成分や強弱、音の高さなどの基本的な情報を手掛かりに、それぞれの音を区別するのに有用な「特徴量」と呼ばれる数値に変換する処理(特徴抽出)を人手で設計し、この特徴量とその音が表す正解ラベル(例えば「犬の鳴き声」など)をペアとして与え、互いに異なる音を分類するように学習させる方法が一般的でした。しかし、分類すべき音の対象が増大し、例えば、「ワン」と擬音語で表現される犬の鳴き声の中でも、それが「威嚇して吠えている」のか「喜んで鳴いている」のかを聞き分けるなどのタスクでは、どのような特徴量がそれぞれの認識に本質的に有用なのかを人手で設計することは非常に困難になります。このような課題に対し、昨今、特徴抽出を人手ではなく機械学習によって自動的に実現する「表現学習」と呼ばれる手法が注目されています。
表現学習の中でも、大量の多様な音データだけを用い、正解ラベルを必要としない、「自己教師あり学習」という手法は、人手を介する必要なく、コンピュータに音を聞かせるだけで、個々の音の本質的かつ汎用的な特徴表現を学習できる技術です。本特集記事『音の聴き方を自ら学ぶAI──自己教師あり学習によるさまざまな音の汎用表現学習技術から、大規模言語モデルを活用した音の理解の最前線へ(2)』では、「音の穴埋め問題」として、元の音の一部をマスクして隠した部分を予測するという新しい自己教師あり学習を定式化することにより、あらゆる音を構成する本質的な特徴表現を自動で獲得することを可能にしたMasked Modeling Duo(M2D)という技術を紹介しています。M2Dは、環境音や話者の識別、音楽のジャンル認識や楽器分類などのベンチマークタスクの高精度化を達成していますが、これをさらに発展させ、M2Dと大規模言語モデルとを組み合わせた技術により、さまざまな金属を叩いた際の音について、金属素材の特性などを根拠として、各金属がどのような音を出すかをテキストで詳細に説明する言語タスクなど、さまざまな応用に対しても高い性能を発揮しています。
人の本質を理解する
CS研では、情報科学、心理学、神経科学の3つの切り口から、人の感覚・情動・運動の仕組みを解明する人間科学の研究や、子どもが言語や社会性などを学習する発達科学に関する研究を推進していますが、ここではほんのごく一部の研究事例を紹介します。人間科学の研究の中でも、当人も言語化したり自覚したりすることが困難である「潜在的な」心の状態を生体信号から解読する「マインドリーディング」の研究(3)では、主に瞳孔径の変化などの目の動きから、その人の音楽や顔の好みを読み取ったり、どちらの方向からくる音に注意を向けているのかをとらえたりするなどの研究成果(4)をあげてきています。最近の研究では、心理状態を読み取るだけではなく、ipRGCと呼ばれる、網膜にある錐体・桿体に次ぐ第三の光受容細胞を活性化させる特殊な光を用いることで、ユーザに意識させることなく、集中力を向上させ、短期記憶課題のパフォーマンスを高めることや、眠気・疲労感をやわらげる介入効果があることを発見しています(5)。その人の認知状態に合わせて適切に照明光を変えることにより、自律神経を整えることや、仕事を疲労感なく効率的に行えるような環境を提供できる未来をめざした研究です。
また、トップアスリートなどの優れた潜在脳機能の解明をめざした最近の私たちの研究では、プロ野球選手の打者のタイプごとに視線移動戦略の違いがあることが分かってきました(6)。野球の打撃では、打者は投球されたボールの動きを正確に把握するために、視野の中心でボールをとらえ続ける視線の動きが重要になります。ボールが投手の手からリリースされた直後では、打者から見たボールの視野内での動きの速度(視角速度)は小さいものの、ボールが近づくにつれてその速度は急上昇するため、打者は「サッカード」と呼ぶ目の素早い動きにより、ボールの予測到達位置へ視線を先回りさせる必要があります。しかし、サッカードを行っている最中は、視覚情報が一時的に抑制されるため、打者にとってボールの正確な情報を得ることが困難になります。このような先行研究の知見から、「サッカードを行うタイミング」が遅い打者ほど、ボールをより長くとらえ、正確な視覚情報を活用できる可能性が示唆されています。この指標を用いて、あるプロ野球球団所属の39選手を対象に打撃時の視線を計測して分析したところ、スイング速度、すなわち身体能力は平均的ながら、サッカードタイミングが遅く観測能力が高いため、最多本塁打・首位打者・最高出塁率を記録している選手Aのようなタイプがいる一方で、サッカードタイミングが早く観測能力は低いものの、スイング速度は高く、首位打者・最高出塁率を記録している選手Bのようなタイプもいることがわかりました。頭の動きを合わせて分析したところ、選手Aは現在の球速に合わせて頭を動かすことで、ボールを目の中心にとらえ続ける戦略をとっており、一方、選手Bは球速によらず頭の動きが一定であり、過去の経験を用いてボール軌道を予測する戦略をとっているという違いが明らかになりました。これは打者の特性に応じた多様な視線移動戦略が存在することを明らかにしたものであり、個々人の視覚情報処理の多様性に応じて、効果的なトレーニング法や指導法を確立するうえで足掛かりとなる成果です。今後、競技力の向上に留まらず、リハビリや技能習得などへの応用をめざしています。
人と情報をつなぐ
センシング技術やICTの向上により、これまで人間が直接観測することが困難であった事象をとらえ、追跡できるようになってきました。しかしながら、人間がいまだ見つけられていない事象そのものや、その事象の発生要因が未知である事例は数多く存在します。例えば、新型コロナウイルスなどの感染症のパンデミックがどのようにして発生したのか、その発生経路の正確な把握や、ウイルスの変異の仕方、重症化しやすい人の体質などをさまざまな観測データから明らかにすることは、新たな感染症の拡散を防ぎ、より効果的な治療法や予防法の研究開発において重要な課題です。昨今では、一般的な健康診断の検査データだけでなく、遺伝子情報を用いることにより、病気のなりやすさの将来予測や、早期発見に役立てる営みも行われています。この際、観測されたさまざまなデータの項目が膨大になるにつれ、データの組み合わせの中から、特徴的な症状を持つ患者群の塊を見つけだすことは極めて難しくなります。CS研では、このようなデータとデータの交わりの中から、そこに潜む隠れた未知の情報を抽出する「関係データ分析」という機械学習技術を2000年代ごろから研究してきています。ここでの技術のポイントは、データの組み合わせ方や、そのグルーピングの仕方に関し、あらかじめ人間が想定し得るパターンを決めておくのではなく、そのパターンについてデータ駆動的に「無限通り」の可能性を考慮する点にあります。本特集記事『データの交わりに隠れた未知の知識を発見する──無限の仮説を考慮して生体現象を解釈するAIモデルと高信頼メディカルヘルスケアへの展望(7)』では、CS研における最新のデータ分析技術を活用し、未知なる知識を発見する試みについて紹介しています。
また、ChatGPTなどの生成AIをビジネスシーンで活用する機会が増大していますが、ユーザが求める所望の結果を効率良く得るには、役割や事前情報や知識、事例などのさまざまなコンテキストをプロンプトとしてテキストで入力して指定し、何度か試行錯誤する必要があります。最近のChatGPT-4oなどでは、入出力に音声や画像を用いることができるようになっただけでなく、リアルタイムでの対話による応答ができるようになってきました。しかしながら、現状の対話システムは、ユーザが毎回その設定を指定する必要があり、人間どうしの自然な対話のように、その場で起きている対話の状況や、対話に関係する他者を含んだ人間関係の理解および、これに基づいた相手の気持ちや立場を考慮した適切な対話をすることはまだ困難です。本特集記事『気の利く対話AIのための「空気を読む」技術──マルチモーダル情報を用いた対話の場・関係の理解とインクリメンタル応答生成(8)』では、人間のように対話の状況や相手の感情の機微をとらえ、ユーザが求める所望の情報をより自然に提供できる対話AIをめざした取り組みについて紹介しています。
このような対話AIは、エージェントやコミュニケーションロボットに導入されることにより、アミューズメントや接客、介護などその適用範囲が徐々に拡大しています。中でもこどもの教育現場におけるコミュニケーションロボットの活用は、対話AI機能が進歩するほどその期待が高まるものと考えられ、子どものさまざまな興味や好みに応じて、子どもが知りたい、またはまだ知らない情報や知識を提供できるようになる可能性があります。このような将来を見据えて、CS研では発達科学研究の一環として、子どもがロボットそのものをどのような存在としてとらえているのか、年齢によるとらえ方の変化などについて、実験心理学的手法により解明する研究を進めています。本特集記事『ロボットに心を感じる子どもたち──未来の幼児教育を支える学習コンパニオンロボット(9)』では、会話や身振りでインタラクションできる社会的ロボットが5歳児の利他的行動に与える影響と、子どもの自律的な学びに寄り添うパートナーとしてのロボット活用に向けた今後の展望について述べています。
人と人、人と社会をつなぐ
スマートフォンやソーシャル・メディアなどのICTの発展と普及により、人と人、人と社会とのコミュニケーション形態は劇的に変化してきました。コロナ禍をきっかけに、ビデオ会議やチャットツールなどが広く普及し、対面でコミュニケーションする機会は以前に比べれば大きく減少しています。一方で、私たちがいきいきとした良好な状態、すなわちウェルビーイングを維持するためには、人と人との共感や絆を深め合うことが重要です。CS研では、特に身体の役割の重要性に注目し、人と人との間で共感が生じるメカニズムを調べる研究を進めています。また、この知見に基づき、早産で生まれ入院している赤ちゃんと親や家族といった、離れて過ごす家族間の絆を深めることを目的として、赤ちゃんの心臓の鼓動に触れる感覚を伝送して再現する装置を構築し、身体を介した相互作用を実現する遠隔コミュニケーションの実証実験を進めています。本特集記事『身体に根ざした共感の科学から、つながる家族のウェルビーイングへ──身体を介した共感メカニズムの解明および身体性情報伝送技術を活用した離れた家族のつながり支援(10)』にて詳しく紹介しています。
また、SNSの普及によって、人と社会とのかかわりは非常に多様化・複雑化しています。家族内や、子育て、地域コミュニティなど、さまざまな場面における個々人の周囲の人間関係の変化を客観的にとらえることは、個々人の人々とのかかわり合いを支援するうえで重要でありながら、その方法は容易ではありません。CS研では、SNSのメッセージログの中身には立ち入らず、メッセージ間の間隔や頻度などの特徴量の変化を基に、その人を取り巻く人間関係の変化(疎遠化・親密化など)を二次元空間上の軌跡として可視化し、専門家ではない一般の人でも把握できるようにした Social Orbitというツールを構築しています(11)。本ツールを用いた実証実験により、自分では気付きにくい他者とのかかわりかたに気付き、自身の行動を見直す効果を確認しています。VUCA時代の中、さまざまな社会環境において、各人が望ましい行動変容を自らが選択し促進できる社会の実現をめざした取り組みです。
おわりに
CS研における最新の研究の代表例をいくつか紹介しました。人と情報、人と人をつなぐという観点は、これまでにない視点で新たな研究分野を切り拓くうえでも極めて重要だと考えています。2025年5月の報道発表「基礎数学と物理学(量子光学)で独立に研究されてきたモデルのつながりを解明(12)」は、基礎数学の分野で研究されてきたモデルが、光と物質が相互作用する仕組みを記述した「2光子量子ラビモデル」という物理モデルと同値であることを、基礎数学における空間の対称性という考え方に基づいて証明した画期的な成果です。数学と物理の研究者間の連携を一層深めると同時に、量子光学においても新たな性質の発見が期待できる研究成果といえます。CS研は、未知なる真理の探究と学際的研究を加速し、人とAIが互いに協力することにより、持続可能な未来の実現に向けて貢献していきます。
■参考文献
(1) https://jp.plaud.ai/
(2) 仁泉: “音の聴き方を自ら学ぶAI──自己教師あり学習によるさまざまな音の汎用表現学習技術から,大規模言語モデルを活用した音の理解の最前線へ,” NTT技術ジャーナル, Vol.37, No.8, pp. 40-42, 2025.
(3) 柏野・米家・Liao・古川: “身体から潜在的な心を解読するマインドリーディング技術,” NTT技術ジャーナル, Vol.26, No.9, pp.32-36, 2014.
(4) H. Liao, H. Fujihira, S. Yamagishi, Y. Yang, and S. Furukawa: “Seeing an auditory object: Pupillary light response reflects covert attention to auditory space and object,” Journal of Cognitive Neuroscience, Vol. 35, No. 2, pp. 276–290, 2023.
(5) https://www.kecl.ntt.co.jp/openhouse/2025/exhibition_19.html
(6) 上田・柏野: “プロ野球打者の視線移動から見る多様なボール情報取得戦略,” 第18回Motor Control 研究会 (MC18), 2024.
(7) 中野: “データの交わりに隠れた未知の知識を発見する──無限の仮説を考慮して生体現象を解釈するAIモデルと高信頼メディカルヘルスケアへの展望,” NTT技術ジャーナル, Vol.37, No.8, pp. 43-46, 2025.
(8) 千葉: “気の利く対話AIのための「空気を読む」技術──マルチモーダル情報を用いた対話の場・関係の理解とインクリメンタル応答生成,” NTT技術ジャーナル, Vol.37, No.8, pp. 36-39, 2025.
(9) 奥村: “ロボットに心を感じる子どもたち──未来の幼児教育を支える学習コンパニオンロボット,” NTT技術ジャーナル, Vol.37, No.8, pp. 47-50, 2025.
(10) 村田: “身体に根ざした共感の科学から,つながる家族のウェルビーイングへ──身体を介した共感メカニズムの解明および身体性情報伝送技術を活用した離れた家族のつながり支援,” NTT技術ジャーナル, Vol.37, No.8, pp. 32-35, 2025.
(11) https://www.kecl.ntt.co.jp/openhouse/2025/exhibition_14.html
(12) https://group.ntt/jp/newsrelease/2025/05/13/250513a.html
納谷 太

CS研は、人とAIが共存する「こころまで伝わるコミュニケーション」の実現に向けて、広く学際的な基礎研究に取り組むとともに、パートナーの皆様とのコラボレーションにより新たな価値創造に貢献していきます。