2025年2月号
特集1
次世代のAIについて
本記事は、2024年11月25~29日に開催された「NTT R&D FORUM 2024 - IOWN INTEGRAL」における、技術セミナーを基に構成したもので、現在のLLM(Large Language Models)の限界と今後の展望をテーマとしたパネルディスカッションの様子を紹介します。
【登壇者】
NTTコンピュータ&データサイエンス研究所
主幹研究員 竹内 亨
Sakana AI COO 伊藤 錬
東京大学 特任教授 三宅 陽一郎
【モデレーター】
『WIRED』*日本版 編集長 松島 倫明
はじめに
松島:AI(人工知能)が進化を繰り返す先に、AIの能力が人間を上回る「シンギュラリティ(技術的特異点)」という仮説がありますが、今の生成AIは事実と異なる情報を生成する「ハルシネーション」もあり、人間社会の中でどのようにフィットしていくのかについては、これからも議論を継続していかなければなりません。そのポイントとして、文化や地域性の違いなど複雑な人間社会やテクノロジーの多元性をAIによりどう実現していくのか、という大きな課題設定をベースに「次世代のAI」についてパネラーそれぞれのお話を伺い、議論を進めます。
次世代AIに向けた取り組み「AIコンステレーション」
竹内:私はAIのアルゴリズムに関する研究開発グループのリーダーを務めています。ここでは、2023年度から研究開発を進めている「AIコンステレーション」について紹介します。2022年末以降の現代のAIはLLM (Large Language Models)が台頭しており、LLMを抜きに考えることはできません。ChatGPTの登場以降、AIはLLM をベースとしたものが主流となり、オープンで大量の汎用的な知識を獲得するものが実現されています。一方で、実用の世界では、クローズドなドメイン・組織内データを活用する取り組みも進んでいます。
LLMは大規模化による一般性が向上する一方で、消費電力と計算コストの増加が問題視されています。また、個性がなくなり事業で利用する場合の差別化ができなくなる懸念もあります。このため、LLMは「何でも知っている巨大なLLM」から、「専門知識を持ったリーズナブルなLLM」の流れになり、すでに各社で、医療、法律、製造、鉄道などに特化したオリジナルのLLM開発に取り組んでいます。そして、こうした専門知識を持った複数のLLMを組み合わせて使うことが今後のトレンドになると考えています。
NTTは2023年度に、専門性や個性を持つ低コストのLLMを組み合わせて問題を解く「AIコンステレーション」というコンセプトを立ち上げました。AIどうしが相互に議論・訂正をして多様な視点で問題を解き、少数意見も尊重して議論を高度化する大規模なAI連携技術です。AIどうしが星座(コンステレーション)のように連携する様子から「AIコンステレーション」と命名しました(図1)。
続いて、AIコンステレーションが持つべき能力を、人間の「創造性」と「個性」を軸に考えたとき、まず定型的業務があり、そこに創造性が加わると持続的イノベーションが生まれ、個性が加わることで破壊的イノベーションになると考えられます。今のLLMの適応範囲は定型的業務で、人の作業をAIに置き換えることにより適用領域の拡大が期待されています。それに対してAIコンステレーションは多様なAIによって「個性」を獲得しつつ、AIどうしの議論によって「創造性」が増すことが期待され、人間の「置き換え」ではなく「支援」ができると考えており、これが持つべき能力の1つとなります(図2)。
ユースケース(ユーザの要求や利用目的を明確に定義したもの)は2つあり、1つが「創造性や個性の拡大」です。何か物事を計画し、決めるときは、未来を想像してから逆算で考えるものですが、AIコンステレーションのように多様な視点で情報が提供できればユーザの視点拡大が期待できます。もう1つはコミュニティ議論とその高度化です。例えば会議で議論を広げたり深めたりするのは非常に難しいことですが、そこに多様な観点を追加することで知識や議論レベルが深まります。
今回のNTT R&D FORUMでは、複数のLLMに議論させるデモンストレーションや、コミュニティ議論の高度化をめざして開催した、福岡県大牟田市の「会議シンギュラリティ」も紹介しました(図3)。これは実際の地域問題について議論する場にAIを導入したもので、AIどうしで議論させてから住民どうしが議論する取り組みです。その結果AIのアイデアにより議論が円滑にスタートし、自分にはない視点に気付けるなど、多くの効果がありました。
AIコンステレーションの実現にはAIどうしの連携方法、学習や運用の改善、コストの削減などが課題です。また、今のLLMは自然言語の範囲は理解できても、世の中の情報理解には達していないため、非メディアによる高度化も必要です。私たちはIOWN(Innovative Optical and Wireless Network)のネットワークやコンピューティング基盤などを活用して、「人とAIが協調するサービス環境」を提供し、社会貢献につなげたいと考えています(図4)。
次世代のAI 「モデルを1つにする進化的モデルマージ」
伊藤:Sakana AIは2024年3月にLLMをつないで利用する「進化的モデルマージ」を発表しました。これは「モデルのつくり方」という意味で、AIコンステレーションのコンセプトを体現したものだと考えています。複数の小さなモデルをつないで、大きなモデルに比するパフォーマンスで課題を解決したり、AIどうしが会話することで正しくカリブレーション(調整)していくことが次世代のAIの姿だと考えています。ここではAIコンステレーションのコンセプトのうえでどのようなAIをつくるべきか、利用に際してAIコンステレーションのコンセプトが次世代のAIだということを、実例を含めて紹介します。
モデルをつくるときに「ゼロ」からつくり始めた場合、OpenAIよりも20〜30%ほど効率的にモデル作成ができる、フランスのミストラルのような企業もあります。しかし、99.999%の効率化をめざしたとき、ゼロスタートではなく既存モデルの得意とするところどうしを連携させることで効率化を図る方法もありますが、この場合経験則から人知を超えることはできません。そこで私たちは、例えば、目が4つあって足の裏にもあって、耳も4つあってもかまわないという「フランケンシュタインマージ」という手法で、1万通りのモデルマージをつくり、その中のパフォーマンスの高い10個だけ残してあとは捨ててしまいます。その10個のモデルどうしを掛け合わせて第2世代モデルとしてまた1万個つくり、トップの10個だけを残すという作業を、999世代まで試したところ、GPT3.5くらいの性能のものを24時間と24ドルの経費でつくることができました。これは私たちにとって面白い大きな気付きとなりました。またモデルのつくり方もただデータを学習させるだけでは限界があり、性能は上がってもコストに見合わなくなります。そのため「リーズニング」と呼ばれるモデルどうしが会話できる技術を使ってサステナブルなモデルをつくる流れになってきています。今のChatGPTは何でもすぐに解決できる精度はなく、翻訳や要約が少しだけできてコールセンタの業務が少し軽減された、というのが現実です。しかし私たちが思い描く「革新的な未来を起こすために必要なAI」も、いくつか出てきました。その1つがワークフローオートメーションで、複数のステップに分かれているものを一気に自動化するテクノロジーです。
これを「学術論文を書く」という例で試してみました。通常のステップでは偉い先生から若い研究者に「こんな論文を書いてごらん」と助言があり、若い研究者は100個の面白そうなアイデアを考えて図書館に行って調べます。そうすると95個くらいは証明済みだったりするので、その残りの5個を証明して図表をつくり論文にしていきます。
2024年8月5日にそれをすべてAI化させたものを『AI Scientist』という論文で証明しました(図5)。これは雑誌『Nature』にAIで初めて取り上げられた論文となりました。方法としては100個のアイデアを100個の違う基盤モデルに問いかけて得られたアイデアを、エージェント機能によりカリブレートするやり方です。このように私たちはコンステレーションの考え方を使いながら、面白いモデルの構築や活用方法にチャレンジし続けています。
次世代AIとデジタルゲームAI「3種類のゲームAIでスマートシティを実現させる」
三宅:私からはゲーム分野とデジタルゲームAIについて紹介します。この産業はまだ新しく2000年から盛り上がってきたもので、私は2004年くらいにゲーム産業に入りました。まず「ゲームAI」にはメタAI、キャラクターAI、空間AIの3種類があり、それぞれ以下のような役割があります。
・メタAI:神さまAI(支配する)
・キャラクターAI:動物型知能(動き回る)
・空間AI(スパーシャルAI):植物型知能(場所をつくる)
そしてメタAIは生成AIと、キャラクターAIは言語AIと、空間AIは空間コンピュータと組み合わせができます。東京大学ではそれを実空間に応用するため、都市全体を統べるメタAI、都市の中で活動するキャラクターAI、そして都市の空間的状況を把握する空間AIの3つのAIを組み合せたスマートシティ(最先端のデジタル技術や情報を活用して都市機能の効率化・最適化をめざす都市)の仕組みづくりをしています。ここではこれからキーワードになっていく空間AIとメタAIについて紹介します。
まず空間AIは、特定の場所で取得した空間情報や、デジタルツインメタバース(デジタルツインが構築された仮想空間)をつくるときに空間に張り付いたAIが情報を渡すなど、現実から情報を吸い上げてメタバースに渡す役割を担っています(図6)。ほかにも環境の中に情報AIを埋め込むテクニックもあります。実はゲームではドアなどのオブジェクト自体がAIになってキャラクターの運動補助を担っており、それを積み上げてスマートシティをつくろうとしています。
メタAIは「人間を理解しようとするAI」です。ユーザにいろいろなデバイスをつけて生体情報を取得して心理状態が把握できますが、これはゲーム内だけではなく実空間でも同じです。
さらに、メタAI自体が3Dダンジョンなど、ゲームそのものをつくり出すこともできます。ゲームコンテンツはこれまで100%人間がつくっていましたが、80%をメタAIが生成AIの力を借りて作成し、残りの20%を制作者に応じたコンテンツを作成することで、多様なコンテンツやゲームがつくれるようになります。こういった技術を活用してさまざまコミュニケーションをとることができればと考えています。
この3つのAIでゲーム空間や実空間を変えていくには、仮想空間でシミュレーションしてから実空間に返す作業が必要です。今後は実空間と仮想空間をセットにし、メタバースそのものをAIとして使うことがメタAIの役目となります。ほかにもシステムと人間をつなぐエージェント(データを統合する役)も必要になり、今後はAIコンステレーションが軸となる「AIで会話できる未来」が来ると考えています。
メタバースを活用してゲームAIを現実世界に戻す取り組み × AIコンステレーションの可能性
松島:AIが物理空間や人間とインタラクションするというAI研究の中でもチャレンジの部分だと思いますが、ゲーム空間のものを実世界にどう返せば良いと考えますか。また、今回のAIコンステレーションの構想には、どのような可能性を感じましたか。
竹内:最初の段階でAIコンステレーションはLLMを中心に考えており、自然言語で把握・表現されている一般的な概念の話でした。しかし、大牟田市のように実際にやってみると情報を与えても拾いきれない、数値データを与えても拾えないことも多く、もしAIがカフェをつくる提案をしてきても、空間情報がないため実世界における移動等の観点を提案に入れることができず、提案として成立するか分からない話になります。仮想空間を現実に戻す話もLLMにおける議論も、正しい知識をグラウンディング(知識の接点が合うこと)しなければ議論を深めることは難しい、という共通点があると思います。
伊藤:三宅特任教授のデジタルツインの議論は、一足飛びに物理空間にいかない未来のある手法だと思います。AIは物理的要素がなく、答えがすべてコンピュータの中にあるほうが実装しやすく、金融機関における住宅ローンのプロセスの自動化ならすべて計算で解が出ます。一方で、飛行機をうまく飛ばすAIをつくりましょうといった場合に、最後に翼をカナヅチで叩く匠の技が入るような物理的プロセスがあると、今のAIでは対応できません。
実世界の物理も加味してAIが解を出すためには、中間ステップが必要です。その中間ステップにはデジタルツインが必要不可欠で、例えばロボティクスや自動運転が、空間を把握して物理的な障害に対応するための知見をためてAIにフィードバックするといったループをつくるため、デジタルツインが唯一の方法になります。そして、それをまた現実世界に戻すラーニングループも重要となります。
さらに、LLMのデータ投入量に対してリターンが低減しているため、時系列データや信号理解のモデルといった言語以外のモダリティのモデルも必要であり、その掛け合わせが大きな成果を生むのだと思います。
三宅:AIコンステレーションには大袈裟な表現ではなく絶大な可能性があると思っています。職業柄いろいろな会議に参加しますが、会議にはパワーが必要ですし、そこにいるメンバに依存してその日の流れで会議の結論が出てしまうことがあります。そこに昔から違和感があり、メンバを変えたり、抜いたりした別バージョンの会議を本当はやるべきで、そのソリューションこそ会社の経営層がほしいはずです。それをAIによって1000通りの多様な意見が飛び交う会議を行い、999個の結論を捨てて1つの最高の結論が残る、それこそが本来必要なものです。私たちが本来必要なものを、無意識にあるいは漠然とほしいと思っていたことにより実現できることに大きな可能性を感じます。
会議 × マルチモーダルなAIで広がる可能性について
松島:1000個の会議の結果を知りたいというときに、1個のLLMではなくコンステレーションのようにまとめた方がいいのか、そしてマルチモーダルなものを混ぜていくことで、さらに広がる可能性に期待できるのでしょうか。
竹内:LLMでもまだまだできることがあり、会議で複数のモデルが議論すれば多様な視点の解を出すなど、人間ではできない議論のブランチ(分岐点)を大量につくることができます。また、会議がうまくできない原因に時間やデータの不足、必要なステークホルダーが集められないなどがあります。未来の社会問題の場合は未来のステークホルダーが必要になります。これらに対してはLLMで一定程度再現できると思っています。しかし、例えば、未来の海洋資源を議論するときはそこに住む生物の立場の観点も考える必要があり、こうした視点は今のLLMでは再現できません。また、時系列分析や空間分析の観点も含めて、意見をロジカルに拾わなければよく分からない結果になるため、LLMだけではなくさまざまなメディア情報・マルチモーダルが必要になると思います。
松島:AI Scientistは論文に新しい知見を入れていく必要もあると思います。AIどうしの議論やマルチモーダルによって、実際にどこまで対応可能になるのでしょうか。
伊藤:大牟田市の会議シンギュラリティはとても良い使い道で、ステークホルダーを1000人そろえなくても、AIがあれば1000通りの多角的なアイデアが創出される点や、そのアイデアに対するステークホルダーの反応をシミュレーションできるのが面白い点だと思います。これをAI Scientistの文脈に直して正規分布曲線を用いて紹介します。
LLMは「それっぽい答え」を出すことが得意です。これは1000個の答えが正規分布曲線をなし、その中央値付近に多数が集まるというのがLLMの基本的な仕組みで、ChatGPTが返す期待どおりの答えも、期待外れな答えのどちらも正規分布曲線上の話です。大牟田市の例でも、LLMによる1000通りの答えは中央値付近の予定調和な答えになります。
これはハルシネーションの解決にも有効で「ハルシネーションの少ないAI開発」よりも「大きな母数のモデルをつくり、解の分布の中央値付近(予定調和)の値を解とする」ことが効果的だと考えています。その判断はファインチューニングによりエージェントが行いますが、ファインチューニングには人間の意図も入ります。そして、中央以外にある解を指定すると面白い答えが返ってくることがあります。このように、どこをねらうのかで解を変えられることが、AIのカリブレーションの真骨頂であり、私たちの狙うポイントの1つだと思います。そして最終目標に向けて解の曲線上の位置をずらしてフィードバックしながら、LLMの討論を繰り返していくことだと思います。
竹内:私たちはオードリー・タンが提唱している「AIはArtificial Intelligence(人工知能)ではなくAssistive Intelligence(アシストする知能)であるべき」という考えに影響を受け、人の個性や創造性の発揮を支援する未来を描いていますが、AI Scientistの観点でいうとAIはどのように人の行動をアシストするのでしょうか。
伊藤:AIは現時点では人間の単純作業を助ける存在であり、この先の方向性についてはAI Scientistのレベル次元ではまだみえていません。AIの発展はSF映画のような夢を描くのではなく、地に足をつけて現実的に進めるものだと思います。ChatGPTをコピー・アンド・ペーストする以上に高度で現実的な使い道を世界に広め、手ごたえを出すことが大事だと思っています。そのため、今は定型的な業務の深掘りを進める時期だと考えています。
松島:ゲームのプレイヤが飽きないために3つのゲームAIが一体で動いて、毎日1回は大きな山場がくるようなゲームの知見を、実際の会議などでも活かせるのでしょうか。
三宅:メタAIはゲームそのものをAIにするという考え方のため、人間を理解してゲームそのものが変化していきます。会議で例えるなら、議論が停滞したら打開策を提示したり、中だるみすれば同じ話題を繰り返していることを伝える、など議論を前に進めるようなメンターの役割としてメタAIが活躍できます。
「身近にAIがいる未来」でのAIと人間の関係性
松島:次世代のAIというテーマなので、何かAIと人間の関係性をどうご覧になっているかを、最後に3人にお伺いしたいと思います。
竹内:AIは多様であり、それぞれに魂が宿る八百万の神的な考えに近いと思います。この業界でずっと描かれていたシステム・オブ・システムズ(複数の独立したシステムを連携させる技術)が、生成AIの力で現実味を帯びてきました。この生成AIの技術を使って、よりリアルで非常に高度なサービスが一気に実現できるようなパラダイムシフトが起きようとしているのではないかと感じています。
伊藤:現実的なユースケースは、AIが人間の暮らしを楽にしてくれるのには間違いありません。ここを出発点としてAIはリーズニングができるようになりました。次のステップは人間のブレインストーミングができる相手となり、インスピレーションを与えることだと思います。その先にはすべてAIで自動化される未来があるかもしれませんが、便利な世の中が第1にあり、その次に人間のブレインストーミングの相手になる、これが人間とAIの面白い役割分担ではないかと思います。
三宅:ゲームにはフローチャートで結論を辿れるものがあります。実世界では、例えば会議中に分岐点があった場合1度選択したら後戻りできなかったものが、フローチャートがあって分岐点に戻れれば、別の結論が見つかる可能性もあります。人間が会議する前にAIに1000回会議してもらい、こんな方向の結論がでましたが人間はどうしますか。というメタシミュレーションができたら、良い未来を獲得できます。そうすれば「その日たまたまの条件で選ぶしかなかった未来」を回避できるのではないかと思っています。
松島:「これまでの考え方がAIによりリアルに実現できるようになった」「リーズニング」「多元的な未来へのアシスト」というキーワードでまとめてみましたが、バズワードになっている生成AIの先に進むべき真の次世代のAIの姿が議論やキーワードの中からみえてきたと思います。私たちは、今まさにその途中にいるわけなので、ここで結論が出るわけではありませんが、このような議論の場をこれからも続けていくことが大事ではないかと思います。
インスタレーションで体感するAIの未来
竹内:最後に、AIコンステレーションのコンセプトを、実際にAIどうしが連携しているようなイメージのアートとして示します(図7)。真ん中に非常に複雑な社会課題があり、ステークホルダーがそれぞれ全然違う意見を持っているというような問題があったときに、それをまずいくつかのサブイシューに分割し、それぞれのサブイシューごとにいろいろなAIが議論しているというイメージです。
私たちがいろいろな視点から俯瞰することによって、物事を深く見ていくことが、これから必要になってくると考えています。ぜひこのようなアート作品を体験いただきながら次世代AIについて皆様と考えていきたいと思います。