画像認識AI「Deeptector」による産業DX推進と市場拡大に向けた取り組み

はじめに

近年、AI （人工知能）の急速な発展に伴い、さまざまな産業分野でデジタルトランスフォーメーション（DX）が加速しています。中でも画像認識AIは、製造業、インフラ管理、医療、小売など幅広い領域で実用化が進み、業務効率化や品質向上に大きく貢献しています。日本においては、少子高齢化に伴う労働人口の減少、熟練技術者の退職による技能継承の難しさ、さらには品質管理の高度化ニーズの高まりが重なり、画像認識AIへの関心が一層高まっています。従来、人の目と経験に依存してきた外観検査や設備点検において、AIによる自動化・高精度化は喫緊の課題となっています。産業領域における画像認識AI市場の潮流と日本市場特有のニーズを整理したうえで、Deeptector＊1の特長、そして市場拡大に向けた取り組みと今後の展開について述べます。

＊1　「Deeptector」はNTTドコモソリューションズ株式会社の登録商標。
https://www.nttcom.co.jp/deeptector/

画像認識AI市場とDeeptectorの位置付け

■産業領域における画像認識AIの潮流

産業領域の画像認識AIは、単なる「画像を分類する技術」から、現場の判断や運用を支える業務基盤へと役割を拡大しています。背景には、現場の人手不足や熟練者減少に加え、検査対象や設備が高度化・複雑化し、従来のルールベースでの画像処理では追随が難しくなったことがあります。さらに、検査品質の均一化やトレーサビリティ確保、予防保全の推進など、検査結果をデータとして蓄積・活用する要求が高まっている点も重要です。
適用領域を俯瞰すると、大きく3つの方向性がみられます。
第1に、インフラ点検です。高所や狭隘部など目視が困難な個所を、ドローンやロボットで撮影し、AIで損傷や劣化兆候を抽出する取り組みが進んでいます。ひび割れ検出などでは深層学習と従来手法を組み合わせた実装も進み、維持管理コストの抑制と安全性向上が期待されています。
第2に、製造ラインにおける品質検査です。畳み込みニューラルネットワーク（CNN）＊2を中心とする深層学習の進展により、微細欠陥や複雑形状、照明変動などの条件下でも高精度な判定が可能になってきました。欠陥領域を精緻に抽出するセグメンテーションや、正常品中心の学習で異常を検出するアプローチなど、現場条件に応じた多様な実装が実用化されつつあります。
第3に、安全管理への応用です。高速物体検出や姿勢推定を用い、危険エリア侵入、転倒、保護具未着用などをリアルタイムに検知することで、事故リスク低減とコンプライアンス対応を支援します。このような状況から、熟練者の経験に依存していた判定を定量化し、判断根拠を可視化し、運用プロセスに組み込む取り組みが広がっています。

＊2　畳み込みニューラルネットワーク：画像の局所的な特徴（エッジや模様など）を畳み込み演算で段階的に抽出し、分類・検出などを行う代表的な深層学習モデル。

■日本市場の技術課題とニーズ

画像認識AIの普及が進む一方で、日本市場には固有の導入障壁があります。これらは単独の課題ではなく、相互に関連しながら運用定着の難しさを生みます。
第1の課題は、低不良率に起因する学習データ不足です。日本の製造現場は工程能力が高く、不良品発生率が極めて低いため、深層学習に必要な不良画像が集まりにくく、導入初期の学習が進まないという逆説が生じています。従来手法では欠陥タイプごとに大量のサンプルを必要とし、データ収集だけで長期間を要することが導入障壁となっています。
第2の課題は、現場環境の個別性と判定基準の多様性です。同じ検査対象でも企業ごとに品質基準やしきい値は異なり、同一企業内でも工場やラインによって照明、設置スペース、搬送姿勢などが異なります。そのため、環境変動に強く、かつ現場ごとの条件差へ柔軟に適応できるロバスト性が求められます。
第3に、ソリューション志向の高まりがあります。スクラッチ開発は要件定義から開発・調整まで長期化しやすく、PoC（Proof of Concept）で終わるリスクもあります。これに対して、実証済みのパッケージを短期間・低コストで導入し、導入後も継続的な改善支援を受けられるソリューション型開発への期待が強まっています。
上記以外にも、専門人材不足と運用性の要求があり、ノーコード・ローコード、直感的なUI（User Interface）、現場主体での再学習や改善が可能な運用性が求められます。また、判定根拠を可視化し、品質管理部門や検査員が納得・検証できる仕組みの構築も重要です。加えて、セキュリティ観点から、秘匿性の高い画像を外部クラウドへ送信できない現場も多く、ネットワークにおける分離環境やオンプレミスでの閉域運用ニーズが根強く存在します。

■Deeptectorの特長について

Deeptectorは深層学習に基づく多様な判定パターンに対応しており、物体検出（領域検出）、分類、レベル判定、正例判定など、業種・用途に応じて最適なパターンを選択できます。また、オプションとしてアナログメータの読み取り機能やPLC（プログラマブルロジックコントローラ）＊3との接続により産業機器と連携可能な業務アプリケーションを用意しており、柔軟な適用が可能です。また、利用形態としては、セキュリティ要件の高い現場向けのオンプレミス型と、初期投資を抑えたい企業向けのクラウド型を提供しており、システム構成に合わせて選択できます。GUI（Graphical User Interface）による直感的な操作性、API（Application Programming Interface）による外部システムとの連携、学習から推論、運用までの一貫したサポートなど、現場の利便性を重視した設計となっています。
また、判定結果を画像とともにデータベースへ記録できるため、後から検証可能なトレーサビリティを確保できます。これは説明可能性と運用定着の観点では重要で、品質保証部門や監査対応においても有効です。Deeptectorは、日本市場で求められるソリューション志向、説明可能性、運用性、セキュリティに対応する製品として位置付けることができます（図1）。

＊3　PLC：センサ入力（画像等）に基づき機械動作を高速制御する装置。

市場拡大に向けた取り組み

■市場トレンド

画像認識AI市場では、技術の成熟とともに適用領域が拡大しており、以下の4つのトレンドが顕著になっています。
第1に、少量省データでの学習技術の進展です。Few-Shot学習＊4やZero-Shot学習＊5といった、少数サンプルや未知クラスにも対応可能な技術が注目されています。また、VAE＊6やGAN＊7を用いた合成データ生成により、学習データ不足を補完する取り組みも進んでいます。
第2に、AIの高度化です。Vision Transformer＊8やSwin Transformer＊9など画像認識への適用が進んでいます。また、自己教師あり学習により、ラベルなしデータからも有用な特徴表現を学習する手法が実用化されつつあります。
第3に、マルチモーダル化の加速です。画像情報だけでなく、音響センサ、赤外線カメラ、振動センサなど、複数のモダリティを統合することで検査精度を向上させる取り組みが拡大しています。
第4に、エッジAIの普及です。クラウドとの通信遅延を回避し、リアルタイム性を確保するため、エッジデバイスでのAI推論が普及しています。

＊4　Few-Shot学習：1枚～数枚程度のサンプルからドメインに合わせた特殊な欠陥状態を学習し、基盤モデルの汎用表現を活かして高い汎化性能を実現します。
＊5　Zero-Shot学習：学習データが全くない未知の欠陥クラスに対しても、基盤モデルの事前学習済み知識とテキスト記述などの属性情報を活用します。例えば「表面に細かい亀裂がある」といった言語記述から画像中の該当個所を特定できます。
＊6　VAE：入力データを潜在変数へ圧縮し再構成する生成モデルで、確率的表現を用いて類似データの生成や異常度算出に利用されます。
＊7　GAN：生成器と識別器を競わせ学習し実画像に近い合成データを生成する手法。
＊8 Vision Transformer：画像をパッチ化し自己注意で全体関係を学習する画像認識モデル。
＊9　Swin Transformer：画像を固定サイズの「窓（Window）」ごとに自己注意で処理し、次段で窓位置をずらす（Shift）ことで窓間の情報も統合する階層型Transformer。計算量を抑えつつ高精細画像にも適用しやすくなっています。

■Deeptectorの差異化ポイント

市場トレンドと日本市場特有のニーズを踏まえ、Deeptectorは以下の3つのテーマを軸に機能強化に取り組んでいます。
（1）　少量データ学習技術による導入障壁の低減
日本の製造現場では不良品発生率が極めて低く維持されているため、AIの学習に必要な大量の不良サンプルを収集することが困難です。この課題に対し、以下の3つのアプローチで導入初期段階から実用的な精度を実現する技術開発を進めています。
第1に、正常品のみから学習する異常検知手法です。この手法では、正常画像から得られる「いつもの見え方」をあらかじめ学習しておき、そこから外れた個所や状態を異常として検出します。具体的には、画像を細かな領域に分けて各部分の見え方を覚える方法や、画像全体としての見え方のばらつきを学習して、通常範囲から外れるものを異常とみなす方法があります。いずれも学習時に見たことのない新たな欠陥パターンでも、「通常との違い」として検出できる点が特長です。不良サンプルが全く入手できない状況でも実用システムを構築できることが最大の利点です。
第2に、基盤モデルを活用したFew-Shot、Zero-Shotのような学習技術です。従来の深層学習では、欠陥タイプごとに数百～数千の不良サンプルが必要でしたが、近年は基盤モデルを活用した少量のデータ学習技術（1）により、学習データの収集負担を大幅に軽減できます（図2）。
これらにより、従来は学習データ収集に要していたプロセスを短縮し、導入期間短縮と初期投資の削減を実現します。また、新製品の投入時にも追加データの収集を最小限に抑えながら迅速に対応できるため、製造現場の柔軟性と生産性向上に貢献します。
（2）　マルチモーダル化による検査精度の向上
画像情報だけではとらえきれない異常に対応するため、テキスト・画像・音声・動画など複数のデータ形式を同時に処理し、統合的に理解するマルチモーダル技術の適用を推進しています。異なる形式の入力を組み合わせて分析することで、単一モダリティでは得られない状況の把握や因果の手掛かりを補完でき、より包括的な判断が可能になります。近年は大規模な基盤モデルを起点に、現場要件に合わせて検査・診断・予兆検知などの各タスク向けモデルへ落とし込む手法が一般化しており、Deeptectorでもこの考え方を踏まえた技術拡張の検討を進めています。
製造現場では、外観変化に現れにくい初期異常や、温度・振動・音響など複合的な兆候として現れる事象が増えており、画像認識単独では限界があります。そこで、画像に加えて設備ログや作業記録（テキスト）、マイクによる異音（音声）、温度・振動などの各種センサデータなどを統合し、設備状態を多角的にとらえるアプローチを強化します。また、製造工程の生産管理においても、画像以外のセンサデータを併用することで、稼働状態・品質・歩留まりの関係を一体で分析し、原因推定や対策の優先付けを支援します。
さらに、画像と3次元情報を組み合わせることで、複雑形状の外観検査や、微小欠陥・反射・陰影の影響を受けやすい高難易度検知領域への適用拡大もねらいます。こうしたマルチモーダルな統合（センサフュージョン）により各モダリティの長所を活かし、検査の高度化と自動化を両立することで、従来では検出が難しかった複合的な異常への対応力を高めていきます（図3）。
（3）　ソリューション化による得意分野への深掘り
個別カスタム開発から、業種共通課題をテンプレート化したパッケージソリューションへ移行し、導入前コンサルから運用保守までワンストップで支援することで、実運用の定着を加速します。

Deeptectorの導入事例

■巡視ソリューション

前述した技術強化を統合した業種特化型ソリューションとして、電力会社向け「巡視ソリューション」を紹介します。
電柱設備の巡視点検は、広範囲かつ設備数が膨大なため従来の人手による点検では業務負荷の増大と品質のばらつきが課題となっています。本ソリューションは、走行映像から停電リスクの要因を自動検出し、点検の省人化と品質の均一化を実現します。位置情報付きで記録・共有することで、現地での対応方針の早期決定や保守計画の効率化にも寄与します。
特にカラスの営巣や、つる植物の繁茂は停電要因となりますが、網羅的な確認が難しい領域です。「巡視ソリューション」では、車両搭載カメラの映像から、AIが停電リスクの高い異常を自動検出します。具体的には、カラスの巣、電線に絡みつくつる植物（クズ、フジ等）、電柱設備（変圧器、高圧アーム等）について、走行しながらリアルタイムに異常を判定し、対象個所の位置情報とともに記録します。業界横断的な学習データの活用により、各社から提供された多様な環境・季節条件下での画像を集約し、地域特性や気象条件に左右されにくい高精度なAIモデルの継続的な開発をするとともに、電柱管理システムと連携し、検出結果を設備情報に紐付けて表示することで、優先度に応じた効率的な保守計画の立案を支援します。
従来は車両1台につき運転手と点検者の2名体制でしたが、本ソリューションの導入により、運転手1名のみでの巡視点検が可能となるため、省人化による人的コスト削減が見込めます。また熟練度に依存しない均一な点検品質を実現しており、早期発見による予防保全の推進で停電事故のリスク低減に寄与します（図4）。

■化学プラント向け分液操作自動化ソリューション

化学プラント向けの業種特化型ソリューションとして、「分液操作自動化ソリューション」を紹介します。化学プラントにおける分液操作は、二層に分離した液体の境界面を目視で確認しながら、適切なタイミングでバルブを操作して各層を分離回収する作業です。この操作は医薬品・化学品の製造工程において頻繁に発生しますが、従来は熟練作業者がサイトグラスやタンクの界面位置を目視で監視し、手動でバルブを開閉する必要がありました。Deeptectorでは、化学プラントの現場ニーズを踏まえ、画像認識AIによる界面検出とバルブ制御を組み合わせた「分液操作自動化ソリューション」を開発しました。本ソリューションでは、分液槽に設置したカメラ映像からAIが二層の界面位置をリアルタイムに検出し、段階的に自動的にバルブを制御し分離操作を実行できるようにしていきます。
これにより、界面確認とバルブ操作の省力化に加え、操作タイミングのばらつきや誤操作リスクを抑え、回収品質の安定化が期待できます。
本ソリューションの特長として界面の位置状態を複数クラスに分類することにより、バルブ開閉を高精度に判定できることが挙げられます。PLCとの連携によりバルブ制御を自動化し、検出からバルブ操作までをシームレスに実行します。今後は、少ないデータで高い性能を発揮させる省学習技術による学習の効率化や温度センサ等の各種データによるマルチモーダル化を進め、より高精度な自動化をめざしています（図5）。

今後の方向性と事業展開

NTTグループが国内外のパートナーとともに推進しているIOWN（Innovative Optical and Wireless Network）構想との連携により、低遅延・大容量通信を活かした品質データの統合やモデルの共有を視野に入れています。拠点ごとに蓄積される検査データや改善知見を循環させることで、現場最適を拠点最適、さらには全社最適へ拡張することが期待できます。さらに、グループでの協業や共創の枠組みを活用し、製造業で培った検査DXの知見を社会課題の領域などへ展開していきます。

おわりに

NTTドコモソリューションズがめざすのは、検査DXを通じて省人化、安全性向上、作業品質均一化を同時に実現し、人とAIが協調する現場運用を確立することです。検査結果をデータとして蓄積し、説明可能性とトレーサビリティを担保しながら継続改善につなげることで、日本の産業が抱える構造的課題の解決に貢献し、画像認識AI市場の拡大に貢献します。

■参考文献
（1）　https://doi.org/10.48550/arXiv.2303.05499

NTT技術ジャーナル記事

from NTTドコモソリューションズ