バックナンバー一覧 >> 2008 Vol.20 No.6 >> 特集 |
NTTサイバースペース研究所ではポータルサービスの競争力向上に向けて、ネットワーク上の膨大なテキストから知識を抽出するための自然言語処理技術の研究開発を進めている。本特集では、評判情報インデクシング技術、固有表現グラウンディング技術、日本語基本解析技術、意味解析技術を紹介する。 |
テキストからの知識抽出による新しいWeb情報アクセスに向けて
インターネット上には膨大なテキストが存在しています。これらから意味情報を抽出して計算機で利用できる形式に変換できれば、今までにないWeb情報アクセスを実現することができます。本稿ではこの分野への導入を述べるとともに、「リッチインデクシング技術」を中心にした取り組みについて解説します。 |
Web上の口コミを分析する評判情報インデクシング技術
個人がブログ等で発信する口コミは人々の消費行動に大きな影響を与えているといわれています。Web上に散在する大量で多様な口コミの内容をあらかじめ抽出し知識化することにより、知りたい口コミに簡単にアクセスし、さまざまな観点で分析・一覧表示できる評判情報インデクシング技術を紹介します。 |
Web2.0時代の名寄せを実現する固有表現グラウンディング技術
ブログに代表されるユーザ生成コンテンツを的確に分析・活用するためには、多種多様に表記された情報を整理(名寄せ)することが必要です。本稿では、テキスト中の固有表現の意味を同定することで、テキストコンテンツと各種データベースの連携サービスを可能にする固有表現グラウンディング技術を紹介します。 |
テキストからの知識抽出の基盤となる日本語基本解析技術
インターネット上に氾濫しているテキストから有用な情報・知識を取り出すためには、まずテキストを解析しなければなりません。本稿では、テキスト基本解析技術のうち、日本語を対象とした形態素解析、固有表現抽出、係り受け解析を中心に、その仕組みを紹介します。 |
汎用的な意味解析技術への挑戦
NTTが開発した日本最大級のシソーラスである「日本語語彙大系」や単語の意味を記述した基本語意味データベース「Lexeed」を紹介し、これらの言語データベースを利用して日本語テキストの単語や文の意味を解析する汎用的なソフトウェアを開発する研究を紹介します。 |
□主役登場 |
|