Sematicsが純粋数学的手法の日本語解析エンジンを開発

統計的確率論とトポロジー利用で意味解析まで実現、技術供与を開始

 2006.06.17−Sematics(本社・東京都港区、吹谷和雄代表取締役)は15日、独自の数学的手法を用いた日本語解析エンジン「Perceptrons Engine」(パーセプトロンエンジン)を開発したと発表した。辞書を持たず、統計的確率論モデルとトポロジー(位相空間)を用いた純粋数学的手法で日本語の正確な意味を読み取ることが可能。高精度の機械翻訳やテキストマイニングなどに利用することができる。同社はこのエンジンを広くライセンスし、各種のソフトウエアやサービスへの組み込みを図っていく。次年度から米国展開も進め、2008年度に120億円の売り上げを見込んでいる。

 パーセプトロンエンジンは、形態素解析、構文解析、文脈解析、意味解析の4段階の処理を通して、文章の意味を自動的に解析する機能を持つ。まず、対象となる文章を単語(形態素)に分割し、品詞を付与したあと、それを文節にまとめて、それぞれの係り受け関係を明確にする。ここまでが前半の処理で、同社ではこれを統計的確率モデルで高速に実施する「オートマトンパーサー」を開発した。

 この機能を用いた具体的アプリケーションとして、ソースネクストから「ズバリ要約」(1,980円)がパッケージ販売されている。元の文章を任意の長さに要約することができるソフトで、要点をおさえたまま文章を短くすることが可能。「米国では要約に対する需要が大きく、具体的に提携の要請もきている」(吹谷代表取締役)として、次年度には英語版を米国で売り出す予定だという。

 さて、今回のパーセプトロンエンジンは、形態素解析と構文解析の機能を持つオートマトンパーサーを拡張し、文脈解析と意味解析の機能までを統合したことが特徴。文脈解析では、「この」「その」「あの」などの代名詞が具体的にどの語を指すのかを前の文脈から判断したり、文脈の中で省略された代名詞を補ったりする“照応解析”、さらには接続詞や主語・目的語の繰り返しなどからの“文間関係の特定”を行う。次に意味解析では、語と語の間の意味的な関係を示す深層格情報と、文中の語の意味を定義する意味概念体系(シソーラス)をもとにした概念情報の付与を行う。これにより、日本語の文章の意味を正確に理解することができるのだという。

 吹谷代表取締役によると、従来の手法ではこれを形態素辞書、係り受け辞書、シソーラス辞書、知識ベース辞書などの辞書をベースに解析するため、辞書だけで50ギガ−70ギガバイトのサイズになってしまうという。それに対して、パーセプトロンエンジンでは単語を基底の集まりとして、文をn次元の位相多様体として定義し、相互の関係を関数として表現するため、使用するデータサイズは200メガバイト以下に収まる。すべての解析が数学的に行われるため、「500センテンスを1秒で解析できる」(吹谷代表取締役)ほど高速で、メモリーやディスク容量も小さくてすむ。このため、いろいろなシステムへの組み込みが容易だという。

 具体的には、すでにパッケージ化されている「ズバリ要約」に続いて、ウェブ上での自動法律相談システムを開発中。利用者が任意の文章で相談内容を書き込むと、自動的に意味解析までを実施し、過去の判例から回答を提示することができる。その際に、適切な回答を行うために足りない情報を質問者に自動的に問い返すなどの機能も実装されるという。

 また、日本語の正確な意味が読み取れるので機械翻訳への応用も期待される。とくに、ISOで標準化されたMPEG-7準拠の“意味タグ”への対応を進めており、英語をはじめとするさまざまな言語との多言語翻訳システムが実現できるとしている。アンケートなどで入力された文章から意味を取り出すことで顧客管理にも役立てることが可能。

 同社では、自社で実際のアプリケーションやサービスを商品化するよりも、ビジネスパートナーに技術供与し、ライセンス収入を得るスタイルのビジネスモデルに徹したいということだ。