CCS特集:ニューラルネットワーク

進む応用開発、スペクトルマッチングで活躍

 1992.06.17−CCS(コンピューターケミストリーシステム)分野において、ニューラルネットワークの応用が進展している。これは、人間の脳の情報処理機構をモデル化したもので、普通のコンピューターが苦手とする“やわらかい情報処理”で特性を発揮する。昨年あたりから、化学分野でもにわかに注目を集め、内外で応用研究が活発化してきている。スペクトルと構造の相関解析、たん白質の2次構造の予測、構造活性相関解析、化学反応過程の予測、原子エネルギー順位の分類、プロセス制御とプラントの故障予測など、実にさまざまな分野で応用が試みられている。ニューラルネットワークシステムの一般動向としては、数年前のブーム的状況は去り、実務面での適用を検討する新しいフェーズに進んできており、いよいよ本格的な普及が期待されている。最も大事なことは、ニューラルネットならではのアプリケーションを見極めることである。

  ◇  ◇  ◇

 ニューラルネットワークは、人間の脳を数学的にモデル化したものである。脳はニューロンと呼ばれる単位要素から構成され、全部で100億個以上のニューロンがシナプスによって相互に結び付けられている。人間の脳は、この大規模なネットワーク(神経回路網)全体を超並列的に働かせることによって、複雑な事象を瞬時に処理しているようである。

 ニューラルネットの数学モデルも、これにならってつくられている。やはり個々のニューロンはシナプスで相互に接続されており、それぞれのシナプスから一斉に信号が入ってくる。この時、シナプスには“重み付け”が施されている。それぞれどの程度の刺激を伝えるかによって信号の強度を調節するイメージだ。そして、重み付けした各信号の総和をS字関数処理し、値がある一定量(しきい値)を越えれば、そのニューロンから次のニューロンに信号が送り出される。

 ニューラルネットの“学習”はこのシナプスの重みを変化させることである。できたてのニューラルネットはいわば赤ん坊と同じで、頭の中はまったく白紙の状態。与えられた問題に対してもでたらめな答えをするばかりだが、教師となる人間が正しい答えを繰り返し教えてやることで、解答をあらわすニューロンが興奮するようにニューラルネット自体がそれぞれのシナプスの重みを調節していく。これが学習であり、基本的にはプログラミングなどは不要だ。

 ニューラルネットは、4−5年ほど前に爆発的なブームがあった。国内のコンピューターメーカーなどがこぞって研究事例を発表するとともに、商用版のニューラルネットシミュレーターが海外から次々に上陸、国産シミュレーターもいくつか登場した。

 当時、典型的なアプリケーションとみられていたのが、文字認識やロボット制御などである。ところが、最近は少し下火になっている。これらだけではなく、ニューラルネットとしての用途開発の方向が変化してきたようだ。

 用途開発面では、人間のレベルと従来技術のレベル、そしてニューラルネットのレベルの3つのポイントで考えることが重要。例えば文字認識。これについていえば、人間のレベルはきわめて高い。かなり字の下手な人が書いたものでも、一般的には何とか判読することは可能だ。コンピューターによる文字認識の技術も長い歴史の中で磨かれ、OCR(文字認識装置)として活字ならほぼ100%、アルゴリズムの改善により手書き文字も高い確率で認識できるようになってきている。これに対し、ニューラルネットも従来型OCRと同等の精度で文字認識が可能だ。しかし、この同等というのがくせもので、あくまでも同等である限り、従来技術を置き換える理由が薄弱になってしまう。

 ロボットの制御はどうだろうか。ニューラルネットのブームに火をつけたのが、富士通によるロボット制御への応用だったことはよく知られている。このデモンストレーションは当時はテレビなどでも取り上げられ、非常に有名になった。盗賊ロボットと探偵ロボット、警官ロボットが登場し、追いかけっこを繰り広げるものだ。互いに信号を発し合いながら走り回り、探偵と警官ロボットは盗賊の出す信号を追いかけ、盗賊は探偵と警官が出す信号から逃げ回る。これを、一般的な制御プログラムを一切使わず、ニューラルネットの学習だけでやってみせた。警官は探偵よりも学習量が少なく、しばしば盗賊を見失ってしまうあたり、抜群の演出も彩りを添えていた。

 このデモンストレーションは、見世物としてはおもしろかったが、ニューラルネットを実際に産業ロボットの制御に使うとなると話しは別だ。精緻な制御ができないのである。産業ロボットはコンマ何ミリでの精密な動作が要求されるが、ニューラルネットはあくまでも感覚的、アバウトな処理なので、基本的にそぐわないのである。

 同じ制御風のデモでも、バランスをとって棒を立てるというのがあったが、これは数値的制御では困難な問題であり、ニューラルネットの特性を生かしている。人間で考えても、人間はロボットのようなきわめて高精度の動きはできないが、数値制御ではほとんど不可能に近い歩いたり走ったりといった運動は得意である。

 つまり、ニューラルネットのアプリケーションを考えるとき、現状の技術では実現困難で、なおかつ多少のエラーがあってもかまわないアバウトな答えで許される世界を見つけ出すことが重要になるのである。しかも、人間が苦手な分野でなくてはならない。例えば経済問題などがその典型といえる。非常に多元的な要素が絡むので、人間には情報の解析・処理が困難になる。もちろん、既存のプログラム技術でも同様のことである。人間がやっても絶対の正解はあり得ないので、ある程度の誤差が許される。最近では、このように複雑な要素が絡まりあった中で何らかの意志決定を下すといったアプリケーションに適しているのではないかと考えられている。

  ◇  ◇  ◇

 とくにここ数年、化学分野でもニューラルネットの応用研究が活発化してきた。海外でも国内でもこの関係の研究報告・研究論文が増える傾向にあり、実にさまざまな化学の問題に適用され始めている。昨年のこの特集では、構造活性相関解析への応用例をレポートしたが、そのほかにも最近ではたん白質の高次構造を予測したり、化学反応過程の予測、類似化合物の分類や、また実験データを整理・推定したりするのにニューラルネットを用いた研究が報告されている。

 その中から今回は、スペクトル図をパターン認識し、そのスペクトルと構造との相関について調べた例をみてみよう。ここでは、工業技術院化学技術研究所の田辺和俊氏と田村禎夫氏、および富士通の上坂博亨氏らの研究を取り上げる。

 化合物はそれぞれ特有のスペクトルのパターンをもち、これを調べることは未知の物質が何であるかを同定する上で極めて有効な手段になる。しかし、複雑な波形のピーク値を読み取ってその中に何が含まれているのかを判断するのは非常な熟練が必要であり、最近はそうした人材も不足がちだといわれる。データベース検索のシステムも実用化されているが、検索操作が面倒、検索時間が長い、データにないまったく未知の資料には対応できないなどの問題点があるようだ。

 スペクトル解析には、マススペクトル、赤外スペクトル、光反射スペクトル、紫外スペクトル、蛍光スペクトル、NMRスペクトルなどさまざまなものがあるが、田辺博士らの研究では、最も汎用的な方法で、気体から固体まで幅広くあらゆる対象に適用できることから赤外スペクトルを研究テーマに選定している。

 化学技術研究所では汎用コンピューターのM-780をホストとした統合型スペクトルデータベースシステム「SDBS」をもっており、赤外スペクトルでは約4万5,000件のデータを収録したCD-ROMもつくられている。しかし、これらのシステムでは測定された赤外スペクトル図から読み取った吸収ピークの波数と透過率をキーとして検索を行うため、汎用機上で30−40秒、パソコンとCD-ROMで10分以上もの検索時間がかかる。しかも、検索のキーである波数と透過率はスペクトル図から目視で読み取ってキー入力するため、非常に繁雑だった。

 そこで、2年前からニューラルネットを用いて高速に化合物を同定するシステム「PRINS」の開発に着手した。当初は100種類ほどの化合物を対象にスタートしたが、所内の既存データベースには4万5,000件ものデータが蓄積されており、実用に供するにはもっと大規模なニューラルネットを構築する必要に迫られた。ここで問題になったのがニューラルネットの出力層である。4万5,000種の化合物を識別するには4万5,000個の出力ニューロンが必要になるわけだが、これではネットワークが巨大になりすぎて学習ができないのである。

 これに対して、田辺博士らのグループは“複合ニューラルネットワーク”と称する新しいアプローチを考案した。それが別図に示したもので、複数のニューラルネットが多段型に配置されている。研究に使われたものは全部で41個のネットワークを備えており、それぞれは250ユニットの入力層、40ユニットの中間層、40ユニットの出力層をもつ。

 まず、入力データとしては、スペクトル図の特定の波数領域を等間隔でサンプリングした250点のデータ(入力層の250ユニットに対応)を用意し、これを学習させた。第1段のニューラルネットは、まず入力されたスペクトル図を40のカテゴリーに分類する。これが第1段ネットワークの出力層に当たる。第2段目のネットワークでその化合物が何であるかを細かく特定するわけだ。

 学習は個々のネットワークに対して別々に行った。初段のネットワークにはすべてのデータを与え、正しく40のカテゴリー分けを行うように学習させた。第2段の40のネットワークについては、あらかじめカテゴリー分類したデータを学習させ、正しい化合物名を指摘できるように鍛えた。学習手法としては、通常のバックプロパゲーション法を用いている。

 学習を加速する専用プロセッサーボードを装着した富士通のパソコン版ニューラルネットシミュレーター「NEUROSIM/L」を利用し、約1週間をかけ、合計で数万回の学習を繰り返した。最終的に、すべて学習が完了した41のネットワークを組み上げて、実行用のシステムを構築した。

 同定可能な化合物を約1,000件に限定したのは、パソコンのメモリーの制約で、それ以上の大規模なネットワークはパソコンのメモリー上には展開できなかったようだ。ただ、実際には少なくとも1万件の同定ができなければ、実用システムとはいいがたい面もあり、田辺博士らは今後、ワークステーションをベースにしたシステムの開発を検討していく計画だ。

 もう1つ、これまでのデータベース検索システムの問題点は、データベース内に登録されていないまったく未知の物質に対しては、完全にお手上げになってしまうということである。このときに、中にどんな官能基が含まれているかを知ることは、その物質の性質を探るうえで非常に重要な情報になる。こうした観点から、田辺博士らのグループはこのほど新しいニューラルネットワークを開発した。

 これも赤外スペクトルに関したものだが、資料に含まれる官能基を推定することができる。昨年の暮れから開発を開始し、今春には一応の完成をみている。シミュレーターやパソコンは「PRINS」と同じものを使った。

 このときに用いたニューラルネットは、入力層はPRINSと同じ250、中間層は100、そして出力層は1とした。このネットワークは官能基ごとにつくられており、出力層の1は、ある官能基が含まれているかいないかを判定するものとなっている。

 研究では、ベンゼン環やエーテル結合、エステル結合、アルコールなど18種類の官能基を取り上げ、それぞれを判定できる18種類のネットワークを仕上げた。その官能基を含むスペクトルとそうでないものとを取り混ぜて約数100パターンを学習させ、未知のパターンを流して正解率がどの程度だったかを調べた。

 その結果、最高で98%、平均88%の高い的中率で官能基の有無を推定できることがわかったという。しかし、官能基も実際には100以上あるため、さらに対象の拡大を目指している。今回、官能基ごとのネットワークとしたのもこのためで、つまり出力層を官能基の数だけもたせたのでは、新しい官能基を追加しようとしたときにネットワーク全体の学習を一からやり直すことになってしまう。官能基ごとに独立させたほうが、後々融通がきくと判断したわけだ。

 この官能基推定システムは、年末から来年にかけてある分光機器メーカーから赤外線分析装置に組み込まれて商品化される予定である。このときには100以上の官能基を推定できるように機能を強化する。ニューラルネットが官能基ごとに分かれているので、測定したスペクトル図を100のネットワークに順番にかけて、一つひとつ官能基の有無を調べていく形になる。面倒なようにも感じるが、このあたりの手順は装置内部で自動実行されるようになるという。

 今回の研究を手がけた田辺博士は、ニューラルネットワークの中味を学問的にわかっていなくても気軽に駆使できるのが大きなメリットであり、今後はもっとさまざまな化学の問題に応用されていくだろうと感想を述べている。