富士通が特許文書から化学知識を抽出するAIツール「SCIDOCSS」

需要度・類似度が高い文書を検索、MI研究支援ツールとして提供

 2021.09.09−富士通は8日、化学・材料研究のために行う特許などの文書・文献調査を人工知能(AI)で効率化する「FUJITSU Digital Laboratory Platform SCIDOCSS」(サイドックス)を製品化し、提供開始したと発表した。長年研究してきたAI応用の自然言語処理(NLP)技術を利用しており、一般の研究者が高度な特許調査などを自ら行うことが可能。調べたいキーワードや化合物との適合性をAIが評価して、重要度や類似度が高い文献・特許を優先的に示すことができる。マテリアルズ・インフォマティクス(MI)研究において、データを探索・収集するツールとして活用していく。

 同社は、MI支援のためのソリューションマップの充実を図っており、今回の「SCIDOCSS」も一連の新製品の一環。ソリューション全体はパートナー製品群と自社開発製品群とで構成されており、来年度にかけて次々に新製品が投入される予定となっている。

 MIでは、大量のデータから機械学習によって材料設計指針を探索するが、大本のデータ収集が課題になっている。特許を含む化学文書には、物性値をはじめ化合物の合成条件や手順を示すプロセス情報などが記載されているため、新たな材料開発のアイデアを得るためのデータリソースとして注目されているが、人手で情報を取り出すには高度なノウハウが必要であり、その労力や時間も問題だった。

 今回の「SCIDOCSS」は、富士通独自のNLP技術により、文書を指定のカテゴリーに沿って分類し、対象文書/類似文書を抽出、さらにテキスト中の化合物名や物性名などの固有表現を抽出するほか、2つの固有表現間の関係(化合物と物性、合成プロセスなど)を抽出する機能を持つ。形態素解析や係り受け解析、共参照解析をはじめとした汎用言語処理機能も備えている。また、化学知識をグラフ構造データベースとする「化学ナレッジグラフ」技術を利用しており、表層的な言語表現だけでなく、背景知識と合わせて文書を理解し情報を抽出できることが利点となっている。

 化合物の名称は、命名法による違いや慣用名、総称名、部分構造名なども判別できる名寄せ機能を搭載しており、網羅的な検索が可能。構造式での検索にも対応し、構造式の合致度が高いものを重要度が高い情報と判定するため、キーワードと構造式を同時に検索に利用することにより、精密なランキングで検索結果を表示できる利点がある。事前に実施した実証実験では、5日かかっていた化学文書の検索業務を1日で完了できることを確認したという。

 現在は、日本語の特許文書からの検索を対象にしているが、英語の特許にも今後対応する予定。製品形態は、SaaS(サービスとしてのソフトウエア)型でのサービスと、パッケージソフトでの提供の2種類となる。価格は、SaaS型が年額1,000万円、パッケージ版は1,600万円。2024年度末までに8億6,000万円の売り上げを見込んでいる。

 なお、今後の計画としては、文書中から物性情報やプロセス情報を自動で抽出する機能を製品化する予定。こちらの対象文書はまず英語の化学系論文で、次いで日本および米国特許、その後社内の技術文書などからも情報を取り出せるようにする。物性名や物性値を抽出して物性表を自動作成するほか、数値以外の定性表現も抽出対象とする予定。また、実験手順の中の材料名、操作名、生成物、条件、装置などを自動でタグ付けし、製造プロセスの理解を支援したり、MIに活用できる製造条件などの手法やパラメーターなどを自動で抽出したりできるようにする開発も進めている。

******

<関連リンク>:

富士通(Digital Laboratory Platform のページ)
https://www.fujitsu.com/jp/reimagine/why-reimagine/dlp/

富士通(SCIDOCSS 製品紹介ページ)
https://www.fujitsu.com/jp/solutions/business-technology/tc/sol/scidocss/


ニュースファイルのトップに戻る