NTTデータが遺伝子データの高圧縮ソフトを開発

ファイルサイズを1/10〜1/20に圧縮、4月から無償提供

 2002.03.14−NTTデータは、遺伝子の配列データを高効率で圧縮する技術を開発、専用ソフトを4月から無償で提供開始する。一般の圧縮ソフトではファイルサイズを3分の1から4分の1に縮小するのが限界だが、今回のソフトは専用とすることで10分の1から20分の1という高圧縮率を実現。配列データの解析が急激に進み、、ハードディスク容量が逼迫している問題を解消できると期待されるという。理化学研究所の技術協力により開発に成功したもので、NTTデータでは今回のソフトを皮切りに本格的にバイオインフォマティクス市場に参入していく。

 近年、遺伝子配列の解読が機械化され、ハイスループットで読み取ることが可能になってきており、現在ではさまざまな生物種のゲノムに関して160億塩基対を超えるデータベース(DB)が蓄積されている。さらに、毎日2,000万塩基対のペースで解読が進んでいるといわれ、これらの配列データを未圧縮や低圧縮の状態で保存しておくと、すぐにディスク容量が尽きてしまい、次々にディスクを増設しなければならないなどの問題が生じている。

 今回の高圧縮ソフトは、ディスク節約にともなうコスト削減効果、さらには大規模なDBを運用するサーバーの負荷の減少といった効果をもたらす。研究のために公的なサイトからDBをダウンロードすることも多いが、その際にも高圧縮のメリットは大きい。

 また、いわゆるオーダーメイド医療が実現された場合にはICカードなどに個人のゲノム情報を収録して携帯することも考えられるため、同社ではデータ圧縮技術は将来的にも重要性を増すと位置づけている。

 圧縮ソフト自体はC言語で開発されており、さまざまなプラットホームで提供が可能。4月からの無償配布時にソースコードを開示するかバイナリーモジュールで配布するかはいまのところ確定していない。提供方法は、問い合わせベースで個別に応じる予定で、サイトからのダウンロードも計画中だという。

 ただ、今回のソフトで圧縮されたファイルは、そのままで検索したりすることはできず、中身を検索する際には一旦解凍し、ディスク上あるいはメモリー上にデータを展開する必要がある。今後、圧縮ファイルのままで検索する技術開発も進める。