Quantitative Biology Center が AWS を利用して新しいゲノム研究を高速化
遺伝子発現の違いを解析する
日々、Quantitative Biology Center (QBiC) の研究者は、ハイパフォーマンスコンピューティング (HPC) プラットフォームを利用して、ゲノムデータを解析し、例えば、疾患細胞と正常な細胞の遺伝子発現の違いを特定しています。QBiC はドイツのテュービンゲン大学にあり、大学内および世界中の他の研究組織でのゲノミクス研究をサポートしています。
QBiC の HPC ワークロードは、ほとんどがオンプレミスのデータセンターでホストされています。しかし、調査データの量が急速に増加し続けるにつれて、QBiC は、迅速かつ高い費用対効果でのスケーリングが困難になることを予測しています。「データ量が増大するにつれて、オンプレミスインフラストラクチャが提供できる計算能力よりもはるかに多い能力が必要であることに気付きました」と QBiC のシニアバイオインフォマティクス研究科学者である Alex Peltzer 氏は述べています。「当センターのプラットフォームを利用している研究者は、より多くのデータを解析して研究をより迅速に完了できるように、より優れたパフォーマンスも必要としていました」 QBiC の最大の価値は、FAIR データの原則 (検索可能、アクセス可能、相互運用可能、再現可能) に従ったデータ処理です。「FAIR の処理要件を満たすには、効率的にスケールする必要がありますが、当社にとってこれは簡単なことではありませんでした」と Peltzer 氏は述べています。
「評価されたセットアップは、AWS Batch で利用できるオートメーションとオーケストレーションにより、ゲノミクスの研究時間を 50% 短縮できる可能性があります」
テュービンゲン大学、Quantitative Biology Center、シニアバイオインフォマティクス研究科学者、Alex Peltzer 氏
-
Quantitative Biology Center について
-
メリット
-
利用されている AWS のサービス
-
Quantitative Biology Center について
-
Quantitative Biology Center (QBiC) は、ドイツのテュービンゲン大学の一部である研究ユニットです。QBiC は、内部および外部の研究者がゲノミクスデータを解析および処理するための HPC 研究プラットフォームをホストしています。
-
メリット
-
- 1 つの研究プロジェクトで最大 100,000 の遺伝子サンプルの処理が可能
- ゲノミクスの研究時間を 50% 短縮
- 遺伝子発現の違いの研究をスピードアップ
- 解析のコストを削減
-
利用されている AWS のサービス
-
HPC 研究プラットフォームと AWS ベースのクラウドコンピューティングを活用する
QBiC は、自らのスケーラビリティとパフォーマンスに関するニーズを満たすために、アマゾン ウェブ サービス (AWS) クラウドを利用することにしました。「クラウドが当センターのニーズを満たすであろうことはわかっていました。そして、AWS は、当センターが検討した他のプロバイダーよりも高度なテクノロジーを提供してくれます」と Peltzer 氏は述べています。AWS は、ソフトウェアコンテナを利用したスケーラブルな科学ワークフローをサポートする Nextflow および nf-core フレームワークとも統合します。「AWS は Nextflow と非常にうまく連携しましたが、他のクラウドプロバイダーではうまくいきませんでした」と Peltzer 氏は述べています。「その統合がなければ、スケジューリング機能を自ら書き直すために多くの時間とお金を費やさなければならなかったでしょう」
QBiC は、既存のオンプレミスインフラストラクチャのために、インテル Xeon スケーラブルプロセッサを搭載した Amazon Elastic Compute Cloud (Amazon EC2) インスタンスを活用することを選択しました。QBiC は、ワークフロー管理のために AWS で Nextflow を実行し、Nextflow バッチジョブのオートメーションおよびオーケストレーションのために AWS Batch を利用するようになりました。
組織はまた、解析のコストを削減するために、Amazon EC2 スポットインスタンスを利用しています。EC2 スポットインスタンスは AWS の予備のコンピューティングキャパシティーであり、オンデマンドインスタンスの料金と比較して最大 90% 割引で利用できます。「当社は、Amazon EC2 スポットインスタンスを利用することで、解析のコストを低く抑えています」と Peltzer 氏は述べています。「これは、当センターが研究でコスト削減できることを表しています」
100,000 個の遺伝子サンプルを処理する
QBiC は AWS 上の Nextflow で解析ワークロードを実行することで、並列処理を利用し、オンデマンドでスケールできます。「AWS を利用すると、1 つの研究プロジェクトで 30 の遺伝子サンプルを処理する場合でも 100,000 のサンプルを処理する場合でも、HPC プラットフォームを迅速にスケールアップまたはスケールダウンできます」と Peltzer 氏は述べています。さらに、QBiC とその研究の顧客は、ゲノム配列決定ジョブの信頼性の向上を目の当たりにしています。「ジョブを処理するためにキューに入れている人が多過ぎることが原因で、システムの停止やパフォーマンスの低下を心配する必要がなくなりました」と Peltzer 氏は述べています。セットアップは現在、技術研究プロジェクトで実行されていますが、現在の結果は潜在的な本番稼働環境での利用を示唆するものです。
ゲノミクスの研究時間を 50% 短縮する
QBiC は、ベンチマークプロジェクトにおいて、同センターとリソースを共有する大学と民間の研究組織の両方で Amazon EC2 と AWS Batch を利用することにより、すべてのジョブの研究と処理時間を短縮しました。「評価されたセットアップは、AWS Batch で利用できるオートメーションとオーケストレーションにより、ゲノミクスの研究時間を 50% 短縮できる可能性があります」と Peltzer 氏は述べています。「オンプレミス環境と比較して、はるかに高速に処理を実行できます」
その結果、QBiC やドイツの他の研究機関は、AWS クラウドアプリケーションの利用に大きな可能性を見出しています。分散型インフラストラクチャは、QBiC が遺伝子発現を解析して、がんに関係している可能性のある変異を見つける研究をより迅速に完了するのに役立ちます。「AWS でゲノム配列決定を実行し、植物と動物のデータを調べて、実験的な治療によって特定の遺伝子の発現方法がどのように変化するかを確認しています」と Peltzer 氏は述べています。
QBiC は、研究要件が拡大するにつれて、AWS のサービスの利用を引き続き評価していく予定です。「当センターは、今後数年間でドイツ最大のパブリックゲノム配列決定ハブの 1 つになることを期待しています」と Peltzer 氏は述べています。「AWS はその実現をサポートしてくれるでしょう」
詳細はこちら
詳細については、thinkwithwp.com/hpc にアクセスしてください。