Stanford DDRCC のロゴ

Stanford DDRCC がマルチモーダルデータを活用した精密医療の研究に AWS を利用

2022 年

スタンフォード大学の Deep Data Research Computing Center (DDRCC) は、Stanford Synder Labs から始まった多くのイニシアティブの 1 つで、カリフォルニア州パロアルトにあるスタンフォード大学医学部遺伝学科の一部です。その目標は、生物学とコンピュータサイエンスのギャップを埋めるツールを開発し、精密医療の研究者が具体的な医療ソリューションを提供できるようにすることです。

精密医療の研究を促進するために、DDRCC は、消費者向けの安全かつスケーラブルで相互運用可能な健康管理システムである My Personal Health Dashboard (MyPHD) を生み出しました。MyPHD は、Amazon Web Services (AWS) を利用する研究者に、効率的なデータ収集、保存、およびほぼリアルタイムの分析機能を提供します。また、チームは Stanford Data Ocean (SDO) も開発しました。これは、研究者がコードとデータに関する教育、イノベーション、コラボレーションを行うための最初のサーバーレス精密医療教育ソリューションです。AWS 上に構築することで、DDRCC はクラウドの伸縮性、スケーラビリティ、セキュリティを活用して、消費者と生物学者の両方に利益をもたらし、精密医療の分野に改善をもたらしています。

DDRCC チーム
kr_quotemark

世界中どこにいても、これらの大規模な医療データセットにアクセスできます。本学では、インフラストラクチャを AWS で運用することでこれを実現しました”

Amir Bahmani 博士
スタンフォード大学、Deep Data Research Computing Center (DDRCC)、ディレクター

 

マルチモーダルデータを利用した精密医療研究用ソリューションの設計

精密医療の研究では、臨床医や研究者が患者に合わせて治療法を個別化できるように、マルチモーダルデータ (ゲノム、マイクロバイオミクス、プロテオミクスデータなど) を個別に理解することが必要です。ウェアラブルセンサー、電子医療記録、分子プロファイルから得られる大量のデータは、別の次元を追加します。このように規模と複雑さが増すことで、データの可用性、取得、保存、統合、分析に関する新たな課題が生じます。そのため、研究者は俊敏かつ伸縮自在なデータ戦略を立てることが不可欠です。 「ディープデータは医療の未来です。健康状態のモニタリングや、診断、予後、治療などを、すべて個人レベルで行うために必要です」とスタンフォード大学遺伝学科長兼教授の Michael Snyder 博士は述べています。

DDRCC の MyPHD は、生体認証データ分析のための安全で包括的な環境を大規模に提供します。複雑な健康データセットの保存、整理、処理が可能で、個人レベルやコホートレベルでのほぼリアルタイムのデータ分析とビジュアライゼーションをサポートします。これは、診断や処方箋の精度を向上させ、精密医療を改善するために設計されています。個別の健康管理を目的とした参加者のデータの大規模な分析をサポートするために、DDRCC はワークロードの数に基づいて MyPHD のリソースをスケールできます。また、同組織は、機密性の高い大量の個人データを扱う医療アプリケーションの基盤として AWS のセキュリティサービスを利用しています。

精密医療では、さまざまなマルチモーダルデータセットを統合して推論を導き出す必要があります。通常、これらのデータセットは大規模で、さまざまなソースでサイロ化されています。研究者にとって、これらの大規模なデータセットに複雑な計算アルゴリズムを適用するために必要な適切なコンピューティング設定とストレージ設定を決定することが重要です。DDRCC チームは、研究者がコードを実験するためのリソースを効率的に割り当てられるように SDO を開発しました。SDO を利用することで、研究者は精密医療に関する重要な問題を探求し、革新的なソリューションをスケールできます。SDO ワークロードを AWS で実行することで、DDRCC は厳しいセキュリティ要件を満たしながら、高いスケーラビリティを実現しました。

マルチモーダルデータ分析のための革新的なソリューションを AWS で構築

健康に関する重要な研究を完遂する生物学者の能力を高めるため、DDRCC は Amazon SageMakerService Workbench on AWS を利用しています。SageMaker を利用することで、生物情報学者は、フルマネージド型のインフラストラクチャ、ツール、ワークフローを使用して、事実上あらゆるユースケース向けに、機械学習モデルを構築、トレーニング、デプロイできます。チームは Service Workbench on AWS を利用して、研究者が必要とするデータ、ツール、コンピューティング性能へのアクセスに対して、安全で再現性のあるフェデレーティッドコントロールの適用を促進しています。研究者は、業界でもトップクラスのスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを備えたオブジェクトストレージサービスである Amazon Simple Storage Service (Amazon S3) 上で大規模なデータセットに安全にアクセスできます。

DDRCC は MyPHD および SDO からのデータを処理するために高いスケーラビリティを必要とするため、クラウドで安全かつサイズ変更可能なコンピューティングキャパシティを提供するウェブサービスである Amazon Elastic Compute Cloud (Amazon EC2) を利用しています。「MyPHD をスケーリングしてさまざまな数のユーザーをサポートできるだけでなく、ワークロードの数に基づいてアルゴリズムをスケールすることもできます」とスタンフォード大学の DDRCC の研究開発リーダーである Arash Alavi 博士は述べています。大規模なゲノミクスアプリケーションおよびトランスクリプトミクスアプリケーション向けの前処理パイプラインを実行するために、チームは、ゲノミクスおよびライフサイエンス分野のお客様向けのオープンソースツールである Amazon Genomics CLI と、事実上あらゆる規模のフルマネージドバッチ処理のためのサービスである AWS Batch も利用しています。Amazon Genomics CLI はクラウドインフラストラクチャのデプロイを簡素化および自動化し、AWS Batch は何十万ものバッチコンピューティングジョブを AWS 上で簡単に実行できるようにします。

DDRCC は、Amazon S3 に保存されているデータを標準 SQL を使用して簡単に分析できるように、インタラクティブなクエリサービスである Amazon Athena も利用しています。このサービスは伸縮性が高いため、研究者は SDO や MyPHD によって収集されたデータをオンデマンドでクエリし、プロジェクトをより迅速に進めることができます。さらに、Athena はサーバーレスであるため、DDRCC が管理するインフラストラクチャはありません。チームが支払うのは実行したクエリの料金のみであるため、コストを削減できます。「ワークロードの規模に応じてリソースを動的にスケールできる、従量制課金モデルには驚かされます」とスタンフォード大学の DDRCC のディレクターである Amir Bahmani 氏は述べています。

セキュリティは、医療データを扱うアプリケーションの主要な要件です。DDRCC のソリューションは保護対象保健情報を利用、保存、処理せず、転送中および保管中のデータはすべて完全に暗号化され、匿名化されます。高いレベルのセキュリティを維持するために、DDRCC は Amazon Cognito などの AWS のサービスを採用しました。Amazon Cognitoは、チームがウェブアプリやモバイルアプリにユーザーのサインアップ、サインイン、アクセスコントロールを追加できるようにするサービスです。「AWS が提供するセキュリティ機能には、すぐに使用できるログ記録、監査、モニタリングなどがあり、私たちはこれらを利用してデータを保護しています」と Bahmani 氏は述べています。 

精密医療に関するコラボレーション

DDRCC チームは AWS で MyPHD と SDO のソリューションを設計し、大規模な医療データベースを安全かつ高速に、低コストでインポート、クエリ、分析できるようにしました。「私たちのツールにはそれぞれ固有のニーズがあります。特に、研究環境の外部で臨床用にデプロイされる場合はなおさらです」とVA Palo Alto Health Care System の精密医療担当アソシエイトチーフオブスタッフであり、スタンフォード大学の医学部教授でもある Philip Tsao 博士は述べています。「スケーラブルで安全な医療アプリケーションを設計するには、部門を超えたエキスパートのチームを結成し、効果的なコラボレーションを促進することが重要です」。
 
AWS からのサポートは DDRCC にとって非常に貴重でした。同組織は引き続き AWS のサービスを利用して、精密医療のための革新的で創造的なソリューションをクラウドで設計する予定です。「世界中どこにいても、これらの大規模な医療データセットにアクセスできます」とBahmani氏は述べています。「本学では、インフラストラクチャを AWS で運用することでこれを実現しました」。

Stanford Deep Data Research Computing Center について

Stanford Deep Data Research Computing Center は、カリフォルニア州パロアルトにあるスタンフォード大学医学部遺伝学科にあります。チームは、大規模な生物医学アプリケーション向けの体系的でインテリジェントなソリューションの設計と開発に取り組んでいます。

AWS のメリット

  • 精密医療ソリューションのセキュリティを改善
  • 実質的にあらゆる数のユーザーのために MyPHD のスケーラビリティを実現
  • 教育用に SDO の伸縮性を改善
  • 従量制課金モデルでコストを削減
  • 共同研究のための適応性を改善

利用されている AWS のサービス

Service Workbench on AWS

Service Workbench on AWS は、研究者が必要とするデータ、ツール、コンピューティング性能へのアクセスに対して、IT チームが安全で再現性のあるフェデレーテッドコントロールを適用できるようにします。

詳細はこちら »

Amazon Athena

Amazon Athena がインタラクティブなクエリサービスで、Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるようになります。

詳細はこちら »

Amazon S3

Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。

詳細はこちら »

Amazon EC2

Amazon EC2 は、安全かつサイズ変更が可能なコンピューティングキャパシティを提供し、事実上すべてのワークロードをサポートします。

詳細はこちら »

Amazon Cognito

Amazon Cognito を利用することで、ウェブアプリケーションおよびモバイルアプリケーションに、ユーザーのサインアップ、サインイン、アクセスコントロールの機能を迅速かつ簡単に追加できます。

詳細はこちら »


開始方法

あらゆる業界のさまざまな規模の組織が AWS を活用して日々変革し、ミッションを遂行しています。
私たちのエキスパートにお問い合わせのうえ、今すぐAWSクラウドジャーニーを始めてください。