概要
AWS 上のスケールアウト・コンピューティングは、CAE (Computer-Aided Engineering: コンピュータ支援エンジニアリング) のような計算集約的なワークフローのためのマルチユーザー環境の導入と運用を支援します。この AWS ソリューションは、豊富なコンピューティングリソース、高速ネットワークバックボーン、無制限のストレージ、そして AWS 内に直接統合された予算およびコスト管理の機能を備えています。
メリット
管理者とユーザーが Amazon Elastic Compute Cloud (Amazon EC2) クラスターを操作できるようにする共通の API セットを使用してサンプルユーザーインターフェイス (UI) をデプロイしてセットアップします。
Desktop Cloud Visualization (DCV) グラフィカルセッションを通じて、ユーザーが EC2 クラスターに簡単にアクセスし、事前および事後の可視化アクションを実行できるようにします。
スケジューラーとアプリケーションログをほぼリアルタイムで取り込み、データレイクに保存してさらに処理します。
ソリューションにデプロイされたスクリプトのコレクションをカスタマイズおよび拡張して、ユーザーがデータを収集し、一般的なクラスタータスクを実行できるようにします。
技術的な詳細情報
このアーキテクチャは、実装ガイドを使用して自動的にデプロイできます。
ステップ 1
Amazon EC2 Auto Scaling は、スケールアウトしたコンピューティングジョブなどのクラスターユーザーのタスクの実行に必要なリソースを自動的にプロビジョニングします。
ステップ 2
このソリューションでは、永続的ストレージとして Amazon Elastic File System (Amazon EFS)、永続的ログとして Amazon Simple Storage Service (Amazon S3)、そしてオプションで並列ファイルシステムの Amazon FSx for Lustre をデプロイしています。
ステップ 3
中核となるのは、Amazon Elastic Compute Cloud (Amazon EC2) インスタンスで、ユーザーが送信したジョブに必要な AWS リソースを動的にプロビジョンするスケジューラを実装しています。また、このスケジューラインスタンスは、ユーザーや管理者が環境を操作するためのウェブインターフェイスもホストしています。
ステップ 4
Amazon DCV を使用した 2D または 3D ワークステーションを起動し、バッチジョブの送信や GUI ツールの実行に使用できます。
ステップ 5
使用されるセキュリティサービスとリソースには、AWS Secrets Manager、AWS Certificate Manager、Security Groups、AWS Identity and Access Management (IAM) が含まれます。
ステップ 6
AWS Lambda 関数の機能により、必要な前提条件を確認し、Application Load Balancer (ALB) 用のデフォルトの署名付き証明書を作成し、DCV ワークステーションセッションへのアクセスを管理します。
ステップ 7
Amazon OpenSearch Service クラスターに、ジョブとホストの情報を保存します。
ステップ 8
Elastic Load Balancing はアベイラビリティーゾーン間のアクセシビリティを確保するために使用され、Cost Allocation Tags は AWS Cost Explorer で使用されます。
関連コンテンツ
この動画は re: Invent 2020 のプレゼンテーションで、クラウドベースのサービスと自動化によってセルフサービスを促進しながら、どのように障害を克服し、エンジニアリングエクスペリエンスを向上させたかを詳しく説明しています。
このビデオでは、計算量の多いワークフロー向けにマルチユーザー環境をデプロイして運用するために、AWS にスケールアウトコンピューティングを実装する方法を示しています。