제품 ›  기계 학습  › AWS HealthOmics  › AWS HealthOmics 요금

 

 

개요

AWS HealthOmics는 대규모 워크플로와 스토리지를 처리하도록 설계된 완전관리형 생물정보학 및 신약 개발 인프라를 통해 고객이 과학적 혁신을 가속화할 수 있도록 지원합니다. HealthOmics에서는 사용한 만큼만 비용을 지불하며 HealthOmics의 라이선스 비용은 없습니다.

HealthOmics는 두 가지 유형의 워크플로를 제공합니다. 프라이빗 워크플로는 가장 일반적으로 사용되는 워크플로 언어로 작성된 자체 생물정보학 스크립트를 가져올 수 있는 맞춤형 사용자 정의 워크플로입니다. 프라이빗 워크플로의 요금은 각 실행에 대해 요청된 컴퓨팅 및 파일 시스템 리소스를 기반으로 부과됩니다. Ready2Run 워크플로는 일반적인 산업 분석을 기반으로 사전 구축된 생물정보학 파이프라인이며 실행당 고정 비용을 지불합니다.

HealthOmics는 두 가지 유형의 스토리지를 제공합니다. 참조서열 및 염기서열 저장소는 계층화, 압축, 메타데이터 카탈로그화를 사용하여 생물정보학 데이터를 비용 효율적으로 저장하고 구성할 수 있는 객체용 데이터 저장소입니다. 요금은 저장된 객체 크기와 데이터 계층을 기반으로 부과됩니다. 변이서열 및 주석 저장소는 생물정보학 데이터에서 주요 데이터를 추출하여 검색 및 코호트 생성에 최적화된 데이터 레이크를 생성하는 제로 ETL 저장소입니다. 요금은 추출한 정보의 스토리지 크기를 기준으로 부과됩니다.

필요에 따라 워크플로와 데이터 저장소를 함께 사용하거나 별도로 사용할 수 있습니다. 3년 또는 5년 사용 약정을 원하는 경우 할인된 요금을 AWS에 문의하시기 바랍니다.

유형별 요금 살펴보기

AWS HealthOmics에서는 사용한 만큼만 비용을 지불하면 됩니다. 아래에서 유형별 요금을 살펴보세요.

프리 티어

AWS 프리 티어의 일부로 AWS HealthOmics를 무료로 시작할 수 있습니다. 신규 AWS 고객은 가입 시 프라이빗 워크플로 실행을 위한 omics.m.xlarge(또는 동급) 인스턴스 최대 275시간 및 49,000GB의 실행 스토리지, 염기서열 저장소에서 1,500기가베이스-월의 활성 및 아카이브 스토리지, 변이서열 저장소에서 200GB-월의 스토리지를 제공받습니다. 프리 티어 사용량은 모든 리전(AWS GovCloud(미국) 리전 제외)에서 매달 계산되어 청구서에 자동으로 적용됩니다. 월별 미사용 분은 이월되지 않습니다. 제한 사항이 적용됩니다. 자세한 내용은 약관을 참조하세요.

 

처음 2개월간 월별 프리 티어 사용량

HealthOmics 워크플로

omics.m.xlarge 인스턴스(또는 이와 동등한 컴퓨팅 인스턴스) 275시간 및 실행 스토리지 49,000GB-시간

HealthOmics 데이터 저장소 염기서열 저장소: 활성 스토리지 클래스 1,500기가베이스-월 및 아카이브 스토리지 클래스 1,500기가베이스-월

변이서열 저장소: 200GB-월

AWS 고객은 모든 AWS 서비스 및 리전(중국 및 GovCloud 리전 제외)을 합산하여 매달 100GB의 인터넷 데이터 송신 무료 혜택을 받을 수 있습니다.

프라이빗 워크플로 요금

프라이빗 워크플로는 생물정보학 또는 신약 개발 파이프라인을 실행하기 위해 선택한 워크플로 언어를 기반으로 정의하는 사용자 지정 워크플로입니다. 비용에는 워크플로 태스크 인스턴스와 실행 스토리지라는 두 가지 구성 요소가 있습니다.

워크플로의 각 태스크에 사용되는 omics 인스턴스에 대해 요금이 부과됩니다. 워크플로의 각 태스크는 태스크에 요청된 vCPU, 메모리 및/또는 GPU를 충족하는 사용 가능한 가장 작은 omics 인스턴스에 매핑됩니다. 예를 들어 8개의 CPU와 60GiB RAM을 사용하도록 정의된 작업은 실행을 위해 omics.r.2xlarge 인스턴스 유형에 매핑됩니다. HealthOmics는 요청된 리소스를 항상 정확하게 프로비저닝합니다. 이 예제에서는 태스크에 8개의 CPU와 60GiB의 RAM을 사용할 수 있습니다. 태스크는 1초 단위로 과금되지만 태스크당 최소 과금 한도는 60초입니다. 태스크에 vCPU 또는 메모리를 지정하지 않는 경우 HealthOmics는 이러한 태스크에 대해 사용 가능한 가장 작은 인스턴스 유형인 omics.c.large를 자동으로 프로비저닝합니다. 또한 데이터 스테이징과 관련된 컴퓨팅(예: 가져오기 및 내보내기)에 대해서는 요금이 부과되지 않으며 교차 AZ 요금도 없습니다.

실행 스토리지의 경우 정적 프로비저닝을 통해 더 큰 파일 시스템 처리량을 제공하는 파일 시스템 또는 동적으로 규모가 조정되는 파일 시스템 중에서 선택할 수 있습니다. 정적 실행 스토리지는 1200GiB, 2400GiB, 그 이후에는 2400GiB 단위로 사용할 수 있으며, 프로비저닝된 최소 크기는 1200GiB입니다. 동적 실행 스토리지는 사용량에 따라 규모가 조정되며 최소 스토리지 프로비저닝 요구 사항이 없습니다.

실행이 실행 중 상태인 동안에만 리소스에 대한 요금이 부과됩니다. 보류 중, 시작 또는 중지 중 상태의 실행에는 요금이 부과되지 않습니다. 취소 또는 실패한 실행의 경우 취소 또는 실패 시점까지 사용된 리소스에 대해 요금이 부과됩니다.

AWS 청구서에서 모든 실행에 대한 총 비용을 볼 수 있으므로 비용을 빠르고 쉽게 결정할 수 있습니다. 또한 HealthOmics는 실행 리소스, 비용 및 성능을 최적화하는 데 도움이 되는 오픈 소스 Run Analyzer 도구를 제공합니다. 프로덕션 워크플로를 대규모로 운영할 계획이고 3년 또는 5년 사용 약정을 원하는 경우 할인된 요금을 AWS에 문의하시기 바랍니다.

 

Ready2Run 워크플로 요금

Ready2Run 워크플로는 NVIDIA, Sentieon, Element Biosciences, Ultima와 같은 업계 최고의 서드 파티 소프트웨어 회사에서 Broad Institute의 GATK 워크플로 및 단백질 구조 예측을 위한 AlphaFold와 같은 일반적인 오픈 소스 파이프라인과 함께 설계한 사전 구성된 워크플로입니다. 소프트웨어 도구나 워크플로 스크립트를 관리할 필요 없이 간단히 Ready2Run 워크플로를 사용하여 데이터를 처리할 수 있습니다. Ready2Run 워크플로는 실행당 비용을 지불하며 실행이 성공적으로 완료되면 실행 시간에 관계없이 동일한 고정 요금이 부과됩니다. 실행이 취소되거나 처음 1시간 이내에 성공적으로 완료할 수 없는 경우, 실행당 비용은 첫 사용 시간을 기준으로 비례 배분됩니다. 1시간 이상 실행한 실행에는 전체 실행 요금이 청구됩니다. Sentieon Ready2Run 워크플로를 사용하려면 Sentieon에서 구매한 별도의 구독이 필요합니다. Sentieon은 Sentieon Ready2Run을 처음 사용하는 사용자에게 추가 비용 없이 2주간의 무료 평가판 구독을 자동으로 제공합니다. 입력 파라미터, 워크플로 다이어그램, 예상 실행 시간을 포함하여 사용 가능한 Ready2Run 워크플로에 대한 자세한 정보를 보려면 HealthOmics 콘솔을 방문하세요.

데이터 저장소 요금

HealthOmics 데이터 저장소는 대규모 샘플 데이터를 위한 관리형 FAIR(검색 가능, 액세스 가능, 상호 운용 가능, 재사용 가능) 스토리지로, 자동 데이터 압축 및 최적화된 변이서열/주석 쿼리 기능을 제공합니다.

염기서열 저장소는 사용량 기반 계층화 및 압축을 통해 비용을 절감합니다. 저장된 객체는 구성 및 검색 용이성을 위해 읽기 세트로 그룹화됩니다. 염기서열 저장소에 데이터를 저장할 때는 월별 기가베이스당 요금을 지불합니다. 기가베이스는 가져온 염기서열 파일(예: FASTQ, BAM, CRAM)의 10억 개 염기입니다. 저장된 기가베이스당 요금이 부과되므로 최적의 파일 형식 또는 압축 기술에 대해 걱정할 필요가 없습니다. AWS HealthOmics는 자동으로 이를 최적화합니다. 염기서열 저장소의 데이터는 두 가지 방법으로 액세스할 수 있습니다. 하나는 HealthOmics API를 통한 읽기, 쓰기 및 업데이트이고 다른 하나는 S3 API를 통한 읽기입니다. HealthOmics API를 통해 액세스하는 경우 읽기 세트 객체에 대한 GET 요청에 요금이 부과됩니다. 읽기 세트에 대한 다른 모든 HealthOmics 요청은 무료입니다. 2/ S3 LIST 및 GET API를 통해 액세스합니다. S3 API를 통해 액세스하는 경우 COPY 및 LIST 요청 요금은 다른 모든 요청 유형과 별도로 부과됩니다. HealthOmics의 염기서열 저장소 비용이 대체 스토리지 옵션과 어떻게 비교되는지 보려면 다음 블로그를 참조하세요. https://aws.amazon.com/blogs/industries/store-omics-data-cost-effectively-at-any-scale-with-aws-healthomics/

변이서열 및 주석 저장소는 Amazon Athena, Amazon SageMaker와 같은 AWS 서비스를 통한 쿼리, 코호팅 및 분석을 위해 제로 ETL을 사용하여 변이서열 및 주석 데이터를 준비합니다. 수집된 파일은 HealthOmics에서 처리되고 쿼리에 최적화된 형식으로 변환됩니다. 원하는 양의 변이서열 및 주석 데이터를 저장할 수 있으며 저장된 데이터에 대해서만 비용을 지불하면 됩니다. 과금되는 데이터 크기는 수집 및 변환 후의 데이터 크기로 정의됩니다. 변이서열 및 주석 저장소의 데이터는 일반적으로 다른 AWS 서비스를 통해 액세스됩니다. 다른 서비스에서 데이터를 쿼리 및 분석하는 경우 해당 서비스 사용에 대한 비용을 지불합니다.

AWS HealthOmics 데이터 저장소에 저장된 데이터는 최소 스토리지 기간인 30일에 대한 요금이 부과되며, 30일 이전에 삭제된 데이터에 대해서는 잔여 일수에 대한 스토리지 요금과 동일한 비례 할당으로 계산된 요금이 적용됩니다. 

요금 예시

  • 한 생물정보학 과학자가 미국 동부(버지니아 북부) 리전의 AWS HealthOmics 워크플로에서 Nextflow 워크플로를 실행하려고 합니다. 이 워크플로에는 3개의 태스크가 있습니다. 첫 번째 태스크는 16개의 vCPU와 30GB 메모리를 예약하고 실행하는 데 3시간이 걸립니다. 두 번째 태스크는 32개의 vCPU와 160GB 메모리를 예약하고 실행하는 데 2시간이 걸립니다. 세 번째 태스크는 4개의 vCPU와 10GB 메모리를 예약하고 실행하는 데 10분이 걸립니다. 고객은 워크플로를 등록하고 기본 1,200GB 파일 시스템을 사용하여 StartRun API를 직접적으로 호출합니다. 전체 비용은 다음과 같습니다.
    태스크 1(omics.c.4xlarge): 0.9180 USD/시간 * 3시간 = 2.754 USD
    태스크 2(omics.r.8xlarge): 2.7216 USD/시간 * 2시간 = 5.4432 USD
    태스크 3(omics.m.xlarge): 0.2592 USD/시간 * 1/6시간 = 0.0432 USD
    정적 실행 스토리지: 0.0001918 USD/GB-시간 * (1,200GB*(3+2+1/6시간)) = 1.18916 USD
    합계: 9.42956 USD

  • 한 생물정보학 과학자가 미국 동부(버지니아 북부) 리전의 AWS HealthOmics에서 새로운 WDL 워크플로를 개발하고 있습니다. 이 워크플로에는 2개의 태스크가 있습니다. 첫 번째 태스크는 16개의 vCPU와 30GB 메모리를 예약하고 실행하는 데 3.5시간이 걸립니다. 두 번째 태스크는 32개의 vCPU와 160GB 메모리를 예약하고 실행하는 데 2.25시간이 걸립니다. 고객은 워크플로를 등록하고 동적 파일 시스템을 사용하여 StartRun API를 직접적으로 호출합니다. 5.75시간의 워크플로우를 실행하는 동안 파일 시스템은 0GB에서 1043GB로 선형적으로 증가하여 파일 스토리지는 총 3000GB/시간에 달합니다. 전체 비용은 다음과 같습니다.
    태스크 1(omics.c.4xlarge): 0.9180 USD/시간 * 3.5시간 = 3.213 USD
    태스크 2(omics.r.8xlarge): 2.7216 USD/시간 * 2.25시간 = 6.1236 USD
    동적 실행 스토리지: 0.0004110 USD/GB-시간 * 3,000GB-시간 = 1.233 USD
    합계: 10.5696 USD

  • 한 컴퓨터 과학자가 미국 동부(버지니아 북부) 리전에서 30x 게놈에 대한 GATK-BP Germline fq2vcf Ready2Run 워크플로를 샘플 3개에 대해 실행하려고 합니다. 고객은 데이터를 입력하고 각 샘플에 대해 StartRun API를 호출합니다. 실행 3회에 대한 비용은 다음과 같습니다.
    30x 게놈에 대한 GATK-BP Germline fq2vcf Ready2Run 워크플로: 10.00 USD/실행 * 3 = 30.00 USD
    합계: 30.00 USD

  • 한 집단 시퀀싱 프로젝트가 수집한 바이오뱅크에서 개인 시퀀싱을 시작합니다. 이 프로젝트는 유럽 서부(아일랜드) 리전에서 이 작업을 수행하도록 선택합니다. 각각 130기가베이스와 50기가바이트에서 10만 명의 개인을 시퀀싱하고 원시 시퀀싱 데이터를 AWS HealthOmics 스토리지에 저장합니다. 향후 5년 동안, 가져오기 후 30일이 경과하면 아카이브 스토리지 클래스에 유지되고 활성 스토리지 클래스로 전환되면 30일 동안 평균적으로 두 번 액세스됩니다. S3 API를 사용하여 파일에 액세스합니다. 각 유전체는 500개 파트로 다운로드됩니다. 따라서 500개의 GET API 직접 호출이 생성됩니다. 단일 유전체에 대한 5년간 비용 합계는 다음과 같습니다.
    활성 스토리지 클래스: 0.005769 USD/기가베이스/월 * 130기가베이스 * 90일 = 2.22 USD
    아카이브 스토리지 클래스: 0.001154 USD/기가베이스/월 * 130기가베이스 * (1825 - 90)일 = 8.56 USD
    S3 GET API: 0.0004 USD / API 직접 호출 1,000건 * (2 * API 직접 호출 500건) = 0.0004 USD
    5년간 비용 합계: 2.22 USD + 8.56 USD + 0.0004 USD = 10.78 USD(또는 2.15 USD/연)

  • 한 데이터 과학자가 미국 동부(버지니아 북부) 리전의 Amazon Athena에서 3,202개의 VCF(Variant Call File) 파일을 분석하려고 합니다. 그는 변이서열 저장소를 생성하고 AWS HealthOmics API를 사용하여 이러한 파일을 수집합니다. 수집된 데이터의 크기는 1.5TB입니다. 그는 다음 달에 Athena에서 1,000개의 쿼리를 실행하여 서로 다른 하위 집단에 대한 대립 유전자 빈도를 계산합니다. 각 쿼리는 평균 50GB를 소비합니다. 월간 비용 합계는 다음과 같습니다.
    변이서열 저장소: 0.035 USD/GB/월 * (1,024GB/TB * 1.5TB) = 53.76 USD
    Amazon Athena: 5 USD/TB * 1000 * 50/1024 = 244.14 USD

데이터 전송 요금

HealthOmics의 모든 발신 대역폭에 요금이 부과됩니다. 데이터 스토어와 동일한 AWS 리전 내 AWS 서비스로 전송된 데이터에는 데이터 전송 요금이 적용되지 않습니다. 아래 요금은 AWS HealthOmics에서 퍼블릭 인터넷을 통해 ‘수신’ 및 ‘송신’되는 데이터를 기준으로 합니다†††. AWS Direct Connect 요금에 대해 자세히 알아보세요. 월 500TB를 초과하는 데이터 전송에 대해서는 AWS에 문의해 주세요.

요금 티어는 모든 AWS 서비스 전체에서 인터넷으로 전송된 데이터 송신량을 합산하여 계산합니다.

††† 사용자가 조기에 연결을 종료한 경우(예: 10GB 객체를 요청하고 처음 2GB 데이터를 수신한 후 연결을 종료한 경우) 송신된 데이터가 애플리케이션에서 수신된 데이터와 다를 수 있습니다. AWS HealthOmics는 데이터 스트리밍을 중지하려고 시도하지만 즉각적으로 중지되지 않습니다. 이 예제에서는 송신되는 데이터가 수신된 2GB보다 1GB 많은 3GB일 수 있습니다. 결과적으로 3GB의 송신된 데이터에 대해 요금이 부과됩니다.