AWS HealthOmics FAQ
워크플로
-
프라이빗 워크플로와 Ready2Run 워크플로의 차이점은 무엇인가요?
HealthOmics는 프라이빗 워크플로와 Ready2Run 워크플로라는 두 가지 유형의 워크플로를 제공합니다. 프라이빗 워크플로는 가장 일반적으로 사용되는 워크플로 언어로 작성된 자체 생물정보학 스크립트를 가져올 수 있는 사용자 지정 워크플로입니다. Ready2Run 워크플로는 일반적인 산업 분석을 기반으로 사전 구축된 생물정보학 파이프라인으로, 코드를 작성하지 않고도 빠르게 시작할 수 있습니다.
-
HealthOmics는 어떤 생물정보학 워크플로 언어를 지원하나요?
HealthOmics 프라이빗 워크플로는 Nextflow, WDL, CWL로 작성할 수 있습니다. 지원되는 버전에 대한 정보는 설명서를 참조하세요.
-
어떤 종류의 Ready2Run 워크플로를 사용할 수 있나요?
HealthOmics는 Broad Institute의 GATK 및 AlphaFold부터 NVIDIA, Element Biosciences, Sentieon, Ultima와 같은 서드 파티 게시자의 워크플로에 이르기까지 다양한 Ready2Run 워크플로를 제공합니다. 사용 가능한 Ready2Run 워크플로의 전체 목록은 여기에서 확인할 수 있습니다.
-
HealthOmics에서 생물학 파운데이션 모델(bioFM)을 실행할 수 있나요?
예. HealthOmics는 NVIDIA NIM, AlphaFold, ESMFold와 같은 bioFM을 실행할 수 있습니다. 워크플로 내에서 여러 bioFM을 오케스트레이션하여 대규모 신약 개발 파이프라인을 활용할 수 있습니다. BioFM을 사용하는 신약 개발 워크플로의 예는 GitHub의 신약 개발 워크플로 리포지토리를 참조하세요.
-
프라이빗 워크플로를 시작하려면 무엇이 필요한가요?
첫 번째 프라이빗 워크플로를 실행하려면 Nextflow, WDL 또는 CWL로 작성된 워크플로 스크립트가 필요합니다. 또한 모든 도구 및 종속성을 컨테이너화하여 프라이빗 ECR 리포지토리에 저장해야 합니다. 입력 데이터는 S3 또는 HealthOmics 염기서열 저장소에서 제공할 수 있습니다.
-
프라이빗 워크플로 비용은 어떻게 관리할 수 있나요?
실행 그룹을 사용하여 프라이빗 워크플로 리소스를 관리할 수 있습니다. 실행 그룹을 사용하면 실행 그룹에 할당된 실행의 최대 동시 실행 수, 최대 실행 기간, vCPU 및 GPU를 제어할 수 있습니다. 또한 HealthOmics는 리소스 할당을 최적화하여 실행 효율을 개선하는 데 도움이 되는 Run Analyzer와 같은 규모 조정 도구를 제공합니다.
-
실행 스토리지 옵션에는 어떤 것이 있나요?
HealthOmic의 프라이빗 워크플로는 정적 실행 스토리지와 동적 실행 스토리지라는 두 가지 실행 스토리지 옵션을 제공합니다. 정적 실행 스토리지를 사용하면 실행 시작 시 고정 크기 파일 시스템이 프로비저닝되고 실행 중에 태스크에서 중간 파일 스토리지로 사용됩니다. 실행이 완료되면 실행 출력이 S3로 내보내지고 파일 시스템의 프로비저닝이 해제됩니다. 동적 실행 스토리지는 실행 기간 동안 스토리지 요구 사항에 따라 자동으로 스케일 업/다운되며 프로비저닝 시간이 단축됩니다. 동적 실행 스토리지는 빠르고 반복적인 개발 주기와 단기간의 소규모 실행 파이프라인에 권장됩니다. 정적 실행 스토리지는 대규모 워크플로에 적합합니다. 또한 동적 실행 스토리지보다 GiB당 파일 시스템 처리량이 높고 GiB당 비용이 저렴합니다.
-
내 워크플로를 모니터링하려면 어떻게 해야 하나요?
HealthOmics 워크플로는 실행 중에 CloudWatch에 실시간 로그를 전송하고 실행 완료 후 추가 로그를 제공합니다. EventBridge를 사용하여 정의하는 조건에 대한 자동 경고를 작성할 수 있습니다.
-
워크플로를 다른 AWS 계정과 공유할 수 있나요?
예. HealthOmics 워크플로는 리소스 공유 기능을 사용하여 동일한 리전의 여러 AWS 계정과 공유할 수 있습니다. 워크플로를 공유하려면 공유하려는 AWS 계정의 계정 ID가 필요합니다. 워크플로를 공유하면 수신자에게 공유 초대가 전송됩니다. 수신자가 공유 워크플로를 실행하려면 먼저 공유 요청을 수락해야 합니다. 워크플로 소유자는 언제든지 액세스를 취소할 수 있으며 수신자는 공유 워크플로를 수정하거나 삭제할 수 없습니다.
-
워크플로의 데이터 관리와 재현성을 보장하는 기능은 무엇입니까?
S3 및 HealthOmics 염기서열 저장소에서 실행 입력으로 사용되는 파일에는 파일 식별을 위한 고유한 ETag가 할당되고, 프라이빗 ECR 리포지토리에 저장된 컨테이너에는 고유한 해시가 할당되며, 완전한 실행 재현성을 보장하기 위해 일단 생성된 워크플로는 변경할 수 없습니다. 모든 실행에는 모든 개별 실행, 실행 결과 및 관련 로그를 식별하는 데 사용할 수 있는 전역적으로 고유한 UUID가 할당됩니다. 이 UUID를 내부 실험실 정보 시스템(LIMS), 전자 실험실 노트북(ELN) 또는 샘플 관리 시스템에 연결하여 추적성 및 실행 재현성 요구 사항을 충족할 수 있습니다.
-
HealthOmics 데이터 저장소와 워크플로를 함께 사용해야 하나요, 아니면 별도로 사용할 수 있나요?
고객은 워크플로와 데이터 저장소를 함께 사용할 수도 있고 각각 독립형 솔루션으로 사용할 수도 있습니다. HealthOmics 워크플로는 S3, HealthOmics 염기서열 및 참조서열 저장소와 호환됩니다. HealthOmics 염기서열 및 참조서열 저장소는 HealthOmics 워크플로, AWS Batch 및 기타 컴퓨팅 솔루션과 함께 사용할 수 있습니다.
데이터 저장소
-
HealthOmics 데이터 저장소는 무엇인가요?
HealthOmics는 객체 중심 저장소와 쿼리 가능 저장소라는 두 가지 유형의 데이터 저장소를 제공합니다. 객체 중심 저장소는 참조서열 저장소이자 염기서열 저장소입니다. 분자 파일을 비용 효율적으로 저장하고 구성하도록 설계되었습니다. 쿼리 가능 저장소는 변이서열 및 주석 저장소입니다. 이 저장소는 비용 효율적으로 변이서열 및 주석 데이터를 쿼리 및 코호팅을 위한 최적화된 저장소로 전환하도록 설계되었습니다. 이러한 저장소는 함께 페타바이트 규모의 FAIR(검색 가능, 액세스 가능, 상호 운용 가능, 재사용 가능) 샘플 저장, 쿼리, 코호팅 및 검색을 제공하도록 설계되었습니다.
-
HealthOmics 데이터 저장소가 비용 절감에 어떻게 도움이 되나요?
HealthOmics 데이터 저장소는 다양한 방식으로 비용 절감을 촉진합니다. 염기서열 저장소는 사용량 기반 계층화 및 압축을 사용하여 30일 동안 액세스하지 않은 객체의 스토리지 비용을 절감합니다. 이는 기존 AWS 객체 스토리지에 비해 상당한 비용 절감으로 이어질 수 있습니다.
HealthOmics 변이서열 및 주석 저장소는 제로 ETL 저장소이므로 쿼리 시 스캔한 스토리지 및 데이터에 대해서만 비용을 지불하면 됩니다. ETL 비용이 없고 변이서열 데이터와 주석 데이터를 분리하여 주석을 변경하려는 경우 변이서열 데이터를 복제하지 않아도 되므로 비용 절감이 가능합니다. 또한 변이서열 저장소는 샘플 정보로 분할되므로 샘플 기반 쿼리가 더 적은 데이터를 스캔하여 다운스트림 비용을 추가로 절감할 수 있습니다.
-
HealthOmics 데이터 저장소에는 어떤 종류의 데이터를 저장할 수 있나요?
각 데이터 저장소는 다양한 데이터 유형에 맞게 설계되었습니다. HealthOmics 참조서열 저장소는 FASTA 파일을 지원합니다. HealthOmics 염기서열 저장소는 FASTQ, uBAM, BAM 및 CRAM 파일을 지원합니다. 변이서열 저장소는 VCF 파일에서 데이터 추출을 지원합니다. 주석 저장소는 GFF, TSV, CSV, VCF에서 데이터 추출을 지원합니다.
-
HealthOmics의 데이터 저장소에는 얼마나 많은 데이터를 저장할 수 있나요?
AWS HealthOmics에 저장할 수 있는 총 데이터 볼륨 및 객체 수에는 사실상 제한이 없습니다. 각 저장소마다 지원되는 파일 크기 및 개수에 대한 할당량을 조정할 수 있지만, 고객은 하나의 저장소에 수십 페타바이트에 달하는 데이터를 일상적으로 저장하기 때문에 필요에 따라 파일을 계속 추가할 수 있습니다.
-
HealthOmics 데이터 저장소는 얼마나 신뢰할 수 있나요?
HealthOmics 데이터 저장소는 Amazon S3의 내구성 및 복원력을 기반으로 구축되며, 여기에는 AWS 리전의 여러 디바이스 및 가용 영역에 중복 저장되는 객체가 포함됩니다. 염기서열 저장소는 객체의 시맨틱 ID를 보존 및 모니터링하여 활성화 및 보관 주기 내내 파일 내용이 보존되도록 보장합니다.
-
염기서열 저장소를 분석 도구와 통합하려면 어떻게 해야 하나요?
HealthOmic의 염기서열 저장소는 객체용 S3 액세스 URI를 통해 또는 보조 도구를 사용하여 대부분의 분석 도구와 직접 통합할 수 있습니다. 염기서열 저장소에 저장된 각 객체에는 대부분의 S3 호환 시스템에서 객체를 읽는 데 사용할 수 있는 고유한 S3 URI가 있습니다. 시스템에 파일 기반 인터페이스가 필요한 경우 Mountpoint for S3를 사용하여 읽기 세트 또는 염기서열 저장소 접두사를 읽기용으로 탑재된 파일로 사용할 수 있습니다. 사용자 지정이 필요한 경우 Amazon의 SDK 또는 HealthOmics 전송 관리자를 사용하여 통합을 수행할 수 있습니다.
-
염기서열 저장소는 다른 AWS 스토리지 솔루션과 무엇이 다른가요?
HealthOmics의 염기서열 저장소는 정기적으로 자주 액세스하는 정적 분자 데이터를 저장하기 위해 설계되었습니다. 염기서열 저장소는 압축 및 계층화를 기본 제공하고 S3를 기반으로 객체 읽기 크기 조정도 구축되어 있으므로 일일 사용부터 연간 사용까지 다양한 수준의 액세스 빈도를 가진 모든 규모의 데이터에 적합합니다. 각 수집은 새 읽기 세트를 생성하고 염기서열 저장소는 최소 저장 기간 30일에 대해 요금이 부과되므로 임시 파일, 스크래치 파일 또는 자주 업데이트되는 파일에는 적합하지 않습니다.
Amazon S3는 자주 변경되는 동적 파일, 수명이 짧은 파일, 지원되는 형식을 충족하지 않는 비분자 파일에 적합합니다. 데이터 보관 및 규정 준수를 위해 유지 관리해야 하지만 액세스 요구 사항이 매우 낮은 파일을 위해 Amazon S3 Glacier가 다양한 스토리지 옵션을 제공합니다.
보안 및 개인정보 보호
-
HealthOmics는 HIPAA 적격 서비스인가요?
예. AWS HealthOmics는 HIPAA 적격 서비스입니다. AWS에 개인 건강 정보(PHI)를 저장하는 경우 BAA가 있어야 합니다. AWS Artifact를 사용하여 온라인에서 신속하게 BAA를 체결할 수 있습니다.
-
HealthOmics는 어떤 보안 및 규정 준수 인증을 보유하고 있나요?
여러 AWS 규정 준수 프로그램의 일환으로 외부 감사 기관이 AWS HealthOmics의 보안 및 규정 준수를 평가합니다. 여기에는 HIPAA, FedRAMP 등이 포함됩니다. 규정 준수 검증의 전체 목록은 여기에서 확인하세요.