AWS HealthOmics 특성

AWS HealthOmics를 사용하면 유전체, 전사체 및 기타 오믹스 데이터를 더 쉽게 저장, 쿼리, 분석한 다음 해당 데이터에서 인사이트를 생성할 수 있습니다. 연구 및 임상 응용 분야용 다중 오믹 정보를 저장하고 분석하는 프로세스를 단순화하고 가속화하므로 데이터에서 더 심층적인 인사이트를 얻는 데 집중할 수 있습니다.

AWS HealthOmics 스토리지에서는 페타바이트 규모의 오믹스 데이터를 효율적이고 비용 효과적으로 저장할 수 있으므로 집단 규모에서 과학적 발견이 가능합니다. AWS HealthOmics 프라이빗 및 Ready2Run 워크플로는 컴퓨팅 인프라의 프로비저닝 및 규모 조정을 자동화하므로 프로덕션 규모에서 생물 정보학 분석 파이프라인을 실행하고 인프라 관리 시간을 절약하여 연구 수행에 더 많은 시간을 할애할 수 있습니다. AWS HealthOmics에는 실행당 요금이 부과되는 사전 구축된 Ready2Run 워크플로 모음이 함께 제공됩니다. AWS HealthOmics 분석은 다중 모드 분석을 위한 오믹스 데이터 준비를 간소화하여 다중 오믹스 및 건강 기록 데이터를 함께 가져오고 보다 표적화 및 개인화된 치료를 생성할 수 있도록 합니다. 이들은 또한 HIPAA 적격 기능입니다.

일반

AWS HealthOmics 스토리지는 FASTQ, BAM, CRAM과 같은 생물 정보학 파일 형식과 호환되며 이 데이터를 효율적이고 저렴한 비용으로 저장, 검색, 공유할 수 있습니다. 이러한 파일 형식은 시퀀스 저장소 내에 읽기 세트 객체로 저장됩니다. 참조 유전체를 FASTA 형식으로 저장할 수도 있습니다. 데이터는 엄격한 데이터 출처를 요구하는 워크로드를 지원하기 위해 고유한 식별자가 있는 변경 불가능한 객체로 가져옵니다. 참조 및 읽기 세트 객체를 포함한 개별 데이터 객체에 대한 액세스는 AWS Identity and Access Management(IAM)를 통해 태그 및 속성 기반 액세스 제어를 사용하여 제어할 수 있습니다. 장기 스토리지 비용을 줄이기 위해 30일 동안 액세스되지 않은 데이터 객체는 자동으로 아카이브 스토리지 클래스로 이동됩니다. 아카이브된 객체는 언제든지 API 호출을 통해 다시 활성화할 수 있습니다.

AWS HealthOmics는 대규모로 생물 정보학 워크플로를 실행하는 데 도움이 됩니다. Ready2Run 워크플로를 선택하거나 자체 프라이빗 워크플로를 가져와 기본 인프라를 관리할 필요 없이 생물학적 데이터를 처리할 수 있습니다.

Ready2Run 워크플로는 Sentieon, Inc., NVIDIA 및 Element Biosciences와 같은 업계 최고의 서드 파티 소프트웨어 회사에서 Broad Institute의 GATK 모범 사례 워크플로 및 단백질 구조 예측을 위한 AlphaFold와 같은 일반적인 오픈 소스 파이프라인과 함께 설계한 사전 구축된 워크플로입니다. 소프트웨어 도구나 워크플로 스크립트를 관리할 필요 없이 간단히 Ready2Run 워크플로를 사용하여 데이터를 처리할 수 있습니다. Ready2Run 워크플로 요금은 미리 결정된 요금으로 실행당 부과됩니다.

프라이빗 워크플로를 사용하면 가장 일반적으로 사용되는 2가지 워크플로 언어인 Workflow Description Language(WDL) 또는 Nextflow로 작성된 자체 워크플로 스크립트를 가져올 수 있습니다. 이러한 프라이빗 워크플로를 한 번의 실행으로 실행할 수 있는데, 이를 실행이라고 합니다. 프라이빗 워크플로의 경우 요금은 요청한 항목에 대해서만 부과되며 오믹스 인스턴스 유형 및 실행 스토리지에 대한 요금이 별도로 청구됩니다. 워크플로 내의 모든 태스크는 정의된 리소스에 가장 적합한 인스턴스에 매핑됩니다.

AWS HealthOmics를 사용하면 (g)VCF, GFF3, TSV/CSV와 같은 유전체학 데이터 형식을 빠르게 수집하고 Apache Iceberg 테이블로 변환할 수 있습니다. Amazon Athena와 같은 분석 서비스를 통해 유전체학 데이터에 액세스할 수 있습니다. 변형 데이터(개별 샘플의 데이터)와 주석 데이터(유전체에서의 위치에 대한 알려진 정보)를 모두 변환할 수 있습니다. AWS Lake Formation을 사용하여 분석 저장소에 대한 액세스를 제어할 수 있으므로 세분화된 액세스 제어를 구현하면서 다양한 데이터 소스에서 더 간편하게 쿼리를 수행할 수 있습니다. 예를 들어 개인의 유전체 데이터를 이전 치료, 약물 또는 검사실 보고서를 포함할 수 있는 Amazon HealthLake의 의료 기록과 안전하게 결합하여 정밀 의료를 촉진할 수 있습니다.

AWS HealthOmics를 사용하면 연구자가 태그 지정, 권한 설정, 공동 작업자와 데이터를 안전하게 공유하여 더 쉽게 협업할 수 있습니다. 그러므로 오믹스 데이터를 FAIR(검색 가능, 액세스 가능, 상호 운용 가능, 재사용 가능)로 만드는 방법이 간소화됩니다. 도메인별 메타데이터를 사용하면 AWS HealthOmics 데이터 저장소를 다른 오믹스 및 의료 데이터와 연결하여 다중 오믹 및 다중 모드 분석을 용이하게 만들 수 있습니다. 데이터 출처를 위해 AWS HealthOmics는 모든 워크플로 실행 메타데이터를 CloudWatch 로그에 보관하고 이 정보를 쿼리하여 쉽게 저장할 수 있도록 합니다. 장기간 보관을 위해 이 정보를 CloudWatch에서 S3로 내보낼 수 있습니다. 이 정보는 규정 준수 요구 사항에 대한 출력 데이터를 생성하기 위해 입력 데이터와 함께 사용된 알고리즘을 추적하는 데 도움이 될 수 있습니다.

보안, 개인정보 보호 및 규정 준수

AWS HealthOmics는 HIPAA 적격 서비스입니다. 속성 기반 제어를 적용하여 세분화된 데이터 액세스 및 거버넌스를 정의할 수 있습니다. 포괄적인 로깅 및 출처 캡처 기능을 기본 제공하므로 어떤 데이터에 누가, 언제 액세스했는지 알 수 있습니다.