1000 게놈 프로젝트는 국제적 협업으로 SNP, 구조적 변형, 하플로타입 컨텍스트를 포함한 인간 유전자 변이에 대한 가장 상세한 카탈로그를 작성했습니다. 1000 게놈 프로젝트의 마지막 단계에서는 세계 26개 모집단에서의 2,500개 이상의 개별 유전자에 대한 배열 순서를 밝히고 이러한 개별 유전자에 대한 8천만 개 이상의 변이로 이루어진 단계적 하플로타입 세트를 생산 및 통합했습니다.
Amazon 미러는 프로젝트의 전체 데이터 세트를 포함하고 있으며 이러한 데이터는 s3.amazonaws.com/1000genomes에서 찾아볼 수 있습니다.
자세한 내용은 http://www.1000genomes.org를 참조하십시오. 문의 사항이 있는 경우 info@1000genomes.org로 이메일을 보내주십시오.
AWS는 커뮤니티에서 무료로 사용할 수 있도록 1000 게놈 프로젝트 데이터를 공개하고 있습니다. AWS 상의 퍼블릭 데이터 세트는 Amazon Simple Storage Service(Amazon S3)에서 호스팅되는 퍼블릭 데이터에 대한 중앙 집중식 리포지토리를 제공합니다. Amazon Elastic Compute Cloud(Amazon EC2), Amazon Elastic MapReduce(Amazon EMR) 같은 AWS 서비스에서도 이러한 데이터에 원활하게 액세스할 수 있습니다. 이러한 서비스는 대규모 데이터 모음을 활용하는 데 필요한, 고도로 확장 가능한 컴퓨팅 리소스를 조직에 제공합니다. AWS는 커뮤니티에 어떠한 비용도 청구하지 않고 이러한 퍼블릭 데이터 세트를 저장합니다. 연구원들은 이후 데이터 프로세싱 또는 분석에 필요한 추가 AWS 리소스에 대해서만 비용을 지불하면 됩니다. AWS 상의 퍼블릭 데이터 세트에 대해 자세히 알아보십시오.
최신 1000 게놈 프로젝트 데이터는 1000 게놈 Amazon S3 버킷에 공개되어 있습니다.
단순한 HTTP 요청을 통해 또는 Ruby, Java, Python, .NET, PHP 같은 언어로 된 AWS SDK를 활용하여 이러한 데이터에 액세스할 수 있습니다.
연구원들은 대규모 데이터로 작업할 때 일반적으로 필요한 자본 투자 없이도 Amazon EC2 유틸리티 컴퓨팅 서비스를 통해 이러한 데이터를 활용할 수 있습니다. 또한 AWS는 다양한 조직화 및 자동화 서비스도 제공하여 팀에서의 연구를 다른 사람들이 재혼합하여 재사용할 수 있도록 돕습니다.
Amazon S3 내 버킷을 통해 데이터를 사용할 수 있도록 한다는 것은 고객이 Amazon Elastic MapReduce를 통해 하둡을 사용하여 해당 정보를 빠르게 처리하고 CloudBurst 및 Crossbow 등 생물정보학 작업 흐름을 실행하기 위한 다양한 도구 모음을 활용할 수 있다는 의미입니다.
NIH 국가생물공학센터(NCBI), NIH 국립 의학 도서관 분과
- ftp://ftp-trace.ncbi.nlm.nih.gov/1000genomes
- ftp6.ncbi.nlm.nih.gov(IPv6 액세스용)
- 1000 Genomes: NCBI/NLM/NIH(Aspera를 통함)
유럽 생물정보연구소(EMBL-EBI), Wellcome Trust에서 지원
교육자, 연구원 및 학생은 무료 크레딧을 신청하여 1000 게놈 프로젝트 데이터와 같은 퍼블릭 데이터 세트와 더불어 AWS에서 제공하는 유틸리티 컴퓨팅 플랫폼을 활용할 수 있습니다. 유전체 연구실을 운영하고 있거나 호스팅된 1000 게놈 데이터 세트를 활용할 수 있는 연구 프로젝트가 있는 경우 AWS 지원금을 신청할 수 있습니다.