Genentech 회사 로고

AWS를 사용하여 임상 바이오마커 데이터의 가치를 극대화한 Genentech

2022년

중개 연구라고 하면 대부분의 사람들이 ‘실험대에서 침상으로의(bench-to-bedside)’ 전환을 떠올립니다. 즉, 실험실에서 발견되어 궁극적으로 클리닉에서 새로운 치료제 또는 치료 전략으로 반영되는 인사이트를 생각합니다. 하지만 지금과 같은 빅 데이터 시대에 생명 과학 분야의 연구원들은 클리닉에서 수집된 정보가 실험실에서 새로운 발견으로 이어지는 ‘역변환’에 대해서도 생각할 수 있습니다. 단, 이러한 인사이트를 확보하려면 임상 데이터가 안전하고 액세스 가능하며 안정적이고 검색 가능해야 하는데, 이는 말처럼 쉽지 않은 경우가 많습니다. 

Genentech의 개발 과학 정보학 부문 데이터 관리 및 엔지니어링 책임자인 Christina Lu는 “적절한 고품질 데이터가 있어야 합니다. 복잡한 분석 알고리즘에 많은 양의 가비지 데이터를 투입하면 그대로 가비지가 배출됩니다”라고 말합니다. 

Roche Group의 자회사인 Genentech은 선도적인 생명 공학 및 제약 회사입니다. 수년간의 임상 시험과 연구를 통해 실제 생물학 데이터를 풍부하게 축적했습니다. 2017년 Genentech의 개발 과학 그룹은 ‘다음 약물 표적은 무엇인가?’, ‘완료된 임상 시험의 데이터가 향후 임상 시험 설계에 어떻게 영향을 미칠 수 있는가?’와 같은 주요 질문에 대한 답을 찾기 위해, 해당 데이터를 연구 개발에 최적화하는 전략을 구현했습니다. 이 전략에는 데이터를 검색 가능한 리포지토리에 소급하여 큐레이트하고 향후 선제적 데이터 관리를 위한 도구와 프로세스를 마련하기 위해 AWS 플랫폼에 데이터 에코시스템을 구축하는 것이 포함되었습니다.

HCLS 심포지엄 2021: Genentech, Roche Group 자회사(12:46)
kr_quotemark

몇 주가 걸리던 임상 데이터 분석이 이제 몇 시간이면 완료됩니다. 따라서 모든 데이터 포인트를 사용하여 올바른 약품을 적시에 적합한 환자에게 제공할 수 있습니다.”

Christina Lu
Genentech 개발 과학 정보학 데이터 관리 및 엔지니어링 책임자

데이터 큐레이션으로 임상 인사이트 확보

Lu는 “우리는 임상 연구의 변곡점에 있습니다. 이제 데이터가 제대로 마련되어 있지 않으면 새로운 치료법을 개발하고 환자 치료 결과를 개선할 중요한 기회를 놓치게 됩니다”라고 말합니다. Genentech의 경우 이러한 기회는 대부분 특정 생물학적 상태와 관련하여 인체의 측정 가능한 분자인 바이오마커를 분석하여 질병의 진행 과정과 분자 메커니즘을 이해하는 것을 중심으로 합니다.

‘데이터 확보’의 목표는 검색, 액세스, 상호 운용 및 재사용 가능이라는 FAIR 표준을 충족하는 것입니다. 2018년 보고서에서는 FAIR 표준에 부합하지 않는 연구 데이터를 사용하는 데 따른 벌금이 유럽 연합 경제권에서만 연간 102억 EUR에 달하는 것으로 추정하고 있습니다. 하지만 실제로 데이터 사이언티스트들은 수동으로 데이터를 수집, 정리, 구성하는 데 작업 시간의 최대 80%를 허비하면서, 모델을 구축하거나 기타 전문적인 작업을 수행하는 데 자신의 전문 지식을 활용할 기회를 놓치고 있습니다.

Lu는 “기존의 데이터 큐레이션 방식은 비용이 많이 들고 시간이 많이 걸리며 확장성이 떨어집니다”라고 말합니다. 비용을 절감하고 확장성과 효율성을 실현하기 위해 Genentech는 계약 연구 기관(CRO) 네트워크의 기존 바이오마커 데이터를 객체 스토리지 서비스인 Amazon Simple Storage Service(S3)에서 호스팅되며 잘 관리되는 중앙 집중식 리포지토리로 전송하고 통합했습니다. 이를 통해 Genentech의 과학자와 외부 연구원들은 더 많은 양의 정보에 간편하게 액세스할 수 있으며, 이는 새로운 유전자 치료법이나 항암제 표적을 찾는 연구에 통계적 검증력을 더합니다.

Lu는 “이러한 데이터 큐레이션 전략을 전향적으로 적용할 수 있다면 인간의 건강에 긍정적 영향을 미치는 훨씬 더 많은 성과를 거둘 수 있을 것입니다”라고 말합니다.

AWS 기반 데이터 에코시스템 구축

Lu는 “AWS에 구축한 바이오마커 데이터 리포지토리는 페타바이트 규모의 탐색 바이오마커 데이터를 저장하며 과학자들이 특정 연구에 필요한 데이터를 손쉽게 찾을 수 있는 인터페이스를 제공합니다”라고 말합니다.

바이오마커 리포지토리는 Amazon S3에 저장되며, 관계형 데이터베이스 서비스인 Amazon Relational Database Service(Amazon RDS)에서 관련 메타데이터를 처리하고 Amazon Elasticsearch Service에서 인덱싱과 빠른 검색을 지원합니다. Genentech는 Amazon API Gateway를 사용하여 필요에 따라 연구원에게 안전한 액세스를 연구별로 제공하는 API를 생성합니다.

Lu는 “이 간소화된 아키텍처 덕분에 몇 주가 걸리던 임상 데이터 분석이 이제 몇 시간이면 완료됩니다. 따라서 모든 데이터 포인트를 사용하여 올바른 약품을 적시에 적합한 환자에게 제공할 수 있습니다”라고 말합니다.

자세히 알아보기


Genentech 소개

Roche 그룹의 자회사인 Genentech는 생명을 위협하는 중증 질환의 새로운 치료법을 개발하는 데 전념하는 생명 공학 회사입니다.

AWS의 이점

  • 페타바이트 규모의 탐색 바이오마커 데이터를 안전하게 저장
  • 소급적으로/사전에 검색, 액세스, 상호 운용 및 재사용(FAIR)이 가능하도록 데이터 큐레이트


사용된 AWS 서비스

Amazon RDS

Amazon Relational Database Service(Amazon RDS)를 사용하면 클라우드에서 관계형 데이터베이스를 간편하게 설정, 운영 및 확장할 수 있습니다.

자세히 알아보기 »

Amazon S3

Amazon Simple Storage Service(Amazon S3)는 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다.

자세히 알아보기 »

Amazon API Gateway

Amazon API Gateway는 어떤 규모에서든 개발자가 API를 손쉽게 생성, 게시, 유지 관리, 모니터링 및 보안 유지할 수 있도록 하는 완전관리형 서비스입니다.

자세히 알아보기 »

AWS Lambda

AWS Lambda는 새로운 정보와 이벤트에 빠르게 대응하는 애플리케이션을 쉽게 구축할 수 있도록 하는 컴퓨팅 서비스입니다.

자세히 알아보기 »

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)는 500개가 넘는 인스턴스, 그리고 최신 프로세서, 스토리지, 네트워킹, 운영 체제 및 구매 모델의 옵션과 함께 워크로드의 요구 사항에 가장 잘 부합할 수 있도록 가장 포괄적이고 심층적인 컴퓨팅 플랫폼을 제공합니다.

자세히 알아보기 »

Amazon Elasticsearch Service

Amazon Elasticsearch Service는 손쉽게 Elasticsearch를 배포, 보호, 실행할 수 있는 완전관리형 서비스로 규모에 따라 효율적으로 비용을 지불할 수 있습니다.

자세히 알아보기 »


시작하기

산업 분야를 불문하고 다양한 규모의 기업들이 AWS를 통해 매일 비즈니스를 혁신하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.