데이터 아키텍처란 무엇인가요?

데이터 아키텍처는 조직의 데이터 수집, 관리 및 사용을 설명하고 관리하는 가장 중요한 프레임워크입니다. 오늘날 조직에는 분석, 기계 학습, 인공 지능 및 기타 애플리케이션을 위해 해당 데이터에 액세스하려는 다양한 데이터 소스와 서로 다른 팀에서 엄청난 양의 데이터가 유입되고 있습니다. 현대식 데이터 아키텍처는 데이터 액세스와 사용 과정에서 데이터 보안 및 품질을 보장하는 응집력 있는 시스템을 제공합니다. 데이터 아키텍처는 조직이 부서 간에 데이터를 쉽게 이동하고 필요할 때 언제든지(실시간 액세스 포함) 사용할 수 있도록 하는 정책, 데이터 모델, 프로세스 및 기술을 정의하는 동시에 규정 준수를 완벽하게 지원합니다.

데이터 아키텍처의 구성 요소는 무엇인가요?

시각적으로 표현된 데이터 아키텍처 구성 요소

주요 데이터 아키텍처 구성 요소는 다음과 같습니다.

데이터 소스

데이터 소스는 고객 대면 애플리케이션, 모니터링 및 텔레메트리 시스템, IoT 장치 및 스마트 센서, 비즈니스 운영을 지원하는 앱, 내부 지식 저장소, 데이터 아카이브, 서드 파티 데이터 저장소 등일 수 있습니다. 구조화 및 구조화되지 않은 데이터를 가리지 않고 다양한 속도, 볼륨 및 빈도로 조직에 유입됩니다.

데이터베이스

목적별 데이터베이스 시스템은 최신 애플리케이션과 다양한 기능을 지원합니다. 이들은 관계형일 수도 있고 비관계형일 수도 있는데, 일부는 데이터를 구조화된 테이블로 저장하고 다른 일부는 구조화되지 않은 데이터 유형을 문서 또는 키-값 쌍으로 저장합니다. 데이터베이스는 일반적으로 세분화된 사용 사례와 관련된 도메인별 데이터를 저장합니다. 그러나 데이터는 현재 시스템 외부에서 사용할 수 있습니다. 예를 들어 고객 대면 앱의 데이터는 마케팅 분석 또는 계획에 사용될 수 있으며 처리를 위해 데이터베이스에서 가져와야 합니다. 마찬가지로 다른 곳에서 처리된 데이터를 분석 또는 기계 학습(ML) 애플리케이션의 데이터베이스로 다시 로드해야 합니다.

데이터 레이크

데이터 레이크는 대규모 원시 데이터 스토리지를 위한 중앙 집중식 리포지토리입니다. 데이터 아키텍처는 데이터를 필요에 따라 서로 다른 데이터베이스에서 데이터 레이크로 이동하고 다시 다른 데이터베이스로 이동하는 방식을 설명합니다. 데이터 레이크는 데이터를 기본 또는 개방형 형식으로 저장하므로 사용 전에 형식을 지정하고 정리할 수 있습니다. 데이터 통합을 지원하고 조직 내 데이터 사일로를 허물어 줍니다.

데이터 분석

데이터 분석 구성 요소에는 기존 데이터 웨어하우스, 배치 보고, 실시간 경고 및 보고를 위한 데이터 스트리밍 기술이 포함됩니다. 일회성 쿼리 및 고급 분석 사용 사례에 사용할 수 있습니다. 데이터 아키텍처는 액세스를 개방하고 모든 사람이 조직의 데이터 자산을 더 자유롭게 사용할 수 있게 해주기 때문에 분석은 데이터 사일로의 제약을 받지 않습니다.

인공 지능

ML과 AI는 조직이 미래 시나리오를 예측하고 애플리케이션에 인텔리전스를 구축하는 데 도움이 되는 최신 데이터 전략에 매우 중요합니다. 데이터 사이언티스트는 레이크의 데이터를 사용하여 실험하고 인텔리전스 사용 사례를 식별하고 새 모델을 학습합니다. 학습 후에도 AI 모델은 관련성 있고 유용한 결과를 생성하기 위해 새로운 데이터에 지속적으로 액세스해야 합니다. 최신 데이터 아키텍처에는 AI 모델 학습 및 추론을 지원하는 모든 기술과 인프라가 포함됩니다.

데이터 거버넌스

데이터 거버넌스는 데이터 사용에 대한 역할, 책임 및 표준을 결정합니다. 여기에는 누가 어떤 데이터에 대해 어떤 상황에서 어떤 방법을 사용하여 어떤 조치를 취할 수 있는지 요약되어 있습니다. 여기에는 데이터 품질 및 데이터 보안 관리가 모두 포함됩니다. 데이터 아키텍트는 지속적인 규정 준수를 위해 데이터 사용을 감사하고 추적하는 프로세스를 정의합니다.

메타데이터 관리는 데이터 거버넌스의 필수적인 부분입니다. 데이터 아키텍처에는 메타데이터를 저장하고 공유하는 도구와 정책이 포함되며 서로 다른 시스템에서 메타데이터를 저장 및 검색하고 이를 사용하여 데이터 자산을 추가로 쿼리하고 처리할 수 있는 중앙 메타데이터 저장소를 제공하는 메커니즘을 설명합니다.

데이터 아키텍처는 어떻게 구현되나요?

최신 데이터 아키텍처를 계층으로 구현하는 것이 가장 좋습니다. 계층은 고유한 목표를 기반으로 프로세스와 기술을 그룹화합니다. 구현 세부 사항은 유연하지만 계층은 기술 선택과 통합 방식을 지도합니다.


 

스테이징 계층

스테이징 계층은 아키텍처 내 데이터의 진입점입니다. 다양한 소스에서 구조화, 반구조화 및 구조화되지 않은 형식으로 나온 원시 데이터 수집을 처리합니다. 이 계층은 최대한 유연하길 원하게 되는데

스키마(데이터 형식 및 유형)가 이 계층에 엄격하게 적용되면 다운스트림 사용 사례가 제한됩니다. 예를 들어 모든 날짜 값을 월, 연도 형식으로 적용하면 dd/mm/yyyy 형식이 필요한 향후 사용 사례가 제한됩니다. 동시에 어느 정도의 일관성이 필요합니다. 예를 들어 전화번호가 문자열 형식으로 저장되고 그대로 사용되는데, 일부 다른 데이터 소스에서 숫자가 동일한 데이터를 생성하기 시작하면 데이터 파이프라인이 손상됩니다.

유연성과 일관성의 균형을 유지하려면 이 계층을 두 개의 하위 계층으로 나누어야 합니다.

원시 계층

원시 계층은 변경되지 않은 데이터를 도착한 그대로 저장하여 변환 없이 원래 형식과 구조를 유지합니다. 데이터 탐색, 감사 및 재현성을 위한 전사적 리포지토리입니다. 팀은 필요할 때 데이터를 원본 상태로 재검토하고 분석하여 투명성과 추적성을 보장할 수 있습니다.

표준화된 계층

표준화된 계층은 사전 정의된 표준에 따라 검증 및 변환을 적용하여 사용할 원시 데이터를 준비합니다. 예를 들어 이 계층에서는 모든 전화번호가 문자열로 변환되고 모든 시간 값이 특정 형식으로 변환됩니다. 따라서 조직 내 모든 사용자가 품질이 보장된 구조화된 데이터에 액세스할 수 있는 인터페이스가 됩니다.

데이터 아키텍처의 표준화된 계층은 셀프 서비스 비즈니스 인텔리전스(BI), 일상적인 분석 및 ML 워크플로를 지원하는 데 매우 중요합니다. 스키마 표준을 적용하면서 스키마 변경으로 인한 중단을 최소화합니다.

순응 계층

다양한 소스의 데이터 통합이 순응 계층에서 완료됩니다. 도메인 전반에 걸쳐 통합된 엔터프라이즈 데이터 모델을 생성합니다. 예를 들어 고객 데이터는 부서마다 다른 세부 정보를 보유할 수 있습니다. 즉, 주문 세부 정보는 판매별로 캡처되고, 재무 기록은 계정별로 캡처되며, 관심사와 온라인 활동은 마케팅을 통해 캡처됩니다. 순응 계층은 조직 전체에서 이러한 데이터에 대한 이해를 공유합니다. 다음과 같은 주요 이점을 제공합니다.

  • 조직 전체의 핵심 엔터티에 대한 일관되고 통합된 정의.
  • 데이터 보안 및 개인 정보 보호 규정 준수.
  • 중앙 집중식 및 분산 패턴을 통해 전사적 통일성과 도메인별 사용자 지정 간의 균형을 유지하는 유연성.

운영 비즈니스 인텔리전스에 직접 사용되지는 않지만 탐색적 데이터 분석, 셀프 서비스 BI 및 도메인별 데이터 강화를 지원합니다.

인리치드 계층

이 계층은 이전 계층의 데이터를 특정 사용 사례에 맞게 조정하여 데이터 제품이라고 부르는 데이터세트로 변환합니다. 데이터 제품은 일상적인 의사 결정에 사용되는 운영 대시보드부터 맞춤형 권장 사항 또는 차선책 인사이트로 강화된 상세한 고객 프로필에 이르기까지 다양합니다. 특정 사용 사례에 따라 선택된 다양한 데이터베이스 또는 애플리케이션에서 호스팅됩니다.

조직은 다른 팀이 쉽게 검색하고 액세스할 수 있도록 중앙 집중식 데이터 관리 시스템에 데이터 제품을 카탈로그화합니다. 이렇게 하면 중복성이 줄어들고 고품질의 풍부한 데이터에 쉽게 액세스할 수 있습니다.

데이터 아키텍처의 유형으로는 어떤 것들이 있나요?

서로 다른 데이터 아키텍처 유형을 생성하는 순응 계층에는 두 가지 접근 방식이 있습니다.

중앙 집중식 데이터 아키텍처

중앙 집중식 데이터 아키텍처에서 순응 계층은 기업 전체에서 보편적으로 사용되는 고객 또는 제품과 같은 공통 엔터티를 생성하고 관리하는 데 중점을 둡니다. 엔터티는 제한된 일반 속성 집합으로 정의되므로 데이터를 보다 쉽게 관리하고 폭넓게 적용할 수 있습니다. 예를 들어 고객 엔터티에는 이름, 나이, 직업 및 주소와 같은 핵심 속성이 포함될 수 있습니다.

이러한 데이터 아키텍처는 특히 개인 식별 정보(PII) 또는 지불 카드 정보(PCI)와 같은 민감한 정보에 대한 중앙 집중식 데이터 거버넌스를 지원합니다. 중앙 집중식 메타데이터 관리를 통해 투명성과 보안을 위한 계보 추적 및 수명 주기 제어를 통해 데이터를 효과적으로 분류하고 관리할 수 있습니다.

그러나 복잡한 데이터 요구 사항을 중앙에서 관리하면 의사 결정과 혁신이 느려지므로 이 모델에서는 가능한 모든 속성을 포함하지는 않습니다. 대신 고객 캠페인 노출(마케팅에서만 필요)과 같은 도메인별 속성이 각 사업부별로 인리치드 계층에서 도출됩니다.

데이터 패브릭 기술은 중앙 집중식 데이터 아키텍처를 구현하는 데 유용합니다.

분산 데이터 아키텍처

각 도메인은 분산 데이터 아키텍처에서 고유한 순응 계층을 생성하고 관리합니다. 예를 들어 마케팅은 고객 세그먼트, 캠페인 노출 및 전환과 같은 속성에 초점을 맞추고 회계는 주문, 수익 및 순이익과 같은 속성에 우선 순위를 둡니다.

분산 데이터 아키텍처를 사용하면 엔터티와 해당 속성을 유연하게 정의할 수 있지만 결과적으로 공통 엔터티에 대해 다수의 데이터세트가 생성됩니다. 이러한 분산 데이터세트의 검색 및 거버넌스는 중앙 메타데이터 카탈로그를 통해 달성됩니다. 이해관계자는 데이터 교환 과정을 감독하면서 적절한 데이터세트를 찾아 사용할 수 있습니다.

데이터 메시 기술은 분산 데이터 아키텍처를 구현하는 데 유용합니다.

데이터 아키텍처 프레임워크란 무엇인가요?

데이터 아키텍처 프레임워크는 데이터 아키텍처를 설계하기 위한 구조화된 접근 방식입니다. 조직의 비즈니스 목표에 맞는 효율적인 데이터 관리 프로세스를 보장하는 일련의 원칙, 표준, 모델 및 도구를 제공합니다. 데이터 아키텍트가 고품질의 포괄적인 데이터 아키텍처를 구축하는 데 사용하는 표준 블루프린트라고 생각할 수 있습니다.

데이터 아키텍처 프레임워크의 몇 가지 예는 다음과 같습니다.

DAMA-DMBOK 프레임워크

Data Management Body Of Knowledge(DAMA-DMBOK) 프레임워크는 전체 수명 주기 동안 효과적인 데이터 관리를 위한 모범 사례, 원칙 및 프로세스를 간략하게 설명합니다. 비즈니스 목표에 맞게 조정하면서 일관된 데이터 관리 관행을 수립할 수 있도록 지원합니다. DAMA-DMBOK는 데이터 자산을 전략적 자원으로 취급하여 의사 결정 및 운영 효율성을 개선하기 위한 실행 가능한 지침을 제공합니다.

Zachman 프레임워크

Zachman 프레임워크는 매트릭스 형식을 사용하여 다양한 관점(예: 사업주, 설계자, 건축업자)과 육하원칙(누가, 언제, 어디서, 무엇을, 어떻게, 왜) 간의 관계를 정의하는 엔터프라이즈 아키텍처 프레임워크입니다. 조직은 데이터가 전체 운영에 어떻게 적용되는지 시각화하여 데이터 관련 프로세스가 비즈니스 목표 및 시스템 요구 사항에 맞게 조정되도록 할 수 있습니다. Zachman 프레임워크는 전사적 데이터 및 시스템 종속성을 명확하게 파악할 수 있는 기능으로 널리 인정받고 있습니다.

TOGAF

Open Group Architecture Framework(TOGAF)는 데이터 아키텍처를 광범위한 시스템의 중요한 구성 요소로 처리하며 조직의 요구를 지원하는 데이터 모델, 데이터 흐름 및 거버넌스 구조의 생성을 강조합니다. 표준화된 데이터 프로세스를 수립하여 시스템 상호 운용성과 효율적인 데이터 관리를 보장합니다. 통합 접근 방식을 통해 IT 및 비즈니스 전략을 조정하려는 대기업에 특히 유용합니다.

서로 다른 데이터 용어들이 비슷하게 들리더라도 각 의미는 완전히 다릅니다. 아래에 몇 가지 설명을 참고하세요.

데이터 아키텍처 vs. 정보 아키텍처

정보 아키텍처는 정보의 조직이자 최종 사용자에게 표시되는 내용입니다. 이 용어는 사용자 인터페이스, 웹 사이트 또는 콘텐츠 시스템에 적용되며 최종 사용자 정보 접근성과 관련이 있습니다. 정보 아키텍처의 원칙과 도구는 온라인 지식 저장소 또는 도큐먼트 데이터베이스 같은 곳에서의 탐색, 분류 및 검색 가능성에 중점을 둡니다.

반면 데이터 아키텍처는 모든 조직 데이터를 설계하고 관리하는 데 중점을 둡니다. 데이터 아키텍처가 모든 백엔드 기술 데이터 인프라를 다루는 반면 정보 아키텍처는 최종 사용자가 정보와 상호 작용하고 정보를 해석하는 방식에만 초점을 맞춥니다.

데이터 아키텍처 vs. 데이터 엔지니어링

데이터 엔지니어링은 데이터 아키텍처의 실제 구현입니다. 데이터 아키텍트는 조직의 데이터 자산 관리를 위한 개괄적인 계획을 제공하며 비즈니스 목표 및 보안 정책에 맞춰 확장 가능한 데이터 시스템을 설계합니다. 데이터 엔지니어는 데이터 파이프라인을 구축, 유지 관리 및 최적화하는 계획을 구현합니다. 데이터 아키텍처의 규칙에 따라 분석을 위해 데이터가 수집, 정리, 변환 및 전달되도록 합니다.

데이터 아키텍처 vs. 데이터 모델링

데이터 모델링은 모든 데이터 수집을 시각적으로 표현하는 데이터 아키텍처 내의 프로세스입니다. 여기에는 수집된 데이터를 개략적으로 설명하는 개념적, 논리적 및 물리적 데이터 모델을 생성하는 작업이 포함됩니다. 논리적 데이터 모델은 플랫폼에 구애받지 않는 방식으로 구현하기 위해 데이터 제약 조건, 엔터티 이름 및 관계를 도식적으로 나타냅니다. 물리적 데이터 모델은 특정 데이터 기술을 통해 구현하기 위해 논리적 모델을 더욱 구체화합니다.

데이터 아키텍처는 데이터 모델링보다 훨씬 범위가 넓습니다. 데이터 속성 및 관계를 넘어 조직 전반의 데이터 관리를 위한 광범위한 전략을 정의합니다. 여기에는 조직 목표에 부합하는 데이터 통합을 위한 인프라, 정책 및 기술이 포함됩니다.

AWS는 데이터 아키텍처 요구 사항을 어떻게 지원하나요?

AWS는 스토리지 및 관리부터 데이터 거버넌스 및 AI에 이르기까지 데이터 아키텍처의 모든 계층에 대한 포괄적인 분석 서비스 세트를 제공합니다. AWS는 최고의 가격 대비 성능, 확장성, 최저 비용으로 목적별 서비스를 제공합니다. 예를 들어

  • AWS 기반 데이터베이스에는 다양한 관계형 및 비관계형 데이터 모델을 지원하기 위한 15개 이상의 목적별 데이터베이스 서비스가 포함되어 있습니다.
  • AWS 기반 데이터 레이크에는 무제한 원시 데이터 스토리지를 제공하고 몇 개월이 아닌 며칠 만에 안전한 데이터 레이크를 구축하는 서비스가 포함됩니다.
  • AWS와의 데이터 통합에는 여러 소스의 데이터를 한데 통합하여 조직 전체에서 데이터를 변환, 운영 및 관리할 수 있는 서비스가 포함됩니다.

AWS Well-Architected는 보안, 성능, 복원력 및 효율성이 뛰어난 인프라를 구축하는 클라우드 데이터 아키텍트를 돕기 위해 개발되었습니다. AWS 아키텍처 센터에는 조직에 다양한 최신 데이터 아키텍처를 구현하기 위한 사용 사례 기반 지침이 포함되어 있습니다.

지금 무료 계정을 만들어 AWS에서 데이터 아키텍처를 시작해 보세요.

AWS의 다음 단계

제품 관련 추가 리소스 확인
무료 분석 서비스 보기 
무료 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작

AWS 관리 콘솔에서 AWS로 구축을 시작하세요.

로그인