[Subtítulo de SEO]
En esta guía, se aborda cómo configurar un entorno de análisis de datos de autoservicio que sea fácil de lanzar y acceder para los ingenieros y científicos de datos. El entorno de desarrollo integrado (IDE) se basa en los cuadernos de Jupyter, lo que proporciona una interfaz interactiva para una fácil exploración de datos e incluye todas las herramientas necesarias para depurar, crear y programar canalizaciones de datos casi en tiempo real. El entorno permite la colaboración segura en equipo con el aislamiento de la carga de trabajo y permite a los administradores autoaprovisionar, escalar y desaprovisionar los recursos desde una única interfaz sin exponer las complejidades de la infraestructura subyacente ni comprometer la seguridad, la gobernanza y los costes. Los administradores pueden gestionar de forma independiente las configuraciones de los clústeres y optimizar de manera continua los costes, la seguridad, la fiabilidad y el rendimiento.
Tenga en cuenta lo siguiente: [Descargo de responsabilidad]
Diagrama de la arquitectura
[Descripción del diagrama de arquitectura]
Paso 1
Los equipos de operaciones en la nube desarrollan plantillas de clústeres de Amazon EMR en AWS CloudFormation de acuerdo con las especificaciones deseadas (como los tipos de instancia y las configuraciones de red) y publican las plantillas como productos en AWS Service Catalog para el aprovisionamiento de autoservicio.
Paso 2
Los eventos de puja o los píxeles de los anuncios web capturan las impresiones de los usuarios y envían los datos a un punto de enlace de Amazon Kinesis Data Streams.
Paso 3
Los equipos de ingeniería de datos inician sesión en los espacios de trabajo en Amazon EMR Studio. En este caso, se autoaprovisionan los clústeres de Amazon EMR. Como alternativa, adjuntan los clústeres existentes para desarrollar aplicaciones de Spark Streaming, como la validación de ofertas o la medición de impresiones, mediante cuadernos interactivos.
Paso 4
Una aplicación de Spark Streaming se ejecuta en un clúster de Amazon EMR. Incorpora de manera continua datos no procesados de eventos de puja o impresiones de Kinesis Data Streams. La aplicación transforma los datos. A continuación, almacena los datos transformados en un lago de datos de Amazon Simple Storage Service (Amazon S3).
Este proceso permite la elaboración de informes operativos casi en tiempo real. Puede elegir clústeres de Amazon EMR aprovisionados para obtener la mayor flexibilidad en la optimización de costes, o clústeres de Amazon EMR sin servidor para simplificar el despliegue y la administración de clústeres.
Paso 5
Amazon S3 almacena los datos en carpetas particionadas. Los datos se pueden comprimir en formato de columnas o en otros formatos de tabla abierta como Apache Iceberg.
Paso 6
Todos los metadatos de las bases de datos y tablas se registran en un catálogo de datos de AWS Glue, lo que permite consultar los datos en varios servicios de AWS, como Amazon Athena o Amazon SageMaker.
Paso 7
(Opcional) Los administradores de lagos de datos pueden registrar el catálogo de datos en AWS Lake Formation para proporcionar controles de acceso más detallados y centralizar la gestión de usuarios.
Paso 8
Los usuarios pueden ejecutar consultas SQL con datos de impresiones o secuencias de clics seleccionados en Amazon S3 casi en tiempo real con Athena y visualizar los paneles de control con Amazon QuickSight.
Paso 9
Además del lago de datos de Amazon S3, las cargas de trabajo de Amazon EMR pueden escribir datos en bases de datos NoSQL, como Amazon DynamoDB, o en bases de datos en memoria, como Aerospike. Esto admite cargas de trabajo de lectura que requieren un rendimiento rápido a gran escala, como el filtrado de ofertas o los informes operativos.
Comenzar
Pilares de AWS Well-Architected Framework
AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.
El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.
-
Excelencia operativa
Amazon EMR Studio proporciona un entorno de desarrollo integrado (IDE) totalmente gestionado y basado en la web con cuadernos de Jupyter, lo que les permite a los equipos de ingeniería o ciencia de datos desarrollar, visualizar y depurar aplicaciones de Spark Streaming de forma interactiva sin tener que gestionar servidores adicionales. Los equipos pueden autoaprovisionar clústeres de Amazon EMR predefinidos mediante plantillas de infraestructura como código (IaC) en AWS Service Catalog. Esto reduce la dependencia de los equipos de operaciones en la nube, mejora la agilidad del desarrollo y ayuda a las organizaciones a seguir las prácticas recomendadas de seguridad y gobernanza con gastos generales mínimos.
-
Seguridad
Amazon EMR Studio admite la autenticación y la autorización mediante AWS Identity and Access Management (AWS IAM), o AWS Identity Center, lo que elimina la necesidad de conectarse con SSH (Secure Shell) directamente a los clústeres de Spark. Lake Formation permite un control de acceso detallado y centralizado a los datos de sus lagos de datos, centralizando la administración del acceso de los usuarios y aumentando una postura sólida de seguridad y gobernanza en las canalizaciones de datos.
-
Fiabilidad
Kinesis Data Streams y Amazon EMR brindan capacidades de escalabilidad automática para satisfacer la demanda de rendimiento del flujo de trabajo de transmisión de datos en tiempo real. Amazon EMR utiliza el marco Apache Spark, que distribuye y reintenta de manera automática los trabajos en caso de que se produzcan errores en la red o en la aplicación. Kinesis Data Streams también escala capacidades de manera automática y realiza una réplica sincronizada de los datos en tres zonas de disponibilidad, lo que proporciona un alto nivel de disponibilidad y durabilidad de los datos.
-
Eficiencia en el rendimiento
Kinesis Data Streams escala capacidades de manera automática en respuesta a la variación del tráfico de datos, lo que permite que el flujo de trabajo de procesamiento en tiempo real satisfaga las demandas de rendimiento. Amazon EMR proporciona varias funciones de optimización del rendimiento para Spark, lo que permite a los usuarios una ejecución 3,5 veces más rápida sin ningún cambio en las aplicaciones. Además, Athena procesa de forma automática las consultas en paralelo y aprovisiona los recursos necesarios. Los datos también se pueden almacenar en claves de partición y formatos de columnas de Amazon S3 para aumentar el rendimiento de las consultas.
-
Optimización de costos
Esta guía proporciona un ejemplo de plantilla de clúster de Amazon EMR que utiliza flotas de instancias con capacidad de instancias de spot de Amazon EC2 y especifica los tipos de instancias de Amazon EC2 Graviton3. Esto puede generar un ahorro de costes de hasta un 20 % con respecto a instancias comparables de Amazon Elastic Compute Cloud (Amazon EC2) basadas en x86. Además, el uso de tiempos límite de inactividad y niveles de almacenamiento de Amazon S3 permite un mejor uso de los recursos de procesamiento y almacenamiento con costes optimizados.
-
Sostenibilidad
Los tipos de instancia de Amazon EC2 Graviton3 usan hasta un 60 % menos de energía para obtener el mismo rendimiento que las instancias de Amazon EC2 comparables, lo que ayuda a reducir la huella de carbono. El uso de las instancias de spot de Amazon EC2 y la configuración de tiempo límite de inactividad de Amazon EMR ayuda a garantizar un mejor uso de los recursos y minimiza el impacto ambiental de la carga de trabajo.
Contenido relacionado
[Título]
Descargo de responsabilidad
El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.
Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.