¿Qué es la preparación de datos?
La preparación de datos es el proceso de preparar datos en bruto de modo que sean adecuados para su posterior procesamiento y análisis. Los pasos clave incluyen la recopilación, limpieza y etiquetado de datos sin procesar en un formato adecuado para los algoritmos de machine learning (ML) y, a continuación, la exploración y visualización de los datos. La preparación de datos puede ocupar hasta un 80 % del tiempo dedicado a un proyecto de ML. Utilizar herramientas de preparación de datos especializadas es importante para optimizar dicho proceso.
¿Cuál es la conexión entre el ML y la preparación de datos?
Los datos fluyen a través de las organizaciones como nunca antes y llegan a todas partes, desde teléfonos inteligentes a ciudades inteligentes, en forma de datos estructurados y no estructurados (imágenes, documentos, datos geoespaciales y más). Los datos no estructurados conforman el 80 % de los datos en la actualidad. El ML puede analizar datos estructurados, pero también detectar patrones en datos no estructurados. La tecnología de ML consiste en un proceso mediante el que la computadora aprende a interpretar datos y tomar decisiones y recomendaciones según dichos datos. Durante el proceso de aprendizaje y más adelante, cuando los datos se utilizan para realizar predicciones, los datos incorrectos, sesgados o incompletos pueden dar lugar a predicciones imprecisas.
¿Por qué es importante la preparación de datos para el ML?
Los datos alimentan el ML. Sacar partido de estos datos para reinventar tu empresa, además de ser desafiante, es fundamental para ser relevante tanto ahora como en el futuro. Quienes sobreviven son los que cuentan con mayor información, y aquellos que sacan partido de sus datos para tomar mejores decisiones y más fundamentadas responden antes a lo inesperado y descubren nuevas oportunidades. Este proceso importante, aunque tedioso, es un requisito previo para la creación de modelos de ML y análisis precisos, y es la parte que requiere más tiempo de un proyecto de ML. Para reducir esta inversión de tiempo, los científicos de datos pueden utilizar herramientas con el objetivo de automatizar la preparación de datos de varias formas.
¿Cómo debe preparar sus datos?
La preparación de datos sigue una serie de pasos que comienza con la recopilación de los datos adecuados, seguido de procesos de limpieza, etiquetado y, más tarde, de validación y visualización.
Recopilar datos
La recopilación de datos es el proceso de agrupar todos los datos que necesita para ML. Dicho proceso puede resultar tedioso, ya que los datos residen en muchos orígenes de datos, incluidos portátiles, almacenamientos de datos, la nube, aplicaciones y dispositivos. Encontrar maneras de conectarse a diferentes orígenes de datos puede ser un desafío. Los volúmenes de datos también están aumentando de manera exponencial, así que hay una enorme cantidad de datos en la que buscar. Además, los datos pueden tener un buen número de formatos y tipos diferentes según el origen. Por ejemplo, no es fácil utilizar juntos datos de video y datos tabulares.
Limpiar datos
La limpieza de datos corrige errores y rellena espacio en caso de datos perdidos como paso para garantizar la calidad de los datos. Después de limpiar los datos, deberá transformarlos a un formato consistente y legible. Este proceso puede incluir cambiar formatos de campos como fechas y divisa, modificar convenciones de nomenclatura y corregir valores y unidades de medida para que sean consistentes.
Etiquetar datos
El etiquetado de datos es el proceso para identificar los datos sin procesar (imágenes, archivos de texto, videos, etc.) y agregar una o más etiquetas significativas e informativas para proporcionar contexto, de manera que un modelo de machine learning pueda aprender de ellos. Por ejemplo, las etiquetas pueden indicar si una fotografía contiene un pájaro o un auto, qué palabras se dijeron en una grabación de audio o si una imagen de rayos X contiene algo irregular. El etiquetado de datos se requiere para una variedad de casos de uso, incluidos la visión artificial, el procesamiento de lenguaje natural y el reconocimiento de habla.
Validar y visualizar
Una vez que los datos están limpios y etiquetados, los equipos de ML a menudo exploran los datos para asegurarse de que son correctos y están listos para el ML. Las visualizaciones como histogramas, gráficos de dispersión, gráficos de caja, gráficos de línea y gráficos de barra son herramientas útiles para confirmar que los datos son correctos. Además, las visualizaciones también ayudan a los equipos de ciencia de datos a completar análisis exploratorios de datos. Este proceso utiliza las visualizaciones para detectar patrones, encontrar anomalías, probar una hipótesis o verificar supuestos. Los análisis exploratorios de datos no requieren un modelado formal; en lugar de eso, los equipos de ciencia de datos pueden utilizar visualizaciones para descifrar los datos.
¿Cómo puede AWS ayudar?
Las herramientas de preparación de datos de Amazon SageMaker pueden ayudar a las organizaciones a obtener información tanto de datos estructurados como no estructurados. Por ejemplo, puede utilizar Amazon SageMaker Data Wrangler para simplificar la preparación de datos estructurados con visualizaciones de datos integradas mediante una interfaz visual sin código. SageMaker Data Wrangler incluye más de 300 transformaciones de datos integradas, para que pueda normalizar, transformar y combinar características de forma rápida sin tener que escribir código. Si lo prefiere, también puede incorporar sus propias transformaciones en Python o Apache Spark. En el caso de datos no estructurados, necesita conjuntos de datos de alta calidad y etiquetados de mayor tamaño. Gracias a Amazon SageMaker Ground Truth Plus, puede crear conjuntos de datos de entrenamiento de ML de alta calidad y reducir los costos de etiquetado de datos hasta en un 40 % sin tener que crear aplicaciones de etiquetado ni administrar una plantilla de etiquetado por cuenta propia.
En el caso de analistas o usuarios empresariales que prefieran preparar datos dentro de un cuaderno, es posible examinar, descubrir y conectarse de manera visual a entornos de procesamiento de datos de Spark que se ejecutan en Amazon EMR desde los cuadernos de Amazon SageMaker Studio con tan solo unos clics. Una vez conectado, puede consultar, explorar y visualizar los datos de forma interactiva, y ejecutar trabajos de Spark con el lenguaje que elija (SQL, Python o Scala) para crear flujos de trabajo de preparación de datos y ML completos.