Características de Amazon SageMaker Ground Truth
Utilice datos generados por humanos para personalizar los FM en tareas específicas o con datos de la empresa y el sector
Ajuste supervisado
A través del aprendizaje supervisado, los modelos proporcionan ejemplos concretos de los resultados deseados. Estos ejemplos se denominan datos de demostración y permiten que un modelo aprenda a responder a futuras solicitudes de usuarios invisibles. Con SageMaker Ground Truth Plus, un equipo de anotadores expertos de AWS puede generar nuevos datos de demostración de alta calidad según sus instrucciones específicas. Algunos ejemplos de datos de demostración incluyen subtítulos para imágenes y videos, resúmenes de texto, respuestas a preguntas, etc. Los datos de demostración se pueden usar para personalizar un FM existente para su caso de uso o para ajustar un modelo que cree desde cero.
- Preguntas y respuestas: con las preguntas y respuestas, puede preparar conjuntos de datos de demostración para entrenar a su modelo de lenguaje de gran tamaño a responder preguntas.
- Subtítulos de imágenes: con los subtítulos de imágenes, puede preparar conjuntos de datos que describan la escena y los objetos de una imagen con gran detalle para entrenar modelos de conversión de texto a imagen para que creen imágenes precisas y creativas en consonancia con su intención. También se pueden usar para entrenar modelos de conversión de imagen a texto para que generen descripciones precisas de la escena de la imagen.
- Subtítulos de video: con los subtítulos de video, puede preparar conjuntos de datos que describan las acciones y la escena de un video con gran detalle para entrenar modelos de conversión de texto a video. Los datos de entrenamiento de subtítulos de video de alta calidad dan como resultado videos más precisos y creativos alineados con su intención. También se pueden utilizar para entrenar modelos de conversión de video a texto para ofrecer una descripción precisa del video.
Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)
En el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), un anotador de datos puede ofrecer comentarios y orientación directos sobre los resultados que ha generado un modelo al valorar o clasificar sus respuestas. Los datos, que se denominan datos de comparación y clasificación, se utilizan luego para entrenar el modelo. Un ejemplo de datos de comparación y clasificación incluye la clasificación de las respuestas de texto de mejor a peor según criterios como la precisión, la relevancia o la claridad. Los datos de comparación y clasificación se pueden usar para personalizar un FM existente para su caso de uso o para ajustar un modelo que cree desde cero.
Seleccione el modelo que mejor se adapte a su caso de uso mediante una evaluación humana
Evaluación de modelos
Aproveche los comentarios humanos para evaluar y comparar el resultado de los modelos con una lista personalizable de los criterios que son más importantes para usted (como precisión, relevancia, toxicidad, sesgo, voz de marca y estilo) y seleccione el modelo que mejor se adapte a su caso de uso. AWS le ofrece diversas formas de comenzar rápidamente con la evaluación de modelos. Puede aprovechar un equipo administrado por AWS para evaluar, comparar y seleccionar modelos a través de SageMaker Ground Truth. Ahora también puede acceder a las funciones de evaluación de modelos a través de SageMaker Studio, SageMaker Jumpstart y Amazon Bedrock, y capacitar a sus equipos internos para que comiencen a evaluar modelos con solo unos pocos clics.
Equipo rojo
Intente obtener deliberadamente respuestas dañinas de un modelo y revise sistemáticamente sus resultados para descubrir vulnerabilidades, lo que mejora la seguridad, la solidez y la fiabilidad generales.
Cree conjuntos de datos etiquetados de alta calidad para el entrenamiento de modelos
Plantillas de etiquetado prediseñadas
Con SageMaker Ground Truth, puede usar más de 30 flujos de trabajo de etiquetado personalizados para múltiples casos de uso de anotaciones en datos de imágenes, videos, texto y nubes de puntos 3D.
- Clasificación de imágenes: el flujo de trabajo de clasificación de imágenes le permite clasificar las imágenes según un conjunto predefinido de etiquetas. La clasificación de imágenes es útil para los modelos de detección de escenas que deben considerar el contexto completo de la imagen. Por ejemplo, podemos crear un modelo de clasificación de imágenes
- Detección de objetos de imagen: puede usar el flujo de trabajo de detección de objetos para identificar y etiquetar objetos de su interés (por ejemplo, vehículos, peatones, perros, gatos) en imágenes. La tarea de etiquetado consiste en dibujar un cuadro delimitador, un cuadrado de dos dimensiones (2D), alrededor de los objetos de interés dentro de una imagen. Los modelos de visión artificial entrenados a partir de imágenes con cuadros delimitadores etiquetados aprenden que los píxeles ubicados dentro del cuadro corresponden al objeto especificado.
- Segmentación semántica de imágenes: puede usar el flujo de trabajo de segmentación semántica para etiquetar las partes exactas de una imagen que corresponden a las etiquetas que su modelo necesita aprender. Proporciona datos de entrenamiento de alta precisión porque los píxeles individuales están etiquetados. Por ejemplo, la forma irregular de un automóvil se puede capturar con exactitud gracias a la segmentación semántica.
- Detección de objetos de video: el flujo de trabajo de detección de objetos de video permite identificar objetos de interés dentro de una secuencia de fotogramas de video. Por ejemplo, al crear un sistema de percepción para un vehículo autónomo, puede detectar otros vehículos cercanos a este en la escena.
- Seguimiento de objetos de video: con el flujo de trabajo de seguimiento de objetos de video, puede seguir la trayectoria de objetos de su interés dentro de una secuencia de fotogramas. Por ejemplo, en el caso de uso de un evento deportivo, puede etiquetar a los jugadores mientras dure el juego.
- Clasificación de clips de video: con el flujo de trabajo de clasificación de clips de video, puede clasificar un archivo de video en categorías especificadas anteriormente. Por ejemplo, puede seleccionar categorías especificadas anteriormente que describan mejor el video, como un evento deportivo o congestión del tráfico en una intersección muy transitada.
- Clasificación de textos: la clasificación de textos incluye la categorización de cadenas de texto con un conjunto predefinido de etiquetas. Se utiliza a menudo para modelos de procesamiento de lenguaje natural (NLP) que identifican cosas como temas (por ejemplo, descripciones de productos, comentarios de películas) u opiniones.
- Reconocimiento de entidades nombradas: el reconocimiento de entidades nombradas (NER) incluye la filtración de datos de textos para encontrar frases que se denominan entidades nombradas, y la categorización de cada una de ellas con una etiqueta, como “persona”, “organización” o “marca”.
- Detección de objetos en una nube de puntos en 3D: con el flujo de trabajo de detección de objetos puede identificar y etiquetar objetos de su interés dentro de una nube de puntos en 3D. Por ejemplo, en un caso de uso de un vehículo autónomo, puede etiquetar vehículos, carriles y peatones con precisión.
- Seguimiento de objetos en una nube de puntos en 3D: con el flujo de trabajo de seguimiento de objetos, puede hacer un seguimiento de la trayectoria de los objetos de interés. Por ejemplo, un vehículo autónomo necesita controlar el movimiento de otros vehículos, carriles y peatones.
- Segmentación semántica en una nube de puntos en 3D: con el flujo de trabajo de segmentación semántica, puede segmentar los puntos de una nube de puntos en 3D en categorías previamente especificadas. Por ejemplo, en el caso de los vehículos autónomos, Ground Truth podría categorizar la presencia de calles, follaje y estructuras.
Flujos de trabajo personalizados
SageMaker Ground Truth le permite crear sus propios flujos de trabajo de etiquetado personalizados. Un flujo de trabajo consiste en: (1) una plantilla de interfaz de usuario que proporciona a los etiquetadores humanos instrucciones y herramientas para completar la tarea de etiquetado. Se encuentra disponible una amplia selección de plantillas de interfaz de usuario y también es posible cargar una plantilla de JavaScript o HTML propia, (2) cualquier lógica de preprocesamiento encapsulada en una función de AWS Lambda. La función de Lambda puede suministrar los datos para etiquetarlos con cualquier contexto adicional para el etiquetador, y (3) cualquier lógica de posprocesamiento encapsulada en una función de AWS Lambda, para utilizarla para agregar un algoritmo de mejora de la precisión. El algoritmo puede evaluar la calidad de las anotaciones hechas manualmente o puede encontrar consenso en cuanto a lo que está “bien” cuando los mismos datos se proveen a diferentes etiquetadores.
Garantía de calidad y consenso
SageMaker Ground Truth le permite validar la calidad de las tareas de anotación mediante la implementación de medidas de control de calidad, como la configuración de los flujos de trabajo de aprobación, la revisión y el cambio de las anotaciones, el enrutamiento de las tareas, el aprovechamiento de la validación automática y el seguimiento de las métricas de calidad. También puede crear consenso en su flujo de trabajo para acordar el nivel de precisión de los datos mediante el uso de algoritmos para enviar las revisiones de las tareas a varias personas.
Seleccione la opción de personal que mejor se adapte a sus necesidades
Ya sea que desee que AWS administre el personal en su nombre o aproveche personal interno existente, SageMaker Ground Truth ofrece opciones y flexibilidad.
Personal administrado por AWS
SageMaker Ground Truth Plus puede contratar y administrar personal escalable y experto en el dominio en su nombre. Por ejemplo, es posible que necesite un equipo con experiencia en el etiquetado de archivos de audio o que domine un idioma específico. Para casos de uso más avanzados, es posible que necesite un equipo de trabajo que pueda generar contenido escrito para los datos de demostración. AWS puede reclutar, contratar, formar y administrar equipos de cualquier tamaño para proyectos de duración variada en todo el mundo. Un personal administrado por AWS puede cumplir sus requisitos de seguridad, privacidad y conformidad.
Personal privado interno
Si ya cuenta con un equipo de operaciones de datos interno, este puede aprovechar las herramientas y los flujos de trabajo de SageMaker Ground Truth para anotar datos en una amplia variedad de casos de uso. Esta es una opción si prefiere la experiencia de su propio equipo o si tiene ciertos requisitos de confidencialidad de los datos.
Su proveedor preferido
Puede seleccionar un proveedor de anotaciones preferido de AWS Marketplace para completar sus tareas en SageMaker Ground Truth. Esto ayuda a reducir el trabajo manual de encontrar trabajadores individuales y formar un equipo.
Colaboración
La colaboración colectiva de su trabajo de anotación a través de Amazon Mechanical Turk puede ser un método rentable y escalable tanto para proyectos pequeños como grandes. Puede acceder a una gran cantidad de trabajadores geográficamente diversos, diseñar e iterar tareas rápidamente y adaptar el flujo de trabajo a sus requisitos específicos.
Acelere y automatice las tareas con intervención humana (human-in-the-loop) al mismo tiempo que reduce los costos
Herramientas de asistencia integradas
Utilice las herramientas de asistencia integradas de SageMaker Ground Truth para reducir el esfuerzo necesario para aplicar las etiquetas y ayudar a los trabajadores a llevar a cabo de forma eficiente las tareas con intervención humana, lo que ahorra tiempo y costos.
Paneles interactivos
SageMaker Ground Truth Plus proporciona paneles interactivos e interfaces de usuario, para supervisar el progreso de los conjuntos de datos de formación en varios proyectos, hacer un seguimiento de las métricas del proyecto, como el rendimiento diario, inspeccionar la calidad de las etiquetas y proporcionar comentarios sobre los datos etiquetados.