Use dados gerados por humanos para personalizar os modelos de base (FM) em tarefas específicas ou com dados da empresa e do setor

Ajuste fino supervisionado

Por meio do aprendizado supervisionado, os modelos recebem exemplos concretos dos resultados desejados. Esses exemplos são chamados de dados de demonstração e permitem que um modelo aprenda a responder e atender a solicitações futuras e inéditas dos usuários. Com o SageMaker Ground Truth Plus, uma equipe de anotadores especialistas da AWS pode gerar novos dados de demonstração de alta qualidade com base em suas instruções específicas. Alguns exemplos de dados de demonstração incluem legendas para imagens e vídeos, resumos de texto, respostas a perguntas e muito mais. Os dados de demonstração podem ser usados para personalizar um FM existente para seu caso de uso ou para ajustar um modelo criado do zero.

  • Perguntas e respostas: com os pares de perguntas e respostas, você pode preparar conjuntos de dados de demonstração para treinar seu grande modelo de linguagem sobre como responder a perguntas.
Perguntas e respostas do Amazon SageMaker Ground Truth Plus
  • Legendas de imagens: com as legendas de imagens, é possível preparar conjuntos de dados que descrevem a cena e os objetos em uma imagem com riqueza de detalhes para treinar modelos de conversão de texto em imagem com a finalidade de criar imagens precisas e criativas alinhadas com a sua intenção. Também podem ser usadas para treinar modelos de conversão de texto em imagem para que produzam descrições precisas da cena apresentada na imagem.
Legendas de imagens do Amazon SageMaker Ground Truth Plus
  • Legendas de vídeo: com as legendas de vídeo, você pode preparar conjuntos de dados que descrevem detalhadamente as ações e a cena de um vídeo para treinar modelos de conversão de texto para vídeo. Os dados de treinamento de legendas de vídeo de alta qualidade resultam em vídeos mais precisos e criativos, alinhados com a sua intenção. Também é possível usá-los para treinar modelos de conversão de vídeo para texto a fim de fornecer uma descrição precisa do vídeo.
Legendas de vídeo: “legendas de vídeo do Amazon SageMaker Ground Truth Plus”

Aprendizagem por reforço a partir do feedback humano (RLHF)

No aprendizado por reforço a partir do feedback humano (RLHF), um anotador de dados pode fornecer feedback direto e orientações sobre o resultado que um modelo gerou hierarquizando e/ou classificando suas respostas. Os dados, chamados de dados de comparação e classificação, são então usados para treinar o modelo. Um exemplo de dados de comparação e classificação inclui classificar as respostas de texto da melhor para a pior com base em critérios como precisão, relevância ou clareza. Os dados de comparação e classificação podem ser usados para personalizar um FM existente para seu caso de uso ou para ajustar um modelo criado do zero.

Detecção de objetos do Amazon SageMaker Ground Truth

Selecione o modelo mais adequado para seu caso de uso por meio da avaliação humana

Avaliação do modelo

Use o feedback humano para avaliar e comparar o resultado dos modelos com uma lista personalizável dos critérios mais importantes para você (como precisão, relevância, toxicidade, tendência, voz da marca e estilo) e selecione o modelo mais adequado para seu caso de uso. A AWS oferece uma variedade de maneiras de começar rapidamente com a avaliação do modelo. Você pode aproveitar uma equipe gerenciada pela AWS para avaliar, comparar e selecionar modelos por meio do SageMaker Ground Truth. Agora você também pode acessar os recursos de avaliação de modelos por meio do SageMaker Studio, do SageMaker Jumpstart e do Amazon Bedrock, e capacitar suas equipes internas para começarem a avaliar modelos com apenas alguns cliques.

Equipe vermelha

Tente deliberadamente obter respostas ofensivas de um modelo e revise sistematicamente seus resultados para descobrir vulnerabilidades, melhorando em geral a segurança, a robustez e a confiabilidade.

Crie conjuntos de dados rotulados de alta qualidade para o treinamento de modelos

Modelos de rotulagem pré-criados

Com o SageMaker Ground Truth, você pode usar mais de 30 fluxos de trabalho de rotulagem criados especificamente para vários casos de uso de anotações em imagens, dados, vídeos, texto e nuvens de pontos 3D.

  • Classificação de imagens: o fluxo de trabalho da classificação de imagens permite categorizar imagens em relação a um conjunto predefinido de rótulos. A classificação de imagens é útil para modelos de detecção de cenas que precisam considerar todo o contexto da imagem. Por exemplo, podemos criar um modelo de classificação de imagens
Classificação de imagens
  • Detecção de objetos de imagens: você pode usar o fluxo de trabalho de detecção de objetos para identificar e rotular objetos de interesse (por exemplo, veículos, pedestres, cães, gatos) em imagens. A tarefa de rotulagem envolve desenhar uma caixa delimitadora (uma caixa bidimensional, ou 2D) em volta dos objetos de interesse em uma imagem. Modelos de visão computadorizada treinados com imagens que têm caixas delimitadoras rotuladas aprendem que os pixels dentro da caixa correspondem ao objeto especificado.
Detecção de objetos de imagens
  • Segmentação semântica de imagens: você pode usar o fluxo de trabalho da segmentação semântica para rotular as partes exatas de uma imagem que correspondem aos rótulos que o modelo precisa aprender. Isso oferece dados de treinamento de alta precisão porque os pixels individuais são rotulados. Por exemplo, a forma irregular de um carro em uma imagem pode ser capturada de forma exata com a segmentação semântica.
Segmentação semântica de imagens
  • Detecção de objetos de vídeo : o fluxo de trabalho da detecção de objetos de vídeo permite identificar objetos de interesse em uma sequência de quadros do vídeo. Por exemplo, na criação de um sistema de percepção para um veículo autônomo, você pode detectar outros veículos presentes ao redor do veículo autônomo.
Detecção de objetos de vídeo
  • Rastreamento de objetos de vídeo: com o fluxo de trabalho de rastreamento de objetos de vídeo, é possível rastrear objetos de interesse em uma sequência de quadros de vídeo. Por exemplo, em um caso de uso em um jogo esportivo, é possível rotular os jogadores com precisão durante todo o jogo.
Rastreamento de objetos de vídeo
  • Classificação de clipes de vídeo: com o fluxo de trabalho da classificação de clipes de vídeo, é possível classificar um arquivo de vídeo em uma categoria pré-especificada. Por exemplo, você pode selecionar categorias predeterminadas que melhor descrevem o vídeo, como uma partida esportiva ou um congestionamento de tráfego em um cruzamento movimentado.
Classificação de clipes de vídeo
  • Classificação de textos: a classificação de textos envolve a categorização de strings de texto em relação a um conjunto de rótulos predefinido. Muitas vezes, ela é usada para modelos de processamento de linguagem natural (PLN) que identificam coisas como tópicos (por exemplo, descrições de produtos, avaliações de filmes) ou sentimentos.
Classificação de textos
  • Reconhecimento de entidades nomeadas: o reconhecimento de entidades nomeadas (REN) envolve a pesquisa de dados em texto para localizar frases denominadas entidades. Cada entidade é categorizada com um rótulo, como “pessoa”, “organização” ou “marca”.
Reconhecimento de entidade nomeada
  • Detecção de objetos em nuvem de pontos 3D: o fluxo de trabalho da detecção de objetos permite identificar e rotular objetos de interesse em uma nuvem de pontos 3D. Por exemplo, em um caso de uso de veículo autônomo, você pode rotular veículos, pistas e pedestres com precisão.
Detecção de objetos em nuvem de pontos 3D
  • Rastreamento de objetos em nuvem de pontos 3D: com o fluxo de trabalho do rastreamento de objetos, você pode rastrear a trajetória dos objetos de interesse. Por exemplo, um veículo autônomo precisa rastrear o movimento de outros veículos, pistas e pedestres.
Rastreamento de objetos em nuvem de pontos 3D
  • Segmentação semântica da nuvem de pontos 3D: com o fluxo de trabalho da segmentação semântica, você pode segmentar uma nuvem de pontos 3D em categorias predefinidas. No exemplo de veículos autônomos, o Ground Truth poderia categorizar a presença de ruas, vegetação e estruturas.
Segmentação semântica da nuvem de pontos 3D

Fluxos de trabalho personalizados

O SageMaker Ground Truth permite que você crie seus próprios fluxos de trabalho de rotulagem personalizados. Um fluxo de trabalho consiste em: (1) Um modelo de interface de usuário que fornece aos rotuladores humanos instruções e ferramentas para concluir a tarefa de rotulagem. Uma grande seleção de modelos de interface do usuário está disponível ou você pode fazer o upload do seu próprio modelo JavaScript/HTML. (2) Qualquer lógica de pré-processamento encapsulada em uma função do AWS Lambda. A função Lambda pode oferecer contexto adicional sobre os dados para uso do rotulador e (3) Qualquer lógica de pós-processamento encapsulada em uma função do AWS Lambda, pode usada na adição de um algoritmo de melhoria da precisão. O algoritmo pode avaliar a qualidade das anotações humanas ou pode encontrar um consenso sobre o que é “certo” quando os mesmos dados são fornecidos a vários rotuladores humanos.

Crie seu próprio fluxo de trabalho personalizado no Ground Truth

Garantia de qualidade e consenso

O SageMaker Ground Truth permite que você valide a qualidade das tarefas de anotação implementando etapas de garantia de qualidade, como configurar fluxos de trabalho de aprovação, revisar e alterar anotações, rotear tarefas, usar a validação da máquina e rastrear métricas de qualidade. Você também pode criar um consenso em seu fluxo de trabalho para concordar com o nível de precisão dos dados usando algoritmos para encaminhar as revisões de tarefas para várias pessoas.

Controle de qualidade e consenso

Selecione a equipe que funciona para você

Se você quiser que a AWS gerencie uma equipe em seu nome ou aproveite uma equipe interna existente, o SageMaker Ground Truth oferece opções e flexibilidade.

Equipe gerenciada pela AWS

O SageMaker Ground Truth Plus pode contratar e gerenciar uma equipe de trabalho escalável e especializada em seu nome. Por exemplo, você pode precisar de uma equipe experiente na rotulagem de arquivos de áudio ou com proficiência em um idioma específico. Para casos de uso mais avançados, você poderá precisar de uma equipe de trabalho que possa gerar conteúdo escrito para os dados de demonstração. A AWS pode recrutar, contratar, treinar e gerenciar equipes de qualquer tamanho para projetos de duração variada, em todo o mundo. Uma equipe gerenciada pela AWS pode atender aos seus requisitos de segurança, privacidade e conformidade.

Equipe privada interna

Se você já tem uma equipe interna de operações de dados, ela pode utilizar as ferramentas e os fluxos de trabalho do SageMaker Ground Truth para anotar os dados em uma grande variedade de casos de uso. Essa é uma opção se você preferir a experiência de sua própria equipe ou tiver determinados requisitos de confidencialidade de dados.

Seu fornecedor preferido

Você pode selecionar um fornecedor de anotações preferido no AWS Marketplace para concluir suas tarefas no SageMaker Ground Truth. Isso ajuda a reduzir o trabalho manual de encontrar os profissionais para formar uma equipe.

Crowd

O crowdsourcing de suas tarefas de anotação por meio do Amazon Mechanical Turk pode ser uma abordagem econômica e escalável para projetos pequenos e grandes. Você pode acessar um grande número de pessoas distribuídas geograficamente, projetar e iterar tarefas rapidamente e adaptar o fluxo de trabalho às suas necessidades específicas.

Acelere e automatize tarefas interativas e, ao mesmo tempo, reduza os custos

Ferramentas assistivas integradas

Use as ferramentas assistivas integradas do SageMaker Ground Truth para reduzir o esforço necessário na aplicação de rótulos e ajudar as equipes a realizar tarefas interativas de forma eficiente, economizando tempo e custos.

Ferramentas assistivas integradas

Painéis interativos

O SageMaker Ground Truth Plus fornece painéis interativos e interfaces de usuário, para que você possa monitorar o progresso dos conjuntos de dados de treinamento em vários projetos, rastrear as métricas do projeto, como o throughput diário, inspecionar a qualidade dos rótulos e fornecer feedback sobre os dados rotulados.

Painéis interativos