Recursos do Amazon Comprehend
Por que o Amazon Comprehend?
O Amazon Comprehend é um serviço de processamento de linguagem natural (PLN) que usa machine learning (ML) para descobrir insights no texto. O Amazon Comprehend fornece reconhecimento personalizado de entidades, classificação personalizada, extração de frases-chave, análise de sentimento, reconhecimento de entidades e mais APIs para facilitar a integração do NLP às aplicações. Basta chamar as APIs do Amazon Comprehend em sua aplicação e fornecer a localização do documento ou texto de origem. As APIs emitirão uma saída com entidades, frases importantes, sentimentos e idioma em um formato JSON, que poderá ser usado no seu aplicativo.
Reconhecimento personalizado de entidades
O reconhecimento personalizado de entidades permite personalizar o Amazon Comprehend para identificar termos específicos de seu domínio. Usando o AutoML, o Amazon Comprehend aprende com um pequeno conjunto de exemplos (como uma lista de números de apólices, números de declarações ou SSN) e treina um modelo particular personalizado para reconhecer esses termos, como números de declarações em qualquer outro bloco de texto em PDFs, texto simples ou documentos do Microsoft Word, sem necessidade de ML. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: uma seguradora deseja analisar documentos de texto em busca de entidades específicas para sua linha de negócios, número de apólices.
Texto de exemplo: Olá, meu nome é Sam Ford e preciso acionar o seguro devido a um acidente de carro. O código da minha apólice é 456-YQT.
Entidade Categoria Contagem Confiança 456-YQT ID da Apólice 1 0.95
Classificação personalizada
A API de classificação personalizada permite que você crie facilmente modelos de classificação de texto personalizados usando rótulos específicos da empresa, sem necessidade de aprender ML. Por exemplo, a organização de suporte ao cliente pode usar a classificação personalizada para categorizar automaticamente solicitações de entrada por tipo de problema, de acordo com a descrição do problema pelo cliente. Com o modelo personalizado, é fácil moderar comentários de sites, selecionar feedback de clientes e organizar documentos do grupo de trabalho. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: vamos supor que você quer organizar o feedback do suporte ao cliente em uma companhia aérea. Você quer organizar cada feedback em perguntas sobre a conta, reembolso de passagens e reclamações sobre voos. Para treinar o serviço, você cria um arquivo CSV contendo texto de exemplo de cada problema e aplica a cada amostra uma das três etiquetas concernentes. O serviço treinará automaticamente um modelo personalizado para você. Para usar o modelo a fim de analisar todas as chamadas do dia seguinte, você envia cada arquivo de texto ao serviço e recebe os resultados rotulados, juntamente com uma confiança da correspondência de rótulo.
Texto Rótulo Pontuação de confiança Linha 0 Pergunta sobre a conta 0,92 Linha 1 Reembolso de passagem 1 Linha 2 Reclamação sobre voo 1 Linha 3 Reclamação sobre voo 0,91 Doc5.csv Reembolso de passagem 1
Reconhecimento de entidades
A API Entity Recognition retorna as entidades especificadas (“Pessoas”, “Lugares”, “Locais” etc.) que são automaticamente categorizadas com base no texto fornecido. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: neste exemplo, vemos a descrição de uma empresa. A API identifica entidades como Organização, Data e Localização, e retorna uma pontuação de confiança.
Texto de amostra: a empresa Amazon.com, Inc. fica em Seattle, WA, EUA, e foi fundada em 5 de julho de 1994 por Jeff Bezos para que os clientes comprassem de tudo, de livros até liquidificadores. Seattle fica ao norte de Portland e ao sul de Vancouver, BC, Canadá. Outras empresas de destaque sediadas em Seattle são Starbucks e Boeing.
Entidade Categoria Confiança Amazon.com, Inc.
Empresa 0,96 Seattle, WA Local 0,96 5 de julho de 1994 Data 0,99 Jeff Bezos Pessoa 0,99 Seattle
Local 0,98 Portland
Local 0,99 Vancouver, BC Local 0,97 Starbucks
Empresa 0,91 Boeing
Empresa 0,99
Análise de sentimento
A API Sentiment Analysis retorna dados sobre o sentimento geral captado em um texto (positivo, negativo, neutro ou misto). Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: o cliente está postando seus comentários sobre um par de sapatos. A API identifica o sentimento expressado pelo cliente e também gera uma pontuação de confiança.
Texto de amostra: Eu pedi um tamanho pequeno e esperava que coubesse certinho, mas o que veio parecia mais tamanho médio. A qualidade era excelente. O marrom era um pouco mais claro do que a foto, mas era quase igual. Seria muito melhor se o interior do sapato fosse revestido com algodão ou lã.
Sentimento Pontuação Misto 0,89 Positivo 0,09 Negativo 0,01 Neutro 0,00
Sentimento direcionado
O sentimento direcionado fornece insights de sentimento mais detalhados, identificando o sentimento (positivo, negativo, neutro ou misto) em relação às entidades existentes no texto. Consulte esta documentação para obter mais detalhes.
-
Exemplo: neste exemplo, um restaurante está analisando a avaliação de um cliente para entender onde poder melhorar o negócio.
Exemplo de texto: adorei o hambúrguer, mas o atendimento foi lento.
Texto Tipo de entidade Pontuação de confiança da entidade Sentimento Pontuação I Pessoa 0,99 Neutro 0,99 Hambúrguer Outros 0,99 Positivo 0,99 Serviço Atributo 0,99 Negativo 0,99
Identificação e redação de PII
Use os recursos de ML do Amazon Comprehend para detectar e redigir informações de identificação pessoal (PII) em e-mails personalizados, tíquetes de suporte, análises de produtos, mídia social e outros. Dispensa a necessidade de experiência em ML. Por exemplo, você pode analisar tíquetes de suporte e artigos de conhecimento para detectar entidades de PII e redigir o texto antes de indexar os documentos na solução de pesquisa. Depois disso, as soluções de pesquisa ficam livres das entidades de PII nos documentos. A redação de entidades de PII o ajuda a proteger a privacidade e cumprir leis e regulamentos locais. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: um cliente quer redigir dados pessoais e financeiros de um extrato bancário. A API de redação de PII identificará e redigirá PII junto com uma pontuação de confiança.
Texto de amostra: Olá John Smith. Sua conta de cartão de crédito LLC 1111-0000-1111-0008 da AnyCompany Financial Services tem um pagamento mínimo de USD 24,53 a vencer em 31 de julho. Com base em suas configurações de pagamento automático, sacaremos seu pagamento na data de vencimento da sua conta bancária número XXXXXX1111 com o número de identificação XXXXX0000.
Entidade
Tipo
Pontuação
John Smith
Nome
0,99 ou mais
1111-0000-111-0008
Número de crédito/débito
0,99 ou mais
31 de julho
Data/hora
0,99 ou mais
XXXXXX111
Número da conta bancária
0,99 ou mais
XXXXX0000
Número de identificação bancária
0,99 ou mais
Detecção de toxicidade
A detecção abrangente de toxicidade fornece uma solução simples baseada em NLP para detecção de conteúdo tóxico em documentos baseados em texto. Esse recurso está disponível imediatamente para moderar conversas entre pares em plataformas online e entradas e saídas de IA generativa. Consulte esta documentação para obter mais detalhes.
Classificação de segurança de prompts
O Comprehend fornece um classificador binário pré-treinado que pode classificar o prompt de entrada como prejudicial ou não. Isso pode ser integrado para permitir que os LLMs respondam apenas a conteúdos inofensivos. Consulte esta documentação para obter mais detalhes
Extração de frases-chave
A API Keyphrase Extraction retorna frases-chave ou pontos de fala, bem como uma pontuação de confiança, para confirmar que se trata de uma frase-chave. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: o cliente está comparando uma câmera DSLR com uma câmera de filme instantânea. A API extrai frases chave e retorna uma pontuação de confiança sobre os resultados.
Texto de amostra: sou um fotógrafo entusiasmado pelo ofício e dou preferência à minha câmera digital DSLR ou à instantânea que carrego comigo para uso eventual. Apesar de não haver nenhum equipamento igual à minha DSLR em matéria de potência e conveniência, há algo mágico que envolve minha câmera instantânea de filme. Talvez seja o fato de você estar trabalhando com filme de verdade, ou então porque cada foto é um artefato físico único (o que é algo especial no mundo em que vivemos hoje, com Instagram e Facebook, onde uma dúzia de fotos sai por uma bagatela). O que sei é que é uma delícia trabalhar com essas máquinas, e os olhos das pessoas brilham quando você tira da bolsa uma câmera dessas em uma festa.
Frase importante Confiança um fotógrafo entusiasmado 0,99
minha DSLR 0,97 minha câmera instantânea de filme 0,99
uso eventual 0,99
potência e conveniência 0,94 filme de verdade 0,99 cada foto 0,92 um artefato físico único 0,99
hoje 0,91 mundo 0,99
Instagram e Facebook 0,99
Detecção de eventos
O Comprehend Events permite extrair a estrutura de eventos de um documento, destilando páginas de texto para facilitar o processamento de dados para consumo pelas suas aplicações de IA ou ferramentas de visualização de gráfico. Com essa API, você responde às perguntas “quem, o que e quando” sobre grandes conjuntos de documentos, em grande escala e sem experiência prévia de PLN. Use o Comprehend Events para extrair informações detalhadas sobre eventos do mundo real e entidades associadas expressas em texto não estruturado. Consulte esta página da documentação para obter mais detalhes.
Detecção de idioma
A API Language Detection identifica automaticamente texto escrito em mais de 100 idiomas e retorna o idioma dominante com uma pontuação de confiança para confirmar que há um idioma dominante. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: a API analisa o texto e consegue identificar que o idioma dominante no texto é italiano, além de emitir uma pontuação de confiança.
Texto de amostra: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
Código de idioma ISO-639-1 Idioma Confiança it Italiano 1,0
Análise sintática
A API Syntax do Amazon Comprehend possibilita aos clientes analisar texto usando tokenização e Parts of Speech (PoS – Partes da Fala), além de identificar limites de palavras e etiquetas, como substantivos e adjetivos, em um texto. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: vamos analisar um breve documento usando a API Syntax do Comprehend. A Syntax API tokeniza (define limites de palavras) texto e rotula cada palavra com a sua parte do discurso associada, como substantivo e verbo. Além de observar o deslocamento de início e término (para que você saiba em que ponto a palavra está no texto), também fornecemos uma pontuação de confiança.
Texto de amostra: Adoro meu novo e rápido Kindle Fire!
Texto Tag I Pronome Amor Verbo
Meu Pronome Rápido Adjetivo , Pontuação Novo Adjetivo Kindle Nome próprio Fire
Nome próprio ! Pontuação
Modelagem de tópicos
A modelagem de tópicos identifica termos ou tópicos relevantes de uma coleção de documentos armazenados no Amazon S3. Ela identificará os tópicos mais comuns da coleção e os organizará em grupos, então mapeará quais documentos pertencem a qual tópico. Consulte esta página da documentação para obter mais detalhes.
-
Exemplo: se os documentos (Doc1.txt, Doc2.txt, Doc3.txt e Doc4.txt) forem armazenados no Amazon S3 e você apontar o Amazon Comprehend para os locais correspondentes, o Comprehend analisará os documentos e retornará duas visualizações:
1. Agrupamento de palavras-chave que são tópicos
Cada grupo de palavras-chave está associado a um grupo de tópicos. Peso refere-se à prevalência da palavra-chave dentro do grupo. As palavras-chave com peso próximo a 1 são as mais indicativas do contexto do grupo de tópicos.Grupo de tópicos Palavras-chave Peso 1 Amazon 0,87 1 Seattle 0,65 2 Férias 0,78 2 Compras 0,67 Cada grupo de palavras-chave está associado a um grupo de tópicos. Peso refere-se à prevalência da palavra-chave dentro do grupo. As palavras-chave com peso próximo a 1 são as mais indicativas do contexto do grupo de tópicos.2. Agrupamento de documentos por tópicos
Nome do documento Grupo de tópicos Proporção Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Cada documento é mapeado para um grupo de tópicos baseado na proporção das palavras-chave com peso do grupo de tópicos que estão presentes no documento.
Suporte multilíngue
O Amazon Comprehend pode executar análise de textos em alemão, inglês, espanhol, italiano,
português, francês, japonês, coreano, hindu, árabe, chinês (simplificado), chinês (tradicional). Para construir aplicações em outros idiomas, os clientes podem usar o Amazon Translate para converter o texto em um idioma aceito no Amazon Comprehend e, em seguida, usar o Amazon Comprehend para realizar a análise do texto. Para obter mais detalhes sobre o suporte de idiomas, consulte a página de documentação.
Saiba mais sobre os preços do Amazon Comprehend