Sprinklr reduz custos de inferência de machine learning no AWS Inferentia

2021

A Sprinklr fornece uma plataforma unificada de gerenciamento da experiência do cliente (Unified-CXM) que combina diferentes aplicações para marketing, publicidade, pesquisa, atendimento ao cliente, vendas e engajamento em mídias sociais. Como uma empresa que prioriza o uso da nuvem, a Sprinklr está sempre buscando melhorar a eficiência e otimizar sua economia de custos. Para ajudá-la a atingir suas metas, a empresa usa a Amazon Web Services (AWS), especificamente o Amazon Elastic Compute Cloud (Amazon EC2), que fornece capacidade computacional segura e redimensionável na nuvem.

Em 2021, a Sprinklr teve a oportunidade de experimentar as instâncias Inf1 do Amazon EC2 executadas pelo AWS Inferentia, um chip de inferência de machine learning (ML) de alto desempenho criado do zero e otimizado para aplicações de inferência de ML. Ao migrar as workloads em tempo real na plataforma Unified-CXM de instâncias do Amazon EC2 baseadas em GPU para o AWS Inferentia, a Sprinklr obteve uma economia significativa de custos e percebeu uma redução de latência em mais de 30% nas workloads. Além disso, ao reduzir a latência, a empresa também melhorou o desempenho de seus produtos e serviços para seus clientes.

Uso de ML para criar uma melhor experiência para o cliente

Fundada em 2009, a Sprinklr é uma empresa norte-americana de software com funcionários em todo o mundo. Como uma das primeiras a adotar novos serviços da AWS, sua missão é ajudar organizações ao redor do mundo a aumentarem a satisfação dos clientes. A empresa oferece mais de 31 produtos de software diferentes em 4 pacotes de produtos robustos e é responsável pelo desenvolvimento de um mecanismo avançado de inteligência artificial proprietário, para que as empresas analisem dados disponíveis publicamente e interajam com clientes em 30 canais digitais e sociais. Com a Sprinklr, as empresas podem colaborar internamente entre equipes e externamente entre canais digitais para criar uma melhor experiência para o cliente.

A Sprinklr está sempre buscando melhorar a experiência do cliente e, ao mesmo tempo, reduzir os custos de computação e otimizar a eficiência. “Nosso objetivo é sempre usar a tecnologia mais recente para ter uma maior economia de custos”, diz Jamal Mazhar, vice-presidente de infraestrutura e DevOps da Sprinklr. A Sprinklr esperava reduzir a latência e, ao mesmo tempo, reduzir seus custos de inferência de ML. Eles buscaram as inovações da AWS para enfrentar esses desafios. “Quando conhecemos o AWS Inferentia, foi um processo natural levá-lo em consideração em nossas iniciativas de custo”, diz Yogin Patel, diretor sênior de engenharia de produto e inteligência artificial da Sprinklr. Com o objetivo de reduzir os custos de computação e melhorar a satisfação do cliente, a Sprinklr começou a testar as instâncias Inf1 do Amazon EC2 em julho de 2021.

Trabalho contínuo a favor do desempenho e da economia de custos

A plataforma Unified-CXM da Sprinklr usa algoritmos de ML em dados não estruturados provenientes de diversos canais para fornecer insights aos clientes. Por exemplo, os modelos de ML de processamento de linguagem natural e visão computacional da Sprinklr analisam diferentes formatos de dados provenientes de postagens de mídia social, postagens de blog, conteúdo de vídeo e outros conteúdos disponíveis em domínio público em mais de 30 canais. Com esse conteúdo, a Sprinklr é capaz de captar o sentimento e a intenção dos clientes, fornecendo a eles as informações sobre o produto. Atualmente, a empresa executa cerca de 10 bilhões de previsões por dia em seus mais de 500 modelos. A Sprinklr divide suas workloads em dois grupos: otimização de latência e otimização de throughput. A latência se refere ao tempo necessário para uma inferência chegar ao destino, e o throughput está relacionado ao número de pacotes que são processados em um período específico. “Se houver uma queda de latência de 20% em pelo menos um modelo, isso resultará em uma economia de custos muito grande”, diz Patel.

O AWS Inferentia apresenta uma grande quantidade de memória no chip, que pode ser usada para armazenar grandes modelos em cache, em vez de armazená-los fora do chip. Isso pode ter um impacto significativo na redução da latência de inferência, uma vez que os núcleos de processamento do AWS Inferentia, chamados NeuronCores, têm acesso de alta velocidade aos modelos armazenados em memória dentro do chip e não são limitados pela largura de banda de memória fora do chip. Os NeuronCores também fornecem inferência de alto desempenho na nuvem com custos significativamente mais baixos e facilitam a integração do ML de desenvolvedores em suas aplicações de negócios.

Quando a Sprinklr começou a migrar modelos para instâncias Inf1 do Amazon EC2 e a executar testes comparativos, a empresa percebeu uma redução de latência em mais de 30% nas workloads de otimização de latência. “Estamos sempre interessados em testar novos serviços da AWS, experimentar workloads e comparar novas instâncias”, diz Patel. Ao perceber uma redução significativa da latência, proporcionada por testes conduzidos no AWS Inferentia, a Sprinklr decidiu migrar todas as workloads de latência otimizada para instâncias Inf1 do Amazon EC2. “O objetivo é sempre obter a menor latência, o que significa uma melhor experiência para o cliente”, diz Mazhar. "Usando as instâncias Inf1 do Amazon EC2, conseguimos conquistar esse objetivo."

Depois de migrar cerca de 20 modelos para instâncias Inf1 do Amazon EC2, a Sprinklr começou a migrar os modelos de visão computacional e de texto para melhorar a eficiência e reduzir custos. Com isso, agora a equipe pode implantar um modelo usando instâncias Inf1 do Amazon EC2 em menos de 2 semanas. A Sprinklr percebeu que os amplos recursos e suporte disponibilizados pelo AWS Inferentia simplificaram o processo de migração. “Conseguimos entrar em contato rapidamente com as equipes certas”, diz Mazhar. “O suporte da AWS nos ajuda a aumentar a satisfação do cliente e a produtividade da equipe.”

Inovação a favor da melhoria da eficiência

À medida que a Sprinklr realiza a migração de modelos para o AWS Inferentia, mais modelos relacionados à voz serão adicionados, incluindo reconhecimento automático de fala e de intenção, a fim de ajudar as empresas a interagir ainda mais com os clientes. A Sprinklr espera que a implantação desses modelos no AWS Inferentia ofereça aos clientes o desempenho e a baixa latência de que eles precisam, com custos significativamente mais baixos.

Sobre a Sprinklr

Com inteligência artificial avançada, a plataforma Unified-CXM da Sprinklr ajuda empresas a oferecer experiências humanas a todos os clientes, a todo tempo e em qualquer canal moderno. Com sede na cidade de Nova York, a Sprinklr trabalha com mais de 1.000 empresas globais e mais de 50% das empresas incluídas na lista Fortune 100.

Benefícios da AWS

Redução da latência em mais de 30% nos modelos migrados
Custos de computação reduzidos para modelos migrados
Fornecimento de insights a partir de dados não estruturados usando inteligência artificial
Experiência do cliente aprimorada através de inteligência artificial e ML
Possibilidade de implantação de um modelo em menos de 2 semanas
Satisfação e produtividade da equipe que recebeu o suporte

Serviços da AWS usados

Inf1 do Amazon EC2

As instâncias Inf1 do Amazon EC2 oferecem inferência de ML de alta performance e o menor custo na nuvem. As instâncias Inf1 são criadas do zero para dar suporte a aplicações de inferência de machine learning.

Saiba mais »

AWS Inferentia

O AWS Inferentia é o primeiro chip personalizado da Amazon desenvolvido para acelerar workloads de aprendizado profundo e fornecer alta performance de inferência na nuvem, reduzindo o custo total da inferência e facilitando a integração de machine learning para desenvolvedores em suas aplicações de negócios.