Perguntas frequentes do Amazon Redshift

Geral

Dezenas de milhares de clientes usam o Amazon Redshift todos os dias para executar análises SQL na nuvem, processando exabytes de dados para insights de negócios. Independentemente de os seus dados cada vez mais volumosos estarem armazenados em armazenamentos de dados operacionais, data lakes, serviços de dados de streaming ou conjuntos de dados de terceiros, o Amazon Redshift ajuda você a acessar, combinar e compartilhar dados com segurança com o mínimo de movimento ou cópia. O Amazon Redshift está profundamente integrado aos serviços de banco de dados, análise e machine learning da AWS para empregar abordagens de ETL zero ou ajudar você a acessar dados locais para análises quase em tempo real, criar modelos de machine learning em SQL e habilitar a análise do Apache Spark usando dados no Redshift. O Amazon Redshift Serverless permite que engenheiros, desenvolvedores, cientistas de dados e analistas comecem facilmente e dimensionem análises rapidamente em um ambiente de administração zero. Com seu mecanismo e arquitetura Massively Parallel Processing (MPP) que separa computação e armazenamento para dimensionamento eficiente e inovações de desempenho orientadas por machine learning (por exemplo: AutoMaterialized Views), o Amazon Redshift foi criado para grande escala e oferece performance de preço até cinco vezes melhor do que outros armazenamentos de dados na nuvem.

Milhares de clientes escolhem o Amazon Redshift para acelerar seu tempo de obtenção de insights porque ele é um poderoso sistema de análise que se integra bem aos serviços de banco de dados e machine learning, é simplificado para uso e pode se tornar um serviço central para atender a todas as suas necessidades de análise. O Amazon Redshift Serverless provisiona e dimensiona automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis. O Amazon Redshift oferece a melhor relação preço/performance para diversas workloads de análise, sejam elas painéis, desenvolvimento de aplicações, compartilhamento de dados, tarefas de ETL (extrair, transformar, carregar) ou várias outras. Com dezenas de milhares de clientes executando análises em terabytes a petabytes de dados, o Amazon Redshift otimiza a performance real da performance do cliente, com base na telemetria de performance da frota e oferece performance que se adapta linearmente à workload, mantendo os custos baixos. As inovações de performance estão disponíveis para os clientes sem custo adicional. O Amazon Redshift permite que você obtenha insights da execução de análises preditivas e em tempo real em todos os seus dados em seus bancos de dados operacionais, data lake, data warehouse, dados de streaming e conjuntos de dados de terceiros. O Amazon Redshift oferece suporte à segurança líder do setor com gerenciamento de identidade e federação integrados para autenticação única (SSO), autenticação multifator, controle de acesso em nível de coluna, segurança em nível de linha, controle de acesso baseado em funções, Amazon Virtual Private Cloud (Amazon VPC) e redimensionamento mais rápido do cluster.

O Amazon Redshift é totalmente gerenciado pela AWS, portanto, você não precisa mais se preocupar com tarefas de gerenciamento de data warehouse, como provisionamento de hardware, patch de software, instalação, configuração, monitoramento de nós e drives para recuperação de falhas ou backups. A AWS gerencia o trabalho necessário para configurar, operar e escalar um data warehouse em seu nome, liberando você para se concentrar na construção de aplicações. O Amazon Redshift Serverless provisiona e escala automaticamente a capacidade do data warehouse para oferecer alta performance para workloads exigentes e imprevisíveis, e você paga apenas pelos recursos que usa. O Amazon Redshift também tem capacidades de ajuste automático e recomendações de superfície para gerenciar seu warehouse no Redshift Advisor. Para o Redshift Spectrum, o Amazon Redshift gerencia toda a infraestrutura de computação, balanceamento de carga, planejamento, programação e execução de suas consultas nos dados armazenados no Amazon S3. O Amazon Redshift permite a análise de todos os seus dados com integração profunda em serviços de banco de dados com recursos como Amazon Aurora Zero-ETL para Amazon Redshift e consulta federada para acessar dados no local de bancos de dados operacionais como o Amazon RDS e seu data lake Amazon S3. O Redshift permite a ingestão simplificada de dados com pipelines de dados automatizados e sem código que ingerem dados de streaming ou arquivos do Amazon S3 automaticamente. O Redshift também é integrado ao AWS Data Exchange, permitindo que os usuários encontrem, assinem e consultem conjuntos de dados de terceiros e combinem com seus dados para obter insights abrangentes. Com a integração nativa com o Amazon SageMaker, os clientes podem permanecer em seu data warehouse e criar, treinar e criar modelos de machine learning em SQL. O Amazon Redshift atende a todas as suas necessidades de análise de SQL com performance de preço até 5 vezes melhor do que outros data warehouses na nuvem.

O Amazon Redshift é um serviço totalmente gerenciado e oferece opções provisionadas e sem servidor, tornando mais eficiente para você executar e escalar análises sem precisar gerenciar seu data warehouse. Você pode criar um novo endpoint do Amazon Redshift Serverless para provisionar automaticamente o data warehouse em segundos ou pode escolher a opção provisionada para workloads previsíveis.

Com apenas algumas etapas no Console de Gerenciamento da AWS, você pode começar a consultar dados. Você pode aproveitar os conjuntos de dados de amostra pré-carregados, incluindo conjuntos de dados de referência TPC-H, TPC-DS e outras consultas de amostra para iniciar a análise imediatamente. Para começar a usar o Amazon Redshift Serverless, escolha “Experimentar o Amazon Redshift Serverless” e comece a consultar os dados. Comece aqui.

Os resultados do benchmark TPC-DS mostram que o Amazon Redshift oferece o melhor performance de preço pronto para uso, mesmo para um conjunto de dados comparativamente pequeno de 3 TB. O Amazon Redshift oferece performance de preço até 5x melhor do que outros data warehouses na nuvem. Isso significa que você pode se beneficiar da performance de preço líder do Amazon Redshift desde o início, sem ajuste manual. Com base em nossa telemetria de frota de performance, também sabemos que a maioria das workloads são workloads de consulta curta (workloads executadas em menos de 1 segundo). Para essas workloads, os benchmarks mais recentes demonstram que o Amazon Redshift oferece performance de preço até 7 vezes melhor em workloads de alta simultaneidade e baixa latência do que outros data warehouses na nuvem. Saiba mais aqui.

Sim, os especialistas do Amazon Redshift estão disponíveis para responder perguntas e fornecer suporte. Entre em contato conosco e você receberá nossa resposta em um dia útil para discutir como a AWS pode ajudar sua organização.

O armazenamento gerenciado do Amazon Redshift está disponível com tipos de nó RA3 e sem servidor e permite escalar e pagar por computação e armazenamento, de forma independente, para que você possa dimensionar seu cluster com base apenas nas necessidades de computação. Ele usa automaticamente o armazenamento local baseado em SSD de alta performance como cache de camada 1 e aproveita otimizações como temperatura do bloco de dados, idade do bloco de dados e padrões de workload para oferecer alta performance ao escalar o armazenamento automaticamente no Amazon S3, quando necessário, sem a necessidade de ação.

Se você já estiver usando Amazon Redshift Dense Storage ou nós Dense Compute, pode usar Elastic Resize para atualizar os clusters existentes para a nova instância de computação RA3. O Amazon Redshift Serverless e os clusters que usam a instância RA3 usam automaticamente o armazenamento gerenciado pelo Redshift para armazenar dados. Nenhuma outra ação além do uso de instâncias do Amazon Redshift Serverless ou RA3 é necessária para usar esse recurso.

O Amazon Redshift Spectrum é um recurso do Amazon Redshift que permite executar consultas em seu data lake no Amazon S3 sem a necessidade de carregamento de dados ou ETL. Quando você emite uma consulta SQL, ela é enviada para o endpoint do Amazon Redshift, que cria e otimiza um plano de consulta. O Amazon Redshift determina quais dados são locais e quais estão no Amazon S3, gera um plano para minimizar a quantidade de dados do S3 que deve ser lido e solicita que os trabalhadores do Amazon Redshift Spectrum de um pool de recursos compartilhados leiam e processem dados do Amazon S3.

Considere a escolha de tipos de nós RA3 nestes casos:

  • Você precisa de flexibilidade para escalar e pagar por computação separada do armazenamento.
  • Você consulta uma fração de seus dados totais.
  • Seu volume de dados está crescendo rapidamente ou há a expectativa de que cresça rapidamente.
  • Você deseja flexibilidade para dimensionar o cluster com base apenas em suas necessidades de performance.

Conforme a escala de dados continua a crescer, alcançando petabytes, a quantidade de dados que você ingere no data warehouse do Amazon Redshift também cresce. Talvez você esteja procurando maneiras de analisar de forma econômica todos os seus dados.

Com as novas instâncias RA3 do Amazon Redshift com armazenamento gerenciado, você pode escolher o número de nós com base em seus requisitos de performance e pagar apenas pelo armazenamento gerenciado que usar. Isso proporciona flexibilidade para dimensionar seu cluster RA3 com base na quantidade de dados que você processa diariamente, sem aumentar os custos de armazenamento. Construídas no AWS Nitro System, as instâncias RA3 com armazenamento gerenciado usam SSDs de alta performance para seus dados ativos e o Amazon S3 para seus dados inativos, proporcionando facilidade de uso, armazenamento com bom custo-benefício e desempenho de consulta rápido.

O Amazon Redshift espacial oferece análises baseadas em localização para insights valiosos de seus dados. Ele integra perfeitamente dados espaciais e de negócios para fornecer análises para a tomada de decisões. O Amazon Redshift iniciou a compatibilidade com o processamento de dados espaciais nativos em novembro de 2019, com um tipo de dado polimórfico GEOMETRY e várias funções espaciais SQL importantes. Agora oferecemos compatibilidade com tipo de dado GEOGRAPHY, e nossa biblioteca de funções espaciais SQL cresceu para 80. Oferecemos suporte a todos os tipos e padrões comuns de dados espaciais, incluindo Shapefiles, GeoJSON, WKT, WKB, eWKT e eWKB. Para saber mais, acesse a página de documentação no Tutorial espacial do Amazon Redshift.

O Amazon Athena e o Amazon Redshift Serverless atendem a diferentes necessidades e casos de uso, mesmo que ambos os serviços sejam sem servidor e permitam usuários de SQL.

Com sua arquitetura Massively Parallel Processing (MPP) que separa recursos de otimização automática de armazenamento e computação e machine learning, um data warehouse como o Amazon Redshift, seja sem servidor ou provisionado, é uma ótima opção para clientes que precisam da melhor performance de preço em qualquer escala para workloads complexas de BI e análise. Os clientes podem usar o Amazon Redshift como um componente central de sua arquitetura de dados com integrações profundas disponíveis para acessar dados locais ou ingerir ou mover dados facilmente para o armazém para análises de alta performance, por meio de métodos sem código e sem código. Os clientes podem acessar dados armazenados no Amazon S3, bancos de dados operacionais como Aurora e Amazon RDS, data warehouses de terceiros por meio da integração com o AWS Data Exchange e combinar com dados armazenados no data warehouse do Amazon Redshift para análises. Eles podem iniciar o armazenamento de dados com facilidade e conduzir o machine learning com base em todos esses dados.

O Amazon Athena é adequado para análise interativa e exploração de dados em seu data lake ou em qualquer fonte de dados por meio de uma framework de conectores extensível (inclui mais de 30 conectores prontos para uso para aplicativos e sistemas de análise on-premises ou em outros sistemas de análise na nuvem) sem se preocupar com a ingestão ou o processamento de dados. O Amazon Athena é baseado em mecanismos e frameworks de código aberto, como Spark, Presto e Apache Iceberg, oferecendo aos clientes a flexibilidade de usar Python ou SQL ou trabalhar em formatos de dados abertos. Se os clientes quiserem fazer análises interativas usando frameworks de código aberto e formatos de dados, o Amazon Athena é um ótimo lugar para começar.

Não, as instâncias reservadas do Redshift não são flexíveis; elas só se aplicam ao tipo de nó exato que você reserva.

Tecnologia sem servidor

O Amazon Redshift Serverless é uma opção sem servidor do Amazon Redshift que torna mais eficiente executar e escalar análises em segundos, sem a necessidade de configurar e gerenciar a infraestrutura de data warehouse. Com o Redshift Serverless, qualquer usuário, incluindo analistas de dados, desenvolvedores, profissionais de negócios e cientistas de dados, pode obter insights de dados simplesmente carregando e consultando dados no data warehouse.

Com apenas algumas etapas no Console de Gerenciamento da AWS, você pode optar por “configurar o Amazon Redshift Serverless” e começar a consultar dados. Você pode tirar proveito de conjuntos de dados de amostra pré-carregados, como dados meteorológicos, dados de censo e conjuntos de dados de referência, junto de consultas de amostra, para iniciar a análise imediatamente. Você pode criar bancos de dados, esquemas e tabelas, carregar seus próprios dados do Amazon S3, acessar dados em compartilhamentos do Amazon Redshift ou restaurar um snapshot de cluster provisionado do Redshift. Você também pode consultar dados diretamente em formatos abertos (como Parquet ou ORC) no data lake do Amazon S3 ou consultar dados em bancos de dados operacionais, como Amazon Aurora, Amazon RDS PostgreSQL e MySQL. Consulte o Guia de introdução.

Se você não tem experiência em gerenciamento de data warehouse, não precisa se preocupar em instalar, configurar, gerenciar clusters ou ajustar o warehouse. Você pode se concentrar em derivar insights significativos dos dados ou entregar os principais resultados de negócios por meio de dados. Você paga apenas pelo que usa, mantendo os custos gerenciáveis. Você continua a se beneficiar de toda a performance de alto nível do Amazon Redshift, recursos avançados do SQL, integração perfeita com data lakes e data warehouses operacionais e recursos integrados de análise preditiva e compartilhamento de dados. Se você precisa de um controle detalhado de seu data warehouse, pode provisionar clusters do Redshift.

Você pode continuar a usar toda a funcionalidade analítica avançada do Amazon Redshift, como junções complexas, consultas diretas a dados no data lake e bancos de dados operacionais do Amazon S3, visualizações materializadas, procedimentos armazenados, suporte a dados semiestruturados e ML, assim como alta performance em escala. Todos os serviços relacionados com os quais o Amazon Redshift se integra (como Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation e AWS Glue) continuam a funcionar com o Amazon Redshift Serverless.

Você pode continuar executando todos os casos de uso de análise. Com um fluxo de trabalho de introdução simples, dimensionamento automático e a capacidade de pagar pelo uso, a experiência sem servidor do Amazon Redshift agora torna ainda mais eficiente e econômica a execução de ambientes de desenvolvimento e teste que devem ser iniciados rapidamente, análises de negócios ad hoc, workloads com necessidades de computação variadas e imprevisíveis e workloads intermitentes ou esporádicas.

Ingestão e carregamento de dados

Você pode carregar dados no Amazon Redshift de diversas fontes de dados, incluindo do Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, bem como de qualquer host habilitado para SSH no Amazon EC2 ou on-premises. O Amazon Redshift tenta carregar os dados em paralelo em cada nó computacional para maximizar a taxa de consumo de dados em seu cluster de data warehouse. Os clientes podem se conectar ao Amazon Redshift usando ODBC ou JDBC e emitir comandos “insert” do SQL para inserir os dados. Observe que isso é mais lento do que usar o S3 ou o DynamoDB, pois esses métodos carregam dados em paralelo para cada nó de computação, enquanto as instruções de inserção SQL são carregadas por meio do único nó líder. Para obter mais detalhes sobre como carregar dados no Amazon Redshift, consulte nosso Guia de conceitos básicos.

A cópia automática do Redshift oferece a capacidade de automatizar instruções de cópia rastreando pastas do Amazon S3 e ingerindo novos arquivos sem intervenção do cliente. Sem a cópia automática, uma instrução de cópia inicia imediatamente o processo de ingestão de arquivos existentes. A cópia automática estende o comando de cópia existente e fornece a capacidade de 1/ automatizar o processo de ingestão de arquivos monitorando caminhos específicos do Amazon S3 para novos arquivos, 2/ reutilizar configurações de cópia, reduzindo a necessidade de criar e executar novas instruções de cópia para tarefas repetitivas de ingestão e 3/ manter o controle dos arquivos carregados para evitar a duplicação de dados.

Para começar, os clientes devem ter uma pasta do Amazon S3, que pode ser acessada por seu endpoint de cluster/sem servidor do Redshift usando perfis do IAM associados, e criar uma tabela do Redshift para ser usada como destino. Quando um caminho do Amazon S3 e a tabela do Redshift estiverem prontos, os clientes poderão criar um trabalho de cópia usando o comando de cópia. Depois que o trabalho de cópia for criado, o Redshift começará a rastrear o caminho especificado do Amazon S3 nos bastidores e inicia as instruções de cópia definidas pelo usuário para copiar automaticamente novos arquivos na tabela de destino.

Os principais casos de uso incluem: 1/ Clientes que usam o Amazon EMR e o AWS Glue para executar trabalhos do Apache Spark que acessam e carregam dados no Amazon Redshift como parte dos pipelines de ingestão e transformação de dados (em lote e streaming) 2/ Clientes que usam o Amazon SageMaker para realizar machine learning usando o Apache Spark e devem acessar dados armazenados no Amazon Redshift para engenharia e transformação de recursos. 3/Clientes do Amazon Athena que usam o Apache Spark para realizar análises interativas de dados no Amazon Redshift.

O Baikal oferece os seguintes benefícios:

  • Facilidade de uso para começar e executar aplicações Apache Spark em dados no Amazon Redshift sem precisar se preocupar com as etapas manuais envolvidas na configuração e manutenção de versões não certificadas do Spark
  • Conveniência de usar o Apache Spark de vários serviços da AWS, como Amazon EMR, AWS Glue, Amazon Athena e Amazon SageMaker com Amazon Redshift usando uma configuração mínima
  • Performance aprimorada ao executar aplicações Apache Spark no Amazon Redshift

O Amazon Aurora Zero-ETL para Amazon Redshift permite que os clientes do Amazon Aurora e do Amazon Redshift executem análises e machine learning quase em tempo real em petabytes de dados transacionais, oferecendo uma solução totalmente gerenciada para disponibilizar dados transacionais do Amazon Aurora no Amazon Redshift em poucos segundos depois de serem escritos. Com o Amazon Aurora Zero-ETL para o Amazon Redshift, os clientes simplesmente escolhem as tabelas do Amazon Aurora que contêm os dados que desejam analisar com o Amazon Redshift, e o recurso replica perfeitamente o esquema e os dados no Amazon Redshift. Isso reduz a necessidade de os clientes criarem e gerenciarem canais de dados complexos, para que eles possam se concentrar em melhorar seus aplicativos. Com o Amazon Aurora Zero-ETL para Amazon Redshift, os clientes podem replicar dados de vários clusters de banco de dados do Amazon Aurora na mesma instância do Amazon Redshift para obter insights abrangentes em várias aplicações, ao mesmo tempo em que consolidam seus principais ativos analíticos, obtendo economias de custo significativas e eficiências operacionais. Com o Amazon Aurora Zero-ETL para o Amazon Redshift, os clientes também podem acessar os principais recursos de análise e machine learning do Amazon Redshift, como visualizações materializadas, compartilhamento de dados e acesso federado a vários armazenamentos de dados e data lakes. Isso permite que os clientes combinem análise central e quase em tempo real para obter efetivamente insights sensíveis ao tempo que informam as decisões de negócios. Além disso, os clientes usam o Amazon Aurora para transações e o Amazon Redshift para análises. Portanto, não há recursos de computação compartilhados, gerando uma solução de performance e operacionalmente estável.

A Integração ETL zero do Amazon Aurora com o Amazon Redshift oferece integração perfeita entre os dois serviços para análise transacional.

Os dados de streaming são diferentes das tabelas de banco de dados tradicionais, pois, ao consultar um stream, você captura a evolução de uma relação que varia no tempo. As tabelas, por outro lado, capturam um snapshot pontual dessa relação que varia no tempo. Os clientes do Amazon Redshift estão acostumados a operar em tabelas regulares e realizar o processamento posterior (ou seja, transformações) de dados usando um modelo de lote tradicional, por exemplo, “ELT”. Fornecemos um método para usar Vistas materializadas do Redshift (MVs) para que os clientes possam materializar facilmente uma visão pontual do stream, acumulada até o momento da consulta, o mais rápido possível para dar suporte aos fluxos de trabalho do ELT.

Compartilhamento de dados

Os principais casos de uso incluem:

  • Um cluster ETL central que compartilha dados com muitos clusters de BI/análise para fornecer isolamento da workload de leitura e capacidade de carga opcional.
  • Um provedor de dados que compartilha dados com consumidores externos.
  • Compartilhamento de conjuntos de dados comuns, como clientes, produtos em diferentes grupos de negócios e colaboração para ampla análise e ciência de dados.
  • Descentralização de um data warehouse para simplificar o gerenciamento.
  • Compartilhamento de dados entre ambientes de desenvolvimento, teste e produção.
  • Acesso a dados do Redshift de outros serviços analíticos da AWS.

Com essas consultas, você pode consultar e unir consultas sem problemas a partir de qualquer banco de dados Redshift ao qual tenha acesso, não importando a qual banco de dados está conectado. Isso pode incluir bancos de dados locais no cluster e também conjuntos de dados compartilhados disponíveis em clusters remotos. As consultas entre bancos de dados fornecem flexibilidade para organizar os dados como bancos de dados separados para dar suporte a configurações multlocatárias.

O AWS Data Exchange torna mais eficiente para os clientes da AWS o intercâmbio seguro e o uso de dados de terceiros na AWS. Analistas de dados, gerentes de produto, gerentes de portfólio, cientistas de dados, quants, técnicos de testes clínicos e desenvolvedores em quase todos os setores gostariam de acessar mais dados para conduzir análises, treinar modelos de ML e tomar decisões orientadas por dados. Mas não há um lugar único para encontrar dados de vários provedores nem consistência em como os provedores entregam dados, provocando uma mistura de mídia física enviada, credenciais de FTP e chamadas de API sob medida. Por outro lado, muitas organizações gostariam de disponibilizar seus dados para fins comerciais ou de pesquisa, mas é muito difícil e caro construir e manter a entrega de dados, direitos e tecnologia de cobrança, o que reduz ainda mais o fornecimento de dados valiosos.

Escalabilidade e simultaneidade

O Amazon Redshift Serverless provisiona automaticamente a capacidade do data warehouse e dimensiona de forma inteligente os recursos subjacentes. O Amazon Redshift Serverless ajusta a capacidade em segundos para oferecer consistentemente alta performance e operações simplificadas até mesmo para as workloads mais exigentes e voláteis. Com o recurso de escalabilidade de simultaneidade, você pode oferecer suporte a um número ilimitado de usuários e consultas simultâneos, com uma performance de consulta rápida e consistente. Quando a escalabilidade de simultaneidade é habilitada, o Amazon Redshift adiciona automaticamente capacidade de cluster quando suas experiências de cluster aumentam no enfileiramento de consultas.

Para escalabilidade manual, se você quiser aumentar a performance da consulta ou responder à superutilização da CPU, memória ou E/S, poderá aumentar o número de nós no cluster de data warehouse usando o redimensionamento elástico por meio do Console de gerenciamento da AWS ou da API ModifyCluster. Quando você modifica um cluster de data warehouse, as alterações solicitadas são aplicadas imediatamente. Métricas de utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o seu cluster de data warehouse do Redshift estão disponíveis gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Também é possível adicionar métricas definidas pelo usuário por meio da funcionalidade de métricas personalizadas do Amazon CloudWatch.

Com o Amazon Redshift Spectrum, é possível executar vários clusters do Redshift acessando os mesmos dados no Amazon S3. Você poderá usar clusters diversos para casos de uso diferentes. Por exemplo, é possível usar um cluster para a geração de relatórios padrão e outro para consultas de ciência de dados. Equipes de marketing podem usar seus próprios clusters diferentes dos clusters de equipes de operações. O Redshift Spectrum distribui automaticamente a execução da consulta para vários operadores do Redshift Spectrum de um grupo de recursos compartilhados para ler e processar dados do Amazon S3, e retornará os resultados para o cluster do Redshift para executar qualquer processamento remanescente.

Depende. Quando você usa o recurso de escalabilidade de simultaneidade, o cluster fica totalmente disponível para leitura e gravação durante a alteração de escala da simultaneidade. Com o redimensionamento elástico, o cluster fica indisponível por quatro a oito minutos do período de redimensionamento. Com a elasticidade de armazenamento do Redshift RA3, o cluster fica totalmente disponível e os dados são movidos automaticamente entre o armazenamento gerenciado e os nós de computação.

O Redimensionamento elástico adiciona e remove nós de um único cluster do Redshift em minutos para gerenciar a throughput de consulta. Por exemplo, uma workload de ETL para determinadas horas em um relatório de um dia ou mês pode precisar de recursos adicionais do Amazon Redshift para ser concluída a tempo. A escalabilidade de simultaneidade adiciona recursos de cluster para aumentar a simultaneidade geral da consulta.

Não. A escalabilidade de simultaneidade é um grupo amplamente escalável de recursos do Amazon Redshift ao qual os clientes não têm acesso direto.

Segurança

O Amazon Redshift oferece suporte à segurança líder do setor com gerenciamento de identidade e federação integrados para autenticação única (SSO), autenticação multifator, controle de acesso em nível de coluna, segurança em nível de linha, controle de acesso baseado em funções e Amazon Virtual Private Cloud (Amazon VPC) e redimensionamento mais rápido do cluster. Com o Amazon Redshift, seus dados são criptografados em trânsito e quando ociosos. Todos os recursos de segurança do Amazon Redshift são oferecidos imediatamente, sem custo adicional, para satisfazer os mais exigentes requisitos de segurança, privacidade e conformidade. Você obtém o benefício do suporte da AWS a mais padrões de segurança e certificações de conformidade do que qualquer outro provedor, incluindo ISO 27001, SOC, HIPAA/HITECH e FedRAMP.

Sim, o Amazon Redshift oferece suporte para controle de acesso baseado em funções. O controle de acesso em nível de linha permite que você atribua uma ou mais funções a um usuário e atribua permissões de sistema e objeto por função. Você pode usar funções de sistema prontas para uso, como usuário raiz, administrador de banco de dados, operador e administradores de segurança, ou criar suas próprias funções.

As funções definidas pelo usuário (UDFs) do AWS Lambda permitem usar uma função do AWS Lambda como UDF no Amazon Redshift e chamá-la a partir das consultas SQL do Redshift. Essa funcionalidade permite escrever extensões personalizadas para sua consulta SQL para obter uma integração maior com outros serviços ou produtos de terceiros. Você pode escrever Lambda UDFs para permitir a tokenização externa, o mascaramento dos dados, a identificação ou não dos dados integrando com revendedores como Protegrity e proteger ou não dados sigilosos com base nas permissões de um usuário e grupos na hora da consulta.

Com suporte para mascaramento dinâmico de dados, os clientes podem proteger facilmente seus dados confidenciais e controlar o acesso granular gerenciando as políticas de mascaramento de dados. Suponha que você tenha aplicações com vários usuários e objetos com dados confidenciais que não podem ser expostos a todos os usuários. Você tem requisitos para fornecer um nível de segurança granular diferente que você deseja oferecer a diferentes grupos de usuários. O Mascaramento dinâmico de dados do Redshift é configurável para permitir que os clientes definam valores de dados mascarados consistentes, que preservam o formato e irreversíveis. Quando o recurso estiver em GA, você começará a usá-lo imediatamente. Os administradores de segurança podem criar e aplicar políticas com apenas alguns comandos.

Sim. Os clientes que desejam usar seus provedores de identidade corporativa, como o Microsoft Azure Active Directory, os Serviços de Federação do Active Directory, Okta, Ping Federate ou outros provedores de identidade compatíveis com SAML, podem configurar o Amazon Redshift para fornecer logon único. É possível fazer login no cluster do Amazon Redshift com identidades do Microsoft Azure Active Directory (AD). Isso permite que você possa entrar no Redshift sem duplicar as identidades do Azure Active Directory no Redshift.

Sim. Você pode usar a autenticação multifator (MFA) para obter segurança adicional ao se autenticar no cluster do Amazon Redshift.

Disponibilidade e resiliência

O Amazon Redshift vai automaticamente detectar e substituir um nó com falha em seu cluster de data warehouse. Em clusters Dense Compute (DC) e Dense Storage (DS2), os dados são armazenados nos nós de computação para garantir alta durabilidade dos dados. Quando um nó é substituído, os dados são atualizados a partir da cópia espelhada no outro nó. Os clusters do RA3 e do Redshift sem servidor não são afetados da mesma forma, uma vez que os dados são armazenados no Amazon S3 e a unidade local é usada apenas como cache de dados. O cluster de data warehouse ficará indisponível para consultas e atualizações até um nó de substituição ser provisionado e adicionado ao banco de dados. O Amazon Redshift disponibiliza seu nó de substituição imediatamente e carrega primeiro os dados acessados com mais frequência do Amazon S3 para permitir que você retome a consulta dos seus dados o mais rápido possível. Clusters de um único nó não oferecem suporte à replicação de dados. No caso de uma falha de unidade, você deve restaurar o cluster do snapshot no S3. Recomendamos usar pelo menos dois nós para produção.

Se seu data warehouse Amazon Redshift for uma implantação Single-AZ e a zona de disponibilidade do cluster ficar indisponível, o Amazon Redshift moverá automaticamente seu cluster para outra zona de disponibilidade (AZ) da AWS sem perda de dados ou alterações na aplicação. Para ativar isso, você deve habilitar a capacidade de realocação nas definições de configuração do cluster.

Diferentemente das implantações Single-AZ, os clientes agora podem melhorar a disponibilidade do Redshift executando seu data warehouse em uma implantação Multi-AZ. Uma implantação multi-AZ permite que você execute seu data warehouse em várias zonas de disponibilidade (AZ) da AWS simultaneamente e continue operando em cenários de falha imprevistos. Nenhuma alteração na aplicação é necessária para manter a continuidade dos negócios, pois a implantação Multi-AZ é gerenciada como um único data warehouse com um endpoint. As implantações Multi-AZ reduzem o tempo de recuperação ao garantir a capacidade de recuperação automática e são destinadas a clientes com aplicações de análise essenciais para os negócios que exigem os mais altos níveis de disponibilidade e resiliência a falhas de AZ. Isso também permite que os clientes implementem uma solução mais compatível com as recomendações do Pilar de Confiabilidade do AWS Well-Architected Framework. Para saber mais sobre o Amazon Redshift Multi-AZ, consulte aqui.

RPO é um acrônimo para Objetivo do ponto de recuperação e é um termo para descrever a garantia de atualidade dos dados em caso de falhas. RPO é o tempo máximo aceitável desde o último ponto de recuperação de dados. Isso determina o que é considerado uma perda aceitável de dados entre o último ponto de recuperação e a interrupção do serviço. O Redshift Multi-AZ oferece suporte para RPO = 0, o que significa que os dados estão sempre em dia e atualizados em caso de falha. Nossos testes de pré-lançamento constataram que o RTO com implantações Multi-AZ do Amazon Redshift é inferior a 60 segundos ou menos no caso improvável de uma falha de AZ.

A realocação do Redshift é ativado por padrão em todos os novos clusters RA3 e endpoints sem servidor, o que permite que um data warehouse seja reiniciado em outra AZ no caso de uma interrupção em grande escala, sem perda de dados ou custo adicional. Embora o uso da Realocação seja gratuito, as limitações são que é a melhor abordagem, sujeita à recuperação da disponibilidade de recursos no AZ, e o objetivo de tempo de recuperação (RTO) pode ser afetado por outros problemas relacionados à inicialização de um novo cluster. Isso pode resultar em tempos de recuperação entre 10 e 60 minutos. O Redshift Multi-AZ oferece suporte a requisitos de alta disponibilidade, fornecendo um RTO medido em dezenas de segundos e oferece operação contínua garantida, pois não estará sujeito a limitações de capacidade ou outros possíveis problemas ao criar um novo cluster.

Consultas e análises

Sim, o Amazon Redshift utiliza o SQL padrão do setor e é acessado por drivers JDBC e ODBC padrão. Os drivers JDBC e ODBC personalizados para o Amazon Redshift estão disponíveis para download na guia Connect Client do console do Redshift. Validamos integrações com fornecedores de BI e ETL conhecidos. Vários deles oferecem testes gratuitos para ajudar você a começar a carregar e analisar seus dados. Você também pode acessar o AWS Marketplace para implantar e configurar em poucos minutos as soluções criadas para trabalhar com o Amazon Redshift.

O Amazon Redshift Spectrum é compatível com todas as ferramentas de cliente do Amazon Redshift. As ferramentas de cliente podem continuar a estabelecer conexão com o endpoint do cluster do Amazon Redshift usando as conexões ODBC ou JDBC. Não é exigida nenhuma alteração.

Você usa exatamente a mesma sintaxe de consulta e tem os mesmos recursos de consulta para acessar tabelas no Redshift Spectrum disponíveis para tabelas no armazenamento local de um cluster do Redshift. As tabelas externas são mencionadas usando o nome do esquema definido no comando CREATE EXTERNAL SCHEMA em que foram registradas.

No momento, o Amazon Redshift Spectrum é compatível com diversos formatos de dados de código aberto, inclusive Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text e TSV.<br>Atualmente, o Amazon Redshift Spectrum oferece suporte à compactação Gzip e Snappy.

Assim como ocorre com tabelas locais, você pode usar o nome do schema para escolher exatamente aquele que deseja ao usar schema_name.table_name na sua consulta.

Sim. O comando CREATE EXTERNAL SCHEMA aceita o Hive Metastore. No momento, não aceitamos o DDL no Hive Metastore.

Você pode consultar a tabela do sistema SVV_EXTERNAL_TABLES para obter essas informações.

Sim, o recurso Amazon Redshift ML facilita que os usuários do SQL criem, treinem e implantem modelos ML (machine learning) usando comandos do SQL conhecidos. O Amazon Redshift ML permite utilizar seus dados no Amazon Redshift com o Amazon SageMaker, um serviço de ML totalmente gerenciado. O Amazon Redshift é competível com aprendizado não supervisionado (K-Means) e aprendizado supervisionado (Autopilot, XGBoost, algoritmos MLP). Você também pode usar os serviços de IA para idiomas da AWS para traduzir, ocultar e analisar campos de texto em consultas SQL com funções pré-criadas do Lambda UDF – consulte a postagem do blog.

O Amazon Redshift fornece uma API Data que permite acessar dados no Amazon Redshift sem complicações com todos os tipos de aplicações baseadas em serviços da Web nativos de nuvem, conteinerizadas e sem servidor, assim como aplicações baseadas em eventos. A API Data simplifica o acesso ao Amazon Redshift porque não é necessário configurar drivers e gerenciar conexões de banco de dados. Pelo contrário, você precisa executar comandos SQL para um cluster Amazon Redshift simplesmente chamando um endpoint da API protegido fornecido pela Data API. A Data API cuida do gerenciamento das conexões do banco de dados e do buffer dos dados. A Data API é assíncrona para que você possa recuperar seus resultados mais tarde. Os resultados da consulta são armazenados por 24 horas.

A Data API suporta as credenciais IAM e o uso de uma chave secreta do AWS Secrets Manager. A Data API federa as credenciais AWS Identity and Access Management (IAM) para que você possa usar provedores como Okta ou Azure Active Directory, ou as credenciais do banco de dados armazenadas no Secrets Manager sem passar as credenciais do banco de dados nas chamadas da API.

Sim, você pode usar a Data API da AWS CLI usando a opção da linha de comando aws redshift-data.

Você pode usar a Data API de outros serviços, como AWS Lambda, AWS Cloud9, AWS AppSync e Amazon EventBridge.

Não há nenhuma cobrança separada para usar a API Data.

Integrações ETL zero

A edição compatível com MySQL do Amazon Aurora, a edição compatível com PostgreSQL do Amazon Aurora (em versão prévia), o Amazon RDS para MySQL, e o Amazon DynamoDB (em versão prévia limitada) são compatíveis com as integrações ETL zero com o Amazon Redshift.

É recomendável usar a integração ETL zero do Aurora com o Amazon Redshift quando precisar de acesso quase em tempo real aos dados transacionais. Ao usar a integração ETL zero, é possível aproveitar o Amazon Redshift ML com comandos SQL diretos.

A integração ETL zero do Aurora com o Amazon Redshift está disponível na edição compatível com MySQL do Aurora para a versão 3.05 (compatível com MySQL 8.0.32) e para versões posteriores do Aurora MySQL nas regiões da AWS com suporte.

A integração ETL zero do Aurora com o Amazon Redshift está disponível na edição compatível com PostgreSQL do Aurora para a versão 15.4 do Aurora PostgreSQL na região Leste dos EUA (Ohio).

A integração do Aurora Zero-ETL com o Amazon Redshift elimina a necessidade de criar e manter pipelines de dados complexos. Você pode consolidar dados de um ou vários clusters do banco de dados do Aurora em um único cluster de banco de dados do Amazon Redshift e executar análises e ML quase em tempo real usando o Amazon Redshift em petabytes de dados transacionais do Aurora.

A integração ETL zero do Aurora com o Amazon Redshift é compatível com o Amazon Redshift Sem Servidor e com o Amazon Aurora Sem Servidor v2. Ao usar o Amazon sem Servidor v2 e o Amazon Redshift sem Servidor, você pode gerar análises quase em tempo real sobre dados transacionais sem precisar gerenciar infraestruturas de pipelines de dados.

Você pode começar usando o console do Amazon RDS para criar a Integração ETL zero especificando a origem do Aurora e o destino do Amazon Redshift. Depois que a integração for criada, o banco de dados Aurora será replicado no Amazon Redshift, e você poderá começar a consultar os dados assim que a propagação inicial for concluída. Para obter mais informações, consulte o guia de conceitos básicos para as integrações ETL zero do Amazon Aurora com o Amazon Redshift.

A integração ETL zero do Aurora com o Amazon Redshift replica atomicamente as transações para garantir a consistência dos dados entre o banco de dados do Aurora de origem e o cluster de destino do Amazon Redshift.
A seguir, apresentamos alguns pontos principais sobre a atomicidade das transações com essa integração:

  • Somente transações confirmadas no Aurora são replicadas para o Amazon Redshift. Transações não confirmadas ou revertidas não são aplicadas.
  • A integração usa um processo de confirmação em duas etapas para aplicar atomicamente cada transação ao Amazon Redshift. Todas as alterações de dados na transação são aplicadas, ou, se ocorrer um erro, nenhuma delas é aplicada.
  • A consistência da transação é mantida entre a origem e o destino. Após a replicação, os dados de uma determinada transação serão consistentes no Aurora e no Amazon Redshift.
  • As alterações de esquema por meio de DDL ou DML também são aplicadas atomicamente para manter a integridade.
  • A aplicação atômica das transações garante que não ocorram transações parciais ou estados de dados inconsistentes entre os bancos de dados.
 

A integração ETL zero do Aurora com o Amazon Redshift mantém total consistência transacional entre o banco de dados de origem do Aurora e o cluster de destino do Amazon Redshift.

Estes são alguns pontos-chave sobre como as mudanças de esquema são tratadas:

  • As instruções DDL, como CREATE TABLE, ALTER TABLE, DROP TABLE e semelhantes, são replicadas automaticamente do Aurora para o Amazon Redshift.
  • A integração faz as verificações e ajustes necessários nas tabelas do Amazon Redshift para alterações de esquema replicadas. Por exemplo, adicionar uma coluna no Aurora adicionará a coluna no Amazon Redshift.
  • A replicação e as alterações de esquema acontecem automaticamente em tempo real, com um atraso mínimo entre os bancos de dados de origem e de destino.
  • A consistência do esquema é mantida mesmo quando as alterações de DML ocorrem paralelamente às alterações de DDL.

Você pode criar visões materializadas no banco de dados local do Amazon Redshift para transformar dados replicados por meio da integração ETL zero. Conecte-se ao banco de dados local e use consultas entre bancos de dados para acessar os bancos de dados de destino. Você pode optar por usar nomes de objetos totalmente qualificados com notação de três partes (destination-database-name.schema-name.table-name) ou criar um esquema externo que referencia o par banco de dados e esquema de destino e usar notação de duas partes (external-schema-name.table-name).

As integrações ETL zero e o processamento contínuo de alterações de dados são disponibilizados sem custos adicionais. Você paga pelos recursos existentes do Amazon RDS e do Amazon Redshift usados para criar e processar os dados de alterações gerados como parte de uma Integração ETL zero. Esses recursos podem incluir o seguinte:

  • E/S e armazenamento adicionais usados ao habilitar o log binário aprimorado
  • Tire snapshots dos custos de exportação para a exportação inicial de dados, a fim de alimentar os bancos de dados do Amazon Redshift
  • Armazenamento adicional do Amazon Redshift para armazenar dados replicados
  • Custos de transferência de dados Cross-AZ para mover dados da origem para o destino

Para obter mais informações, acesse os preços do Amazon Aurora.

Para conferir as perguntas frequentes relacionadas à integração ETL zero do Amazon RDS para MySQL com o Amazon Redshift, consulte as perguntas frequentes sobre o Amazon RDS para MySQL. Para obter mais informações sobre os preços dessa integração, consulte os preços do Amazon RDS para MySQL.

Backup e restauração

Clusters do RA3 do Amazon Redshift e do Amazon Redshift Serverless usam Redshift Managed Storage, que sempre tem a cópia mais recente dos dados disponíveis. Os clusters DS2 e DC2 espelham os dados no cluster para garantir que a cópia mais recente esteja disponível em caso de falha. Os backups são criados automaticamente em todos os tipos de cluster do Redshift e retidos por 24 horas. Na tecnologia sem servidor pontos de recuperação são fornecidos para as últimas 24 horas

Você também pode criar seus próprios backups, que podem ser retidos indefinidamente. Esses backups podem ser criados a qualquer momento, e os backups automatizados do Amazon Redshift ou pontos de recuperação do Amazon Redshift Serverless podem ser convertidos em um backup do usuário para uma retenção mais longa.

O Amazon Redshift também pode replicar de forma assíncrona os snapshots ou pontos de recuperação para o Amazon S3 em outra região para recuperação de desastres.

Em um cluster DS2 ou DC2, o armazenamento de backup gratuito é limitado ao tamanho total de armazenamento nos nós no cluster de data warehouse e se aplica apenas aos clusters de data warehouse ativos.

Por exemplo, se você tiver um armazenamento de data warehouse total de 8 TB, forneceremos no máximo 8 TB de armazenamento de backup sem custos adicionais. Se você quiser ampliar o período de retenção do backup para mais de um dia, poderá fazer isso usando o Console de Gerenciamento da AWS ou as APIs do Amazon Redshift. Para obter mais informações sobre snapshots automatizados, consulte o Guia de gerenciamento do Amazon Redshift.

O Amazon Redshift somente faz backup de dados alterados. Assim, a maioria dos snapshots usa apenas uma pequena quantidade do armazenamento de backup gratuito. Quando você precisa restaurar um backup, pode acessar todos os backups automatizados dentro da janela de retenção de backups. Após escolher um backup para a restauração, provisionaremos um novo cluster de data warehouse e restauraremos os dados nesse novo cluster.

Você pode usar o Console de Gerenciamento da AWS ou a API ModifyCluster para gerenciar o período de retenção que os backups automatizados são retidos, modificando o parâmetro RetentionPeriod. Se quiser desativar completamente os backups automatizados, você poderá configurar o período de retenção para 0 (não recomendado).

Quando exclui um cluster de data warehouse, você pode especificar se um snapshot final será criado no momento da exclusão. Isso permite restaurar posteriormente o cluster de data warehouse excluído. Todos os snapshots manuais do cluster de data warehouse criados anteriormente serão retidos e cobrados de acordo com as taxas padrão do Amazon S3, a menos que você opte por excluí-los.

Monitoramento e manutenção

Métricas da utilização computacional, utilização de armazenamento e tráfego de leitura/gravação para o cluster do data warehouse do Amazon Redshift estão disponíveis gratuitamente no Console de Gerenciamento da AWS ou nas APIs do Amazon CloudWatch. Você também pode adicionar métricas adicionais definidas pelo usuário por meio da funcionalidade de métrica personalizada do Amazon CloudWatch. O Console de Gerenciamento da AWS oferece um painel de monitoramento que ajuda a monitorar a integridade e a performance de todos os clusters. O Amazon Redshift também fornece informações sobre a performance de consultas e clusters por meio do Console de Gerenciamento da AWS. Essas informações permitem que você visualize quais usuários e consultas consomem mais recursos do sistema e diagnostique problemas de performance, visualizando planos de consulta e estatísticas de execução. Além disso, é possível visualizar a utilização de recursos de cada um dos nós computacionais para garantir que os dados e as consultas estejam bem balanceadas entre todos os nós.

O Amazon Redshift executa periodicamente manutenções para aplicar correções, aprimoramentos e novos recursos ao seu cluster. Você pode alterar as janelas de manutenção programadas modificando o cluster por meio de programação ou usando o console do Redshift. Durante essas janelas de manutenção, o cluster do Amazon Redshift não está disponível para operações normais. Para obter mais informações sobre as janelas de manutenção e as programações por região, consulte Janelas de manutenção no Guia de gerenciamento do Amazon Redshift.