Cos'è un data warehouse?
Un data warehouse è un repository centralizzato di informazioni che possono essere analizzate per prendere decisioni più informate. I dati affluiscono nel data warehouse da sistemi transazionali, database relazionali e altre fonti, normalmente a cadenza regolare. Analisti aziendali, ingegneri di dati, data scientist e responsabili decisionali accedono ai dati tramite strumenti di business intelligence (BI), client SQL e altre applicazioni di analisi.
I dati e la relativa analisi sono diventati fattori critici per garantire la competitività delle aziende. Report, pannelli di controllo e strumenti di analisi sono indispensabili per estrarre informazioni approfondite dai dati, monitorare le prestazioni aziendali e supportare il decision making. I data warehouse alimentano questi report, pannelli di controllo e strumenti di analisi archiviando i dati in modo efficiente per ridurre al minimo l'input e l'output (I/O) dei dati e fornire rapidamente risultati di query a centinaia e migliaia di utenti contemporaneamente.
In che modo è strutturato un data warehouse?
L’architettura di un data warehouse si basa sui livelli. Il livello superiore è il client di front-end che presenta i risultati tramite strumenti di reporting, analisi e data mining. Il livello centrale consiste nel motore di analisi utilizzato per accedere e analizzare i dati. Il livello inferiore dell'architettura è il server del database, dove vengono caricati e archiviati i dati. I dati vengono archiviati in due diversi modi: 1) i dati a cui si accede frequentemente vengono archiviati in una memoria molto veloce (come le unità SSD) e 2) i dati a cui si accede raramente vengono archiviati in un archivio di oggetti economico, come Amazon S3. Il data warehouse si assicurerà automaticamente che i dati a cui si accede frequentemente vengano spostati nella memoria "veloce" in modo da ottimizzare la velocità delle query.
Come funziona un data warehouse?
Un data warehouse può contenere più database. All’interno di ciascun database, i dati sono organizzati in tabelle e colonne. All’interno di ogni colonna è possibile inserire una descrizione dei dati, ad esempio integer, data field o string. Le tabelle possono essere invece organizzate in schemi, che possono essere concepiti come fossero cartelle. Quando i dati vengono acquisiti, vengono memorizzati in varie tabelle descritte dallo schema. Gli strumenti di query utilizzano lo schema per determinare a quali tabelle di dati accedere e analizzare.
Quali sono i vantaggi dell'uso di un data warehouse?
Tra i vantaggi di un data warehouse vi sono:
- Migliori processi decisionali
- Consolidamento di dati da più fonti
- Analisi storica dei dati
- Qualità, coerenza e precisione dei dati
- Separazione dell'elaborazione analitica dai database transazionali, migliorando le prestazioni di entrambi i sistemi
In che modo i data warehouse, i database e i data lake funzionano insieme?
In genere, le aziende per archiviare e analizzare i dati utilizzano una combinazione di database, data lake e data warehouse. L’architettura lake house di Amazon Redshift facilita una tale integrazione.
Con l'aumentare del volume e della varietà di dati, risulta molto utile seguire uno o più schemi comuni per lavorare con i dati attraverso il database, il data lake e il data warehouse:
Ulteriori informazioni sui database »
A differenza di un data warehouse, un data lake è un repository centralizzato per tutti i dati, compresi quelli strutturati, quelli semi-strutturati e quelli non strutturati. Un data warehouse richiede che i dati siano organizzati in formato tabella, che è dove entra in gioco lo schema. Questo formato è necessario perché sia possibile utilizzare SQL per interrogare i dati. Non tutte le applicazioni però richiedono i dati in formato tabella. Alcune applicazioni, come ad esempio l’analisi di Big Data, la ricerca del testo completa e il machine learning, possono accedere ai dati anche se questi sono semi-strutturati o completamente non strutturati.
Ulteriori informazioni sui data lake »
Per un confronto approfondito tra data warehouse e data lake, visita la nostra pagina di confronto tra data warehouse e data lake dedicata.
Come si confronta un data mart con un data warehouse?
Un data mart è un data warehouse che assolve alle esigenze di uno specifico team o unità aziendale, come finanza, marketing o vendite. È più piccolo, più concentrato e può contenere riepiloghi dei dati che servono al meglio la relativa comunità di utenti. Un data mart può anche essere una parte di un data warehouse.
Ulteriori informazioni su data mart »
Per un confronto approfondito tra data mart e data warehouse, visita la nostra pagina di confronto tra data mart e data warehouse dedicata.
In che modo AWS può supportare i tuoi sforzi per l'uso dei data warehouse?
AWS consente di sfruttare tutti i vantaggi dell'elaborazione on demand, ad esempio l'accesso a storage e capacità di elaborazione praticamente illimitati, con la possibilità di ricalibrare il sistema in base ai volumi di dati raccolti, memorizzati e interrogati, pagando solo per le risorse allocate. AWS offre inoltre un'ampia gamma di servizi gestiti che si integrano l'uno con l'altro in modo fluido, consentendo di distribuire rapidamente soluzioni di analisi end-to-end e data warehousing complete.
La seguente illustrazione mostra i passaggi chiave di un processo di analisi end-to-end, chiamato anche stack. AWS offre una varietà di servizi gestiti a ogni fase.
Amazon Redshift è il nostro servizio di data warehouse rapido, completamente gestito e a costi ridotti. Offre un data warehousing su scala petabyte e analisi data lake su scala exabyte in un unico servizio, per il quale paghi solo in base all'uso effettivo.
Inizia a utilizzare il data warehouse su AWS creando un account oggi stesso.
Fasi successive su AWS
Ottieni accesso istantaneo al Piano gratuito di AWS.