Data Architecture: cos’è?

Eworkit Febbraio 23, 2022 Servizi 0

Una data architecture traduce le esigenze aziendali in dati e requisiti di sistema cercando di gestirne il relativo flusso all’interno di un’azienda.

Definizione di Data Architecture

Una data architecture o architettura dei dati – descrive la struttura degli asset logici e fisici di un’organizzazione e delle risorse di gestione dei dati.

Comprende i modelli, le politiche, le regole e gli standard che regolano la raccolta, l’archiviazione, la disposizione, l’integrazione e l’uso dei dati nelle organizzazioni.

Solitamente viene gestita e organizzata da una figura professionale precisa: il data architect.

A cosa serve la data architecture?

L’obiettivo di ogni data architecture è tradurre le esigenze aziendali in dati e requisiti di sistema e gestire i dati e il relativo flusso all’interno dell’azienda.

Molte società oggi stanno cercando di modernizzare la propria struttura come base per sfruttare a pieno l’Intelligenza artificiale e consentire la digital transformation.

Infatti, queste non riescono a raggiungere i propri obiettivi di trasformazione digitale e IA a causa della complessità dei processi più che della complessità tecnica.

Principi dell’architettura dei dati

Secondo Joshua Klahr, vicepresidente della gestione dei prodotti presso Splunk e precedentemente presso AtScale, sei principi costituiscono la base della moderna architettura dei dati:

I dati sono una risorsa condivisa.

Una moderna architettura dei dati deve eliminare i silos di dati dipartimentali e offrire a tutte le parti interessate una visione completa dell’azienda.

Gli utenti richiedono un accesso adeguato ai dati.

Oltre ad abbattere i silos, le moderne architetture di dati devono fornire interfacce che consentano agli utenti di consumare facilmente i dati utilizzando strumenti adatti al loro lavoro.

La sicurezza è essenziale.

Le moderne architetture dei dati devono essere progettate per la sicurezza e devono supportare le politiche dei dati e i controlli di accesso direttamente sui dati grezzi.

I vocabolari comuni garantiscono una comprensione comune.

Gli asset di dati condivisi, come cataloghi prodotti, dimensioni del calendario fiscale e definizioni KPI, richiedono un vocabolario comune per evitare controversie durante l’analisi.

I dati dovrebbero essere curati.

Investi in funzioni principali che eseguono la cura dei dati (modellazione di relazioni importanti, pulizia dei dati grezzi e cura di dimensioni e misure chiave).

I flussi di dati dovrebbero essere ottimizzati per l’agilità.

Riduci il numero di volte in cui i dati devono essere spostati per ridurre i costi, aumentare l’aggiornamento dei dati e ottimizzare l’agilità aziendale.

Come organizzare l’architetuttura

Una moderna architettura dei dati dovrebbe essere composta dai seguenti componenti:

Pipeline di dati, ovvero il processo in cui i dati vengono raccolti, spostati e perfezionati.

Archiviazione su cloud.

Cloud computing, per analizzare e gestire i dati.

Leggi di più sull’archiviazione cloud su “Cloud pubblico: la scelta vantaggiosa delle aziende“

API per semplificare l’esposizione e la condivisione dei dati.

Modelli AI e ML. L’intelligenza artificiale e il machine learning vengono utilizzati per automatizzare i sistemi per attività quali la raccolta dei dati, l’etichettatura, ecc.

Flusso di dati.

Orchestrazione del container. Un sistema di orchestrazione dei container come Kubernetes open source è molto utile per automatizzare la distribuzione, il ridimensionamento e la gestione del software.

Analisi in tempo reale.

Data arhitecture, alcune best practice

Le moderne architetture di dati devono essere progettate per sfruttare le tecnologie emergenti come l’intelligenza artificiale (AI), l’automazione, l’Internet of things (IoT) e la blockchain.

Una data architecture per essere funzionale dovrebbe seguire queste best practice:

Nativo per il cloud.

Le moderne architetture di dati dovrebbero essere progettate per supportare la scalabilità elastica, l’elevata disponibilità, la sicurezza end-to-end per i dati in movimento e inattivi e la scalabilità dei costi e delle prestazioni.

Pipeline di dati scalabili.

Per sfruttare le tecnologie emergenti, le architetture di dati dovrebbero supportare lo streaming di dati in tempo reale e le raffiche di dati in micro-batch.

Perfetta integrazione dei dati con le applicazioni legacy utilizzando interfacce API standard.

Abilitazione dati in tempo reale.

Ovvero supportare la capacità di implementare la convalida, la classificazione, la gestione e la governance dei dati automatizzate e attive.

Data Architecture: cos’è?