Data Architecture: cos’è?

Data Architecture: cos’è?

Febbraio 23, 2022 Servizi 0
data architect

Una data architecture traduce le esigenze aziendali in dati e requisiti di sistema cercando di gestirne il relativo flusso all’interno di un’azienda.

Definizione di Data Architecture

Una data architecture o architettura dei dati – descrive la struttura degli asset logici e fisici di un’organizzazione e delle risorse di gestione dei dati.

Comprende i modelli, le politiche, le regole e gli standard che regolano la raccolta, l’archiviazione, la disposizione, l’integrazione e l’uso dei dati nelle organizzazioni.

Solitamente viene gestita e organizzata da una figura professionale precisa: il data architect.

A cosa serve la data architecture?

L’obiettivo di ogni data architecture è tradurre le esigenze aziendali in dati e requisiti di sistema e gestire i dati e il relativo flusso all’interno dell’azienda.

Molte società oggi stanno cercando di modernizzare la propria struttura come base per sfruttare a pieno l’Intelligenza artificiale e consentire la digital transformation.

Infatti, queste non riescono a raggiungere i propri obiettivi di trasformazione digitale e IA a causa della complessità dei processi più che della complessità tecnica.

Principi dell’architettura dei dati

Secondo Joshua Klahr, vicepresidente della gestione dei prodotti presso Splunk e precedentemente presso AtScale, sei principi costituiscono la base della moderna architettura dei dati:

  1. I dati sono una risorsa condivisa.

Una moderna architettura dei dati deve eliminare i silos di dati dipartimentali e offrire a tutte le parti interessate una visione completa dell’azienda.

  • Gli utenti richiedono un accesso adeguato ai dati.

Oltre ad abbattere i silos, le moderne architetture di dati devono fornire interfacce che consentano agli utenti di consumare facilmente i dati utilizzando strumenti adatti al loro lavoro.

  • La sicurezza è essenziale.

Le moderne architetture dei dati devono essere progettate per la sicurezza e devono supportare le politiche dei dati e i controlli di accesso direttamente sui dati grezzi.

  • I vocabolari comuni garantiscono una comprensione comune.

Gli asset di dati condivisi, come cataloghi prodotti, dimensioni del calendario fiscale e definizioni KPI, richiedono un vocabolario comune per evitare controversie durante l’analisi.

  • I dati dovrebbero essere curati.

Investi in funzioni principali che eseguono la cura dei dati (modellazione di relazioni importanti, pulizia dei dati grezzi e cura di dimensioni e misure chiave).

  • I flussi di dati dovrebbero essere ottimizzati per l’agilità.

Riduci il numero di volte in cui i dati devono essere spostati per ridurre i costi, aumentare l’aggiornamento dei dati e ottimizzare l’agilità aziendale.

Come organizzare l’architetuttura

Una moderna architettura dei dati dovrebbe essere composta dai seguenti componenti:

  • Pipeline di dati, ovvero il processo in cui i dati vengono raccolti, spostati e perfezionati.
  • Archiviazione su cloud.
  • Cloud computing, per analizzare e gestire i dati.
  • Leggi di più sull’archiviazione cloud su “Cloud pubblico: la scelta vantaggiosa delle aziende

  • API per semplificare l’esposizione e la condivisione dei dati.
  • Modelli AI e ML. L’intelligenza artificiale e il machine learning vengono utilizzati per automatizzare i sistemi per attività quali la raccolta dei dati, l’etichettatura, ecc.
  • Flusso di dati.
  • Orchestrazione del container. Un sistema di orchestrazione dei container come Kubernetes open source è molto utile per automatizzare la distribuzione, il ridimensionamento e la gestione del software.
  • Analisi in tempo reale.
  • Data arhitecture, alcune best practice

    Le moderne architetture di dati devono essere progettate per sfruttare le tecnologie emergenti come l’intelligenza artificiale (AI), l’automazione, l’Internet of things (IoT) e la blockchain.

    Una data architecture per essere funzionale dovrebbe seguire queste best practice:

    • Nativo per il cloud.

    Le moderne architetture di dati dovrebbero essere progettate per supportare la scalabilità elastica, l’elevata disponibilità, la sicurezza end-to-end per i dati in movimento e inattivi e la scalabilità dei costi e delle prestazioni.

    • Pipeline di dati scalabili.

    Per sfruttare le tecnologie emergenti, le architetture di dati dovrebbero supportare lo streaming di dati in tempo reale e le raffiche di dati in micro-batch.

    • Perfetta integrazione dei dati con le applicazioni legacy utilizzando interfacce API standard.
    • Abilitazione dati in tempo reale.

    Ovvero supportare la capacità di implementare la convalida, la classificazione, la gestione e la governance dei dati automatizzate e attive.

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *