Negli ultimi tempi i dati e le tecnologie di analisi sono diventati asset indispensabili per la maggior parte delle imprese e delle aziende di tutto il mondo che oggi hanno a che fare con enormi quantità di dati.
Infatti, più che di semplici dati si tratta di grandi dataset provenienti da fonti interne ed esterne all’azienda, che possono essere generati da macchine o persone. Nel processo di digital transformation delle aziende l’approccio data driven (basato sui dati) è indispensabile per attuare strategie di marketing ponderate su base fattuale.
Per tutte queste e altre variabili che vediamo nel corso dell’articolo, nel 2001, Doug Laney descrisse le caratteristiche dei Big Data, all’epoca fissate nelle 3 V di Volume, Velocità e Varietà. Nel tempo, le 3 V sono diventate le 5 V dei Big Data, e poi altre V sono state introdotte da ricercatori e analisti per spiegare la sempre maggiore particolarità di questi dati così multiformi, dinamici e sempre più complessi da gestire.
Brevi cenni storici sui Big Data
Giusto per inquadrare il contesto, prima di immergerci nelle caratteristiche dei Big Data, vediamo di capire come si arriva ai grandi volumi odierni dei dati.
Dai tempi più remoti e presso le civiltà più antiche si sente il bisogno di possedere la conoscenza dei dati per gestire al meglio decisioni e ottenerne vantaggi. Ne sono testimonianza gli antichi Egizi e l’Impero Romano. Nel 300 a.C. nasce la famosa Biblioteca di Alessandria, probabilmente il primo tentativo di raccogliere i dati. Sembra che nella biblioteca vi fossero oltre 100.000 libri, all’epoca nella forma dei rotoli.
Durante l’Impero Romano, invece, avvengono le prime forme di analisi statistiche dei dati per prevenire le più probabili insurrezioni nemiche preparando gli eserciti per affrontarle. Questa forma di analisi sembra anticipare l’analisi predittiva dei dati.
Ma chi per primo si occupò di l’analisi statistica dei dati fu tale John Graunt, studioso londinese pioniere dei cosiddetti “aritmetici politici”, promotore della statistica e della biometria. Già nel 1663 ne maneggia un gran volume studiando la peste bubbonica che aveva colpito l’Europa. Nel 1800 è già chiara la percezione della sovrabbondanza dei dati in occasione dei censimenti annuali.
È il 1881 quando Herman Hollerith, ingegnere statunitense inventa la prima macchina per la tabulazione dei dati basata sull’uso di schede perforate. L’obiettivo è quello di ridurre il lavoro di calcolo.
Nel corso del 20° secolo, i dati si sono evoluti a una velocità impressionante e inaspettata, diventando leva del progresso e dell’evoluzione. Nel 1965, il governo degli Stati Uniti costruisce il primo centro dati per archiviare milioni di serie di impronte digitali e dichiarazioni dei redditi.
Il termine “Big Data” si affaccia negli anni ‘90. Sembra sia stato lo scienziato informatico americano John R. Mashey a introdurlo per primo rendendolo popolare. Dal punto di vista della conoscenza, i dati implicano un melting pot di materie quali matematica, statistica e tecniche di analisi dei dati.
A partire dall’inizio del 21°secolo, i dati iniziano ad aumentare caratterizzando per volume e velocità con cui vengono generati. E cambia anche il modo con cui accedervi.
Infatti, se fino agli anni ‘50 l’analisi dei dati viene fatta manualmente e su carta, tra gli anni ’60 e ’70 nascono i primi data center e i database relazionali, strumenti di raccolta e aggregazione dei dati.
Dopo qualche decennio, tra il 2005 e il 2008, è la volta della nascita di siti web e social network, come Facebook e YouTube. E ancora, con la crescita dell’Internet of Things (IoT), sempre più dispositivi e oggetti connessi a Internet comportano un’elevata produzione di ingenti volumi di dati generati da molteplici fonti diverse da catturare, elaborare e memorizzare. Nel 2013, la quantità totale di dati nel mondo raggiunge i 4,4 zettabyte.
I big data aumentano di giorno in giorno perché tante sono le attività e le operazioni che compiamo tutti noi, tutti i giorni, producendo una mole imperiosa di dati dai dispositivi mobili ai sensori, dai call center ai server web, dai siti web agli e-commerce, ai social network. Per citare solo alcuni esempi.
Questi dati hanno la caratteristica di essere molto grandi, veloci e difficili da gestire per i database tradizionali e le tecnologie esistenti. Ecco perché sempre più aziende, oggi, complice la digital transformation, sentono il bisogno di dotarsi delle tecnologie non tradizionali per estrapolare, gestire e processare terabyte di dati anche in una frazione di secondo.
Le prime 3 V dei Big Data
In base a uno studio del 2001, l’analista Doug Laney definì le caratteristiche dei Big Data secondo il modello delle 3V: Volume, Varietà, Velocità.
1 V: Volume
Per volume si intendono le dimensioni dei dati, cioè le quantità di dati raccolti e archiviati generati da umani o da macchine e provenienti da varie fonti, tra cui dispositivi IoT (i sensori sempre connessi), apparecchiature industriali, applicazioni, servizi cloud, siti web, social media, video e strumenti scientifici, transazioni commerciali e bancarie, movimenti sui mercati finanziari, ecc.
In passato, l’archiviazione rappresentava un grande problema rispetto ai limiti degli spazi fisici destinati alla memorizzazione dei dati. Con il tempo, fortunatamente, sono emerse tecnologie avanzate come i data lake e Hadoop, oggi diventati strumenti standard per l’archiviazione, l’elaborazione e l’analisi dei dati
2 V: Varietà
Il volume e la velocità dei dati sono fattori importanti per un’azienda, ma i big data comportano anche l’elaborazione di diversi tipi di dati raccolti da varie fonti.
La varietà riguarda la diversità dei formati, delle fonti e delle strutture. Le informazioni dei big data sono molto diverse tra loro e ognuna ha una sua origine.
Le fonti di dati possono essere sia interne sia esterne. E questa eterogeneità può diventare critica nella realizzazione di un data warehouse.
Esiste una grande varietà di dati disponibili in tutti i formati, come dati numerici, documenti di testo, immagini, video, tweet, e-mail, audio, blog post, commenti sui social network, informazioni dei sensori IoT ecc.
Per varietà, infatti, si intende una grande diversità di tipi di dati provenienti da fonti diverse e con diverse strutture.
Possiamo classificare i Big Data in tre tipi: strutturati, semistrutturati e non strutturati o dati grezzi.
I dati strutturati sono quelli tradizionali, ordinati e conformi a una struttura formale. Sono i dati memorizzati in sistemi di database relazionali. Un estratto conto bancario, ad esempio, include la data, l’ora e l’importo.
I dati semi-strutturati sono dati non completamente ordinati che si discostano dalla struttura dei dati standard: file di log, file JSON, file CSV ecc.
I dati non strutturati sono i dati non organizzati che non possono rientrare nei database relazionale: file di testo, e-mail, foto, filmati, messaggi vocali, file audio.
Per fare degli esempi: i dati disponibili sul Web sono ‘non strutturati’. L’80% dei dati mondiali è non strutturati. Esiste una grande varietà di dati sul Web. I blog, le foto, i tweet, i video sui social media non sono dati strutturati.
È importante distinguere tra le varie fonti dei dati:
- I dati in streaming provengono dall’Internet degli oggetti (IoT) e da altri dispositivi connessi, come gli indossabili, le automobili intelligenti, i dispositivi medici, i sensori industriali ecc.
- I dati dei social media originano dalle attività su Facebook, YouTube, Instagram, e altri, sotto forma di immagini, video, testo e audio in forma non strutturata o semistrutturata.
- I dati pubblici originati dalle fonti di dati aperti, come ISTAT, l’Open Data Portal dell’Unione Europea, il data.gov del governo statunitense, il World Factbook della CIA.
Per affrontare questa diversificazione nella gestione dei vari dati e per comprendere i big data, sono necessari strumenti di analisi dei dati più evoluti dei semplici fogli di calcolo, come il modello di Data Analytics, il processo per estrarre valore da questa mole di informazioni.
3 V: Velocità
Questo aspetto indica la rapidità con cui i dati sono prodotti. Oltre alla quantità esponenziale dei dati in entrata, anche la velocità dei dati è importante.
La velocità dei dati si riferisce alla velocità di dati e informazioni che fluiscono in entrata e in uscita dai sistemi interconnessi in tempo reale, quindi alla crescente velocità con cui i dati possono essere ricevuti, elaborati, archiviati e analizzati dai database relazionali.
Gli insiemi dei dati devono essere gestiti in modo tempestivo, in tempo reale, soprattutto quando si tratta di sistemi RFID, sensori e IoT in grado di generare dati con una velocità elevatissima.
A questo proposito, si immagini un servizio di apprendimento automatico che si serve costantemente di un flusso di dati, oppure una piattaforma di social media con miliardi di persone che caricano e pubblicano foto 24H, 7/7.
La velocità di accesso ai dati ha un forte impatto diretto sul possedere un quadro chiaro ed esaustivo per prendere decisioni aziendali tempestive e accurate.
Pochi dati ma buoni, ovvero elaborati in tempo reale, producono risultati migliori rispetto a un grande volume di dati che richiede troppo tempo per essere acquisito e analizzato.
Altre V sono state aggiunte, poi, come caratteristiche dei Big Data che ne potessero approfondire la natura inerente alla loro complessità.
4 V: Veridicità
La veridicità si riferisce alla qualità, integrità e accuratezza dei dati raccolti. Il problema maggiormente avvertito è legato proprio all’ambiguità e all’indeterminatezza dei big data, considerando che provengono da più fonti e in diversi formati, e che l’analisi dei dati acquisiti è inutile se non è attendibile e fondata.
L’accuratezza e l’affidabilità sono parametri meno controllabili per molte forme di big data. Per esempio, sui social network sono molto frequenti post con hashtag, abbreviazioni, errori di battitura e frasi gergali.
Per ottenere la veridicità dei dati, eliminando così i dati incompleti e indeterminati, è necessario utilizzare tecnologie intelligenti e non strumenti tradizionali per i quali l’adozione risulterebbe anche molto più onerosa dal punto di vista economico.
Quando si accenna alle tecnologie tradizionali, si intendono i database relazionali (RDBMS, Relational Database Management Systems) e i tool di analisi predittiva e data mining con forti limiti di fronte alla crescita dei volumi di dati o alla mancanza delle strutture tabellari.
5 V: Variabilità
È un parametro legato alla varietà. I dati arrivano da fonti diverse e devono quindi essere diversificati tra dati inconsistenti e dati utili, importanti ai fini dell’utilità informativa o predittiva che possono rappresentare per l’azienda.
6 V: il Valore
La “V” più importante per l’impatto che ha sull’azienda è il valore dei dati legato alla rivelazione di insight e creazione di pattern più competitivi e vantaggiosi in termini di risultati concreti.
Il risultato concreto si ottiene solo quando i dati vengono trasformati in informazioni di valore, dalle quali ricavare conoscenza al fine di prendere decisioni mirate da tradurre in azioni, attività e scelte orientate. Per far questo occorrono strumenti di analisi.
È fondamentale per ogni azienda valutare il costo degli investimenti nelle tecnologie e nella gestione dei big data, nonché soppesarne il valore che possono apportare. Non conta tanto la quantità dei dati che raccogliamo, quanto il valore che ne possiamo trarre per guidare decisioni e azioni.
Le 10 V dei Big Data
Nel 2014 Kirk Born, fondatore della piattaforma online Data Science Central, ha ridefinito le 10 V dei big data in
Volume, Velocità, Valore, Varietà, Verità, Valore, Validità, Venue, Vocabolario e Vaghezza.
Commentiamo solo le V aggiunte.
7 V: Venue
Si riferisce ai diversi sistemi o piattaforme in cui i dati vengono archiviati, elaborati e analizzati. Il tipo di venue utilizzato per i big data dipende dalle esigenze aziendali e dal tipo di dati che vengono elaborati.
8V: Vocabolario
Si riferisce alla necessità di condividere terminologia e semantica per descrivere e definire i modelli e le strutture dei dati.
9V: Vaghezza
La V di vagueness si riferisce alla difficoltà di definire con precisione i dati, a causa della loro natura sfumata o imprecisa.
I dati in questione possono essere parziali, incerti o incompleti, e potrebbero non essere adatti all’analisi tradizionale. Questa vagueness può essere causata da una serie di fattori, come l’imprecisione delle fonti di dati, la variabilità dei dati stessi o la complessità dei processi di acquisizione e gestione dei dati.
Le 14 V dei Big Data
Tutte le caratteristiche dei big data (le 14 V) sono state elencate e definite da ricercatori e data scientist al fine di spiegarne tutta la complessità, e per gestirli nel modo più efficace possibile.
Volume, Velocità, Valore, Varietà, Verità, Validità, Volatilità, Visualizzazione, Viralità, Viscosità, Variabilità, Venue, Vocabolario, Vaghezza.
Commentiamo solo le V aggiunte.
10 V: Volatilità
Per volatilità si intende il valore dei dati che cambia velocemente perché nuovi dati vengono continuamente prodotti (es: i dati provenienti dai sensori IoT possono essere altamente volatili poiché vengono generati in tempo reale e possono cambiare rapidamente).
11 V: Visualizzazione
Si riferisce al processo di rappresentazione delle grandi quantità di dati al fine di renderli più comprensibili ed esplorabili. La visualizzazione dei big data è una parte critica del processo di analisi dei dati, perché può aiutare gli analisti a identificare modelli, tendenze e relazioni nei dati altrimenti difficili da individuare.
12 V: Viralità
Si riferisce alla velocità con cui i dati vengono trasmessi/diffusi e ricevuti per il loro utilizzo.
13: Viscosità
Si riferisce al ritardo dell’evento, ovvero alla discrepanza temporale tra l’evento che si è verificato e l’evento descritto, che può essere fonte di ostacoli nella gestione dei dati.
La difficoltà nella gestione dei dati può essere aggravata dalla differenza temporale tra l’evento reale e la sua descrizione. Ad esempio, se la registrazione dei dati avviene con un certo ritardo rispetto all’evento, si può verificare una perdita di informazioni importanti o una riduzione dell’accuratezza dei dati.
In conclusione, i big data sono un asset fondamentale per ogni azienda caratterizzati da alcuni aspetti che abbiamo messo in luce con le 5 V + le altre aggiunte per spiegarne la complessità.
Sempre più rincorsi per il loro valore, questi dati hanno bisogno di tecnologie capaci di occuparsi di tutte le fasi del ciclo di vita dei big data: acquisizione (o data ingestion), immagazzinamento e organizzazione, trasformazione e analisi.
Ma non solo di analisi di tipo descrittivo che, seppur importante, guarda al passato osservando ciò che è accaduto e misurandone le conseguenze. Il valore aggiunto dei big data è dato dalle tecniche di analisi avanzata proiettate nel futuro, ovvero quella predittiva e prescrittiva, che fanno luce su aspetti che l’azienda può anticipare per evitare scelte rischiose o sconvenienti.
Le tecnologie big data sono in grado di analizzare i dati in modo veloce, profondo e granulare, nonché di prestarsi come strumenti molto più flessibili e convenienti in termini di storage e licenze software.
Le tecnologie di cui hanno bisogno le aziende devono anche assicurarne la qualità, la governance e l’archiviazione, nonché la preparazione dei dati per l’analisi. Alcuni dati possono essere archiviati localmente in data warehouse tradizionali, per altri si adotteranno soluzioni molto più convenienti, flessibili e dai costi ridotti.
Ne sono esempio tecnologie per archiviare i dati come data lake, i framework open-source Hadoop e Spark, per raccogliere, archiviare ed elaborare grandi volumi di dati strutturati e non, e le piattaforme di Cloud Computing che rendono più semplici ed economici i processi di manipolazione dei big data perché gestiti dal provider ed erogati con il sistema pay-per-use, quindi senza costi iniziali.
Per ricavare informazioni utili dai dati, negli ambiti più disparati, da quello produttivo a quello del marketing, a quello finanziario, tanto per citarne alcuni, ci si avvale degli algoritmi di intelligenza artificiale.