Dati, l’Equazione del Valore
Quando mi presento ai clienti di solito dico: “piacere, sono Sabrina Bussolotti e mi occupo di data management dal secolo scorso”. Faccio quindi lo stesso anche con voi!
In questi 25 anni mi sono occupata un pò di tutto in ambito gestione del dato, ma principalmente di sistemi di Back-End a supporto degli Analytics. Se mi guardo indietro e penso all’evoluzione che in questi anni ha caratterizzato il concetto stesso di dato, ne rimango sempre affascinata. Dal riuscire più o meno a definire cosa era stato venduto il mese precedente, siamo oggi in grado di alimentare algoritmi complessi con migliaia di variabili.
Viviamo in un era in cui la proliferazione dei dati é quasi senza controllo, assistendo a quel fenomeno dal nome intraducibile di “Datification”, la cui definizione é: ” un trend tecnologico che converte molti aspetti della nostra vita in dati che in seguito vengono convertiti in informazioni dai quali é possibile generare valore”.
Il dato é quindi passato in questi anni, dall’essere un’asset usato per misurare il valore generato da “altro”, all’essere a sua volta un generatore di valore. Cambiamento che può essere considerato uno degli acceleranti che portano all’esplosione di un concetto più ampio, la “Data Revolution”, che abbraccia però anche altri concetti come ML, NLP, IOT … sui quali non voglio dilungarmi ora.
I dati però non sono tutti uguali, non sono in grado di generare valore tutti allo stesso modo. Sul loro valore influiscono variabili specifiche che possiamo combinare un una sorta di equazione che determina il valore di un dato.
La quantità o volume, é quella che mi consente di avere una rappresentanza statistica significativa necessaria a raffinare le predizioni, ma anche a rendere i trend più omogenei. Un esempio di importanza di volumi di dati lo abbiamo tutti sottomano in questi giorni, sono i dati della pandemia, quando scendo a livello di provincia, non solo le predizioni sono poco significative ma anche i trend sono altalenanti. Se voglio capire se un trend é ascendente o discendente devo usare qualche trucco matematico che mi permetta di normalizzare in qualche modo i campioni.
La Qualità é l’aspetto che richiede forse meno spiegazioni, ma allo stesso tempo é quello con cui, da sempre, combattiamo “aspre battaglie”. Sono tanti gli aspetti che inficiano la qualità del dato dall’errore umano che ci fa scrivere “Bolonga” al posto di “Bologna” all’errore doloso in una Survey, che ci porta a porre la stessa domanda in modi diversi per poter fare almeno un macro controllo. Per questo gli aspetti connessi alla “Data Quality” hanno un peso notevole nei nostri processi di data preparation, che nell’idea di chi scrive devono diventare dei processi estremamente dinamici, altamente modificabili e che mettono in gioco tutte le armi a disposizione, perché la Data Quality oggi non si può limitare alla normalizzazione dell’indirizzo o alla verifica che un numero sia veramente un numero, ma mi dovrebbe fornire almeno un ranking di quanto quell’informazione sia attendibile in senso lato.
Altra variabile fragile dell’equazione é l’utilizzo. Un dato genera tanto più valore quanto più viene utilizzato applicativamente, certo, ma soprattutto strategicamente dagli strumenti analitici e previsionali. L’uso delle informazioni a fini analitici, stranamente, oggi necessita ancora di essere sollecitato attraverso l’introduzione di strumenti in gradi di avvicinare utenti non avvezzi all’analisi libera. Infatti raramente il valore viene generato da un report, che in quanto tale genera una risposta ad una domanda nota a priori, quanto dall’interazione libera con il dato in quello che viene definito “Approccio Conversazionale”. D’altra parte il processo cognitivo é tale per cui da ogni risposta scaturisce una nuova domanda. In un approccio in cui i dati generano valore e ci danno vantaggio competitivo é la domanda ad essere ignota ancor prima della risposta. Il sistema analitico deve pertanto divenire un generatore di domande ancor prima che di risposte.
Per le questioni più squisitamente analitiche vi rimando al Blog della mia collega Maria Pia Petetti, in questo spazio affronteremo invece a ruota libera tutte le tematiche che riguardano il dato ed il suo ciclo di vita nei nostri sistemi informativi, la sua genesi e la sua archiviazione quindi la gestione del volume, la sua metamorfosi nel tempo e quindi la valutazione degli aspetti qualitativi e ovviamente il “fine vita” con gli aspetti connessi all’aging.