Data lake: come mantenerlo… limpido

photo_172_20051008.jpg

Per anni, sostenute da tecnologie come Apache Hadoop, le aziende hanno cercato di costruire “data lakes” – piattaforme di gestione dei dati – che gli consentissero di tenere tutti i dati nel loro formato nativo. I data lakes promettono di superare i silos di informazioni offrendo una singola repository di dati che l’intera azienda può usare per ogni esigenza, dal business analytics al data mining. Grezzi e privi di regole, i data lakes sono stati presentati come la soluzione per tutto ciò che riguarda i Big Data.

L’opinione di Avi Perez, CTO di Pyramid Analytics (azienda specializzata in software di BI), è che molti data lakes si stiano deteriorando in “data swamps” (paludi di dati), ossia in enormi magazzini di dati completamente inaccessibili agli utenti finali.

“I database sono molto costosi,” dice Perez, “fondamentalmente, il data lake risponde a questo problema. Tutte le iniziative legate ai Big Data, compresi i data lakes, arrivano da: pressioni del mercato che spinge ad averne una, e l’enorme quantità di dati che bisogna salvare in qualche modo.”

Se da un lato alcune delle compagnie più di successo su scala globale hanno costruito il loro business intorno ai data lakes (ad esempio Google), molte altre continuano a raccogliere dati senza alcuna idea di come trarne un valore.

“È come raccogliere polvere,” continua Perez. “Come raccogliere rottami. Penso che [quei data lakes] verranno abbandonati. Si finisce sempre per tagliare ciò che è troppo costoso e non serve a nulla.”

Non è l’idea dietro i data lakes ad essere malvagia. Perez è convinto che tutte le compagnie avranno bisogno di averne uno. Ma per crearlo in modo da dare effettivi benefici agli utenti finali richiede alcuni accorgimenti.

Per evitare di “affogare” nel proprio “lago di dati”, Perez consiglia di adottare tre principi.

1. Raccogliere meno dati, almeno all’inizio

Secondo Perez, uno degli errori più grandi delle aziende è quello di raccogliere troppi dati, semplicemente perché possono farlo. Basti pensare allo smartphone: il semplice fatto di possederne uno significa probabilmente avere centinaia di foto al suo interno.

“Si finisce per avere un milione di foto sul telefono, e il 99% di esse sono probabilmente immagini che cancelleremmo senzapensarci due volte. È diventato talmente facile scattare foto con il telefono, che probabilmente si finisce per pensare che prima o poi si farà pulizia, ma non lo facciamo mai. Teniamo quantità enormi di informazioni, ma non abbiamo modo di usarle in modo efficace.”

Quando si vuole mostrare una foto a qualcuno, per trovarla bisogna passare attraverso un volume enorme di “spazzatura”.

Lo stesso accade, secondo Perez, con i data lakes. Salvare i dati su Hadoop è abbastanza conveniente da essere spesso considerato gratuito. Ma la quantità di dati che si accumula può rendere difficile l’effettivo accesso ai dati che possono offrire una visione valida.

“Penso che il modo di evitarlo sia chiudere un po’, un bel po’, i rubinetti,” dice Perez. “Lavorare sul presupposto che solo perché raccogliere i dati non è costoso, non significa che sia economico usarli. Anzi, può essere decisamente costoso. Non bisogna raccogliere dati da ovunque, né in modo continuo, ma concentrarsi su un set di dati sul quale si ha un piano specifico, come ad esempio sapere come eseguirvi il data mining.”

2. Adottare una strategia di machine learning

Anche con un data set specifico, ottenere una visione dai dati richiede automazione.

“Serve un sistema automatizzato per pulire i dati,” dice Perez. “Intelligenza artificiale, machine learning, deep learning, qualsiasi termine si voglia usare, è la formula magica per procedere attraverso le informazioni. Io sostengo che il modo più semplice per ottenere valore da un enorme data lake 5PB sia iniziare con una tecnica che indichi il modo in cui si può imparare da esso.”

Per iniziare, continua Perez, si sceglie un set di dati che si conosce e si seleziona una tecnica di machine learning. Serviranno probabilmente nuove skills per farlo in modo efficace, attraverso la formazione o nuove assunzioni.

“Machine learning è un’arte oscura,” dice. “Non è semplice. Servono skills molto specifiche.”

3. Determinare il problema di business che si vuole risolvere

Ecco come si completa il cerchio: bisogna iniziare con una visione chiara del problema di business che si vuole risolvere. Con un obiettivo in mente, dovrebbe essere relativamente facile capire quali dati serve raccogliere e la migliore tecnica di machine learning per ottenere da essi una visione.

Per esempio, secondo Perez, si può provare ad immaginare di essere un venditore all’ingrosso che vorrebbe sapere il tipo di clienti che frequentano il punto vendita. Si potrebbero fotografare i clienti all’ingresso e quindi usare un convoluted neural network (CNN) – un network neurale di deep learning che eccelle nei problemi di visione computerizzata – per processare le immagini. Il CNN potrebbe determinare se ogni individuo è uomo o donna, adulto o bambino, giovane o anziano ecc.

“Una volta fatto questo, si unisce tutto con un’iniziativa di business, per poi indirizzarla agli utenti business,” dice Perez, “Potrebbe aiutare a capire, ad esempio, se bisogna concentrarsi sui clienti uomini perché non ne si hanno abbastanza. È davvero necessario avere una strategia chiara fin dall’inizio. Se non la si ha, la semplice raccolta dei dati diventa qualcosa di negativo.”

Una volta costruita un’abilità con un’iniziativa di business in mente, è spesso possibile ripeterla per soluzioni ancora più mirate. Per esempio, una volta capito chi frequenta un punto vendita si potrà applicare la stessa abilità per capire chi passa davanti al banco dei cosmetici.

Tradotto da www.cio.com

 

 

 

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s