Sempre più spesso si sente parlare di Big Data e del loro utilizzo, soprattutto in ambito IT e marketing, ma per molti risulta difficile comprendere appieno il significato del termine e cosa esso rappresenti.
In questo articolo si cerca di dare una spiegazione breve ed esauriente per premettere la comprensione del termine Big Data e come la sua influenza possa essere notata nella vita di tutti i giorni.
Con il termine Big Data vengono indicati un insieme di dati di dimensioni, varietà e tipologia tali da richiedere l’utilizzo di sistemi, tecnologie e metodi analitici di alto profilo per premettere l’estrazione dei valori in essi contenuti entro un tempo ragionevole. Per insieme di dati si intendono per esempio dati riguardanti carte di credito e conti bancari, numeri telefonici, indirizzi email, ma anche segnali televisivi, sensori per il rilevamento di sostanze inquinanti nell’aria o nelle acque, i numeri di targa delle auto che passano per un casello autostradale etc. Una mole incredibile di dati non strettamente correlati tra loro che, opportunamente analizzati ed estratti, possono produrre utili risultati.
Con la crescita della dimensione dei dataset (insieme di dati) si rende sempre più necessaria la creazione di sistemi in grado di analizzarli e di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati.
Per esempio per la creazione di sistemi di raccomandazione, utilizzati per analizzare gli interessi di un singolo utente di un sito di ecommerce rispetto a tutti gli altri, così da suggerirgli gli articoli più adatti agli scopi del cliente, quelli che solleticano la sua curiosità e lo spingono a comprare per necessità momentanea, permanente o per semplice impulso.
Inoltre con Big Data si indica anche l’interrelazione tra dati che potenzialmente possono provenire da fonti eterogenee, ossia un insieme di dati strutturati, come i database, e non strutturati come immagini, email, dati GPS o informazioni raccolte da servizi di chat o social network.
La mole dei dati raccolti ed elaborati tale da identificarli come Big Data è variabile e può raggiungere l’ordine degli Zettabyte, ovvero miliardi di Terabyte. Quindi può essere necessaria una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.