Cos’è il data mining? Come nasce?
Il data mining nasce negli anni ’60 come uno dei risultati delle ricerche effettuate nel campo della scienza dell’informazione e del comportamento cognitivo.
Il data mining ha avuto origine dalle ricerche indirizzate verso l’intelligenza artificiale, meglio nota oggi come machine learning.
I risultati di tali ricerche portarono a identificare quattro caratteristiche fondamentali dell’intelligenza:
- Riconoscere schemi
- Eseguire classificazioni
- Prendere decisioni
- Effettuare previsioni
Il data mining è una raccolta di algoritmi statistici, evolutivi, matematici e altro ancora, che permettono di realizzare, in varie gradazioni, le quattro attività suddette.
Il data mining, in genere, si effettua su grandi volumi di dati e per questo motivo è quasi sempre associato almeno ad un data warehouse.
Qual è il valore del data mining per gli affari di un’azienda?
Gli esseri umani non si comportano tutti in maniera differente ma tendono ad agire secondo un numero limitato di schemi possibili. Poter identificare quali e quanti siano gli schemi tipo e definire quali variabili debbano essere esaminate per poter associare un individuo allo schema tipo che seguirà è uno degli aspetti che il data mining è, in genere, in grado di affrontare.
Un esempio è quello della gestione del rischio di credito: quali sono gli schemi tipo che un cliente di una banca può seguire nella restituzione di un prestito?
Possiamo ipotizzare, basandoci sul buon senso, che questi schemi siano fondamentalmente tre: restituirà i soldi senza alcun problema; li restituirà, dopo non poche tribolazioni; non li restituirà. Sempre basandoci sul buon senso potremmo dedurre che la classe di schema che seguirà un determinato cliente dipenderà dal suo reddito e dalle sue proprietà. Applicando, invece, le tecniche del data mining, è probabile che scopriremo che i possibili schemi sono di più e che essi dipendono da altre variabili oltre a quelle del reddito e del possesso di beni immobili.
Il data mining ha origine da lunghi studi di psicologia comportamentale e di scienza dell’informazione e, sebbene non sia necessario che l’analista conosca queste due discipline, è importante capire che esse, grazie ad un notevole sforzo di ricerca, sono alla base dei risultati che il data mining può offrire.
Il data mining, oggi, è una disciplina matura che può fornire un grande potere all’azienda, consentendogli di predire i comportamenti dei propri clienti, dei propri avversari, dei propri dipendenti,… Ma tutto questo può avvenire solo se le analisi dei dati effettuate mediante le tecniche di mining sono realizzate a fronte di obiettivi di business ben formulati e a quesiti specifici: ci sono moltissimi schemi che possono essere trovati dal data mining nei dati derivanti dal business ma essi hanno un valore solo se rispondono ad una “domanda” ben formulata e che abbia un effetto benefico sugli obiettivi di business.
E’ possibile avere un esempio più specifico? Cosa cambia rispetto all’OLAP?
Chi ha già confidenza rispetto alle tecniche di analisi on-line (meglio note come OLAP, On-Line Analytial Processing) si starà chiedendo qual è il vantaggio che il data mining può portare alla propria attività. In definitiva le analisi dimensionali (che ormai quasi tutti i sistemi software sono in grado di fornire) sembrano più che sufficienti: avere le proprie vendite, ad esempio, ripartite per area geografica, per sesso del cliente, per venditore,… può sembrare già il massimo. In realtà il data mining permette di scoprire quelle regole che sono presenti nei dati ma che non sono così evidenti: grazie al mining è possibile capire, ad esempio, che esiste un’altra dimensione in grado di segmentare i clienti e che non corrisponde a nessuna delle dimensioni note.
Un’analisi di clustering permette, ad esempio, di stabilire che si hanno cinque tipologie di clienti e definire quali sono le variabili più importanti per discriminare una tipologia da un’altra. Quest’operazione, che richiede in genere la considerazione contemporanea di più variabili e dimensioni, non può essere effettuata da un normale tool OLAP ma è una caratteristica peculiare del data mining.
Il fatto che i clienti tendano ad acquistare in combinazione determinati prodotti, sia nello stesso istante che a distanza di tempo, è un altro aspetto che non può essere desunto dalle tecniche tradizionali: è ovvio che un cliente che acquista una macchina fotografica digitale probabilmente acquisterà in seguito una stampante e della carta per potersi stampare in proprio le fotografie; o delle schede di memoria di capacità adeguata; ma in molti casi il data mining consente di scoprire sia quantitativamente a quanto ammonta la probabilità suddetta sia altri tipi di accoppiamenti che, spesso, nessuno avrebbe mai immaginato.
Quanto ci si può fidare del data mining?
Grazie alle regole scoperte da data mining si possono prendere delle decisioni molto importanti utilizzando dei parametri oggettivi e documentabili. Ogni decisione, però, può rivelarsi in seguito sbagliata. Lo sbaglio può dipendere da fattori imprevedibili o non direttamente correlati con il processo decisionale seguito ma può anche dipendere dai dati utilizzati o dalla interpretazione che si è data a tali informazioni.
Nasce quindi spontaneo un dubbio: quanto ci si può fidare dei dati “scoperti”, delle regole “misteriose” prodotte dal mining, delle predizioni effettuate da un miscuglio alchemico di hardware e software?
La risposta non è semplice da implementare ma è semplice da capire:
- i dati di partenza devono essere stati validati mediante apposite analisi e mediante la “garanzia” fornita dal buon funzionamento del software che li ha generati (che in genere è il software gestionale utilizzato per mandare avanti le attività aziendali);
- I risultati delle elaborazioni del mining devono essere, anch’essi, validati. Tali validazioni possono avvenire utilizzando una porzione di dati originari a questo scopo (ad esempio usare il 90% delle informazioni disponibili per eseguire gli algoritmi di mining e il restante 10% per verificare se i risultati “predetti” dal mining per il passato concordino con quanto è già accaduto);
Queste due regole sono fondamentali ed è importante che siano continuamente rispettate. E non è da escludere che durante la loro applicazione venga fatta qualche scoperta interessante: a volte le anomalie che sembrerebbero dimostrare un’errata interpretazione dei dati effettuata dal mining (o peggio, la presenza di dati errati) possono invece portare alla luce degli aspetti del problema che non erano stati sufficientemente considerati.
Se, ad esempio, in una catena di negozi di abbigliamento sportivo, dopo l’esecuzione di un mining, si scopre che le vendite sono correlate al clima della località in cui si trova il punto vendita, ciò sembra logico e sembra anche una conclusione che non necessiti di validazione. Eseguendo, però, comunque, il test di validazione si scopre, sempre per esempio, che un punto vendita non rispetta assolutamente questa regola. Tale scoperta può far pensare a numerose ipotesi relative a errori o conclusioni errate del processo di mining ma può anche significare che si è trascurato un dato (ad esempio l’esistenza di un segmento di clientela finora sconosciuto) che riveste un’importanza tale da avere impatto su delle regole “valide”.
Molti strumenti del data mining hanno, comunque, degli indicatori che permettano di stabilire quanta confidenza si ha nei risultati ottenuti, così come esistono delle matrici cosiddette “di confusione” che permettono di capire quanto un algoritmo stia classificando “correttamente” oppure stia “sbagliando”.
Si potrebbe avere una spiegazione più comprensibile di cos’è il data mining?
Il data mining è un tipo di analisi dei dati differente da quelli tradizionali. Non è un’analisi statistica in senso tradizionale, non è un’analisi di matematica finanziaria, non è un’analisi fatta con l’utilizzo di fogli di calcolo, non è l’analisi dimensionale tipica dei sistemi OLAP.
Tutte queste analisi tendono a consistere in una domanda a cui si pretende una risposta. La domanda può essere posta una tantum oppure può essere ripetuta nel tempo, periodicamente o meno, per affrontare un “problema” ricorrente.
La risposta che si ottiene può essere, in genere, dettagliata mediante “drill-down”. Ma questo dettaglio non è altro che una nuova domanda con parametri diversi a cui si aspetta una risposta specifica.
In tutte le analisi tradizionali la base dati è vista come un semplice in serbatoio informativo “passivo” che si limita a rispondere a tali domande. È l’utente, invece, il vero protagonista in quanto è lui che deve trovare le domande giuste da porre. Quindi, nelle analisi tradizionali, se l’utente non pone una domanda specifica non otterrà mai la risposta a tale domanda specifica.
Alcune delle analisi tradizionali lavorano con una domanda per volta altre, tra cui in particolare l’analisi dimensionale, portano avanti numerose domande, ma sempre secondo lo schema in cui la base di dati fornisce le risposte solamente alle domande che sono state formulate.
Nelle analisi effettuate mediante data mining si hanno invece degli algoritmi che, in maniera automatica, procedono cercando degli schemi e quindi, in questo caso, il quesito dell’utente è molto generico e il database diventa, invece, il vero attore che, grazie agli algoritmi di mining, riorganizza i dati cercando delle forme che siano più “interessanti”, che siano più “intime”, che siano più “utili” di quelle che forniscono le analisi tradizionali.
In sintesi, il data mining aggiunge alle analisi tradizionali quello che a loro manca: permette di scoprire dei fatti prima sconosciuti, permette di riorganizzare in forma fruibile gigantesche raccolte informative per risolvere problemi troppo vasti o troppo complessi per poterli affrontare direttamente, evidenzia aspetti attuali che richiedono l’attenzione dell’azienda o che divergano dalle previsioni fatte, predire il futuro.
Il data mining, in definitiva, è una tecnica di analisi dei dati in cui si lascia il sistema informatico libero di fornire quelle informazioni che ritiene possano essere interessanti per il problema da affrontare.
In quest’ottica la macchina diventa uno strumento che mette a disposizione dell’utente le sue capacità elaborative: la capacità di scoprire schemi, la capacità di classificarli, la capacità di prendere decisioni e la capacità di predire il futuro, ossia tutte quelle competenze che sono tipiche del ragionamento.
Questo non significa che le macchine hanno acquisito un’intelligenza ma che sono comunque in grado, per molti aspetti, di “intellìgere”, ossia di “leggere dentro” alle informazioni che si hanno per tirarne fuori le caratteristiche più profonde, più intime, future, più essenziali, più rappresentative.
Tutto questo non significa che l’analista che utilizzi il data mining debba essere ignorante dell’argomento su cui va a lavorare ma, anzi, significa esattamente il contrario: avere un analista che conosca bene il proprio dominio di business è fondamentale ma questa competenza deve essere completata con la necessaria elasticità e apertura mentale per poter accogliere quello che di nuovo la macchina sarà in grado di proporre.