Il settore finanziario, ancor più di altri, produce una enormi mole di dati che, per caratteristiche e quantità, deve poter essere gestita e interpretata per essere utile.
Parliamo a tutti gli effetti di big data, informazioni che non sempre sono processabili con i soliti application software, ma che sono invece molto variegate nei formati e nei contenuti (dati utente, log di sistema, etc).
Tutto il ciclo di vita di questi dati va visto come una vera e propria catena di montaggio: si parte dalla cattura delle tracciature – che deve essere effettuata in modo da non rovinare l’esperienza utente e da rispettare le norme GDPR – a memorizzazione, condivisione, processamento, visualizzazione e ricerca. La chiave per effettuare in modo rapido ed efficiente questi ultimi passi è sfruttare la scalabilità (quasi) infinita delle risorse dei cloud provider.
Scopo di metodologie come il text mining è rivelare dei pattern, dei trend e delle correlazioni, focalizzandosi soprattutto sui legami con il comportamento umano.
Scopriamo quali sono le più comuni applicazioni nel campo della finanza.
Cosa sono i big data e il text mining
Come anticipato, con la buzzword big data si intende un’intera branca della data science che ingloba metodi per analizzare, processare o anche solo gestire enormi dataset.
Il termine è generalmente associato ad informazioni che seguono il modello delle cinque V:
– volume (si ha una quantità considerevole di dati da processare);
– variety (i dati possono essere strutturati o meno);
– velocity (rapidità di generazione di nuovi dati, che comporta necessità di processarli in near real-time);
– value (i dati sono utili solo se riusciamo a produrre valore da essi);
– veracity (i dati devono essere attendibili, integri e più possibile precisi).
Più recentemente, con big data si intende un’evoluzione del modello iniziale, che punta all’analisi predittiva e all’analisi del comportamento utente.
Con text mining si intende invece il processamento volto a ricavare informazioni preziose e il più possibile strutturate da sorgenti prettamente testuali (siti web, libri, email, recensioni, etc).
Tale processamento viene svolto tramite tecniche di natural language processing (NLP) o metodologie AI-based, dalla sentiment analysis all’uso di reti neurali.
Text mining nel mondo finanziario
Come anticipato, la natura dei dati trattati in ambito finanziario è molto varia dal punto di vista dei contenuti, dei formati (pagine HTML, documenti JSON o XML) o della struttura delle informazioni (testo libero, dati semi-strutturati o su database relazionali).
Di conseguenza, non ci si può basare su un unico algoritmo o modus operandi e in alcuni casi è possibile anche combinare uno o più approcci per ricavare il massimo valore dai nostri dati.
La keyword extraction
Una prima metodologia da dover menzionare è sicuramente la keyword extraction, che consiste nell’identificazione automatica di termini che descrivono meglio i temi trattati all’interno di un documento.
La keyword assignment
Una variante di questo approccio è la keyword assignment, in cui la scelta viene effettuata su un vocabolario di termini ben definiti, anziché ricavarli direttamente dal testo. I metodi utilizzati in questi casi possono essere supervisionati (partendo da una base catalogata già manualmente), semi supervisionati o non supervisionati. In quest’ultimo caso, per l’estrazione dei termini si applicano tecniche statistiche, linguistiche, basate su grafi o su modelli machine learning.
Un ambito applicativo di questa tecnica è, ad esempio, la categorizzazione (per enterprise search) di documenti, ma anche l’analisi di articoli volta alla scoperta di nuovi trend di mercato.
La named entity recognition
Altro modo di estrarre informazioni dai testi è la named entity recognition, che consiste nell’estrarre determinate tipologie di name dalle sequenze di parole di un documento. Questi possono essere indirizzi email, città o stati, compagnie (con tutte le approssimazioni del caso dovute a sostantivi composti da più parole).
Oltre ad individuare i nomi e classificarli in base alla loro tipologia, si può procedere analizzando le relazioni tra queste entità. Esempi applicativi in questo caso sono l’estrazione di informazioni da registri di transazioni o articoli finanziari.
La sentiment analysis
Ulteriore metodologia – applicata soprattutto su recensioni o trascrizioni di interviste – è la sentiment analysis: basandosi su tecniche di processamento del linguaggio, va a determinare quella che è l’opinione o il pensiero espresso da chi produce contenuti riguardo determinati argomenti.
Traslando questo concetto nel mondo finanziario, si possono analizzare una serie di contenuti per conoscere quella che è la percezione del rischio da parte di consumatori o investitori relativamente ad una banca, ad un’azienda o a ad un trend di mercato.
In questo caso, si possono usare approcci più “classici” (linguistici) o più “moderni” (basati su reti neurali o modelli machine learning).
La social network analysis
Infine, sfruttando i dati che ricaviamo spesso gratis e pubblicamente da siti internet pubblici, possiamo utilizzare la social network analysis per direzionare accuratamente le nostre campagne di marketing. Infatti, analizzando figure importanti in una network di persone si possono trovare interessi in comune tra i vari collegamenti, focalizzandosi sulle keyword delle future campagne.