Di recente i dati alternativi sono stati oggetto di forte attenzione da parte delle aziende: questi sono generati ad una velocità senza precedenti e sono spesso disponibili in formato gratuito, e dunque sono una preziosa fonte di informazioni, come spiegato in questo articolo.
FinScience raccoglie ed analizza quotidianamente circa 300.000 testi provenienti da news feed, social media e quotidiani online. Tuttavia, serve l’aiuto di strumenti adatti a organizzare, capire e analizzare questa vasta risorsa. Per estrarre dell’informazione utile, serve una tecnologia potente che sia in grado di interpretare in modo automatico il nostro linguaggio naturale, cioè la lingua che usiamo nella vita di tutti i giorni: il Natural Language Processing.
Rendere una macchina capace di elaborare il linguaggio naturale è però complesso, a causa di alcuni fattori, tra cui:
– Ogni lingua è dotata di regole e strutture piuttosto precise. Tuttavia, quando ci esprimiamo usiamo spesso convenzioni e forme idiomatiche i cui significati sono fortemente dipendenti dal contesto.
– La comunicazione umana è fortemente ambigua e per funzionare necessita di forti assunzioni sulla condivisione della base di conoscenze tra le parti in gioco (vedi ad esempio l’uso dell’ironia).
Quali metodologie usare?
Le tecniche più usate in ambito NLP sono quelle del machine learning: ad esempio, gli algoritmi di classificazione sono usati per associare un sentimento ad un testo, oppure le reti neurali vengono sfruttate per fornire un riassunto di un articolo. Esistono tuttavia approcci differenti basati su regole linguistiche, formulate e implementate dai linguisti. A questo proposito, un ottimo libro introduttivo è “Speech and Language Processing” di Dan Jurafsky e James H. Martin.
L’esempio del topic modeling
Il topic modelling è un modello matematico molto usato in machine learning che permette di identificare pattern ricorrenti di parole all’interno di un gruppo di testi non-etichettati.
Un tema, argomento o “topic”, infatti, non è altro che un insieme di parole che spesso vengono menzionate insieme.
Ad esempio, se in un testo osservo parole come “blockchain, criptovaluta, sicurezza, digitale”, so che probabilmente verrà menzionata anche la parola “bitcoin”. In particolare, dato il contesto, la probabilità di osservare “bitcoin” sarà molto più alta di quella associata ad una qualsiasi altra parola, come ad esempio “pizza”.
Un buon algoritmo di topic modelling, quindi, non fa altro che formare dei gruppi di parole, ognuno dei quali rappresenta una tematica specifica. Dopo aver imparato gli argomenti latenti a partire dai dati, che in questo caso è una raccolta di testi, ogni volta che abbiamo un testo nuovo possiamo stimare la probabilità che questo sia associato ad ognuno di essi.
Uno dei modelli più usati si chiama Latent Dirichlet Allocation (LDA): è un modello probabilistico in cui il dato testuale viene considerato come una mistura di diversi argomenti latenti. I parametri che l’algoritmo deve stimare dalle osservazioni non sono altro che i vettori di parole che formano gli argomenti, e la probabilità che ogni argomento sia presente nel testo (vedi la figura sotto).

[Fonte: medium.com]
Topic modeling su news finanziarie.
Come caso di studio abbiamo considerato le news di tipo finanziario raccolte da gennaio a maggio 2018: applicando la LDA abbiamo ottenuto 80 diversi argomenti trattati, che possono essere interpretati tramite le parole con probabilità più alta.
Molti tools per la visualizzazione ci aiutano nell’interpretazione dei risultati: l’immagine mostra come il topic “numero 2”, ad esempio, sia rappresentato dalle parole evidenziate in rosso “quarter rating report research inc analyst”. Potremmo assegnargli dunque l’etichetta “report finanziari”.
Una volta che l’algoritmo ha identificato in modo automatico quanti e quali sono gli argomenti contenuti nel dataset, possiamo passare alla classificazione: ogni nuovo testo che analizziamo verrà assegnato ad uno o più argomenti tra quelli trovati.
Questo strumento di analisi è prezioso, in quanto ci permette di estrarre valore dalla grande quantità di testi raccolti. Vediamo ad esempio alcune domande alle quali possiamo dare una risposta analizzando i dati raccolti:
a) Quali temi ricorrono frequentemente insieme all’argomento “criptovalute”?
Quando gli utenti parlano di questo argomento, identificato dalle parole “bitcoin cryptocurrency value transaction”, spesso vengono menzionati anche argomenti relativi alla sicurezza personale e al trading di questa valuta. Anche il trend generale dell’economia nazionale viene preso in considerazione. Il grafico qua sotto rappresenta queste relazioni, dove la scala di colore delle frecce rappresenta quanto è “forte” la relazione tra la coppia di argomenti.
b) Quali sono le aziende più citate con l’argomento che tratta della crescita economica “growth trading quarter earning”?
Questo argomento raccoglie le notizie legate alla crescita economica (di Stati, industrie, etc…): alcuni titoli delle news che appartengono al gruppo:
1) “PM Modi seeks double-digit growth for India’s entry into $5 trillion club”
2) “Medtronic raises quarterly dividend 9% to 50 cents a share”
3) “Indians are earning more, spending more and paying more taxes”
Investigando quali aziende ricorrono spesso in questo argomento, possiamo avere un’indicazione su quali si concentrano questo tipo di notizie, che sono generalmente associate ad un sentiment positivo. Oltre ai colossi come Apple e Netflix, appaiono aziende molto diverse come Airbus, OXXO, DJI, Huawei e Westpac (dati riferiti al 20 giugno – 10 luglio 2018).
c) Come si diffondono gli argomenti nel tempo?
Qua sotto analizziamo la diffusione digitale, cioè una misura di quanto una qualsiasi entità (un argomento o un’azienda, ad esempio) sia diffusa online; in particolare, vediamo il trend di cinque diversi argomenti, che vanno dal mercato immobiliare (“topic 60”) ai tassi di crescita (“topic 56”), dal bitcoin (“topic 5”) ai debiti nazionali (“topic 13”). Quest’ultimo è decisamente il più diffuso tra i testi condivisi online di natura finanziaria.
Analisi simili possono essere utilizzate per identificare argomenti emergenti o monitorare l’andamento temporale di argomenti di interesse: tali segnali rappresentano un’importante risorsa per gli analisti finanziari, generando nuove idee di investimento.
Queste analisi, infatti, sono solo il primo passo verso un utilizzo più strutturato dei risultati del topic modelling, che può essere impiegato in analisi finanziarie più approfondite, come la costruzione di portafogli tematici.