• 24 Febbraio 2020

La “datizzazione” dei testi.

La “datizzazione” dei testi.

La “datizzazione” dei testi. 1022 700 FinScience

Trasformare documenti in dati per migliorare decisioni, azioni e risultati di investimento, finanziamento, legali, compliance, …

di Marco Belmondo, Chief Marketing Officer di Datrix

Non esistono solo dati strutturati, ossia già sotto forma di numeri immediatamente elaborabili. I dati possono essere oggi ricavati in maniera automatizzata attraverso l’AI anche da testi di diversa originaria natura, solo per esemplificare note integrative di bilancio, contratti, sentenze, report di analisi finanziaria, descrizione prodotti e servizi sui siti Internet, chatbot, recensioni, relazioni, presentazioni, verbali, email, documenti informativi su prodotti finanziari e assicurativi (es. KID), post sui social. Si definiscono dati non strutturati in origine.

Anche contenuti audio e video (es. earning call) possono essere trasformati prima in testi scritti e poi “distillati” in dati.

I testi possono essere originariamente in formato digitale elaborabile o possono essere digitalizzati con apposite tecnologie di computer vision e OCR.

Gli utilizzi della datizzazione dei testi possono essere di diverso tipo: finanziari (credit management, risk management, selezione investimenti, …), compliance, legal, marketing & sales oppure monetizzazione dei dati stessi.

SCOPRI I SETTORI E LE SOCIETà PIÙ E MENO IMPATTATE DAL CORONAVIRUS

La finalità ultima non è di sostituire l’uomo nella decisione, ma di efficientare i processi, riducendone drasticamente i tempi, per permettere all’uomo di prendere decisioni e compiere azioni sulla base di maggiori informazioni a disposizione così da ottenere migliori risultati (AI come Augmented o Actionable Intelligence).

(Non è oggetto di questo articolo, ma aggiungo per completezza che si possono datizzare anche le immagini, pensate per esempio alle foto satellitari, alle mappe, alle TAC mediche, allo spettogramma).

I dati ricavati possono essere messi a disposizione attraverso servizi di trasferimento API oppure visualizzati in cruscotti dedicati con integrazione di sistemi di allarme (alert) che segnalano automaticamente all’utilizzatore casi di anomalie positive o negative su determinati fattori su cui si concentra la valutazione (i cosiddetti KPI).

I dati ricavati dai testi possono essere combinati con i dati strutturati già a disposizione delle aziende, perché di loro proprietà (es. per una banca quelli ricavabili da transazioni con già clienti), con quelli scaricabili da database pubblici (es. bilanci, valori di Borsa, …). Si possono poi sviluppare modelli di analisi avanzata con logiche di machine learning, in particolare con obiettivi di ricerca correlazioni ed elementi predittivi.

Il gruppo Datrix ha sviluppato soluzioni in questi ambiti. In particolare la tech company PaperLit, facendo leva su un’esperienza ultradecennale nella trasformazione dell’Editoria, ha sviluppato soluzioni di digitalizzazione, attraverso algoritmi dedicati al rilevamento dei caratteri contenuti in un documento, alla conversione in testo digitale leggibile da una macchina e all’eventuale successivo posizionamento ottimale sui motori di ricerca. “Si pensi al caso in cui si debba partire da un supporto cartaceo, magari anche un po’ rovinato dal tempo, o da una scansione o da stampa” esemplifica Luca Filigheddu, CEO di PaperLit. Ma anche soluzioni di summarization, ossia di sintesi più o meno lunga di un testo basata su criteri di rilevanza dei contenuti analizzati attraverso reti neurali.

La tech company FinScience ha invece sviluppato soluzioni di comprensione e analisi del linguaggio naturale (Natural Language Processing, abbreviato NLP). Rendere una macchina capace di elaborare il linguaggio naturale è piuttosto complesso, a causa del fatto che ogni lingua è dotata di regole specifiche che variano l’una dall’altra; inoltre vengono spesso utilizzate convenzioni e forme idiomatiche i cui significati sono fortemente dipendenti dal contesto.

Moltissime metodologie nate in ambito machine learning vengono utilizzate per affrontare problemi tipici del NLP: ad esempio, algoritmi di categorizzazione sono usati per associare un sentiment ad un testo oppure modelli statistici che imparano quale sia l’argomento principale di un contenuto.

“In FinScience abbiamo affrontato diverse sfide” – ha dichiarato Ilaria Bianchini, Head of Research Tech -, “tra le quali il raggruppamento di documenti simili e riassunto degli stessi in maniera non supervisionata, estrazione delle emozioni contenute in un testo tramite algoritmi proprietari basati su deep learning, definizione delle parole chiave in un testo ( le parole presenti nel testo vengono rappresentate tramite i nodi di un network; si cerca poi di misurare quale siano i nodi più importanti all’interno della rete similmente a quanto viene fatto nel celebre PageRank di Google), classificazione supervisionata di una grande quantità di documenti a partire da un insieme di etichette specifiche (tag) in ambito legale.

Per risolvere questi problemi è necessario riuscire a coniugare conoscenza di campo, collaborando ad esempio con avvocati nel caso di applicazioni legali, e conoscenza tecnologica di algoritmi e programmazione”.

FinScience ha esperienze “testuali” anche relative alla datizzazione di contratti sottostanti a Non-performing Loan (NPL), compravendite immobiliari, sviluppo di indicatori alternativi di investimento e strategie quantamentalvalutazione ESG delle aziende in particolare misurazione della distanza tra quanto autodichiarato nei bilanci di sostenibilità e la percezione esterna, miglioramento dell’affidabilità dei modelli di stima rischio default delle PMI.

Una guida ed un report realizzati con fonti dati digitali non tradizionali, utili per valutare le tematiche ESG da un punto di vista alternativo.