WEB SEMANTICO. La semantica tutti i giorni in un clic
- Written by Franco Boscolo
- Published in Studi e ricerche
Colloquio con il ricercatore della Fondazione Bruno Kessler, Bernardo Magnini
Non ce ne rendiamo conto, ma quando clicchiamo l’interruttore automatico di un motore di ricerca o diamo comandi vocali ad un navigatore, stiamo usufruendo di tecnologie della semantica, frutto della ricerca di quindici anni nella comprensione del linguaggio e nella traduzione automatica statistica. Di questo si è discusso nel corso della tre giorni di convegno internazionale “Joint Symposium on Semantic Processing - Textual Inference and Structures in Corpora” svoltosi a Povo (Trento) presso la sede della Fondazione Bruno Kessler (20, 21 e 22 Novembre 2013).
È importante ricordare che proprio a Trento, negli anni, si è costituito un polo con diverse competenze in questo importante settore; l’Università di Trento assieme alla Fondazione Bruno Kessler ed il CNR, relativamente alle tecnologie della semantica, sono diventate un segno distintivo della città, tanto da essere oggi sede di eccellenza a livello mondiale in questo branca scientifica davvero specifica e strategica e così inaspettatamente presente nella nostra quotidianità. Ne abbiamo parlato con Bernardo Magnini, ricercatore senior alla Fondazione Bruno Kessler di Trento, dove è responsabile della Unità di Ricerca su Tecnologie del Linguaggio.
I suoi interessi sono nel campo del trattamento automatico del linguaggio, in particolare l’interpretazione semantica, settori in cui ha pubblicato più di 130 articoli scientifici. Ha avviato la realizzazione di risorse computazionali per la lingua italiana e ha coordinato EVALITA, la campagna di valutazione a cui partecipano sistemi automatici per il trattamento dell’italiano, sia scritto che parlato. Ha coordinato progetti di ricerca internazionali, tra cui QALL-ME (question answering) e LiveMemories (estrazione e integrazione di contenuti da archivi non strutturati). È professore a contratto all’Università di Bolzano, e attualmente coordina il Gruppo di Lavoro sull’Elaborazione del Linguaggio Naturale della Associazione Italiana Intelligenza Artificiale.
Il convegno “Joint Symposium on Semantic Processing - Textual Inference and Structures in Corpora” - ci spiega il professor Magnini - ha avuto l’obiettivo di fare il punto sullo stato dell’arte delle tecnologie della semantica. Si tratta di tecnologie che tentano di interpretare dati che noi chiamiamo “non strutturati”, cioè, in buona sostanza, i dati in formato testuale. Il linguaggio è ancora di gran lunga lo strumento usato per comunicare informazioni; tuttavia, per farlo fare in modo automatico ad una macchina, occorre interpretare e capire almeno una parte dei contenuti che vengono espressi e veicolati tramite il linguaggio.
Le tecnologie della semantica si occupano di affrontare questo problema da vari punti di vista. Il Convegno ha fatto il punto sui diversi approcci che la comunità scientifica internazionale sta portando avanti negli ultimi dieci anni. Uno di questi è quello che va sotto l’etichetta di metodologia detta “distribuzionale”, cioè si utilizzano strumenti che considerano come le parole si “distribuiscono” all’interno di archivi testuali di grandi dimensioni, sotto l’ipotesi che parole con significati simili tendono ad apparire in contesti simili. Abbiamo a disposizione il web che è una fonte immensa di testi in varie lingue e, tramite metodologie statistiche, che calcolano modelli statistici del linguaggio, si possono estrarre tutta una serie d’informazioni utili per “assegnare significato”.
Dall’altra ci sono metodologie che si rifanno alla tradizione “logica”; da questo punto di vista, interpretare il significato (la semantica), significa costruire una forma logica. Per esempio: data una frase, secondo vari procedimenti e passaggi, alla fine saremo in grado di costruire una rappresentazione basata su un “formalismo” che non è ambiguo come invece può essere il linguaggio che parliamo e che scriviamo.
In pratica ci sono due approcci che si stanno confrontando. Uno, che si propone di costruire una forma logica non ambigua basata su un formalismo già esistente del quale si conosce benissimo la sintassi e la semantica che è la logica matematica; questa modalità ha il vantaggio di essere molto precisa, se si riesce ad implementarla correttamente, ma ha lo svantaggio di avere “poca copertura”, cioè si può applicare ad un numero di casi semplici: non siamo ancora in grado di applicarla su larga scala, pertanto si fanno poche cose, ma bene. Dall’altra parte, gli approcci probabilistici, statistici basati sull’apprendimento automatico dai dati, si collocano all’opposto, riescono a maneggiare tantissimi dati, ma realizzano risultati poco accurati, poco precisi.
Allo stato attuale della tecnologia della semantica si stanno confrontando queste due diverse metodologie e il Simposio, appena concluso, ha avuto anche lo scopo di trovare dei punti di contatto e delle sinergie tra questi approcci diversi.
Professor Magnini, le due scuole di pensiero collaborano realmente?
Collaborano fino ad un certo punto; da una parte c’è la tradizione della logica matematica, dall’altra c’è la metodologia statistica. Anche le competenze dei ricercatori sono, ovviamente, assai diverse e, a maggior ragione, l’evento è servito a far colloquiare queste due grandi comunità che non è così scontato che si parlino. Anche dal punto di vista delle tecnologie utilizzate, sono ancora abbastanza separate e distinte; non ci sono tanti esempi d’integrazione neppure dal punto di vista del software. Non dobbiamo dimenticare – continua il professor Magnini - che in questo settore c’è la volontà e il tentativo di costruire “applicazioni”, di costruire un software che funzioni e che, al di là di chi ha più o meno ragione a livello accademico, dovrà svolgere dei compiti, che dovrà essere integrato all’interno di applicazioni che poi le persone useranno tutti i giorni: una prospettiva estremamente pragmatica.
Questo campo sta crescendo enormemente e c’è una richiesta forte, negli ultimi anni, di applicazioni, prova ne sia il fatto che ne abbiamo sempre di nuove disponibili per i nostri telefonini intelligenti, gli smartphone; oggi sono dotati anche di comandi vocali, interpretano al nostra voce, capiscono il comando dato e lo eseguono, e, ancora, pensiamo ai sistemi di traduzione automatica, ai sistemi che fanno tagging semantico su grandi quantità di dati sul web. Tutte queste applicazioni risentono di questa dualità tra gli approcci statistici e quelli della logica.
Da quando il web è diventato “semantico”?
Il primo articolo che ha lanciato il concetto di “web semantico” è stato pubblicato nel 2001 da quello che è considerato l’inventore del web, Tim Berners-Lee. Egli riteneva il web semantico come l’evoluzione del web nella quale le macchine possono capire una parte dei contenuti che sono sul web e, proprio perché possono “assegnare semantica” - possono assegnare dei tag condivisi - possono poi rendere “interoperabili” contenuti pubblicati su siti diversi. Idea eccezionale quella di Tim Berners-Lee che rappresenta il futuro sul quale stiamo lavorando.
Pervasivo risulta anche il tentativo di trovare risultati simili – “similarità” - nella ricerca di un utente e di riproporli quindi come possibilità all’utente successivo cercando di individuare sempre meglio quello a cui punta esattamente una ricerca nel web. Non essendo ancora in grado di capire al 100% cosa un utente richiede, vengono fornite numerose possibilità simili tra le quali, statisticamente, dovrebbe esserci anche l’oggetto esatto della ricerca
Trento è, dunque, diventata un polo d’eccellenza internazionale in questo settore.
A Trento abbiamo iniziato a lavorare sulla semantica e in particolare sull’interpretazione del linguaggio naturale, ormai dal 1988. Si è formato un team di ricercatori che, nel corso degli anni, si è sviluppato ed è cresciuto diventando tra i più visibili e riconosciuti a livello europeo e mondiale, chiaramente per gli addetti ai lavori nel settore specifico; solo negli ultimi cinque anni sono stati raccolti diversi milioni di Euro di finanziamenti per la ricerca da parte di aziende e dall’Europa (…) stessa.
Negli anni abbiamo costruito un polo con diverse competenze: l’Università di Trento assieme alla Fondazione Bruno Kessler e il CNR, relativamente alle tecnologie della semantica, sono diventate un segno distintivo di Trento. Siamo stati in grado di mettere in sinergia le diverse competenze necessarie, diventando sede di eccellenza a livello mondiale in questo fondamentale settore.
Siamo dotati di una infrastruttura importante e unica in Italia: per fare ricerca di un certo livello, soprattutto quando si tratta di metodologie statistiche, è necessario gestire una moltitudine di dati, si parta di “corpora” di miliardi di parole. Per arrivare a statistiche significative è necessaria un’infrastruttura di calcolo e di gestione dei software che consenta di fare esperimenti affidabili e in tempi brevi. Negli anni abbiamo consolidato questo patrimonio sia a livello scientifico, sia a livello tecnologico: vi è una dimensione scientifica nella quale si pubblica ed una tecnologica con la quale bisogna realizzare software che funziona.
Questo viene sì distribuito alla comunità accademica, ma può essere utilizzato anche da aziende e diventare parte di esperienze commerciali; queste due dimensioni (scientifica e tecnologica) richiedono competenze anche molto diverse.
Quando “clicchiamo” l’interruttore automatico di un motore di ricerca o diamo comandi vocali ad un navigatore, stiamo usufruendo di tecnologie della semantica della comprensione del linguaggio, il frutto della ricerca di quindici anni nella traduzione automatica statistica, di modelli probabilistici del linguaggio costruiti su “corpora” di due lingue diverse molto grandi. Usando applicazioni che rispondono ai nostri comandi vocali, utilizziamo tecnologie per la comprensione del linguaggio parlato: i nostri suoni, i nostri fonemi vengono trasformati in testo; si tratta di un tecnologia che, in Italia, siamo rimasti gli unici a sviluppare in modo indipendente e nel mondo ci sono pochi centri in grado di gestire queste tecnologie.
Facendo un esempio sui risultati di una ricerca nel web, digitando “Da Vinci”, 10 anni fa sarebbe comparsa un’enorme lista di pezzettini di testo (…), un milione e forse più; oggi, invece, a fronte della consueta lista, viene fornita anche una rappresentazione strutturata: informazioni sulla nascita, sulle opere principali, puntatori a varie altre documentazioni ecc. Si tratta non già di una raccolta che esiste già, ma che viene costruita dalle tecnologie che stanno dietro il motore di ricerca e continua a migliorarsi grazie al software che auto-impara proponendo suggerimenti addirittura in forma sintetica. Normalmente sul monitor a sinistra compare il “listone”, mentre sulla destra viene proposta una sintesi; dieci anni fa questo non era possibile.
C’è comunque molto da fare per il futuro, basti pensare che, per esempio, i diversi sistemi sono oggi in difficoltà nel caso di ricerche su eventi in quanto essi sono molto più complessi che non l’individuazione di notizie su Leonardo Da Vinci. Lo stesso vale per il traduttore che non è ancora in grado di proporre soluzioni linguistiche del tutto scorrevoli. Sono stati fatti evidentemente passi da gigante – conclude il professor Magnini - ma tanto c’è ancora da fare in un settore in continua crescita e d’interesse assoluto per il futuro con evidenti ricadute nella quotidianità di ognuno di noi.
Franco Boscolo