Aindo presenta a NeurIPS 2022 un approccio rivoluzionario alla privacy dei dati

Roma, 1 dic. – Cosa sono i database relazionali sintetici, come si creano e quali sono i vantaggi per l’evoluzione dell’Intelligenza Artificiale? A rispondere è Aindo, la startup italiana specializzata in dati sintetici. La realtà, fondata nel 2018 da tre giovani specialisti di intelligenza artificiale all’interno della Scuola Internazionale Superiore di Studi Avanzati di Trieste (SISSA), si sta imponendo nel panorama scientifico internazionale sul tema dell’AI tanto da essere una delle poche realtà italiane che parteciperà a NeurIPS 2022 (Neural Information Processing Systems), tra le più prestigiose conferenze a livello globale sull’intelligenza artificiale. Nell’ambito della conferenza, che si svolgerà a New Orleans dal 28 novembre al 9 dicembre 2022, Aindo presenterà al SyntheticData4ML Workshop uno dei primi studi al mondo sulla sintetizzazione e il funzionamento dei dati relazionali dal titolo “Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders”, realizzato in collaborazione con BIP Consulting. I dati sintetici: innovazione nel rispetto della privacy. Quando si parla di intelligenza artificiale è importante avere accesso a una grande quantità di dati per alimentare ed addestrare un sistema di AI. Nella fase di raccolta, tuttavia, uno degli ostacoli principali è rappresentato dalla possibilità di accedere a dati compliant alle norme di GDPR. In questo senso, la soluzione è rappresentata dalla tecnologia di generazione di dati sintetici. Si tratta di informazioni create algoritmicamente ma con un incredibile grado di realismo che possono essere utilizzate al posto dei dati reali, per addestrare modelli di AI quando i set di dati effettivi sono privati o carenti in termini di qualità, volume o varietà. Di fatto, l’analisi dei dati sintetici porta alle stesse intuizioni dell’analisi di dati reali conciliando l’utilità analitica delle informazioni ad un’eccellente protezione della privacy, a differenza dei tradizionali metodi di anonimizzazione. Questi ultimi, basandosi sul principio di distruzione dell’informazione, riducono l’utilità del dato modificandone spesso la struttura, senza tra l’altro rimuovere del tutto la possibilità di re-identificazione. Aindo guarda al futuro dell’AI con i database relazionali sintetici. Aindo, che tramite la sua piattaforma di DataOps e data curation tools, consente di sintetizzare formati di dati avanzati, presenterà a NerurIPS con il suo studio un ulteriore passo avanti nel mondo dei dati sintetici, affrontando il tema dei database relazionali, ovvero un modello di database che organizza le informazioni in tabelle collegate tra loro tramite relazioni. Lo studio spiega in che modo vengono realizzati i database relazionali sintetici combinando modelli di machine learning generativi quali Autoencoder Variazionali con strutture neurali a grafo. Nello studio il metodo sviluppato dal team di ricerca guidato da Sebastiano Saccani, viene applicato a due database disponibili pubblicamente. I risultati ottenuti dimostrano che le strutture dei database reali sono accuratamente conservate nei dataset sintetici risultanti, così come le proprietà statistico matematiche. Generare dati sintetici relazionali permette idealmente di clonare interi database. Si tratta di un sistema che incentiva lo scambio sicuro dei dati e permette di democratizzare l’innovazione, facilitando collaborazioni e progetti di ricerca innovativi e parallelamente coniugando la spinta da parte dell’Europa alla creazione di open data spaces con le limitazioni imposte dalla GDPR. Questo consente anche di sfruttare a pieno tutte le potenzialità dell’Intelligenza Artificiale, in grado di rivoluzionare tutti gli aspetti della nostra vita, dalle nuove opportunità di business al processo decisionale, fino alla medicina personalizzata. “Ad ora la letteratura sul tema risulta ancora piuttosto scarna: in particolare, pur esistendo studi e paper sui dati sintetici, mancano quelli che spiegano come avviene il procedimento di sintesi dei dati relazionali. Con questo lavoro intendiamo ampliare le conoscenze sul tema e mostrare in che modo i dati sintetici relazionali rappresentino il futuro dell’Intelligenza Artificiale. Per usare una metafora: come per produrre del vino c’è bisogno di uva, così per addestrare l’AI c’è bisogno dei dati”, spiega Daniele Panfilo, co-fondatore e CEO di Aindo e tra gli autori dello studio. “La combinazione di modelli generativi e di reti neurali su grafo permette finalmente di poter rappresentare efficacemente le distribuzioni probabilistiche complesse nei dataset relazionali. Più in generale, la rappresentazione a grafo per i dataset relazionali permette la costruzione di modelli di machine learning efficaci sulla struttura originale del dataset stesso, andando a ridurre notevolmente lo sforzo di feature engineering”, spiega Sebastiano Saccani, Head of R&D e co-founder di Aindo. “L’applicazione di tecniche di sintetizzazione genera grandi opportunità per cogliere il potenziale del machine learning nel settore sanitario. Si potrà accelerare l’accesso e la ricerca su dati clinici ed amministrativi – ospedalieri, di ASL e regionali – strutturati in database relazionali. Migliorare esponenzialmente la gestione della salute, grazie all’intelligenza artificiale e rispettando tutte le regole di privacy, non è più solo un’opportunità, ma una necessità”, commenta Marco Volpe, fondatore e responsabile della Practice Life Sciences di BIP. Gli autori del paper “Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders” sono: Ciro A.Mami, Andrea Coser, Eric Medvet, Alexander T.P. Boudewijn, Marco Volpe, Michael Whitworth, Borut Svara, Gabriele Sgroi, Daniele Panfilo, Sebastiano Saccani.