Mar 10, 2023
Modelli di base per l’intelligenza artificiale medica generalista
Nature volume 616, pages
Natura volume 616, pagine 259–265 (2023) Citare questo articolo
92k accessi
5 citazioni
638 Altmetrico
Dettagli sulle metriche
Lo sviluppo eccezionalmente rapido di modelli di intelligenza artificiale (AI) altamente flessibili e riutilizzabili probabilmente introdurrà nuove capacità in medicina. Proponiamo un nuovo paradigma per l’IA medica, che chiameremo AI medica generalista (GMAI). I modelli GMAI saranno in grado di svolgere una serie diversificata di attività utilizzando pochissimi o nessun dato etichettato specifico per attività. Costruito attraverso l'autosupervisione su set di dati ampi e diversificati, GMAI interpreterà in modo flessibile diverse combinazioni di modalità mediche, inclusi dati provenienti da imaging, cartelle cliniche elettroniche, risultati di laboratorio, genomica, grafici o testo medico. I modelli a loro volta produrranno risultati espressivi come spiegazioni in testo libero, raccomandazioni parlate o annotazioni di immagini che dimostrano capacità di ragionamento medico avanzate. Qui identifichiamo una serie di potenziali applicazioni ad alto impatto per GMAI e presentiamo capacità tecniche specifiche e set di dati di formazione necessari per abilitarle. Ci aspettiamo che le applicazioni abilitate al GMAI metteranno alla prova le attuali strategie di regolamentazione e convalida dei dispositivi di intelligenza artificiale per la medicina e modificheranno le pratiche associate alla raccolta di grandi set di dati medici.
I modelli di base, ovvero l'ultima generazione di modelli di intelligenza artificiale, vengono addestrati su set di dati enormi e diversificati e possono essere applicati a numerose attività a valle1. I singoli modelli possono ora raggiungere prestazioni all'avanguardia su un'ampia varietà di problemi, che vanno dalla risposta a domande sui testi alla descrizione di immagini e all'utilizzo dei videogiochi2,3,4. Questa versatilità rappresenta un netto cambiamento rispetto alla generazione precedente di modelli di intelligenza artificiale, progettati per risolvere compiti specifici, uno alla volta.
Spinti dalla crescita dei set di dati, dall’aumento delle dimensioni dei modelli e dai progressi nelle architetture dei modelli, i modelli di base offrono capacità mai viste prima. Ad esempio, nel 2020 il modello linguistico GPT-3 ha sbloccato una nuova capacità: l'apprendimento in contesto, attraverso il quale il modello ha svolto compiti completamente nuovi per i quali non era mai stato esplicitamente addestrato, semplicemente imparando dalle spiegazioni del testo (o "prompt" ) contenente alcuni esempi5. Inoltre, molti modelli di fondazione recenti sono in grado di accogliere e produrre combinazioni di diverse modalità di dati4,6. Ad esempio, il recente modello Gato può chattare, didascalia di immagini, giocare ai videogiochi e controllare un braccio robotico ed è stato quindi descritto come un agente generalista2. Poiché alcune capacità emergono solo nei modelli più grandi, resta difficile prevedere cosa saranno in grado di realizzare anche i modelli più grandi7.
Sebbene siano stati fatti i primi sforzi per sviluppare modelli di base medici8,9,10,11, questo cambiamento non ha ancora permeato ampiamente l’intelligenza artificiale medica, a causa della difficoltà di accedere a set di dati medici ampi e diversificati, della complessità del dominio medico e dell’attualità dei dati medici. questo sviluppo. Invece, i modelli di intelligenza artificiale medica sono ancora in gran parte sviluppati con un approccio specifico per attività allo sviluppo del modello. Ad esempio, un modello di interpretazione della radiografia del torace può essere addestrato su un set di dati in cui ogni immagine è stata esplicitamente etichettata come positiva o negativa per la polmonite, probabilmente richiedendo un notevole sforzo di annotazione. Questo modello rileverebbe solo la polmonite e non sarebbe in grado di eseguire l’esercizio diagnostico completo di redazione di un rapporto radiologico completo. Questo approccio ristretto e specifico per attività produce modelli non flessibili, limitati allo svolgimento di attività predefinite dal set di dati di addestramento e dalle sue etichette. Nella pratica attuale, tali modelli in genere non possono adattarsi ad altri compiti (o anche a diverse distribuzioni di dati per lo stesso compito) senza essere riqualificati su un altro set di dati. Degli oltre 500 modelli di IA per la medicina clinica che hanno ricevuto l’approvazione dalla Food and Drug Administration, la maggior parte è stata approvata solo per 1 o 2 compiti ristretti12.
Qui descriviamo come i recenti progressi nella ricerca sui modelli di fondazione possono interrompere questo paradigma specifico del compito. Questi includono l’ascesa di architetture multimodali13 e di tecniche di apprendimento autosupervisionato14 che rinunciano a etichette esplicite (ad esempio, modellazione linguistica15 e apprendimento contrastivo16), così come l’avvento di capacità di apprendimento in contesto5.