Mar 07, 2023
Misure per evitare l’uso eccessivo e improprio dell’apprendimento automatico nella ricerca clinica
Nature Medicine volume 28,
Nature Medicine volume 28, pagine 1996–1999 (2022)Citare questo articolo
28k accessi
11 citazioni
291 Altmetrico
Dettagli sulle metriche
Gli algoritmi di apprendimento automatico sono uno strumento potente nel settore sanitario, ma a volte non funzionano meglio delle tradizionali tecniche statistiche. Dovrebbero essere adottate misure per garantire che gli algoritmi non vengano utilizzati in modo eccessivo o improprio, al fine di fornire un reale beneficio ai pazienti.
Le prestazioni poco brillanti di molti sistemi di machine learning (ML) nel settore sanitario sono state ben documentate1,2. Nel settore sanitario, come in altri settori, gli algoritmi di intelligenza artificiale possono persino perpetuare pregiudizi umani come il sessismo e il razzismo se addestrati su set di dati distorti3.
Considerato il rapido utilizzo dell’intelligenza artificiale (AI) e del machine learning nella ricerca clinica e il loro crescente impatto, la formulazione di linee guida4,5 come SPIRIT-AI, CONSORT-AI e, più recentemente, DECIDE-AI per regolamentare l’uso dell’ML in la ricerca clinica ha contribuito a colmare un vuoto normativo.
Tuttavia, queste linee guida per la ricerca clinica riguardano generalmente l’uso del machine learning ex post facto, dopo che è stata presa la decisione di utilizzare una tecnica di machine learning per uno studio di ricerca. Le linee guida non pongono dubbi sulla necessità o sull’adeguatezza della tecnica AI o ML in ambito sanitario.
All’inizio della pandemia di COVID-19, prima dell’adozione diffusa di test affidabili presso i punti di cura per rilevare la SARS-CoV-2, un’area di ricerca molto attiva prevedeva lo sviluppo di algoritmi ML per stimare la probabilità di infezione. Questi algoritmi basavano le loro previsioni su vari elementi di dati catturati nelle cartelle cliniche elettroniche, come le radiografie del torace.
Nonostante i promettenti risultati iniziali di validazione, il successo di numerose reti neurali artificiali addestrate sulle radiografie del torace non è stato in gran parte replicato quando applicato a diversi contesti ospedalieri, in parte perché i modelli non sono riusciti ad apprendere o comprendere la vera patologia di base di COVID-19. Hanno invece sfruttato scorciatoie o associazioni spurie che riflettevano variazioni biologicamente prive di significato nell’acquisizione delle immagini, come i marcatori di lateralità, il posizionamento del paziente o le differenze nella proiezione radiografica6. Questi algoritmi ML non erano spiegabili e, pur apparendo all’avanguardia, erano inferiori alle tecniche diagnostiche tradizionali come la RT-PCR, vanificandone l’utilità. Sono stati sviluppati più di 200 modelli di previsione per il COVID-19, alcuni dei quali utilizzano il machine learning, e praticamente tutti presentano una segnalazione inadeguata e un alto rischio di bias7.
Il termine "uso eccessivo" si riferisce all'adozione non necessaria di tecniche di intelligenza artificiale o di machine learning avanzate laddove esistono già metodologie alternative, affidabili o superiori. In questi casi, l’uso di tecniche di intelligenza artificiale e machine learning non è necessariamente inappropriato o infondato, ma la giustificazione di tale ricerca non è chiara o artificiale: ad esempio, potrebbe essere proposta una nuova tecnica che non fornisce nuove risposte significative.
Molti studi clinici hanno utilizzato tecniche ML per ottenere prestazioni rispettabili o impressionanti, come dimostrato dai valori dell’area sotto la curva (AUC) compresi tra 0,80 e 0,90, o addirittura >0,90 (riquadro 1). Un'AUC elevata non è necessariamente un segno di qualità, poiché il modello ML potrebbe essere eccessivo (Fig. 1). Quando una tecnica di regressione tradizionale viene applicata e confrontata con algoritmi ML, i modelli ML più sofisticati spesso offrono solo guadagni marginali in termini di accuratezza, presentando un discutibile compromesso tra complessità del modello e accuratezza1,2,8,9,10,11,12. Anche AUC molto elevate non sono garanzia di robustezza, poiché è possibile un’AUC di 0,99 con un tasso di eventi complessivo <1% e porterebbe a prevedere correttamente tutti i casi negativi, mentre i pochi eventi positivi non lo erano.
Dato un set di dati con punti dati (punti verdi) e un effetto reale (linea nera), un modello statistico mira a stimare l'effetto reale. La linea rossa esemplifica una stima ravvicinata, mentre la linea blu esemplifica un modello ML eccessivo con eccessivo affidamento su valori anomali. Un modello di questo tipo potrebbe sembrare fornire risultati eccellenti per questo particolare set di dati, ma non riesce a funzionare bene in un set di dati diverso (esterno).