La scorsa settimana, Microsoft ha pubblicato il suo ultimo articolo sull’intelligenza artificiale in ambito sanitario, “Diagnosi sequenziale con modelli linguistici”, che si preannuncia estremamente promettente. Lo definiscono “Il percorso verso la superintelligenza medica”. I medici saranno superati dall’intelligenza artificiale? Si tratta davvero di un progresso rivoluzionario nel nostro campo? Sebbene l’articolo sia appena stato sottoposto a revisione e potrebbe richiedere ulteriori sperimentazioni, questo articolo ne analizzerà i punti principali e ne fornirà alcune discussioni e limitazioni.
I titoli generali sono sorprendenti: un metodo per aumentare le prestazioni diagnostiche dell’intelligenza artificiale all’80% (con la nuova metrica SDBench di Microsoft). Ma vediamo come funziona.
Per un breve riassunto dell’articolo, i ricercatori hanno creato un nuovo benchmark, SDBench, basato su casi clinici. A differenza della maggior parte degli scenari, le prestazioni si basavano sull’accuratezza diagnostica e sul costo totale per arrivare alla diagnosi. Non si tratta di un nuovo modello di intelligenza artificiale, ma di un orchestratore diagnostico MAI chiamato MAI-DxO (di cui parleremo più avanti). Questa orchestrazione dell’IA è indipendente dal modello e sono state eseguite numerose varianti di esperimenti per ottenere la frontiera di Pareto costo-accuratezza. I risultati finali indicano un’accuratezza del 20% per i medici e dell’80% per MAI-DxO. Tuttavia, queste percentuali non sono necessariamente esaustive.
Cos’è la Diagnosi Sequenziale?
Innanzitutto, l’articolo si intitola Diagnosi Sequenziale con Modelli Linguistici. Di cosa si tratta esattamente? Quando i pazienti si recano da un medico, devono raccontare la loro storia clinica per fornire un contesto al medico. Attraverso domande e test iterativi, i medici possono restringere il campo delle ipotesi per una diagnosi. L’articolo cita diverse considerazioni durante la diagnosi sequenziale che entrano in gioco in seguito per lo sviluppo: domande informative, bilanciamento tra rendimento diagnostico e costo e carico per il paziente, e sapere quando formulare una diagnosi affidabile [1].
SDBench
Il Benchmark per la Diagnosi Sequenziale è un nuovo benchmark introdotto da Microsoft Research. Prima di questo articolo, la maggior parte dei benchmark medici prevedeva domande a risposta multipla. Google ha notoriamente utilizzato MedQA, composto da domande in stile US Medical Licensing Exam (USMLE), nello sviluppo del suo LLM in medicina, MeD-PaLM 2 (potreste ricordare i titoli originariamente pubblicati da MeD-PaLM come LLM in medicina per il superamento dell’USMLE [2]). Questo tipo di benchmark Q+A sembra appropriato poiché i medici sono abilitati tramite domande a risposta multipla USMLE. Tuttavia, si sostiene che queste domande testino un certo livello di memorizzazione e non necessariamente una comprensione approfondita. Nell’era in cui gli LLM sono noti per la memorizzazione, questo non è necessariamente il benchmark migliore.
Per contrastare questo fenomeno, SDBench combina 304 casi clinici del congresso clinico-patologico (CPC) del New England Journal of Medicine (NEJM) pubblicati tra il 2017 e il 2025 [1]. È progettato per imitare il processo iterativo che un medico umano intraprende per diagnosticare un paziente. In questi scenari, un modello di intelligenza artificiale (o un medico umano) inizia con la storia clinica originale di un paziente e deve prendere decisioni iterativamente per restringere il campo a una diagnosi. In In questa situazione, il modello decisionale è chiamato agente diagnostico, mentre il modello che rivela le informazioni è chiamato agente gatekeeper. Discuteremo più approfonditamente di questi agenti nelle prossime sezioni.
Un’altra novità di SDBench è la considerazione dei costi. Ogni diagnosi potrebbe essere molto più accurata con denaro e risorse illimitati per test illimitati, ma questo non è realistico. Pertanto, ogni domanda posta e ogni test ordinato comporta un costo finanziario simulato, che rispecchia l’economia sanitaria reale con i codici della Current Procedural Terminology (CPT). Ciò significa che le prestazioni dell’IA vengono valutate non solo in base all’accuratezza diagnostica (confrontando la diagnosi finale con il gold standard del NEJM), ma anche in base alla sua capacità di ottenere tale diagnosi in modo economicamente vantaggioso.
Valutare la diagnosi con SDBench
La domanda naturale che sorge spontanea è: “come vengono valutate esattamente queste diagnosi per la correttezza all’interno del framework SD Bench?”. Non è semplice, poiché le malattie hanno spesso nomi multipli, rendendo inaffidabile la corrispondenza diretta delle stringhe. Per risolvere questo problema, i ricercatori Microsoft hanno creato un agente giudice.
Se interessa si veda il sito di Microsoft Sembra probabile la necessità di operare utilizzando la cartella clinica informatizzata
Post correlati
Un problema ancora da risolvere adeguatamente tanti i consigli per chi è vicino o frequenta l' anziano. Interessa in particolare gli infermieri e i caregiver, [...]
L'ISTAT propone una misurazione del benessere equo e sostenibile con l' obiettivo di valutare i progressi sociali complessivi dell' Italia . BES benessere equo e [...]
Si veda questo link : https://insights.avea-life.com/it/longevity/la-scienza-della-longevita-cosa-ci-aiuta-davvero-a-vivere-meglio-e-piu-a-lungo/. La medicina moderna sempre di più punta a prolungare gli anni vissuti in salute cioè senza disabilità che compromettono [...]



