@ - È arrivato il momento della super intelligenza medica? Mustafa Suleyman, amministratore delegato della divisione intelligenza artificiale di Microsoft sostiene di sì. In un'intervista al Financial Times, contemporanea alla pubblicazione dei dati della ricerca sul sito dell'azienda (e non su una rivista scientifica) ha annunciato che il nuovo potente strumento di intelligenza artificiale è stato in grado di diagnosticare malattie complesse con una precisione quattro volte superiore rispetto a un gruppo di medici in carne ed ossa. E anche i costi sarebbero stati inferiori in modo significativo.
La super intelligenza medica di Microsoft:
«Diagnosi complesse 4 volte più precise rispetto ai medici»
Tuttavia Microsoft, pur evidenziando i potenziali risparmi sui costi, ha minimizzato le implicazioni occupazionali, affermando che l'intelligenza artificiale potrà integrare il lavoro dei medici piuttosto che sostituirlo. «Il loro ruolo clinico è molto più ampio della semplice diagnosi. Devono destreggiarsi nell'ambiguità e costruire un rapporto di fiducia con i pazienti e le loro famiglie, in un modo che l'IA non è in grado di fare» scrive l'azienda. Il colosso informatico non ha ancora deciso se proverà a commercializzare la nuova tecnologia, ma certamente nei prossini anni serviranno ulteriori test per dimostrane l'efficacia.
Il nuovo «orchestratore diagnostico» si chiama MAI-DxO ed è la prima iniziativa nata dalla divisione sanitaria basata sull'intelligenza artificiale creata l'anno scorso da Mustafa Suleyman con personale prelevato da DeepMind, il laboratorio di ricerca da lui co-fondato e ora di proprietà della rivale Google. Secondo Suleyman la «super intelligenza medica» potrebbe contribuire a risolvere le crisi di personale e i lunghi tempi di attesa nei sistemi sanitari sovraccarichi.
MAI-DxO crea panel virtuali composti da cinque agenti di intelligenza artificiale che agiscono come veri medici (ognuno di loro ha un ruolo specifico come ad esempio scegliere i test diagnostici o formulare ipotesi) che interagiscono tra loro e «dibattono» per individuare una linea di azione.
Per testare le capacità di MAI-DxO, la superintelligenza artificiale ha analizzato 304 «case Report» pubblicati sul New England Journal of Medicine (NEJM), una delle riviste di salute più prestigiose al mondo. I «case report» sono situazioni cliniche complesse che la rivista propone ogni settimana per mettere alla prova le capacità diagnostiche dei medici di tutto il mondo.
L'«orchestratore diagnostico» ha imitato il percorso a step che in genere svolge un medico per arrivare alla diagnosi (il test è stato chiamato Sequential diagnosis benchmark), trasformando questi studi in «sfide interattive». Non si è trattato dunque di rispondere a domande a scelta multipla, ma di seguire un vero percorso di diagnosi, partendo dai sintomi e ponendo domande specifiche, con prescrizione e valutazione di esami per arrivare alla diagnosi definitiva. Ad esempio, un paziente con sintomi di tosse e febbre potrebbe richiedere esami del sangue e una radiografia del torace prima che il medico arrivi a una diagnosi di polmonite.
Microsoft ha utilizzato i principali modelli linguistici di OpenAI, Meta, Anthropic, Google, xAI e DeeepSeek. L'orchestratore ha migliorato le prestazioni di tutti gli LLM, risolvendo correttamente l'85,5% dei case report del NEJM.
I 21 medici coinvolti nella valutazione (provenienti da Regno Unito e Stati Uniti) hanno ottenuto in media il 20% di diagnosi corrette. tuttavia, è da sottolineare che ai professionisti che hanno partecipato allo studio è stato chiesto di non consultare libri, di non chiedere supporto a colleghi e di non utilizzare strumenti aggiuntivi per la diagnosi, tutte situazioni che avrebbero certamente aumentato il tasso di successo «umano», dal momento che consultare colleghi è una normale prassi quando le diagnosi sono particolarmente complesse. Inoltre i medici potrebbero aver tenuto conto di altri fattori come ad esempio la tolleranza del paziente a una determinata procedura o alla disponibilità di un particolare strumento diagnostico che magari l'AI ha dato per scontati.
La tecnologia è chiaramente ancora alle fasi iniziali, non è ancora stata sottoposta a revisione paritaria e non è pronta per «entrare in ospedale». Tuttavia il lavoro è stato salutato con un certo entusiasmo da buona parte della comunità medico-scientifica. «È uno studio epocale - ha affermato Eric Topol, cardiologo, fondatore e direttore dello Scripps Research Translation Institute - e sebbene questo studio non sia stato condotto nel contesto della pratica medica reale è il primo a fornire prove del potenziale di efficienza dell'IA generativa in medicina: accuratezza e risparmio sui costi». Secondo David Sontang la ricerca è importante non solo perché rispecchia fedelmente il modo in cui i medici operano, ma anche perché affronta in modo rigoroso i possibili problemi nelle metodologie. Per confermare le potenzialità di MAI-DxO sono comunque tutti d'accordo: il nuovo strumento diagnostico va testato sul campo, con pazienti reali e non «case report». Solo a quel punto sarà effettivamente possibile confrontare la sua efficacia rispetto ai medici in carne ed ossa e valutare in modo rigoroso i costi.
Del resto è già noto che l'intelligenza artificiale è capace di fare una diagnosi, anche meglio degli umani. Tuttavia i modelli di AI, pur ottenendo punteggi eccellenti nei test medici, non riescono a supportare efficacemente persone comuni in situazioni realistiche, come emerso anche in un recente lavoro dell'Università di Oxford. L'AI conosce la medicina, ma è per ora poco capace di comunicare con l'uomo. Nella realtà le persone descrivono i sintomi spesso in modo confuso e incompleto, mentre nei test di studio l'AI riceve istruzioni (prompt) molto accurati e ben scritti ed è proprio qui che emerge il gap tra la mera conoscenza medica e la capacità pratica e di comunicazione che, almeno per ora, solo un medico vero può avere.
Nessun commento:
Posta un commento