SIMG – componente direttivo nazionale
Il fonendoscopio rappresenta, da oltre due secoli, uno degli strumenti simbolo della professione medica. Introdotto da René Laennec nel 1816, esso ha consentito per la prima volta di trasformare l'auscultazione cardiopolmonare in un atto clinico sistematico e riproducibile. Tuttavia, nonostante la sua centralità nella pratica clinica, l'auscultazione tradizionale presenta limiti intrinseci legati alla soggettività dell'interpretazione e alla variabilità dell'esperienza clinica dell'operatore.
Negli ultimi anni l'intelligenza artificiale (IA) applicata ai segnali fisiologici ha mostrato risultati promettenti nel miglioramento delle capacità diagnostiche degli strumenti clinici tradizionali e negli studi di validazione algoritmica. Tra questi, il fonendoscopio digitale rappresenta uno dei dispositivi più interessanti, poiché consente di acquisire e analizzare simultaneamente segnali acustici cardiaci e tracciati elettrocardiografici mediante algoritmi di machine learning.
In questo contesto si inserisce lo studio TRICORDER (Triple Cardiovascular Disease Detection with an Artificial Intelligence–Enabled Stethoscope)1, recentemente pubblicato su The Lancet, che rappresenta uno dei primi trial pragmatici cluster-randomizzati che valuta l'impatto clinico reale di un fonendoscopio supportato da IA in medicina generale.
Nonostante le elevate performance algoritmiche documentate negli studi preliminari di validazione2-5 il trial pragmatico TRICORDER non ha dimostrato un aumento statisticamente significativo delle nuove diagnosi di insufficienza cardiaca nella pratica clinica reale. Questo apparente paradosso rappresenta uno degli aspetti più interessanti e metodologicamente rilevanti dello studio.
Infatti, nella letteratura sull'IA applicata alla medicina, la maggior parte delle evidenze deriva da studi di validazione algoritmica condotti in contesti altamente controllati. In tali studi6,7, gli algoritmi vengono testati su dataset selezionati di casi patologici, spesso derivati da database clinici o da popolazioni ad alta prevalenza di malattia, e le loro prestazioni vengono misurate attraverso indicatori di accuratezza diagnostica quali sensibilità, specificità o area sotto la curva ROC. Sebbene questi parametri siano fondamentali per dimostrare la validità tecnica di un modello predittivo, essi non garantiscono automaticamente che l'algoritmo produca un beneficio clinico quando viene integrato nella pratica quotidiana.
Lo studio TRICORDER evidenzia con chiarezza questa distanza tra performance algoritmica ed efficacia clinica: l'introduzione di uno stetoscopio digitale dotato di algoritmi di IA non si è tradotta automaticamente in un incremento delle diagnosi di scompenso cardiaco nella popolazione generale assistita dai MMG.
Tale risultato suggerisce che il valore clinico di una tecnologia non dipende esclusivamente dalla sua capacità di identificare pattern patologici nei dati fisiologici, ma anche dalla sua capacità di inserirsi in modo fluido nei processi decisionali e organizzativi della pratica medica quotidiana.
Uno dei fattori determinanti emersi dallo studio riguarda il livello di adozione della tecnologia da parte dei medici; infatti, nel corso del trial una quota rilevante di medici ha progressivamente ridotto o abbandonato l'utilizzo del dispositivo individuando le ragioni principali di questo fenomeno nella scarsa integrazione dello strumento con i sistemi di cartella clinica elettronica, nell'aumento del tempo necessario per completare la visita e nella difficoltà di incorporare il dispositivo nel flusso operativo della consultazione clinica. In altre parole, il limite principale non è risultato essere l'algoritmo, ma il contesto organizzativo in cui l'algoritmo veniva utilizzato.
Questa osservazione rimanda a un concetto sempre più discusso nella medicina digitale: il cosiddetto "implementation gap", ovvero la distanza tra la dimostrazione di efficacia tecnologica e la reale trasformazione della pratica clinica. Numerosi dispositivi basati su IA hanno dimostrato prestazioni elevate in ambito sperimentale, ma pochi studi hanno documentato un miglioramento concreto degli esiti clinici quando tali strumenti vengono implementati su larga scala.
Nel caso dello studio TRICORDER, questo gap emerge in modo particolarmente evidente. L'analisi intention-to-treat, che riflette l'effetto della tecnologia sull'intera popolazione di studi partecipanti, non ha evidenziato benefici significativi.
Tuttavia, l'analisi per protocol, limitata ai medici che hanno utilizzato il dispositivo con maggiore continuità, ha suggerito un aumento della capacità di identificare patologie cardiovascolari rilevanti, risultato interpretabile con cautela poiché non riflette pienamente la randomizzazione originale dello studio. Ad ogni modo, questo dato indica che la tecnologia possiede un potenziale diagnostico reale, ma che può esprimersi solo quando lo strumento viene utilizzato in modo sistematico e integrato nella pratica clinica.
Per la medicina generale questo risultato assume una rilevanza particolare poiché opera in un contesto caratterizzato da tempo limitato per visita, elevata complessità clinica e gestione simultanea di numerosi problemi di salute e quindi, in questo scenario, l'introduzione di nuove tecnologie diagnostiche non può prescindere da una progettazione attenta dei flussi operativi e dei sistemi informativi: una tecnologia che richiede passaggi aggiuntivi, inserimenti manuali di dati o interfacce non integrate rischia di essere progressivamente abbandonata, indipendentemente dalle sue prestazioni teoriche.
Pertanto, il messaggio principale che emerge dal TRICORDER non riguarda tanto l'efficacia dell'IA nella diagnosi cardiovascolare – che rimane promettente – quanto piuttosto la necessità di ripensare il modo in cui queste tecnologie debbano essere introdotte nella pratica clinica.
L'impatto reale dell'IA nella medicina territoriale dipenderà probabilmente meno dalla sola sofisticazione degli algoritmi e molto di più dalla capacità dei sistemi sanitari di progettare strumenti che si integrino naturalmente nei processi decisionali e organizzativi della pratica clinica.
Gli strumenti diagnostici basati su IA devono essere considerati interventi "socio-tecnici" in quanto il loro impatto clinico è determinato non solo dalla performance algoritmica, ma anche dal livello di adozione, dall'integrazione nei workflow assistenziali e dalle dinamiche organizzative e decisionali che caratterizzano la pratica clinica reale.
In questa prospettiva, lo studio TRICORDER rappresenta non tanto una dimostrazione dei limiti dell'IA, quanto piuttosto una lezione metodologica fondamentale sulla complessità dell'innovazione in sanità: un algoritmo può essere eccellente, ma senza un'adeguata integrazione nel contesto clinico il suo impatto sulla salute dei pazienti rimane inevitabilmente limitato.
Bibliografia
1. Kelshiker M, et al. Triple cardiovascular disease detection with an artificial intelligence-enabled stethoscope (TRICORDER) in the UK: a cluster-randomised controlled implementation trial. The Lancet 2026;407:704-15.
2. Attia ZI, et al. Screening for cardiac contractile dysfunction using an artificial intelligence–enabled electrocardiogram. Nat Med 2019;25:70–4.
3. Attia ZI, et al. An artificial intelligence-enabled ECG algorithm for the identification of patients with atrial fibrillation during sinus rhythm. The Lancet 2019;394:861–7.
4. Ko WY, et al. Detection of hypertrophic cardiomyopathy using a convolutional neural network–enabled electrocardiogram. JACC 2020;75:722–33.
5. Goto S, et al. Artificial intelligence–enabled phonocardiography for detection of valvular heart disease. Eur Heart J – Digital Health 2021.
6. Hannun AY, et al. Cardiologist-level arrhythmia detection and classification in ambulatory electrocardiograms using a deep neural network. Nat Med 2019;25:65–9.
7. Rajpurkar P, et al. Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists. PLoS Med 2018;15:e1002686.