L’IA en radiologie, au-delà de la génération de comptes rendus

On écrit ce sujet aujourd’hui parce qu’un récent billet d’AWS sur les workflows radiologiques met le doigt sur un point souvent sous-estimé.

Son intérêt n’est pas d’ajouter une démo d’IA médicale de plus. Il part d’un problème opérationnel très concret : comment les examens sont priorisés, contextualisés, assignés et revus avant même d’aboutir au compte rendu.

Quand on parle d’IA en radiologie, on pense vite à la génération de comptes rendus.

On comprend pourquoi : c’est simple à montrer, proche du livrable final, et cela donne l’impression que la machine fait une partie du travail du radiologue.

Si la génération de comptes rendus occupe autant de place dans les démonstrations, c’est aussi parce qu’elle est plus facile à automatiser partiellement et à évaluer de manière relativement déterministe.

Mais l’IA en radiologie ne se résume évidemment pas au compte rendu. Elle concerne aussi l’aide au diagnostic, la détection de pathologies, le triage, la priorisation et l’intégration dans le workflow clinique.

Mais si l’on considère la radiologie comme un système d’exploitation plutôt que comme une suite de sorties de modèles isolées, le véritable goulot d’étranglement apparaît généralement ailleurs.

La couche d’IA qui apporte le plus de levier n’est pas seulement celle qui écrit plus vite. C’est celle qui oriente le bon examen vers le bon radiologue ou la bonne équipe, au bon moment, avec le bon contexte, et dans la bonne boucle de revue.

C’est à ce niveau que l’orchestration, la priorisation, la responsabilité humaine et l’intégration aux systèmes comptent davantage qu’une version de compte rendu un peu mieux rédigée.

Dans mon expérience sur des produits d’IA appliqués à l’imagerie médicale, cet écart entre la démo et la vraie contrainte opérationnelle apparaît très vite. Le défi n’est pas seulement de savoir si un modèle peut détecter ou décrire quelque chose. C’est de savoir si le résultat s’insère dans un workflow que les cliniciens peuvent réellement juger fiable, adopter et faire passer à l’échelle.

Carte éditoriale d’orchestration radiologique montrant l’entrée, la priorisation, le routage et la revue humaine

Le mauvais débat

Une grande partie des discussions sur l’IA réduit encore le workflow radiologique à une seule question : le modèle peut-il aider à produire le compte rendu ?

Cette question n’est pas inutile. Le reporting fait évidemment partie de la chaîne. Mais ce n’est qu’une portion étroite du problème.

Une revue publiée dans le Journal of the American College of Radiology présente les applications de l’IA dans les workflows de manière bien plus large, en couvrant la chaîne d’imagerie de la prescription et de la planification jusqu’à la gestion des worklists, l’interprétation et la communication du compte rendu. C’est déjà un indice fort que les plus gros gains économiques et opérationnels ne se situent peut-être pas uniquement dans la dictée.

AWS fait le même constat sous un angle système dans son article sur l’optimisation intelligente des workflows radiologiques avec des agents IA. Leur argument est simple : les worklists traditionnelles reposent encore sur des règles rigides et tiennent souvent mal compte de la spécialisation des radiologues, de leur charge, de leur fatigue et de la complexité des cas. En pratique, cela conduit à des assignations sous-optimales, à des délais et à un comportement des files d’attente qui ne reflète pas la réalité clinique.

Cette source est particulièrement utile parce qu’elle est concrète sur le problème de workflow, mais il faut aussi la lire avec le bon niveau de prudence. C’est un billet publié par AWS pour illustrer une architecture possible : un cadre opératoire crédible et un pattern de conception plausible, pas une preuve neutre de résultats en production chez un client déployé.

C’est précisément cette dimension que beaucoup de conversations sur l’IA continuent de sous-estimer.

La radiologie n’est pas seulement une tâche de lecture. C’est un problème de gestion des flux.

Là où le temps se perd réellement, avant le compte rendu

L’une des raisons pour lesquelles le récit centré sur la génération de comptes rendus est incomplet, c’est qu’une part significative des frictions apparaît avant même qu’un radiologue commence à dicter.

D’abord, il faut que l’examen soit adressé au bon praticien, au bon moment.

Ensuite, il lui faut souvent le bon contexte : examens antérieurs, histoire clinique, notes pertinentes et bons signaux d’urgence. AWS traite aussi ce sujet dans un autre article sur l’accélération des workflows d’imagerie radiologique grâce à un contexte clinique pertinent, en expliquant que les radiologues passent encore un temps non négligeable à récupérer manuellement les documents pertinents et les examens antérieurs.

Cela peut sembler banal, mais opérationnellement c’est crucial. Si la récupération du contexte est fragmentée, l’étape de lecture est plus lente et la décision clinique est moins fluide.

Il y a aussi le sujet des interruptions et du changement de tâche.

Une étude publiée dans Academic Radiology sur les dynamiques de workflow en radiologie a montré que la séparation entre les tâches interprétatives sur image et les tâches non interprétatives améliorait la perception des interruptions, la charge de travail, la satisfaction au travail et la qualité des échanges de consultation. Ce résultat est important car il rappelle que l’acte de reporting s’inscrit dans un environnement bruyant, plein d’interruptions, de consultations, de décisions de priorisation et de tâches qui ne relèvent pas directement de la lecture.

Donc, quand quelqu’un dit : « l’IA va transformer la radiologie parce qu’elle peut aider à rédiger le compte rendu », ma première réaction est : peut-être. Mais ce n’est souvent pas là que la file se casse.

Les preuves les plus solides se trouvent dans la priorisation et la gestion de file

Si l’on cherche les démonstrations de valeur les plus convaincantes sur le plan workflow, les meilleurs exemples ne portent généralement pas sur la génération de texte. Ils concernent le triage, la priorisation et le délai avant action.

Une étude publiée dans European Radiology sur la priorisation de worklists de radiographies thoraciques par IA rapporte une réduction substantielle du délai moyen de rendu des comptes rendus pour des résultats critiques comme le pneumothorax, par rapport à un simple workflow FIFO. L’étude est aussi utile parce qu’elle inclut une réserve importante : les systèmes de priorisation ont besoin de garde-fous contre la famine de certains cas et contre des faux négatifs dangereux. Autrement dit, l’orchestration compte, mais l’orchestration a aussi besoin de règles.

Un second exemple fort vient de Radiology: Cardiothoracic Imaging, où un outil d’IA pour la détection d’embolie pulmonaire incidente et la priorisation de worklist a considérablement réduit le temps jusqu’au diagnostic et à la notification par rapport au workflow habituel, tout en réduisant le nombre de cas manqués. C’est une proposition de valeur très différente de « le modèle peut écrire du texte ». La vraie question est de savoir si le système fait remonter le bon cas assez vite pour changer la prise en charge.

Un article de 2024 dans European Radiology sur le triage par IA de radiographies thoraciques ambulatoires est également intéressant, car il soutient une thèse de gestion de la charge : dans un cadre simulé, le triage par IA pourrait réduire la charge effective de revue tout en maintenant une sensibilité non inférieure.

Ils pointent tous vers la même conclusion : le levier économique et clinique se situe souvent dans la conception des files, le routage, la priorisation et la logique d’escalade.

Pourquoi l’orchestration devient la vraie couche produit

Une fois que l’on accepte que le goulot d’étranglement ne se limite pas à l’écriture, la discussion sur l’architecture change.

Le produit n’est plus simplement « un modèle qui détecte X » ou « un copilote qui rédige Y ».

Le produit devient une couche de workflow qui doit répondre à des questions comme :

Quel examen faut-il lire en premier ?
Quels résultats doivent modifier le niveau de priorité ?
Quel radiologue ou surspécialiste doit recevoir le cas ?
Quels examens antérieurs et quels documents cliniques doivent remonter automatiquement ?
Comment la sortie de l’IA est-elle présentée et revue dans la station de travail native ?
Que se passe-t-il quand le modèle est incertain, en retard ou faux ?

C’est pour cela que les standards et l’intégration comptent autant. Le cadre technique AI Workflow for Imaging de la SIIM/IHE rappelle utilement qu’il ne s’agit pas d’une simple couche cosmétique. L’orchestration de workflow est un sujet suffisamment sérieux pour exiger une réflexion de niveau infrastructure.

La même logique apparaît dans les architectures d’imagerie d’entreprise présentées par AWS. Leur article sur l’amélioration des workflows d’imagerie médicale avec AWS HealthImaging et SageMaker n’est pas seulement une histoire de modèle. C’est une histoire d’intégration : systèmes d’imagerie, stockage, inférence, revue et actions en aval doivent tous coopérer.

C’est cette couche qui détermine si un produit d’IA en radiologie reste une démo ou devient un outil opérationnel.

Ce que mon expérience chez Gleamer a rendu évident très tôt

Si ce sujet résonne autant chez moi, c’est en partie parce que mon passage chez Gleamer m’a montré à quel point l’IA médicale sort vite des débats centrés sur les scores, les benchmarks et la seule qualité du modèle.

On cesse de débattre uniquement de la qualité du modèle et on commence à traiter des réalités plus dures :

les contraintes de déploiement cloud versus on-premise
l’intégration dans les environnements logiciels radiologiques existants
les exigences de latence à l’intérieur des workflows cliniques
l’industrialisation produit dans des configurations partenaires hétérogènes
la revue, l’acceptation et la responsabilité autour des sorties de l’IA

C’est l’une des raisons pour lesquelles je reste sceptique quand l’IA en radiologie est présentée comme si elle relevait principalement d’un problème de génération de texte.

D’après mon expérience, la partie difficile concernait bien plus souvent l’adaptation de l’architecture et du workflow à des environnements réels. Ce n’est pas seulement un sujet de modèle ou de performance : plusieurs personas interagissent avec ces solutions, ou en dépendent indirectement — radiologues, manipulateurs, responsables IT, équipes produit, partenaires techniques, intégrateurs, parfois management hospitalier. Le vrai enjeu consiste à rendre le système utile, compréhensible et contrôlable pour l’ensemble de cette chaîne, avec des contraintes différentes selon les contextes de déploiement.

Ce positionnement public est aussi visible dans le langage produit actuel de Gleamer. Sur Gleamer Copilot et GleamerOS, l’entreprise met en avant la priorisation des worklists, l’intégration RIS/station de travail, le « shadow mode » et des sorties d’IA révisables, plutôt que la seule performance brute de détection. C’est une manière plus mature de cadrer l’IA de workflow.

Même les preuves cliniques les plus faciles à citer publiquement tendent à renforcer une logique d’assistance au workflow, pas une logique de remplacement. Les publications de Gleamer sur l’assistance à la détection de fractures et sur les radiographies thoraciques mettent en avant des gains de sensibilité et, dans certaines études, d’efficacité de lecture. Des signaux utiles, oui. Mais toujours à l’intérieur d’une boucle opérée par l’humain.

C’est le bon cadrage.

L’humain dans la boucle n’est pas une faiblesse du produit

Une erreur récurrente dans le marketing de l’IA consiste à traiter la revue humaine comme un compromis temporaire, comme si le système idéal devait la supprimer une fois les modèles devenus suffisamment bons.

La revue humaine n’existe pas seulement parce qu’il y a de la régulation ou parce que le modèle est imparfait. Elle existe parce que le workflow lui-même a besoin d’une couche claire de responsabilité.

On peut l’observer concrètement dans plusieurs approches éditeurs.

Blackford Platform présente explicitement une étape de revue accept/reject avant l’envoi des résultats d’IA dans le PACS. Le cadrage public de Gleamer autour du « shadow mode » va dans la même direction : l’IA doit être visible, révisable et rejetable dans le workflow natif du clinicien. Le positionnement d’Aidoc sur le workflow radiologique met lui aussi l’accent sur une revue unifiée à l’intérieur des worklists existantes plutôt que sur des sorties de modèles déconnectées.

C’est une leçon de design importante, bien au-delà de la radiologie.

Le produit IA mature n’est souvent pas celui qui cherche à faire disparaître l’humain. C’est celui qui rend le passage entre la recommandation machine et la responsabilité humaine propre sur le plan opérationnel.

Les vraies questions pour évaluer une solution IA

Si je devais évaluer des produits d’IA en radiologie aujourd’hui, je passerais moins de temps sur la démo de génération de comptes rendus la plus impressionnante, et davantage sur le contrat de workflow.

Je poserais les questions suivantes :

Logique d’assignation : comment le système oriente-t-il les examens entre surspécialités, sites, niveaux d’urgence et capacité disponible des lecteurs ?
Sécurité de la priorisation : comment évite-t-il une famine dangereuse de certains cas, une distorsion des files ou un excès de confiance sur les faux négatifs ?
Récupération du contexte : le système remonte-t-il automatiquement les bons examens antérieurs et les bons documents cliniques, ou cela reste-t-il manuel ?
Revue humaine : à quel endroit le radiologue peut-il inspecter, accepter, rejeter ou passer outre le résultat de l’IA ?
Profondeur d’intégration : comment s’intègre-t-il au PACS, au RIS, au DPI/EHR, au cloud et à l’infrastructure on-premise ?
Réalité du déploiement : qu’est-ce qui change entre un environnement de démo contrôlé et un déploiement hétérogène en hôpital ou chez un partenaire ?
Observabilité : peut-on mesurer les délais de rendu, les escalades, les comportements de revue et l’impact opérationnel au-delà des seules métriques de modèle ?

Ces questions sont beaucoup plus proches de la vraie captation de valeur.

L’avantage durable, c’est une orchestration réellement opérable

Je ne pense pas que la génération de comptes rendus soit sans intérêt.

Je pense en revanche qu’elle est souvent surestimée par rapport à la couche de workflow plus difficile et plus structurelle qui l’entoure.

En radiologie, l’avantage durable ne tient pas seulement à la capacité d’un modèle à produire plus vite un texte acceptable.

Il tient à la capacité du système à :

trier intelligemment
router en sécurité
faire remonter automatiquement le contexte
s’insérer dans les environnements cliniques existants
préserver une responsabilité humaine claire
et améliorer la vraie file, pas seulement la sortie visible

C’est à ce moment-là que l’IA devient une infrastructure plutôt qu’une mise en scène.

Et c’est pour cela qu’en radiologie, le vrai goulot d’étranglement n’est généralement pas la génération de comptes rendus.

C’est l’assignation du travail.

Sources vérifiées

Vérifiées le 2026-05-22.

Sources principales sur les workflows

Données quantitatives sur les workflows

Sources complémentaires sur les produits et le déploiement

Les conclusions interprétatives de cet article sont les miennes. Les faits attribués publiquement sont limités aux sources ci-dessus, et mes observations opérationnelles liées à Gleamer sont présentées comme un retour d’expérience personnel, et non comme des affirmations publiques indépendantes.